Gpt-4o image gen Mě osobně ale spíš příjde obecněji, mimo tuhle konkrétní aplikaci style transferu, zajímavý to, že v tomhle novým technologickým breakthrough teďka AIčko dokáže mnohem líp dělat vizuální přemýšlení, protože tak přemýšlí dost matematiků, takže myslím že brzo budou breakthroughs v tomhle směru, což se už vaří i v open source Ale ideální bude až to v rukou nebude mít jenom OpenAI pravděpodobně do měsíce či pár měsíců, kde Google atd. a open source mají zatím slabší varianty obecně mě z technologickýho hlediska u tohodle technological breakthrough celkem fascinuje to, že za chvíli bude možný mít augmented reality glasses co ti realitu realtime přetransformujou do libovolný formy jakou člověk chce 😄 nebo jako realtime filtr ve VR/desktop hrách, na úplně libovolný universe, existing or completely new 😄 ale úplně nejvíc mě fascinuje to, že craknuli to, jak obří model co toho ví hodně může zároveň generovat obrázky mnohem inteligentněji s větší komplexitou a koherencí, tím jak to není image model samotný když konečně AI dokáže relativně víc inteligentněji přemýšlet a generovat obrázky v jedný architektuře, tak si myslím, že AIčka přemýšlející primárně vizuálně, jako to dělají často fyzici/matematici, nejsou tak daleko! 😄 teďka AIčka přemýšlí primárně v přirozeným jazyce, ale myslím že bude brzo mainstream něco jako přemýšlení v abstraktním prostoru a na to nalepený přemýšlení v jazyce, obrázkách, zvuku, audiu, videích, víc jako lidi, co taky mají hodně forem přemýšlení, a ne jen jazyk [https://www.youtube.com/watch?v=qhYQ20TbtJ8](https://www.youtube.com/watch?v=qhYQ20TbtJ8) ale dlouho to jenom v rukou OpenAI nebude, protože DeepSeek vaří dost podobný architektury, a dá to open source (slight correction: AIčka už dlouho v jistý formě přemýšlí i v latentním prostoru, ale jenom přes one shot forward pass autoregrese, místo chain of thought autoregrese s více reasoning vzory (což se teď dělá přes jazyk) nebo interní rekurence) Also be google ︀︀> create gemini 2.5 pro in many ways state of the art ai model crushing lots of benchmarks ︀︀> launch it the same day openai launches their new image model ︀︀> everyone starts sharing openai images ︀︀> almost noone is talking about you [https://www.youtube.com/watch?v=kTslCsPBGHw](https://www.youtube.com/watch?v=kTslCsPBGHw) calculated https://x.com/Josikinz/status/1905440949054177604 Otázka je do jaký míry je to trained přes RLHF a podobný, a do jaký míry je to emergentní Myslím že je to primárně trained přes RLHF a podobný, protože každej big model má vlastní typ odpovědí, co často sedí s jeho natrenovanou osobností 😄 Otázka jak moc je to indirect nebo ne, viz tenhle emergent misalignment behavior co nebyl direct a intentional [[2502.17424] Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs](https://arxiv.org/abs/2502.17424) Nebo overall ta inherentní weak generalizace může dělat divy. Nebo ten overall trend RL reasoningu teďka produkuje dost různých emergent behaviors, ale myslím, že tohle konkrétní asi spíš není one of them. Ale zajímalo by mě jaký všechny triky se používají na budování features persony, třeba ta Claudova self awareness, co jsem do takový míry u jiných modelů neviděl, je fascinating, a zajímaly by mě všechny metody na to. Já chci víc biologie/fyziky za tím jak se ty interní features v těch LLMs budují a skládají a sortí a propojují a tvoří featury z featur a circuits atd. v trénovací fázi, i když je to pořád tak strašně brittle Ted na to vyšly Anthropic papery [Tracing the thoughts of a large language model \ Anthropic](https://www.anthropic.com/research/tracing-thoughts-language-model) [Circuit Tracing: Revealing Computational Graphs in Language Models](https://transformer-circuits.pub/2025/attribution-graphs/methods.html) [On the Biology of a Large Language Model](https://transformer-circuits.pub/2025/attribution-graphs/biology.html) RL algorithm inferring on the fly which combination of modalities is more effective for various tasks in it's hypergraph of multimodal thoughts? https://fxtwitter.com/TheTuringPost/status/1906304408415359067?t=QrP_I5vSzaLt-3r42Hyyig&s=19 twitter je z velký části v tomhle absolutně polarizovanej warzone kde lidi nevidí nic mezi s nuancí mě příjde 😄 vidět kouzlo v obou approaches zároveň a zároveň ve všech hybridních approaches co existují uprostřed prostě skoro neexistuje chatgpt ještě hudbu v audio formátu outputovat a oneshottovat neumí nedávno mě nadchlo LLM napojený na FL Studio, co člověka může provázet jak FL studio používat a hudební teorií, což je analogous ke coding LLM assistentovi 😄 https://fxtwitter.com/AKgiveEm47/status/1904201645539672419 tenhle týpek Clauda napojil na FL Studio protože jsem tweetnul že by bylo super něco takovýho 😄 a podobně jako u kódování tady může člověk dát LLM kolik kontroly člověk chce, od skoro nulový po mnohem větší 😄 může si nechat předgenerovat ultra konkrétní vzory z teorie hudby, nebo ho nechat freestylovat skládat je dohromady, nebo nechat jenom vysvětlovat, či brainstormovat 😄 přesně jako u kódování můj táta (byl kdysi hudebník) chce dělat v FL studiu (koupil si to) a neumí anglicky a neexistuje překlad tak s tím dělat nemůže, tak mě ještě napadlo, že by mu to mohlo pomoct ho s FL studiem naučit podobně jak LLMs můžou učit lidi programovat začátky 😄 Strong alignment by default doesn't exist, but also strong misalignment by default doesn't exist. Current and emerging AI systems either have values from training data, from RLHF, or from some weird reward hacking from RLHF preferences or from GRPO RL reward functions that are IMO not really catastrophically harmful, or they are so specialized that they do what we want or they don't because they're broken instead. Ben Goetzel from singularity net apparently works on AI architecture that also has paraconsistent logic [https://youtu.be/xw7omaQ8SgA?si=enBvvHOZB8pLdkg4&t=547](https://youtu.be/xw7omaQ8SgA?si=enBvvHOZB8pLdkg4&t=547) hmm, his paper [[2012.14474] Paraconsistent Foundations for Probabilistic Reasoning, Programming and Concept Formation](https://arxiv.org/abs/2012.14474) i need to look into his stuff more or here he goes more into it [https://www.youtube.com/watch?v=d8nzFqoEOvE](https://www.youtube.com/watch?v=d8nzFqoEOvE) once i tried to descrypt one of his papers [[2103.15100] The General Theory of General Intelligence: A Pragmatic Patternist Perspective](https://arxiv.org/abs/2103.15100) but there's so much abstract math, and category theory, that i had troubles connecting it to existing AI stuff (like the galois connections stuff) but i didnt try that much but they have code here [GitHub - trueagi-io/metta-wam: A Hyperon MeTTa Interpreter/Transpilier that targets the Warren Abstract Machine](https://github.com/trueagi-io/metta-wam) that i wanna look into i would need more context for all of this probably, and try more i'm really curious how his stuff works 😄 but i also wanna see some demos on toy problems, and idk if they exist 😄 When you try to understand someone's view, do you try to shapeshift into their assumptions and conclusions as much as possible to try to understand them as deeply as possible? I find that this method can often work, but one has to model the worldview of the other accurately, and sometimes it can create tons of contradictions with other worldviews that you have, and weaken some memetic barriers that are good at filtering signal from noise. But I think this giant openmindedness maximizes of changes of understanding the other person, which is often good, but not always. Your own strong memetic foundations/barrier/shield with heuristics about what to let in is often useful, but can also prevent one from understanding the other if it's too strong and not allowing anything. 😄 Is current AI really AI? Marketing firem většinou dávám bokem, já koukám hlavně na to jak to vidí research. Z určitých pohledů říkat hlubokýmu učení (na kterým jedou LLMs) AI dává smysl protože: to spadá pod různý konkrétní nebo obecný definice inteligence a tohle je special case na konkrétním hardwaru s konkrétními algoritmy s konkrétními schopnostmi na různých spektrech, to má origin v pokusech o pochopení mozku co connectionismu v kognitivních vědách, hluboký učení se používá i ve výpočetní neurovědě jako jeden model z mnoha (ale existuje tuna víc biologically inspired architektur), ty systémy jdou analyzovat podobnými metodama co používáme ve výpočetní neurovědě a nacházíme podobný, ale jiný, limitovaný, emergentní abstraktní reprezentace, má např jistou limitovanou nenulovou schopnost získávání skilů, generalizace, fluid inteligence, co jde měřit x metodama, ale strong out of distribution generalizace ještě cracknutá nebyla (není to perfektní!) to je schopný mluvit v přirozeným jazyce relativně koherentně a passnout Turing test, dostatečně relativně koherentně ale limitovaně zvládá zatím konkrétní podmnožinu tasků co byli před pár let scifi (jenom vůbec být schopnej mluvit s počítačem v přirozeným jazyce na dosavadní úrovni bylo scifi, či koherentní příběhy, koherentní ale limited STEM, kde různý modely (a systémy s modelama) mají různý performance v různých doménách, atd. (není to perfektní a je to plný nevyřešených limitací!)), v konkrétních tascích to už je superhuman (hraní některých her jako šachů/go/dota/poker, klasifikace nebo generace v některých kontextech, atd.) co se to naučilo samo, ale expertní a symbolický systémy taky existují a jsou součást AI oboru, atd. Tady máš další různý list definicí AI nebo inteligence celkové, a hluboký učení do toho spadá často [Definitions Intelligence](https://agisi.org/Defs_intelligence.html) A zároveň čistý hluboký učení není všechno co v AI oboru existuje Ta různá diverzita systémů jsou podle různých analýz a taxonomií různý formy inteligence na různých spektrech Ale existují i definice kde dosavadní systémy nejsou enough, a zároveň jsou i definice kde ani dost lidí nejsou enough tbh 😄 Ale dneska skoro nikdo nevidí nic jinýho než raw LLMs od big techu, z toho se mi tbh často chce brečet, protože ten obor má tak velkou nuanced komplexní diverzitu, i když big tech LLMs jsou i tak mega relativně impressive dle různých metrik v různých doménách, a to ne jen z pohledu researche Operator od OpenAI měl explicitní reinforcement learning fine-tuning na browser use, a deep research s o3 taky na search, a myslím že podobný tréning měl Claude pro computer use. Nobody knows jak to má přímo OpenAI, tím jak nejsou transparentní, je možný že to je kombinace transformerů a diffuze Nějaký pointery: https://fxtwitter.com/sainingxie/status/1904643929724645453 https://fxtwitter.com/iScienceLuvr/status/1905730169631080564 https://fxtwitter.com/sang_yun_lee/status/1905411685499691416?t=REYHqT-U6jF2JoROZlEOZw&s=19? https://fxtwitter.com/SaxenaNayan/status/1905334933683417093 https://fxtwitter.com/nrehiew_/status/1905930295750107591 Gpt-4o image gen je spíš pravděpodobně nativně multimodal v jedny architektuře, ne jenom tool use jak před tím Ted z toho ještě udělali reasoning model, takže navíc to ještě má vytrenovaný chain of thoughts pres něco jako GRPO Můj guess je že ty nejnovější modely budou mít tool use examples i v pretrainingu před reinforcement learningem Je zajímavý vidět jak se všechny ty paradigmata mergují Zajímá mě či brzo v mainstreamu vznikne něco jako model co dělá multimodal (text, images, audio, video,...) graphs of thought naučený přes reinforcement learning, co zároveň interně dělá ještě nějakej recurrent latent space reasoning By bylo celkem vypocetne náročný na training? Definitely, ale vzhledem k tomu že teď do toho jdou stovky billionů dolarů a je tam šílený tlak aby se ty modely reálně nějak víc zlepšily, tak bych se nedivil, kdyby do toho šli 😄 Já bych tam ještě bral víc inherentní neurosymboliky než jen tool use, přidat symbolický enginy a algoritmy. Nebo MCTS byl apparently zahozenej v modelech co se snaží být co nejobecnější a zůstal u specializovanějších. Ale nějak to tím směrem spíš mám pocit tolik nejde. Nebo zkoušet i jiný paradigmata než transformery a deep learning, např liquid foundational models s pár billionama parametrama byly SoTA chvíli na pár benchmarcích. (LiquidAI) oužívají differencialni rovnice, you can read more here. Ale všechno není open. [Liquid Foundation Models: Our First Series of Generative AI Models | Liquid AI](https://www.liquid.ai/liquid-foundation-models) [https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf](https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf) Bych si přál aby tam napsali víc než jenom "Unlike DALL·E, which operates as a diffusion model, 4o image generation is an autoregressive model natively embedded within ChatGPT.", ale taky dobrej datapoint janus pro, qwen2vl-flux nebo omnigen? Kdo ví jestli je to ekvivalentní approach k těm open source projektům co se týče těch detailů. Open source image generation komunity byly shocked jak relativně zvládli vyřešit koherenci, zvládání komplexity, text atd. v multimodal architektuře. Ale možná je to fakt jenom the power of scale and data again a není to moc odlišný, bitter lesson again. 😄 V dost aspektech je OpenAI image gen relativně míle napřed Character consistency, prompt complexity, style transfer, atd. V plný obecnosti oneshot bez komplexních workflows Nejvíc mě ale zajímá jestli tenhle směr unlockne visual reasoning (a eventuálně reasoning v dalších modalitách) pro STEM Myslím že hodně velký heavy lifting je to mnohem přímější napojení na tu velkou knowledge base toho velkýho základního modelu, inherentní propojená multimodality Pro fyziku myslím že je budoucnost něco jako neurosymbolický world model co nemá takhle convoluted, brittle a fuzzy emergentní obvody 😄 [On the Biology of a Large Language Model](https://transformer-circuits.pub/2025/attribution-graphs/biology.html) Jdou kauzálně modifikovat abys často změnil behavior jak jsi chtěl, ale jsou strašně approximate, fuzzy, globálně propletený do všeho, convoluted, atd. Navíc jsou ty obvody do sebe propletený v superpozicích i po částečným rozmotání. Každá featura odpovídá zhruba, ne na 100%. Ale je možný že i tak by nad tím možná šla dělat nějaká compositional logika. 😄 Na compositional AI ale několik skupin dělá 😄 Třeba Chollet dělá na compositional neurosymbolice, na neuralním program synthesis. Zajímá mě co z toho vyleze. https://fxtwitter.com/fchollet/status/1902536808098832639 LLMs can act as an amplification of intelligence, but also as an amplification of stupidity Garbage in, garbage out By that I meant if you already have some stupid idea and ways of thinking about ideas, are clueless about how it works and what can it do and how to use it and what are it's capabilities and limitations, are clueless how it compares to similar or different tools that you can use, etc., then it will probably often just amplify your stupidity instead " Some people think that deep learnig with neural networks is all there is to AI. That's not true. So what are alternatives to deep learning? Different approaches are better for different tasks, and people tribalize over that. Some approaches try to do more foundational changes and be better for the different tasks than other architectures or better across the board, like playing with how deep learning itself works, and tribes form around that. Or some try to do completely novel approaches. Pedro Domingos in his book The Master Algorithm maps nicely some of the major tribes in AI. You can search all these terms on Google search/Wiki/Google scholar, or ask LLM. There are Connectionists (Deep learning), Symbolists (Decision trees, rule learners, inductive logic programming), Evolutionaries (Genetic Algorithms, evolutionary strategies), Bayesians (Naive Bayes classifiers, Bayesian networks, Hidden Markov Models, Probabilistic Graphical Models, Kalman filters, Active Inference), Analogizers (k-Nearest Neighbors, Support Vector Machines, more generally kernel methods, ), or classic linear/logistic regression is used by statisticians but also is the most basic form of artificial neural network, or metaheuristics are broad, etc. And you have many hybrids, like neurosymbolic architectures (like program synthesis with DreamCoder) and neuroevolution. With those that try to edit deep learning, you have liquid foundational models that use differential equations, biologically inspired neural networks like spiking neural networks and neuromophic computing, or quantum machine learning is emerging that has and will probably have a lot of more diversity, or some people try to use more thermodynamic concepts, etc. But just neural networks themselves are very diverse as well and have tribes: In classic deep learning currently LLMs with Transformers are everywhere, but you also have tribes around CNNs, RNNs, GNNs, LSTM, xLSTM, GANs, VAEs, State Space Models like Mamba, autoregression vs diffusion, tribes around different modalities, now CoT paradigm is emerging for reasoning, different approaches in test time compute (MCTS), neural turing machines, differentiable neural computers, latent space reasoning, physics inspired neural networks, neural celluar automata,... But you also have various tribes around transformers, which variation of attention to use, use mixture of experts or not, etc. And transformer edits have so many tribes as well, like different adding of memory, like Titans. When it comes to alternatives to transformers, people try with some of those I mentioned, and sometimes have nice results on small scale, for example in language sometimes with billions of parameters with liquid foundational models, xLSTMS etc., but it looks like transformers are the king of scale, and it's also so widely adopted and supported in all the libraries that its easy to use, and infrastructure and research and overall knowledge around is developed a lot which helps a ton, etc. Reinforcement learning itself is now used a lot on top of LLMs, but it's much older, so you have tribes around different approaches in LLM RL (GRPO is now famous) and in preLLM RL. Learning algorithms themselves is another can of worms with alternatives to backpropagation like forward forward algorithm. There's also novelty search without objectives that I became interested in recently, that can be combined with other approaches. All of them are combined in different ways and have a lot of hybrids. I think a lot of the future will be hybrids of a lot of those plus a lot of novel approaches that are yet to be found, or maybe some of the novel apporaches will dominate everything that came before it. " I wonder what is Google's secret sauce for Gemini's superior long context performance maybe they advanced their Titans [https://www.youtube.com/watch?v=UMkCmOTX5Ow](https://www.youtube.com/watch?v=UMkCmOTX5Ow) [[2501.00663] Titans: Learning to Memorize at Test Time](https://arxiv.org/abs/2501.00663) https://x.com/burny_tech/status/1909258657822277807?t=4wwoJpWtmD2-THfWMZ01vA&s=19 LiveBench is the best benchmark for LLMs IMO as it actually roughly matches my heavy practical usage for all sorts of STEM tasks, and some creative and casual tasks, very well [LiveBench](https://livebench.ai/) https://x.com/burny_tech/status/1908999222386647071?t=_5nUGBJmf9FHyNhyVca3eQ&s=19 Looks like Llama 4 is a disappointment so far. Too big to run on smaller hardware. Tiny improvement over previous models on benchmarks but its much bigger model. People and other benchmarks reporting worse long context comprehension, coding, instruction following etc. compared to just for example Gemma etc... Let's see if Llama 4 reasoner will be good or also not. I now understand why Meta went panic mode when DeepSeek-R1 was released. https://x.com/ficlive/status/1908911992686931989?t=N1BGmubwXQQ-ZYLSKfmXqw&s=19 Claude faking alignment in alignment tests [https://youtu.be/lkZTSUYfnTI?si=M3B_TucftjczXnWJ](https://youtu.be/lkZTSUYfnTI?si=M3B_TucftjczXnWJ) [Alignment faking in large language models \ Anthropic](https://www.anthropic.com/research/alignment-faking) Jako důsledek instrumental convergence to racionálně může být, ale třeba empiricky najdou origin těch behaviors v trénovacích datech LessWrongu 😄 ale třeba ne a najde se emergentní obvod z GRPO reinforcement learningu (nebo jinýho RL) bez vytrasovatelnych trénovacích dat Zajímalo by mě do jaký míry ty zmíněný behaviors v tom paperu/videu jsou důsledek training dat, nebo omylem z RLHF (či z nějaký jiný metody než RLHF protože Anthropic používá constitutional AI), a do jaký míry jsou emergentní a pokud jsou tak jak a z čeho - emergentní z pretrainingu, nebo z RLHF/podobný metody, nebo emergentní z additional reinforcement learningu pro performance jako GRPO, do jaký míry je to in distribution generalizace, a do jaký míry jdou decomposnout na features a obvody co jdou lokalizovat a steerovat a modifikovat, podobně jako ty jiný obvody v tom jiným novým Anthropic paper, a do jaký míry je to inherentní v architektuře/trénováním algoritmu v tyhle doméně pokud to je 😄