" How the LLM works: When you are learning, imagine you're playing Terraria, where you are walking around in two dimensions (in 2D), trying to get to the truth, which is located at the lowest point in the whole environment. You can take a step down to the direction of truth every time you can copy math exams better in a math valley, or even solve the examples correctly yourself without seeing the solution procedures! But beware, it may be that you think you are at the very bottom of the environment, but in fact there is an even lower valley elsewhere than the one you're currently in! This is gradient descent over parameter space and finding local minima. Copying math exams is supervised finetuning, and solving math without knowing steps and solution is reinforcement learning algorithms like GRPO. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning [[2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning](https://arxiv.org/abs/2501.12948) GRPO Explained: DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models [https://www.youtube.com/watch?v=bAWV_yrqx4w](https://www.youtube.com/watch?v=bAWV_yrqx4w) But two dimensions are quite trivial, aren't they? So let's increase the dimensions, let's go 3D, Minecraft. That's a little bit more challenging! You can find points that are lowest in one direction, so-called saddle points, or the very lowest valley in both directions! But there may still be a lower valley somewhere else in the whole world though. This is increasing the number of parameters. Sometimes the structure of the valleys is more bumpy, sometimes more flat, sometimes they have some similar structures at one place, or there is a pattern all over the valleys, with different symmetries. Beautiful, isn't it? But 3D is still trivial. This is the geometry of the loss landscape. [[2105.12221] Geometry of the Loss Landscape in Overparameterized Neural Networks: Symmetries and Invariances](https://arxiv.org/abs/2105.12221) Now imagine walking around in 4D! 5D! millionD! trillionD! There you have extremely insanely complex geometry and overall valley structure, it grows with each dimension, but you still manage to go down towards the truth. You probably can't find the lowest point in so many dimensions, but you still manage to go down more and more towards the truth. You can go a billion directions up and 2 billion directions down to get closer to the truth. This stands for modern models having billions, or even trillions, of parameters. In order to be able to solve the examples, you created some structure of the truth along the way, so that you know how to solve the examples more and more accurately. You memorized something, like the number 5, you abstracted something, like numbers ending in 9. And you were folding a kind of elastic origami made of a bunch of tangled spaghetti to determine how to get to the truth, like adding the 10's first and then the 1's, which you're forming based on what you've already seen. And you can untangle those spaghetti where you have too many intertwined concepts and circuits and put those individual circuits together a little bit, but not too much, otherwise it just falls apart. This stands for learned emergent features forming circuits in attribution graphs that mechanistic interpretability attempts to reverse engineer in frontier models, such as in the Biology of LLMs paper. [On the Biology of a Large Language Model](https://transformer-circuits.pub/2025/attribution-graphs/biology.html) [https://www.youtube.com/watch?v=mU3g2YPKlsA](https://www.youtube.com/watch?v=mU3g2YPKlsA) [https://www.youtube.com/watch?v=64lXQP6cs5M](https://www.youtube.com/watch?v=64lXQP6cs5M) And elastic origami stands for spline theory of deep learning. [https://www.youtube.com/watch?v=l3O2J3LMxqI](https://www.youtube.com/watch?v=l3O2J3LMxqI) If someone asks you for another math example, you'll run it through those spaghetti circuits, but because you didn't care about tech debt and didn't make the right circuits simple enough but still predictive, not compressive enough, even if you've come across the best possible ones in that trillion-dimensional space that you could, where often you've found some insufficiently general shortcut, and insufficiently generalized them, insufficiently repaired them, insufficiently cleaned them, etc., so it only works sometimes, not consistently enough, but still, sometimes, and still pretty often, you get it right! At the same time, to get it right sometimes, you'd rather get it wrong more often, at the cost of getting it wrong sometimes. This stands for often brittle reasoning, shortcut learning, and higher false positive rate, hallucinations. Along the way, you'll find it interesting that, for example, teaching those spaghetti to speak our natural language is easier than you expected! And sometimes you hit total bingo and find a result that the monkeys who created you didn't figure out on their own, like new results in math, or a better strategy in chess, or a new drug. Or help you fold proteins better than other less plastic optimization algorithms. But sometimes you're asked to create a simple function, which you should be able to do when you can do a lot of other things, but because the spaghetti is sometimes terribly convoluted, unstable, full of unexpected holes, poorly generalizing shortcuts, missing or misclassified facts, etc., the spaggeti sometimes melts along the way when solving a problem. AlphaZero found new chess move and thaught it to chess grandmasters. [[2310.16410] Bridging the Human-AI Knowledge Gap: Concept Discovery and Transfer in AlphaZero](https://arxiv.org/abs/2310.16410) AlphaEvolve found new resuls in mathematics. [AlphaEvolve: A Gemini-powered coding agent for designing advanced algorithms - Google DeepMind](https://deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/) Robin found new drug [Demonstrating end-to-end scientific discovery with Robin: a multi-agent system | FutureHouse](https://www.futurehouse.org/research-announcements/demonstrating-end-to-end-scientific-discovery-with-robin-a-multi-agent-system) AlphaFold folded tons of proteins. [Google DeepMind and Isomorphic Labs introduce AlphaFold 3 AI model](https://blog.google/technology/ai/google-deepmind-isomorphic-alphafold-3-ai-model/) " Z nějakýho důvodu je celkem univerzální že hodně machine learning systémů podobnýho typu mají prostě mnohem větší false positive rate než člověk Je zajímavý že tohle pozorování apparently platí i u image recognition u diagnostiky pomocí deep learningu, bylo mi často řečeno z praxe, takže to bude hlubší problém deep learningu Z nějakýho důvodu je celkem univerzální že hodně machine learning systémů podobnýho typu mají prostě mnohem větší false positive rate než člověk Ale ta technologie sama o sobě dokáže být useful kdyžto člověk využije s vědomím všech těhle vlastností. Například když máš problém kde můžeš jednoduše ověřovat správnost výsledku. Tam můžeš vygenerovat tunu blbostí ale když jednu co vygeneruješ trefíš a verifikuješ tak jsi vyhrál. Díky tomu funguje napříkald ten nový AlphaEvolve co našel lepší algoritmus pro násobení matic a pár jiných výsledků v matematice A tipuju že podobně funguje Robin co vyšel včera co apparently našel novej treatment pro dry age-related macular degeneration co jsem ještě pořádnějc nezkoumal [[2505.13400] Robin: A multi-agent system for automating scientific discovery](https://arxiv.org/abs/2505.13400) myslím že breakthrough bude až někdo fakt nějak alespoň trochu vyřeší jak vyfiltrovat nebo zkrotit tenhle schizofrenní false positive rate deep learningu co se nějak pořád nedaří krotit :D třeba průser je jenom v tom že ty interní reprezentace (obvody) co vytvoří gradient descent s deep learnignem jsou fakt špagety, možná to je prostě fundamentální vlastnost, možná ne a chybí tam nějaký insight třeba v architektuře třeba ten víc openended approach co jsem tu nedávno postnul vypadá že tvoří míň špagetoidní obvody https://x.com/kenneth0stanley/status/1924650124829196370 nebo třeba víc neurosymboliky by mohla přidat že v kontextech kde jdou používáat rigidní symbolický obvody to prostě použije who knows, lidi pracují na obou, a na million jiných approaches co jsou jiný od mainstreamu, uvidíme do pár let no ty dosavadní systému nejsou 1:1 replika myšlení člověka prostě, jsou něco jinýho mají spoustu odlišností, mají jinou architekturu, učí se jinak, tvoří jiný reprezantace, atd., i když tam jdou najít nějaký podobnosti víc lidí by si tohle mělo uvědomovat to "PhD level" mi kind of dává smysl v tom že to dokáže vyschizofrenovat 10000 možných solutions, samplingem nebo evolucí apod, co jdou verifikovat, a jednou se trefí (na který by PhD člověk mohl přijít taky), a to celý v šíleně obřím kombinatorickým prostoru možností větší než množství všech atomů ve vesmíru, kde brute force nebo jiný optimizační metody prostě nefungují ale je mi jasný že Big tech marketing chce aby sis myslel že je to úplně přesně 1:1 replikace PhD člověka to není [Terence Tao: "I've been working (together with Javier Gomez-Ser…" - Mathstodon](https://mathstodon.xyz/@tao/114508029896631083) Terrence Tao (jeden z nejlepších matematiků) dle mě tyhle modely (tady v kontextu AlphaEvolve) nazval naprosto přesně: "Very roughly speaking, this is a tool that can attempt to extremize functions F(x) with x ranging over a high dimensional parameter space Omega, that can outperform more traditional optimization algorithms when the parameter space is very high dimensional and the function F (and its extremizers) have non-obvious structural features." tohle je jeden z pohledů, které jsou podle mě skvělý pro to, jak o těch modelech přemýšlet, a myslím si, že by nad tím mělo víc lidí přemýšlet podobně myslím že hype si to mega zaslouží ale hype co odpovídá tomu co to je ale to ti průměrnej normík co v životě neviděl matici nebo derivaci nepochopí no nějak to musíš publiku prodat, typů připodobňování máš hodně omezený množství pořád přemýšlím o tom jak v jednodušším jazyce vysvětlit lidem že máme systémy co jsou: - schopný psát celkem solidně jako lidi (ve smyslu že passují turing test) - schopný řešit nějakou podmnožinu STEM problémů se solidníma false positive rates kolem kterých ale jde vytvořit alespoň nějaký scaffolding v nějakých kontextech - s architekturama a učícími algoritmy co jsou často spatlaniny insights z neurověd/teorie optimizace/matiky/fyziky/filozofie/computer science/empirickýho random zkoušení/atd., - uvnitř tvořící špagetoidní reprezentace/obvody s jinačíma (ale malinko podobnýma) strukturama než reprezentace v mozku, - atd. mám pocit že většinu tohodle ti prostě člověk co se kolem toho pořád nemotá nepochopí i když se snažíš na max zvládneš nějak aproximovaně modelovat ty non-obvious structural features v tom extrémně dimensional prostoru možností je potřeba nějak zdůraznit schopnost slabý generalizace - extrémně neoverfittuješ ani extrémně neudnerfittuješ zvládáš získat něco jako [Manifold hypothesis - Wikipedia](https://en.wikipedia.org/wiki/Manifold_hypothesis) mám chuť říct že lidi těnhle prostor mnohem víc decomposují do symbolických částí co sebou nějak mnohem víc integrovaně spojují a mají konstantní embodied feedback, ale reverse engineering v mechanistic interpretability ukazuje že modely taky dělají nějakou formu dekompozice a kompozice, ale hodně špagetoidně a s horší generalizací oproti lidem - brute force prochází one by one triliony dimenzí, to bys nestihl do konce vesmíru - tradiční optimizační algorithmy jsou pro dost úkolů často moc omezený, moc specializovaný, často nedostatečně plastický - deep learning obvody jsou elastický origami, shapeshifting playdough, building house from straws on an ocean Lidi mají mnohem víc hardwired evolučních priorů v jejich mozcích, strašně moc specializovaných center, mezitím co deep learning se snaží vytvořit elastický origami co je k tomu trochu blízko, ale protože se učí jiným algoritmem, pomocí jiných dat, a má pořád jinou architekturu, tak z toho vznikne jiná struktura Lidi mají možná mnohem víc hardwired obvody pro filtraci a detekci false positives, mozek je mnohem víc embodied, grounded V jistých aspektech je mozek mnohem víc specializovaný na přežití v našem evolučním prostředí, mezitím co mainstream AI systémy nejsou optimalizovaný pro přežití v našem prostředí, ale pro minimalizaci gradient descent loss a maximizace reinforcement learning reward funkce, i když reinforcement learning nacházíme i u lidí a zvířat v jiný formě Rád vidím bruteforcing na spektru no Čím víc to redukuje kombinatorický prostor možností, tím míň to je pro mě bruteforce. A pak by šlo argumetnovat či máš deterministickou whitebox redukci prostoru co je short program co tam jako programátor dáš, nebo naučenou black box redukci prostoru co je complex spaggeti program co se ten algoritmus naučí sám Místo "phd level intelligence" by možná bylo lepší říkat že to je systém co dokáže najít nějaký discoveries co by dokázal najít PhD člověk, ale ne identickým procesem protože to není replika člověka Plus potřebuje strašně moc guidance, AlphaEvolve musíš dát evaluation metrics atd. [https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/AlphaEvolve.pdf](https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/AlphaEvolve.pdf) Nebo konkrétněji nastavovat tu pipelinu u Robina [[2505.13400] Robin: A multi-agent system for automating scientific discovery](https://arxiv.org/abs/2505.13400) In the sense that the results you can get is what matters the most The process matters too, but relatively less And failure modes matter too to make the systems better, but relatively less Dávám emphasis na discoveries co by mohl jinak najít PhD člověk ty všechny jednotlivý systémy vidím jako pushováni boundaries toho čeho je research novýho vědění celkově schopnej dosáhnout Souhlasím že claim že to je 1:1 replikace doktoranda v snad skoro úplně všech aspektech není dobře Asi nejvíc rozšířený v neuroai je tenhle framework [Predictive coding - Wikipedia](https://en.wikipedia.org/wiki/Predictive_coding) Ale furt chybí dost implementačních detailů A tady např mluví o intersekci mezi deep learning a neuro ve vizuálním kontextu [Interpretability Dreams](https://transformer-circuits.pub/2023/interpretability-dreams/index.html) "Universality between artificial and biological neural networks: Curve detectors are very similar to neurons found in neuroscience. Recently, neurons similar to high-low frequency detectors were found in neuroscience. And of course, multimodal neurons analogous to the famous "Jennifer Anniston" neuron results were found in CLIP." Nejvíc chybí podobná analýza ale u abstraktního information processingu co vede ke cool results no The current master algorithm of LLM RL is GRPO and reward function is for example if mathematical result was correct, code compiled, web search was somehow correct, etc. [[2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning](https://arxiv.org/abs/2501.12948) [https://www.youtube.com/watch?v=bAWV_yrqx4w](https://www.youtube.com/watch?v=bAWV_yrqx4w) [https://www.youtube.com/watch?v=K34gBCjzni8](https://www.youtube.com/watch?v=K34gBCjzni8) https://x.com/jmhessel/status/1899909893324468444 The base V3 model they build on top of is trained using supervised finetuning without RL. But it didn't get any of this CoT (chain of thought) reasoning data in it's base model's supervised training phase, which is what is remarkable, that it "emerged" just through GRPO RL rewards. While nonzero version got some cold start to add some more human structure bias into CoT. The question is to what degree this new chain of thought is in distribution rearrangement of already learned patterns or some new emergent out of distribution patterns. Relevant paper: ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models "In this work, we challenge prevailing assumptions by demonstrating that prolonged RL (ProRL) training can uncover novel reasoning strategies that are inaccessible to base models, even under extensive sampling. We introduce ProRL, a novel training methodology that incorporates KL divergence control, reference policy resetting, and a diverse suite of tasks. Our empirical analysis reveals that RL-trained models consistently outperform base models across a wide range of pass@k evaluations, including scenarios where base models fail entirely regardless of the number of attempts. We further show that reasoning boundary improvements correlates strongly with task competence of base model and training duration, suggesting that RL can explore and populate new regions of solution space over time. These findings offer new insights into the conditions under which RL meaningfully expands reasoning boundaries in language models and establish a foundation for future work on long-horizon RL for reasoning." [[2505.24864] ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models](https://arxiv.org/abs/2505.24864) I have a feeling that there is some sweet spot that maximizes the advantages and minimizes disadvantages of both unified factored representations and entangled representations in superposition to get more robust generalizing circuits that could be studied using methods from mechanistic interpretability this precursor to all the reasoning models did rewarding middle steps: [[2305.20050] Let's Verify Step by Step](https://arxiv.org/abs/2305.20050) RL seems to incentivize some generalization [[2501.17161] SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training](https://arxiv.org/abs/2501.17161) i wanna see mechanistic interpretability comparison of the learned circuits, as i wonder if it creates more robust general circuits, that are still not enough for a lot of tasks like here which is for a nonreasoning model [On the Biology of a Large Language Model](https://transformer-circuits.pub/2025/attribution-graphs/biology.html)