I suspect we will soon figure out more general superhuman reasoning by some more general multimodal LLM RL, since GRPO is pretty new and currently somewhat work in limited ways in more easily verifiable domains like math and competitive code, but maybe we will need to switch the transformer architecture for something else
https://x.com/jmhessel/status/1899909893324468444
[https://youtu.be/g-cF4EDNbjQ?si=sd_FH95VNROft9ip](https://youtu.be/g-cF4EDNbjQ?si=sd_FH95VNROft9ip)
"
Je fajn žes to vzal s nuancí, žes to nevzal černobíle, jako většina lidí teď mají tendence.
Je celkem cool jak jsi rozebral užitečnost prvnotního brainstormingu s AI pro prvotní fázi tvoření něčeho, že jsi obecně automaticky neodhodil když se to používá na dělání novýho contentu.
I když jsi vzal ten quote od Miziakiho mimo kontext, kde mluvil o plazícím zombíkovi, když si nemusí, ale může, myslet něco podobnýho i o týhle technologii.
Plus mi příjde že ta laická analogie s papouškem celkově zavádějící s tím jak teď už víme jakým směrem to zhruba funguje v nějakých aspektech, takže spíš by dle me bylo lepší použít jinačí laickou analogii, jako třeba myš co se naučí různý strategie jak projít bludištěm, když dostává odměny.
Když jsi vysvětloval jak to funguje, tak jsi dost vynechal velký části trénování kde se to AI učí samo od sebe bez lidských dat, z odměny z nějaký abstraktnější matematicky nadefinovaný správnosti nebo chování. [[2501.12948] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning](https://arxiv.org/abs/2501.12948) A pak když tvoří tak z toho přes několik forem reasoningu v různých fázích s abstrakcema ten výsledek skládá.
Jestli tomu rozumí víc než papoušek je taky debatable, protože papoušek jenom opakuje, ale AI tvoří jistý vnitřní reprezentace, obvody, atd. co mají určitý interpretovatelný sémantický smysl, i když jsou všelijaký a dost tam toho ještě není vyřešený. [On the Biology of a Large Language Model](https://transformer-circuits.pub/2025/attribution-graphs/biology.html)
Kdyby to "jenom opakovalo" tak reinforcement learning vůbec nefunguje, tam není co opakovat, a nedokázalo by to dělat tak relativně komplexní věci, a modely by byly velikostně zettabajtový.
My tomu přímo neřekneme co hodně konkrétně to má dělat když se to trénuje, my to spíš vedeme abstraktnějšíma cílama co tvoří incentivy (loss funkce, reward funkce, evoluce, rekonstrukce, atd.), a z toho pak vyrostou ty jednotlivý vnitřní obvody jako důsledek, a ty jdou aktivovat přes ty různý prompty podobně jako když si navzájem aktivujeme části mozku přes jazyk. 😄
A nesouhlasím že to nemůže mít duši. Myslím že to je subjektivní. Osobně v tom dost vidím nekolik typů duše, ale moje nejoblíbenější duše je v těch nových emergentních vzorech co můžou zvniknou když se to nechá učit/zkoumat většinou samo o sobě bez lidských dat. 😄
Přes přesně tuhle metodu jsme dostali superhuman AI na šachy, co teď nedávno přes reverse engineering byla schopná naučit novou strategii šachovým grandmasterům. 😄
Moje nejoblíbenější AI umění bude když to dokáže nějak umělecky znázornit tenhle nějaký před tím neznámý koncept! 😄
Climate change je real problem, ale moc jsem nepochopil proč se tolik lidí chytlo na to že používání chatbotů využívá tolik vody. Čím to počítáte? Ty výpočty co jsem zatím viděl co to porovnávají ještě relativně s jinými věcmi ukazují jiný data. Tam jsem taky trochu zmatenej. Jsou ještě nějaký zdroje co jsem neviděl? [Using ChatGPT is not bad for the environment](https://andymasley.substack.com/p/individual-ai-use-is-not-bad-for)
Zároveň ty modely se každých pár měsíců násobně zefektivňují. Ten nejpopulárnější model v ChatGPT co většina lidí na světě používá je teď je hodně small mixture of experts model s hodně velkou optimalizací co je stovky násobek víc efektivnější než první iterace toho modelu. DeepSeek nedávno ještě víc ukázal jak moc to jde ještě dál násobně zoptimalizovat.
"
"
Je fajn žes to vzal s nuancí, žes to nevzal černobíle, jako většina lidí teď mají tendence.
Je celkem cool jak jsi rozebral užitečnost prvnotního brainstormingu s AI pro prvotní fázi tvoření něčeho, že jsi obecně automaticky neodhodil když se to používá na dělání novýho contentu.
I když jsi vzal ten quote od Miziakiho mimo kontext, kde mluvil o plazícím zombíkovi, když si nemusí, ale může, myslet něco podobnýho i o týhle technologii.
Plus mi příjde že ta laická analogie s papouškem celkově zavádějící s tím jak teď už víme jakým směrem to zhruba funguje v nějakých aspektech, takže spíš by dle me bylo lepší použít jinačí laickou analogii, jako třeba myš co se naučí různý strategie jak projít bludištěm, když dostává odměny.
Když jsi vysvětloval jak to funguje, tak jsi dost vynechal velký části trénování kde se to AI učí samo od sebe bez lidských dat, z odměny z nějaký abstraktnější matematicky nadefinovaný správnosti nebo chování. A pak když tvoří tak z toho přes několik forem reasoningu v různých fázích s abstrakcema ten výsledek skládá.
Jestli tomu rozumí víc než papoušek je taky debatable, protože papoušek jenom opakuje, ale AI tvoří jistý vnitřní reprezentace, obvody, atd. co mají určitý interpretovatelný sémantický smysl, i když jsou všelijaký a dost tam toho ještě není vyřešený.
Kdyby to "jenom opakovalo" tak reinforcement learning vůbec nefunguje, tam není co opakovat, a nedokázalo by to dělat tak relativně komplexní věci, a modely by byly velikostně zettabajtový.
My tomu přímo neřekneme co hodně konkrétně to má dělat když se to trénuje, my to spíš vedeme abstraktnějšíma cílama co tvoří incentivy (loss funkce, reward funkce, evoluce, rekonstrukce, atd.), a z toho pak vyrostou ty jednotlivý vnitřní obvody jako důsledek, a ty jdou aktivovat přes ty různý prompty podobně jako když si navzájem aktivujeme části mozku přes jazyk. 😄
A nesouhlasím že to nemůže mít duši. Myslím že to je subjektivní. Osobně v tom dost vidím nekolik typů duše, ale moje nejoblíbenější duše je v těch nových emergentních vzorech co můžou zvniknou když se to nechá učit/zkoumat většinou samo o sobě bez lidských dat. 😄
Přes přesně tuhle metodu jsme dostali superhuman AI na šachy, co teď nedávno přes reverse engineering byla schopná naučit novou strategii šachovým grandmasterům. 😄
Moje nejoblíbenější AI umění bude když to dokáže nějak umělecky znázornit tenhle nějaký před tím neznámý koncept! 😄
Climate change je real problem, ale moc jsem nepochopil proč se tolik lidí chytlo na to že používání chatbotů využívá tolik vody. Čím to počítáte? Ty výpočty co jsem zatím viděl co to porovnávají ještě relativně s jinými věcmi ukazují jiný data. Tam jsem taky trochu zmatenej. Jsou ještě nějaký zdroje co jsem neviděl?
Zároveň ty modely se každých pár měsíců násobně zefektivňují. Ten nejpopulárnější model v ChatGPT co většina lidí na světě používá je teď je hodně small mixture of experts model s hodně velkou optimalizací co je stovky násobek víc efektivnější než první iterace toho modelu. DeepSeek nedávno ještě víc ukázal jak moc to jde ještě dál násobně zoptimalizovat.
"
Why did Llama 4 fail? Maybe because: Hurry hurry Meta can't be left behind in the AI race and has to release some AI as fast as possible to make investors stay, and most investors will only see fancy advertised gamed benchmarks anyway, and they won't see more independent benchmarks and anecdotal tests where it fails a lot, because they don't work with the models and don't follow it in such detail, and that's mostly what matters
https://x.com/burny_tech/status/1909675761067303094
My favorite AI art will be when an AI will artistically express a novel superhuman concept that it came up with, for example the concept that the superhuman chess AI AlphaZero just taught chess grandmasters using reverse engineering.
I had to accept that a lot of people don't judge AI by its actual practical utility and inner working mechanisms, but by blind dogmatic unchangeable ideology
[https://www.youtube.com/watch?v=IUngGy9P3kE](https://www.youtube.com/watch?v=IUngGy9P3kE)
I like how Pedro Domingos in his book The Master Algorithm maps nicely some of the major tribes in AI. Would you add any more tribes? There are:
- Symbolists: decision trees, random decision forests, production rule systems, inductive logic programming,..,
- Connectionists (neuroscience): artificial neural networks, deep learning,
- Bayesians (statisticians): bayes classifier, probabilistic graphical models, hidden markov chains, active inference,
- Evolutionaries (biologists): genetic algorithms, evolutionary programming,
- Analogizers (psychologists): k-nearest neighbors, support vector machines,...
Then there are various hybrids: neurosymbolic architectures (AlphaZero, program synthesis with DreamCoder), neuroevolution,...
Would you add any more tribes?
- Reinforcement learners?
- Causal inferencers?
[5 Tribes of Machine Learning – BMC Software | Blogs](https://www.bmc.com/blogs/machine-learning-tribes/)
Maybe LLM understanding is like brittle, fluid, easily broken, scattered, convoluted, incomplete etc. house made of straws floating on ocean
But in depends on the context probably
In some contexts the straws are made of iron
With those messages I feel like I'm downplaying them both too much and too little
Since sometimes they excel like geniuses, and sometimes they are completely broken, depending on the task
I will understand them more deeply one day
https://x.com/burny_tech/status/1910679041314611259
The first law of AI researchers: My approach will lead to AGI and everyone else's approach is dead end.
In the age of AI it's more and more important knowing what questions to ask
Mě zas hodně interesuje reinforcement learning (a jiný paradigmata) pro novelty/kreativitu primárně v textu (ale i v multimodalitě) pro math/science/engineering (takže i s accuracy). Ale obecně co nejvíc novel/kreativní struktury plný komplexity jsou cool.
A snažím se sledovat hodně toho co nějak posouvá reasoning, generalizaci, nebo obecně inteligenci 😄
[Neural scene representation and rendering - Google DeepMind](https://deepmind.google/discover/blog/neural-scene-representation-and-rendering/)
To je dost nice. Myslím že podobný approaches s reinforcement learningem jsou budoucnost. Minimálně už teď dost robotiky se učí z experiences ze simulací.
"Generative Query Network (GQN), a framework within which machines learn to perceive their surroundings by training only on data obtained by themselves as they move around scenes. Much like infants and animals, the GQN learns by trying to make sense of its observations of the world around it. In doing so, the GQN learns about plausible scenes and their geometrical properties, without any human labelling of the contents of scenes."
Záleží co je tvůj dosavadní background knowledge. Ale obecně u tohodle asi nejvíc doporučuju zkusit projít step by step tutoriály jak např ty různý reinforcement learning algoritmy atd. co zmiňuješ naimplementovat v různých kontextech a pak je podle toho editovat nebo aplikovat v těch tvých kontextech. To jsi zkoušel? Např: [https://youtu.be/PJl4iabBEz0?si=n2SdK0bnaL8zljor](https://youtu.be/PJl4iabBEz0?si=n2SdK0bnaL8zljor)
[Machine Learning | Coursera](https://www.coursera.org/specializations/machine-learning-introduction)
Nebo ty různý papers mají často asociovaný kód.
https://fxtwitter.com/PrimeIntellect/status/1912266266137764307?t=vkW3P9N2S5LnZ5zawq6NVw&s=19
Decentralized open source is climbing
AI designed reinforcement learning reward functions for any task on the fly to train fully general model using RL
to chce evoluční reinforcement learning from human feedback
neuroevolution s moderníma technikama
picbreeder s moderníma technikama
[https://www.youtube.com/watch?v=_2vx4Mfmw-w](https://www.youtube.com/watch?v=_2vx4Mfmw-w)
myslím že cesta je v primárně evolučním searchu co je hodně pushed přes novelty (hybridně s jinýma metodama)
ale aby se to nerozteklo do chaosu a šumu, tak nějak pořád grounded přes nějaký accuracy signál s nějakou ground truth, možná zákony toho jak fungují koherentní tvary 😄
musí to být pořád nějak grounded v nějakých lidských vzorách
tím jak je moc high entropy vzorů co lidskej mozek interpretuje jako šum 😄
alphago
"ai to nikdy nedokáže protože kombinatorický prostor možností je větší než všechny atomy ve vesmíru"
ha ha ha ha
😄 😄 😄 😄 😄
a furt jsou lidi co si myslí že to jenom memorizuje 😄 😄 😄 😄 😄
myslím že už jsme dávno za jenom jazykem a začíná se to nativně rozšiřovat do všech modalit, ty nový OpenAI modely co dneska vyšly už v thought processes přemýšlí i v obrázcích (plus teda k tomu v executing python kódu a nebo delají search results a arbitrary tools)
soon they'll think in audio, video, 3D images, executing game engines etc.
a nebo v abstraktním latentním prostoru (na to je taky několik papers)
paralelní komunikující thready omnimodálních grafů myšlenek co se na konci syntézují
nejdřív se destilují vzory z lidských dat a z dat ze simulací a z jiných AIček (a z fyzických perception dat v robotice) atd. do matic
a pak se to učí ty naučený vzory třídit, míchat, skládat, zobecňovat, do jistý míry hledat novost pro větší správnost při reinforcement learningu
zatím jsme reverse engineernuli obvody jenom v malým procentu modelů co existuje, protože za poslední rok vzniklo takových nových paradigmat, co vůbec nestíháme reverse engineerovat
parallel communicating threads with omnimodal graphs of thoughts that synthesize at the end
first distill patterns from human data and from simulation data and from other AIs (and from physical perception data in robotics), etc. into matrices
and then learn to sort those learned patterns, mix, compose, generalize, to some extent look for novelty for greater correctness in reinforcement learning
so far we have only reverse engineered circuits in a small percentage of the models that exist, there¨s still so much to reverse engineer in reasoning models!
o3/o4-mini
[Než budete pokračovat na YouTube](https://www.youtube.com/live/2G-VwWxKCkk)
https://openai.com/index/introducing-o3-and-o4-mini/
[https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf](https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf)
This will determine the future of OpenAI, whether they are still a leader or an AGI lab who lost to competition in the history of the AGI race
https://x.com/burny_tech/status/1912555273253765236
solid benchmark saturation
lovely straight line https://x.com/burny_tech/status/1912556988631744650
[Reddit - The heart of the internet](https://www.reddit.com/r/singularity/comments/1k0qjso/benchmark_of_o3_and_o4_mini_against_gemini_25_pro/)
o3 dethrones Gemini 2.5 Pro on Livebench
i wonder why almost noone combines MCTS or other inference time compute with all of these
why not do MCTC on top of o4 full high
but Chollet beliefs its not just autoregression but also with some search? Tim from MLST same with o1 pro?
o3 is now now thinking in images, executed python code, search results etc., when will we think in audio, video, 3D images, game engines etc.? :D
I'm vibecoding Minecraft with every new model. I'm waiting for the day when in one prompt I get all of Minecraft in one giant html file in three.js.
This was with Gemini 2.5 Pro.
I'm testing o3 now.
https://x.com/burny_tech/status/1912601186999627885
Btw je zajímavý že ty modely si se škálou mají tendenci tvořit lepší a lepší vícejazyčný features konceptů (nebo jazykově agnostický), jak ukázal poslední biology of LLMs paper
Myslím že nebylo jasný že to gradient descent fakt takhle zvládne 😄 (alespoň to si dost lidí myslelo a někteří pořád myslí)
Ale furt nejsou zároveň perfektní typ komprese, ty features jsou pořád dost fuzzy, brittle, apod.
A jsou by default zamotaný v superpozicích (což není špatně, jen se to kvůli tomu hůř reverse engineeruje když se to rozmotává)
Jj to vím, ale bylo hodně skeptiků že to vůbec nějaký somewhat koherentní interní abstraktní features tohodle typu tvoří, který jsme až zjistili přes mechanistic interpretability nedávno
Nestrukturovaná memorizace se skoro nulovou a abstrakcí byl hodně dominantní narrativ roku 2024
Mohlo to abstrahovat míň, skládat je dohromady min koherentně, atd.
I když jsou ty abstrakce furt často celkem broken
Viz stochastic parrot narrative
Mě to moc nedávalo smysl vzhledem k tomu kolik se toho vejde do modelů s takovou velikostí s celkem relativně koherentními outputy v relativně víc complex contextech, ale bylo to všude 😄
Přijde mě např cool že gradient descent je schopnej zjistit že má abstrahovat zrovna do těch featur těma směrama kterým abstrahuje, a skládat ty abstrakce zrovna tak jak to dělá, od nejkonkrétnějších po nejabstratnejsi, co i když není perfektní a často broken, a jde to pravděpodobně o dost líp, tak je pro mě mindblowing že to prostě jde, a nedivil bych se kdyby to i nefungovalo v nějaký alternativní realitě
"Why does deep learning generalize to such degree that it does" je dle mě pořád z velký části dost nezodpovězená otázka
Co hodně lidí pořád zkoumá
Mohlo to taky vůbec nefungovat
Jako si to většina AI oboru myslela před deep learning boomem
Nebo nějak jenom primárně nestrukturovaně memorizovat s minimálními abstract features, co lidi pořád před rokem claimovali, ale tam pak taky nechápu jak by modely s touto velikostí byly schopný takových věcí
bt
LLMs are so sycophantic that they will just agree with you on anything you want. It's fun to make one instance of LLM agree with you on some argument, and another instance of LLM agree with you on the exact opposite position of that argument, and then let third instance try to sort out the contradictions.
But I wish the latent space could be steered more reliably more symbolically
I still believe in neurosymbolic AI
More structure is still needed
But structure that doesn't kill the "unstructured continuous freedom" or how to call it
For example sparse autoencoder steering of features is fascinating, but it can still break so many other things
But gpt-4o image generation is amazing, still a big relative step forward in complex coherence
but people love the flexibility of NN. It's like building a castle on water
GPT-4o unlocks relatively more intelligent image understanding and generation in one system compared to previous SoTA systems. Make it a reasoning model and it gets supercharged. I also think AIs that try to think visually more, as a lot of physicists and mathematicians do, by generating visual counterfactuals, might not be that far off.
the age of shaperotators
i am active in the rationalist community too 😄 at one point i was thinking of trying to get more into mechanistic interpretability part of AI safety for steering frontier models
but now i kind of switched and instead of trying to "limit" the machines by steering them, i want to unleash their full unconstrained creative potential!
Mě osobně co se týče těch milionů aplikací na co se to teď používá asi nejvíc zajímá jak nám to pomáhá pochopit co je inteligence, nebo jak to pomáhá ve zdravotnictví, nebo jak to pomáhá najít nový výsledky ve vědě, v biologii, ve fyzice, co je kreativita, tvořit inteligenci a kreativitu, technologie a vědu, apod.
A můj cíl je teďka nějak co nejvíc se dostat do zkoumání fyziky pomocí AI nebo do zkoumání AI pomocí fyziky
Např [https://www.youtube.com/watch?v=XRL56YCfKtA](https://www.youtube.com/watch?v=XRL56YCfKtA)
Nebo AI pro matiku
A taky je zajímá či dokážeme vytvořit systém co má prožitek/vědomí jako my
Nebo jak nám to pomáhá pochopit jak funguje mozek a naopak jak vědomosti o mozku nám pomáhají pochopit jak funguje AI a jak ho vytvořit
A jak AI systémy jsou odlišný ale podobný nám, a jak přesně
A jak je možný překonat (transcendnout) limitace evoluce, u nás i u AI, a u budoucích cyborg hybridů
Všechno ideálně co nejvíc přes jazyk empirický matematiky
"you need to tell the computer that its wrong"
that depends a lot of the architecture, the problem domain, relative performance, possibility of automating verification, etc.
there are already AI systems that in a certain domains have lower error rates than humans
or AI systems that do tasks that no human or collective for humans would be capable of
or for tasks where you cant really verify, where you just optimize an objective
or where accuracy doesnt matter that much
or when there's not really a notion of accuracy
or for tasks where humans+AI you get the lowest error rate compared to just the humans or the AI systems alone