Ta [lm aréna](<https://lmarena.ai/>) je dle mě dost flawed v nějakých aspektech, když člověk řeší hlavně STEM schopnosti, tím že tam myslím dost lidí nedává hard problémy, ale řeší vibes u toho jak je to prijemnej chatbot, plus to pravděpodobně AGI labs strašně botujou. Nektery ty Geminis si dle mě si nezaslouží být tak nahoře, když navíc v jiných benchmarcích failuje vic. Přijde mi že lm arena neměří moc praktický STEM schopnosti, jinak by dle mě byl Claude 3.5 Sonnet výš. OpenAI a Google tam pořád bojují o to kdo to co nejvíc overfitne, a šlo vidět jak jako důsledek jejich modely šly dolů u jiných benchmarků... 😄 Ale spousta benchmarků co mají AGI labs nejvic rádi jsou dle mě dost flawed, jako např [MMLU](<https://paperswithcode.com/dataset/mmlu>) na general knowledge, co je plnej chyb a saturovanej a kontaminovanej. 😄 Ale žádnej benchmark není perfektní. Záleží co člověk chce měřit no. Ale ta nová web lm arena celkem sedí na web dev IMO. Mám rád např [SimpleBench](<https://simple-bench.com/>) na cistej reasoning (např logika objektů v prostoru) [LiveBench](<https://livebench.ai/>) na všechno možný STEM related, [ARC-AGI](<https://arcprize.org/>) na reasoning kolem obecnějších symetrií. [SWEBench](<https://www.swebench.com/>) je někdy fajn na software engineering, co nezkoumá jen raw modely, ale i agentní systémy. Nebo [frontier math benchmark](https://epoch.ai/frontiermath/the-benchmark) co teď vyšel je zajimavej, kde jsou math problems co nedávají i ti největší matematici 😄 Je zajímavý jak všechny ty benchmarky mají jiný results. 😄 Depends, někdy kvalitní syntetický data jsou naopak záchrana k dalšímu efektivnímu učení O tom je celej velkej podobor machine learningu 😄 Ale musí se na tohle jít víc systematicky [Synthetic data could be better than real data](https://www.nature.com/articles/d41586-023-01445-8) Technicky velká část specializovanějších superhuman AI systémů co už máme jsou superhuman díky syntetickým datům. Když najdeš smyčku trénování sám na sobě nad datama co se pořád zlepšují v každý iteraci přes nějaký grounding feedback, tak tím bootstrapneš superhuman abilities. Tohle máme zatím hlavně u her (MuZero [MuZero - Wikipedia](https://en.wikipedia.org/wiki/MuZero) ), a lidi se to snaží dělat ještě např u matiky, programování, fyziky, nebo jiných vědách. Tohle je jedna potenciální cesta rekurzivního self-improvementu k obecný superinteligenci, kde se ještě navíc ještě v každý iteraci zlepšuje architektura a hardware, v open-ended stylu. Což hodně slabě je už dneska (neural architecture search, AI optimizace hardwaru, slabší autonomní AI scientists pokusy atd.), ale ne dostatečně. Tohle by mě zajímalo celkem i u artu, a víc s objektivními funkcemi (cílama) co víc optimalizují novelty, nebo jak moc se u nás aktivuje sense of beauty, ineffability, mindblowing atd. 😄 I wanna see machine creativity beyond human comprehension and capabilities! Hmm, u artu by to možná chtělo do toho AIčka naimplementovat simulaci reakce lidí, podobně jako human artists si představují reakci těch co commisionují a optimalizují často to (což v neurovědách řeší theory of mind části mozku [Theory of mind - Wikipedia](https://en.wikipedia.org/wiki/Theory_of_mind) Nebo jít o level dál a simulovat celej mozek do nějaký úrovně přesnosti! 😄 Artificial empathy je taky velkej podobor AI [Artificial empathy - Wikipedia](https://en.wikipedia.org/wiki/Artificial_empathy) [Veo 2 - Google DeepMind](https://deepmind.google/technologies/veo/veo-2/) https://x.com/RubenEVillegas/status/1868765983818797230 https://x.com/ai_for_success/status/1868851632567693625 i wonder how video genAI will be relevant for AGI, as in for example for simulating internal universes with potentially more consistent physics for more physics correct spatial efficient reasoning for example, some counterfactual analysis, just like how we vividly daydream and ruminate Is search with deep learning all you need? Search is great, but it must be as smart search as possible to reduce the combinatorial explosion of possibilities as intelligently as possible, so that its further away from just dumb brute forcing Is new Google Gemini 2 model actually that good? Apparently it's upgrade for tons of people, but not for others, and benchmarks are all over the place. The same for o1 pro mode from OpenAI. We need better benchmarks. Maybe the models are getting more specialized for various tasks so general benchmarks fail to capture to nuance. https://x.com/burny_tech/status/1869276362990629258?t=ihxhbSFmhTRtucvzF_Pt7Q&s=19 [Reddit - The heart of the internet](https://www.reddit.com/r/singularity/s/aBjcErtsWn) https://x.com/aidan_mclau/status/1869067934771118127?t=zq3U2NaJIwK842GPHjuJOA&s=19 Is the new Gemini 2.0-121724-69-420.555 Flash Experimental Advanced Turbo (New) Preview TotallyFinal V2.567 Beta model on gemini dot google dot com, aistudio dot google dot com, or labs dot google dot com? https://x.com/burny_tech/status/1869275188124360963?t=mvXsRxnzXueurFrKBn0aeQ&s=19 [Roomba - Wikipedia](https://en.wikipedia.org/wiki/Roomba?wprov=sfla1) Hmm from quick search, roombas often have relatively primitive algorithms compared to for example self-driving cars, which often use way more deep learning. But maybe that's not needed there and symbolic and other approaches win here more. You could maybe implement more robust not trying the same thing over and over again, by maybe specifying more symbolic edge cases where you explicitly calculate if you can fit in through sensors, but maybe sometimes it's worth to have a more general approach that might fail less overall, as too many explicit edge cases confuse it too. Similar issues are being discussed with bias and variance trade off in machine learning, or the explore vs exploit trade off specifically in reinforcement learning. And we need better continual learning in general, it's a whole subfield of AI [[2302.00487] A Comprehensive Survey of Continual Learning: Theory, Method and Application](https://arxiv.org/abs/2302.00487) There is no single machine intelligence. There are tons of different paradigms of intelligence in all sorts of differentiate contexts that are more specialized or more general, in some ways similarly to the diverse ecosystem of biological intelligences. I love imagining the space of all possible information processing systems! Take your mind, brain architecture, architecture of other biological systems, architectures of all sorts of already working and proposed AI systems, and generalize all the math to oblivion! Let's create a general theory of information processing systems! For example I like how geometric deep learning looks at architectures through the lens of symmetry! https://x.com/jam3scampbell/status/1868971119405154771?t=LhQf9JA-guoJ4ZIFflZm2g&s=19 [g factor](<[g factor (psychometrics) - Wikipedia](https://en.wikipedia.org/wiki/G_factor_(psychometrics)#Factor_structure_of_cognitive_abilities>) je zajímavej technicky jeden vektor, ale poslední dobou jsem pro mnohem vícerodimenzionální multiperspektivní definice inteligence, vzhledem k tomu co se ještě poslední dobu navíc děje v AI za výsledky, co mají celkem tendence rozbíjet ideu toho že by inteligence měla být nějakej jeden vektor " power concetration obecně je můj největší worry https://fxtwitter.com/tsarnick/status/1869488149967392973 proto začínám být větší "release everything! open source everything!" evangelista, aby to bylo i v rukou lidí, a co nejvíc zjištovat/brát secret research and engineering sauce AGI labs, a snažím se víc edukovat lidi jak to používat, aby byli míň pozadu což ale zároveň podporuje riziko uncontrollable AI rizika, co teď ale vidím jako menší riziko, takže tam dělám tenhle trade off poslední dobou je zároveň ve mě velkej driver nerdský hypercuriousity kolem reverse engineeringu a budování inteligence (biologický i nebiologický), což mi příjde jako ten největší vědecký, inženýrský a filozofický projekt lidstva, podobně jako reverse engineering rovnice reality (kde máme zatím standardní model částicový fyziky) [https://www.youtube.com/watch?v=-oZc8h5L--A](https://www.youtube.com/watch?v=-oZc8h5L--A) ty systémy co teď budujeme, mají sice různý aspekty společný s biologickou inteligencí, ale zároveň to jsou diverse alien intelligence, co s námi mají nějaký překryv ve schopnostech, ale zároveň dost jiných schopností, co my nemáme. Pro některý věci jsou superhuman, pro jiný tasks jsou horší než batolata. " People say that we're heading towards artificial general intelligence (AGI), but by that they usually mean machine human-level intelligence (MHI) instead, a machine that is performing human digital or/and physical tasks as good as humans. And by artificial superintelligence (ASI), people mean machine superhuman intelligence (MSHI), that is even better than humans at human tasks. I think lot's of research goes towards very specialized machine narrow intelligences (MNI), which are very specialized and often superhuman in very specific tasks, such as playing games (MuZero), and a lot of research also goes towards machine general intelligence (MGI), which will be much more general than human intelligence (HI), because humans are IMO very specialized biological systems in our evolutionary niche, and other organisms are differently specialized, even tho we still share a lot. Soon we might create some machine-biology hybrids as well. Then we should maybe start calling it carbon based intelligence (CI) and silicon based intelligence (SI) and carbon and silicon based intelligences (CSI). What will be the next bitter lesson? How to fight AI power concetration? open source everything get the weights [[2403.06634] Stealing Part of a Production Language Model](https://arxiv.org/abs/2403.06634) Image decentralize power collectively train and run open source models to kill the centralized competition like llamas did infrastruktura na to pomalu vzniká https://fxtwitter.com/PrimeIntellect/status/1844814829154169038 folding home pro všemožný collectively owned modely v novým reasoning paradigmatu je asi QwQ teď nejlepší [QwQ: Reflect Deeply on the Boundaries of the Unknown | Qwen](https://qwenlm.github.io/blog/qwq-32b-preview/) ale furt tak pozadu oproti closed source o1 a o3 a začíná se míň a míň řešit human data na inteligentnější modely, tím jak nový reasoning modely jsou trénovaný na AI generated chains of thoughts na reasoning, protože ty jsou apparently kvalitnější než human data (díky reinforcement learningu) ai generated syntetický data začínají být víc a víc common https://fxtwitter.com/Teknium1/status/1871519581556322621?t=PV0h3T91_-ipnIj4uDpJ9g&s=19 we're entering the age of AI training itself on AI being better than AI training itself on humans (in chain of thoughts context at least) a bude zajímavý pokud se vyřeší o dost obecnější selfplay v tasks kde je potřeba reasoning pak by se mohly boostrapnout superinteligence podobně jako v šachách a Go, co by byly totálně alien relativně k lidem 😄 začal jsem zase víc koukat do her, protože velká část AI komunity se v podstatě snaží vytvořit superinteligenci tím, že koukají na to, jak jsme dosáhli superinteligence u her, a snaží se to aplikovat do matiky, do programování, a do obecnýho reasoningu o1/o3 modely jsou technicky obecný reasoning, co skórují šílený skóre na math/code/generalization benchmarcích, o1: https://openai.com/index/learning-to-reason-with-llms/ , o3: [https://www.youtube.com/watch?v=SKBG1sqdyIU](https://www.youtube.com/watch?v=SKBG1sqdyIU) a o1/o3 jede přes AI generated syntetický reasoning chain of thoughts steps a reinforcement learning, ale je strašně zajímavý, že tam nepoužili MCTS jako u AlphaZero, co spousta lidí očekávalo https://fxtwitter.com/paul_cal/status/1871105026774736956?t=KoJL6ORjJ9T0-LSZM6ovTA&s=19 tenhle paper je k tomu jak to vnitřně funguje asi nejblíž [[2203.14465] STaR: Bootstrapping Reasoning With Reasoning](https://arxiv.org/abs/2203.14465) tady se snaží shromažďovat co by to mohlo všechno používat a open source alternativy [GitHub - hijkzzz/Awesome-LLM-Strawberry: A collection of LLM papers, blogs, and projects, with a focus on OpenAI o1 🍓 and reasoning techniques.](https://github.com/hijkzzz/Awesome-LLM-Strawberry) a jenom za 3 měsíce to mělo šílenej step change jump na benchmarcích, protože v tomhle novým reasoning paradigmatu je nový inference time compute performance scaling law co je několikrát rychlejší než starý pretraining performance scaling law lol https://fxtwitter.com/arankomatsuzaki/status/1871239899770438126/ context: [OpenAI o3 Breakthrough High Score on ARC-AGI-Pub](https://arcprize.org/blog/oai-o3-pub-breakthrough) "This is a surprising and important step-function increase in AI capabilities, showing novel task adaptation ability never seen before in the GPT-family models. For context, ARC-AGI-1 took 4 years to go from 0% with GPT-3 in 2020 to 5% in 2024 with GPT-4o. All intuition about AI capabilities will need to get updated for o3. Despite the significant cost per task, these numbers aren't just the result of applying brute force compute to the benchmark. OpenAI's new o3 model represents a significant leap forward in AI's ability to adapt to novel tasks. This is not merely incremental improvement, but a genuine breakthrough, marking a qualitative shift in AI capabilities compared to the prior limitations of LLMs. o3 is a system capable of adapting to tasks it has never encountered before, arguably approaching human-level performance in the ARC-AGI domain. Of course, such generality comes at a steep cost, and wouldn't quite be economical yet: you could pay a human to solve ARC-AGI tasks for roughly $5 per task (we know, we did that), while consuming mere cents in energy. Meanwhile o3 requires $17-20 per task in the low-compute mode. But cost-performance will likely improve quite dramatically over the next few months and years, so you should plan for these capabilities to become competitive with human work within a fairly short timeline." Tohle píše člověk co často bývá nejvíc loud skeptik 😄 [https://youtu.be/rJkTsNrnu8g?si=rXA27hRIV5gkVHiD](https://youtu.be/rJkTsNrnu8g?si=rXA27hRIV5gkVHiD) also open source solidně dohání closed source, open source už je možná jenom 6 měsíců pozadu za closed source s deepseekem co dnes vyšel a stírá closed source modely https://fxtwitter.com/teortaxesTex/status/1871933391823949942 , https://x.com/arankomatsuzaki/status/1871950031554773428 [deepseek-ai/DeepSeek-V3-Base at main](https://huggingface.co/deepseek-ai/DeepSeek-V3-Base/tree/main) a QwQ [QwQ: Reflect Deeply on the Boundaries of the Unknown | Qwen](https://qwenlm.github.io/blog/qwq-32b-preview/) tady máš potenciální matiku za AlphaZero ale pro obecný reinforcement learning reasoning přes chains of thoughts s LLMs 😄 [https://www.youtube.com/watch?v=6PEJ96k1kiw](https://www.youtube.com/watch?v=6PEJ96k1kiw)