power concetration obecně je můj největší worry https://fxtwitter.com/tsarnick/status/1869488149967392973 proto začínám být větší "release everything! open source everything!" evangelista, aby to bylo i v rukou lidí, a co nejvíc zjištovat secret research and engineering sauce AGI labs, a snažím se víc edukovat lidi jak to používat, aby byli míň pozadu což ale zároveň podporuje riziko uncontrollable AI rizika, co teď ale vidím jako menší riziko, takže tam dělám tenhle trade off ale poslední dobou je zároveň ve mě velkej driver nerdský hypercuriousity kolem reverse engineeringu a budování inteligence (biologický i nebiologický), což mi příjde jako ten největší vědecký, inženýrský a filozofický projekt lidstva, podobně jako reverse engineering rovnice reality (kde máme zatím standardní model částicový fyziky) [https://www.youtube.com/watch?v=-oZc8h5L--A](https://www.youtube.com/watch?v=-oZc8h5L--A) I když bych argumentoval, že ty systémy co teď budujeme, mají sice různý aspekty společný s biologickou inteligencí, ale zároveň to jsou diverse alien intelligence, co s námi mají nějaký překryv ve schopnostech, ale zároveň dost jiných schopností, co my nemáme. Pro některý věci jsou superhuman, pro jiný tasks jsou horší než batolata. [Imgur: The magic of the Internet](https://imgur.com/NaBxCZS) People say that we're heading towards artificial general intelligence (AGI), but by that they usually mean machine human-level intelligence (MHI) instead, a machine that is performing human digital or/and physical tasks as good as humans. And by artificial superintelligence (ASI), people mean machine superhuman intelligence (MSHI), that is even better than humans at human tasks. I think lot's of research goes towards very specialized machine narrow intelligences (MNI), which are very specialized and often superhuman in very specific tasks, such as playing games (MuZero), and a lot of research also goes towards machine general intelligence (MGI), which will be much more general than human intelligence (HI), because humans are IMO very specialized biological systems in our evolutionary niche, and other organisms are differently specialized, even tho we still share a lot. Soon we might create some machine-biology hybrids as well. Then we should maybe start calling it carbon based intelligence (CI) and silicon based intelligence (SI) and carbon and silicon based intelligences (CSI). 😄 Expectations tuny jsou rozhodně všude inflated, ale někteří mají zas opačný ultra sceptical extrém :kek: Pravda je dle mě někde uprostřed Převratný zlepšení oproti před rokem/před pár lety dle mě už do jistý míry je teď, záleží kam člověk dá svoje goal posts 😄 A ty poslední modely v novým paradigmatu tunu velkých skeptiků dost přehoupl 😄 Jak v benchmarcích tak v practical tasks mimo benchmarky Čekám až se víc zmainsreamuje a udělá jednodušší setup pro ty všechny různý development/research usecases na co to používáme my (nebo já osobně) pro všechno možný Hodně těch usecasů jsem si mohl nechat zdát před rokem A souhlasím že existují limitace, s tím je třeba počítat. Když člověk vidí jak tu sílu, tak ty limitace, tak to jako nástroj jde použít nejlíp. Bublina to dle mě je, podobně jako dot com bubble. Někteří si myslej, že tu zítra bude digitální bůh. Ale jiní si zas myslej že to neumí absolutně nic a není to na nic useful, když se to mezitím už používá víc a víc na tuně místech. Vidím to jako s internetem. Absolutní blow up firem, všichni to zkouší na všechno možný, i tam kde to ještě není ready nebo kde to nedává smysl, ale jen ti nejsilnější co to aplikují nejvíc užitečně nezkrachujou, a integruje se to všude možně v praxi do hodně useful usecases (ty nonuseful usecases bohužel taky z různých důvodů), což už se teď děje. Záleží na dost konkrétním usecasu, ale v dost usecases zatím souhlasím, i když se to časem dost zlepšuje. To pořád nevylučuje extrémní usefulness i s touto property. Ta reliability jde zároveň různým engineeringem víc zlepšit. Např jeden usecase u nás je např custom multiagentní systém na pojenej na net na hledání references u akademickýho textu z transcriptu, což se pak double checkuje, protože to někdy chybuje, ale automatizuje to dost tedius práce a tím to šetří čas, a někdy to chytí něco, co by nás nenapadlo, což je dost useful. Dost těhle různých systémů, když by používaly starší base modely, by byly o dost worse. o3 https://fxtwitter.com/MLStreetTalk/status/1870183509505003729 https://x.com/DrJimFan/status/1870542485023584334 [OpenAI o3 Breakthrough High Score on ARC-AGI-Pub](https://arcprize.org/blog/oai-o3-pub-breakthrough) fascinuje mě kolik skeptiků vibe shiftnulo po o3 já taky I still can't believe this. I was expecting to see more than a year of experimenting with different AI architectures to get such score on ARC-AGI, but then o3 came. a o3 vypadá že je víc pure LLM než dost lidí očekávalo, míň fancy neurosymboliky co spousta lidí očekávalo https://x.com/paul_cal/status/1870523995063554195 https://media.discordapp.net/attachments/937356144060530781/1320123894790885486/image0.jpg?ex=67691d6f&is=6767cbef&hm=552229aa0b024961e9118438ae21abae22be9d3f3c3bd1953161c12a433f80e9&= to "never encountered before" chápu jako to, že ten training dataset je schválně "designed to expose a system to the core knowledge priors needed to beat the much harder eval set.", kde to "never encountered before" je ten harder eval set https://x.com/mikeknoop/status/1870583471892226343 https://x.com/mikeknoop/status/1870636091143074189 reminder že ARC-AGI je z 2019 😄 a Chollet (autor) je jeden z nejhlasitějších kritiků LLMs a OpenAI hypu, a tím celkem solidní pain pro OpenAI 😄 ale uvidíme dál no, zajímá mě jakej bude ARC-AGI-2 a další benchmarky, a fungování na různý podobný a další problémy mimo benchmarky celkem mě zajímá jestli tohle je možná hodně general metoda jak setřít velkou classu benchmarků se kterýma do teď byl problém minimálně to taky pomohlo spawnout větší diverzitu v researchu ale nejvíc mě fascinuje takovej unexpected skok jen za 3 měsíce, fakt mě zajímá či to bude takhle rychle pokračovat dál Exponential composed of sigmoids https://fxtwitter.com/fchollet/status/1870194696477388836 i really wonder about o3's actual OOD performance and performance in agentic tasks with a lot of steps like a lot of practical tasks in software engineering i wonder if Google will counterattack with Gemini 2 Ultra TTC model or Anthropic with their own Claude TTC variant asap and i wonder how much can agentic and other wrappers add to o3 performance on all the various benchmarks (and in real world tasks) arc agi wasnt supposted to fall in 2024 (its still semiprivate tho) what the hell bayesian priors completely off the charts and that frontier math score all the senior talent leaving made me think that o1 was peak for openai, but apparently there's still enough other talent, or left over stuff from the talent that left, or good new talent but they still have noam brown for reasoning for example, who is behind o1, so o3 kind of makes sense (but it also may be just scaled o1) GPT-4o is better than o1 at creative writing? Skill issue, you just don't prompt it for creative enough writings [https://youtu.be/6Lxk9NMeWHg](https://youtu.be/6Lxk9NMeWHg) fajnově zmínil některý limitace, ale vždyky když někdo mluví o inteligenci tak jsem rád když inteligenci nějak zadefinuje, což on neudělal, protože každej si pod tím představí něco jinýho 😄 ale jsem rád, že na začátku zmínil, že AI nejsou jenom LLMs, a že různý AI systémy byly už dávno embedded už před LLM boomem ve všem možným v různých podobných a jiných formách, ale na to lidi zapomínají, nebo o tom neví, že AI je hodně gigantickej divnerzní obor a LLMs je celkem malá podmnožina možných metod a systémů 😄 začal mluvit o matice, na to to používám často: v elementárních výpočetech často jdou off the rails, i abstraktnější matice jdou často off the rails, ale často se trefí, jsou mega useful i tak, když člověk ví co to už umí a co to ještě má za limitace 😄 zrovna posledních pár hodin jsem se např prokousával rovicema v jednom AI math paperu (studii) kolem těch nových pár měsíců starých reasoning modelů jako o1 model, kde jsem kombinoval ptaní se lidí a LLMs grounded v tý doméně, když jsem něco nedokázal rozluštit 😄 je zajímavý ty modely jdou různě off the rails jinak než lidi, kde jsou na tom někdy líp, ale někdy hůř, podle toho jak se to porovnává, a s jakou podmnožinou lidí 😄 a někdy se na výpočty dost vyplatí to napojit na kalkulačku, což ChatGPT a Claude dělá defaultně v pythonu, nebo Perplexity používá web a WolframAlpha na např tasks kde jsou integrály, nebo jsou modely na pojený na Lean na formal theorem proving, nebo jsou jiný neurosymbolický systémy, specializovaný AI systémy na některý domény, nebo wolframalpha samotný je technicky symbolický AI i když asi má v sobě malinko deep learningu, apod. 😄 všechny ty systémy se hodí v jiných kontextech 😄 a ty nový pár měsíců starý reasoning modely jako o1 jsou taky mega upgrade pro matiku, což je taky dost reflektovaný v benchmarcích 😄 nebo je facinující jak na nějaký jiný víc advanced matiky jsou nový reasoning modely větší step change a useful pro matematiky, tady je např pohled top matematika na světě currently terrence tao: " The experience seemed roughly on par with trying to advise a mediocre, but not completely incompetent graduate student" [Terence Tao: "I have played a little bit with OpenAI's new iter…" - Mathstodon](https://mathstodon.xyz/@tao/113132502735585408) total overhyping CEOs je klasika, ale ta usefulness i tak je tam IMO hodně solidní když člověk ví co to už umí a co to ještě neumí, když to nejen já používám každej den pořád na tunu věcí, pro svoje účely, pro učení, v pracích,... 😄 což týpek na konci zmínil celkem fajnově, že je důležitý zjištovat co už umí a co ještě ne, ale dle mě forecasting budoucnosti je taky dost důležitej souhlasím že dělá totální bordel to že jsou šílený incentivy pro impressing investorů, co o tom ví prd, kde markeťáci slibujou věci co to ještě neumí, nebo kde mají až moc short timelines toho kdy to bude umět x, atd. 😄 to asi ekonomickej damage způsobí/způsobuje, a taky to celkem rozbíjí představy o realitě tý technologie outsiderům, a tvoří to solidní polarizaci perspektiv outsiderů... ten novej o3 model co byl ukázanej na vánoce má solidní krok kupředu např na FrontierMath benchmarku, tak mě zajímá, jaký to bude v praxi [FrontierMath: LLM Benchmark for Advanced AI Math Reasoning | Epoch AI](https://epoch.ai/frontiermath) [https://www.youtube.com/watch?v=K-zQPqGAB0g](https://www.youtube.com/watch?v=K-zQPqGAB0g) o3 model skočil z 2% na 25% "Each problem demands hours of work from expert mathematicians with domain expertise. All problems are new and unpublished, eliminating data contamination concerns that plague existing benchmarks." Někdy mě fakt fascinuje a nechápu, když někdo řekne, že LLMka neumí matiku, protože jdou někdy off the rails ve výpočtech nebo higher level matice, kde dělají různě různý errors jinak nebo podobně jak lidi. Plus když mezitím v praxi leading matematici a ostatní, co nějak LLMka používají na matiku, říkají, jak je to pro ně často hodně useful, když je si člověk vědom toho, co už to umí, a i limitací, a když ví jak LLMka na matiku používat buďto o samotě, nebo v komplexnějších systémech. Plus když se k tomu saturuje (vyřeší) jeden math benchmark za druhým, většinou do roku, a máme problém nadesignovat nový bechmarky na matiku, kde teď musíme designovat takový s takovými private unpublished přikladama, kde i ti největší expert matematici mají problém, ale i tyhle nový benchmarky ty modely climbujou rychleji než jsme očekávali. Možný vysvětlení těhle lidí, co říkají, že LLMka vůbec neumí matiku, co mě dává smysl: - mnohem víc strict definice toho co znamená "nějak zvládat matiku" (víc humanlike matematický reasoning? žádný humanlike chyby? totální superhuman bezchybnost? stronger generalizace?) - pár krát je to v minulosti fainulo a overgeneralizovali do veškerý matiky a nových modelů ve všech usecases - nežijou v roce 2025 co se týče toho co AI už umí, nezkusili nejnovější AI systémy - nevědomost toho co to umí, limitací, a jak to používat - nevědění toho, jak ty systémy interně fungují, a výsledků z vědy kolem AI for math (benchmarků, úspěchů těch systémů,...), a výsledků z reverse engineeringu AI systémů - opakují něco co někde slyšeli bez verifikace, a slyšeli jenom ty typy lidí co teď zmiňuju, a neslyšeli nebo ignorují ty, kterým jsou ty různý AI systémy na matiku dost useful v praxi - nesnášení AI nebo AI korporací a markeťáků (kteří jsou často ten opačný nerealistický extrém), a jako důsledek permanentní nerealistický downplaying toho, co reálně zatím už umí, a na co se už reálně v praxi používají - antiAI emoce, nic racionálního - denial reality - fear - "no machine can ever do parts of what I'm doing" fundamentalistický belief Navíc pokud by generativní AI nijak "neumělo matiku", tak už nemáme několik papers a různých cases od matematiků, kde to pomohlo najít novou matiku, co před tím ještě nebyla. Např: LLMs successfully discovering new solutions for bin packing problem where brute force computing approaches fail due to the astronomical number of possibilities: <https://deepmind.google/discover/blog/funsearch-making-new-discoveries-in-mathematical-sciences-using-large-language-models/> To je dost podobný jako kdybys měl rád vlaky, co každej den pomáhají dostat tuny lidí z místa na místo, a rád je zkoumal, tvořil, mluvil o nich, apod., a pořád dokola bys někde slyšel, jak toho vlastně nejsou schopný, jak se to vlastně vůbec neděje, a tvoje opakovaný ukazování toho, jak ty vlaky jsou ale fakt schopný ty lidi přenést z místa na místo, a jak se ty sám v nich vozíš, by bylo stejný jako ukazování do zdi, protože i když jim to přímo ukážeš, tak tomu prostě nevěří, jako kdyby to neviděli... když otevřu twitter, linkedin, reddit, ai discords, práci, apod., tak vidím samý AI agents :kek: tohle je např dobrý current tl;dr používání: [LangChain State of AI Agents Report](https://www.langchain.com/stateofaiagents) >"We surveyed over 1,300 professionals — from engineers and product managers to business leaders and executives — to uncover the state of AI agents. Dive into the data as we break down how AI agents are being used (or not) today." ale asi taky záleží kde je tvůj goalpost kolem agentů, protože pokud agent = used in a loop, tak chatgpt/perplexity/copilot/cursor/windsurf apod. jsou agenti, protože mají code execution, web search, retrieval of docs/code apod. tool use in a loop agent je teď nejvíc ambiguous slovo a stal se toho buzzword roku 2025 neexistuje microsoft AI speech bez slova agent pokud tě zajímá long term coherence, tak modely ala o1 to začínají pomalu solvovat např dle nějakých starých definicí agenta LLMs agenti nejsou, protože jim např chybí easy continual learning (incremental learning) nad weights těch modelů apod. teď nejvíc mainstream definice agenta je LLM v např ReAct loopu těch máme v práci několik např na natural language interface interakci s APIčkama je to dost useful, zvládá to i multistep věci, ale pořád to někdy chybuje včera jsem dělal testing, a překvapilo mě jak moc je gpt-4o a gemini hloupý, a jak moc je claude a o1 relativně chytrý což sedí i na ty všechny benchmark results z LLM agent studií ale pořád nedávaj ultra složitý věci ofc je to mega limited, ale když člověk využije to co to už umí, tak to dokáže dost pomáhat 😄 myslim že ten novej emerging o1-like reasoning paradigm (reinforcement learning with selfcorrecting search in chains of thoughts) k tomu zacina byt pomalu a jistě vic a vic blizko [https://www.youtube.com/watch?v=6PEJ96k1kiw](https://www.youtube.com/watch?v=6PEJ96k1kiw) nebo ještě kombinovat indukci s transdukcí [https://www.youtube.com/watch?v=w9WE1aOPjHc](https://www.youtube.com/watch?v=w9WE1aOPjHc) ale uvidime co 2025+ přinese 😄 Why AGI? - physics for the sake of truth - math - understanding brain https://x.com/Teknium1/status/1879194676424753245 "It seems like on one hand the crypto bros from last year try to hype stuff like there is no tomorrow and on the other side there is a majority who thinks it is a scam like crypto and needs to be prohibited asap. No real nuance and technical knowledge present at either side sadly. But this is the case for most topics in general and you only notice it once you are familiar with it. Lots of people have a big opinion and little knowledge of the domain. You and me are probably the same in this regard on some other topic and we don't even notice it." [Reddit - The heart of the internet](https://www.reddit.com/r/MachineLearning/comments/1huxrd2/d_misinformation_about_llms/) Learning more advanced mathematics so that I have better problems to challenge AI with Once compute gets even more cheaper, once we have more accelerators for all sorts of types of math, we will see explosion of scaling of diverse AI architectures beyond matrix multiplication math příjde mi fascinující, jak tenhle AI boom je z velký části náhoda 😄 protože Nvidia nejdřív začala dávat výpočty na násobení matic do grafik, protože tak fungují z velký části videohry, a to škálovali, protože tam je trh, ale vzhledem k tomu, že některý starý AI systémy (určitá forma neuronových sítí) vlastně používají stejnou matiku, tak na tom researchers začali zkoušet škálovat ty starý AI systémy, a voala, ono to fungovalo, a Nvidia se chytla, a tak deep learning revoluce začala nebo ještě technicky jednu věc co to kind of nahradilo je recommending content na to ani není množství indů, afričanů, číňanů atd. na světě, aby byly schopny na všech sociálních sítí pro všechny lidi doporučovat to množství contentu co se doporučuje přes AI systémy 😄 ty taky začínají víc a víc používat Transformer architekturu (v podstatě ta stejná architektura jako většinou v LLMs, ale jinak nastavená) zajímalo by mě, či ten důvod, proč mainstream lidi vidí spíš jenom hlavně ty chatboti od big techu, je ten, že s tím jde actually přímo komunikovat jednoduše přes přirozený jazyk a všechny ty další AI systémy co už jsou ve všem v pozadí nevidí, protože s nima přímo neinteragují, a ty vidí spíš jen ti co je tvoří Já rád nový AIčka nechávám zkoušet dělat matematický důkazy, mapovat všechen STEM knowledge, zkoušet ať vytvoří nový AI architektury a matematický struktury, nový vědecký obory, dolat wisdom, tvořit co nejvíc information dense STEM text a scifi, zkoušet jak se chovají když jim dám personu mýho divine divergent mad scientist infinitely loving animal OCčka,... 😄 Lol o1 suddenly started thinking in Chinese for me. The second image is translated version. Prompt "Invent a scientific field that doesn't exist yet. Do not just recombine or connect existing ones." And it replied with "Chronoplasmatology", an interesting scifi idea of fundamental science and engineering of time. https://x.com/burny_tech/status/1880892492595318804 AI will help us understand the mysteries of the universe. It is already helping to some degree.