Thoughts AI technical 9

Why is Google AI overview so bad compared to competitors? No jo to chce lepší konfigurovatelnost a edukaci o schopnostech/limitech a maximalizování value místo čistě korporatního růstu atd. Já mám Google AI overview vypnutý pořád, protože když to chci ale lepší tak jdu jinam. Na Google rantuju ale furt, často nechápu že to tak kazí a že je competitors tak pořád mogujou, když mají infinite GPU and money glitch, a top AI pro vědu nebo hry, ale jejich komerční generative LLMs suck v porovnání s jinýma. To by asi chtělo předělat celý incentivy profitmaxxing komerční aplikovaný genAI odnoše Googlu topící se v monokulturní byrokracii co je pozadu a závodí v AI na trhu za každou cenu a tím releasujou inferior alternativy k jiným, mezitím co Google vědci úspěšně vydávají top fundamental AI research a AI pro vědu, jako by byli od komerční části úplně disconnected. Hmm, nebo jim destabilizovat monopol na search aby kvalitnější solutions měli větší šanci 😄 One can dream Tam ten failure mode ze screenshotu je citace z Onion article. Ostatní AI search enginy co jsem zkoušel ten article buď vůbec nezmíní, nebo řeknou že někdo dělá satiru. Někdy jsou failure modes i tam a lidi by kolem toho měli být educated, ale orders of magnitude míň. Bys asi musel předělat celou tuhle profitmaxxing komerční aplikovanou genAI odnož Googlu. Příjde mi že ty incentivy tam teď jsou že se topí v korporátní byrokracii a monokultuře rozbíjející inovaci, mezitím co je competitors pořád mogujou, takže je vedení víc a víc pushuje aby co nejrychlejc releasnuli co nejpodobnější produkty aby nebyli pozadu v AI race na trhu, a výsledek jsou všechny tyhle Google komerční genAI clusterfucky a velký failure modes za poslední roky (černí nazis a founding fathers taky byli fun). Mezitím co smarter lidi v Googlu spíš úšpěšně pracujou na fundamentálním AI researchu (vznikl tam transformer na kterým jede majorita všech LLMs na světě v tenhle moment, alphazero, titans memory mechanism, atd.) a AI pro vědu/hry (tam zas alphazero, alphafold, atd.). Clusterfucky jsou i jinde ale ta frekvence od Googlu je jiná úroveň. Tipoval bych že podobný věci se dějou v Applu. Podobně s komerčním genAI flopujou tak co nejrychleji releasujou nedokončený věci aby "nějak zůstali" v AI závodě. Je zajímavý jak je to pro spoustu usecases už teď hodně useful a zároveň tak ztrátový. Myslím že z velký části je ta ztrátovost důsledek toho, že každá závodicí entita závodí o long term co největší market capture za každou cenu jako giganticej bet, a ty častý 10x efficiency gains stejně nestačej, a chcou expandovat dál anyway, takže i kdyby další improvements přestaly přicházet a k tomu všichni crashnuli, tak vyhraje ten, co měl největší market capture a největší efficicny gains, co vyhrál dominanci v těch částech marketu kde je to useful a actually profitable dál provozovat na nějaký úrovni. Je fun když se člověk koukne na starý Sam Altmanovy přednášky o tom jak začít startup, tak mluví o tom že chceš co nejrychleji expandovat a monopolizovat nějakej market, a zároveň jinde mluvil o tom že nejúspešnější lidi tvoří religions. Přesně to dle mě solidně úspěšně udělal s OpenAI alespoň ze začátku, kde bohužel jeho moat se poslední rok+ začíná víc a víc rozpadat, kde všichni competitors je dohání, a většina senior top researchers utíkají ke competitors jako Anthropic. People: arguing whether AGI will run on digital GPUs, biologically inspired neuromorphic hardware, biological hardware, analog hardware, stochastic hardware, optical hardware,... Me, an intellectual: Magic the gathering hardware is all you need [[1904.09828] Magic: The Gathering is Turing Complete](https://arxiv.org/abs/1904.09828) Sem tam používám velký jazykový modely AIčka jako knihovníka co mě navede na dobrý knížky V tom jsou hodně dobrý a užitečný 😄 A je to ještě lepší když jsou napojený na knihovny To je obecně jeden z mých největších využití velkých jazykových modelů - navedení na užitečný zdroje, vymapování možných rabbit holes A je to často mnohem lepší než google search když jsou dobře udělaný a propojený Hledání knih, studií, návodů, řešení problémů, videí, filmů, přednášek,... používám to na to každej den. V tomhle kontextu to jde vidět jako interface přes přirozený jazyk nad věděním lidstva nebo/a nad specializovanou databází. Btw Google search taky interně při hledání používá velký jazykový modely se skoro stejnou architekturou na hledání věcí. Většina lidí nemá tušení že velký jazykový modely v tomhle kontextu využívají denně. A nemyslím AI overview, tohle je něco jinýho, tyhle nejsou chatovací a generativní, tyhle jsou na sémantický porozumění na hledání, kde je to to nejlepší co teď máme. Negooglí search enginy mají něco podobnýho, bez machine learningu tohle už spíš nejde. [Understanding searches better than ever before](https://blog.google/products/search/search-language-understanding-bert/) + [RankBrain - Wikipedia](https://en.wikipedia.org/wiki/RankBrain) " People few years ago: AI cannot oneshot working file with code, so it will never work lmao, it's worthless forever People today: Okay it can oneshot whole simple apps with frontend and backend instantly working, but it breaks down for more complex apps, so it will never work lmao, it's worthless forever People in few years: Ok it can oneshot pretty complex apps, but it cannot oneshot for example all of Google's software, so it will never work lmao, it's worthless forever People in even more years: Okay it can oneshot even that, but it cannot make fundamental physics breakthroughs, so it will never work lmao, it's worthless forever People in even more years: Uhhh... But it still only mimics the One and Only True Superior Sacred Biological Human Intelligence! " na tenhle typ appek z obecnýho hlediska je teď nejlepší Cursor Agent s Claude 3.7 Sonnetem jestli chceš relativně násobně míň chyb, pak je několik specializovanějších co fungujou líp na specializovanější usecases ChatGPT sucks for coding tbh relativně ke competitors, navíc pokud ještě k tomu používáš tu dumbest 4o verzi 😄 Claude 3.7 Sonnet v novým Cursoru co před pár dny vyšel mě teď mega boostnul I see, that's better, still relatively bad for coding compared to alternatives 😄 Pořád si s Claude+Curosem např generuju různý grafy v kontextu machine learningu A různej frontend taky Nebo pokud chci specializovanější appky tak je na to biliarda specializovanějších systémů co interně používaj toho Claude 3.7 Sonneta většinou A často mě překvapí jak nádherně to někdy dá na poprvý Ale často ho různě nuduju ChatGPT jsem na kódování nepoužil už asi rok, jsou mega pozadu tenhle týpek např pomocí jenom toho stacku (Claude+Cursor) dělá hru už asi týden 😄 https://fxtwitter.com/levelsio/status/1897784027186446820 tohle by bylo s ChatGPT alone absolutně nemožný 😄 jsou strašně pozadu Poprvý jsem díky tomuhle solidnímu dalšímu posunu v AI co vyšel před 2 týdny schopnej za den v podstatě čistě jen přes AI vygenerovat hodně random nápadů na hodně simple appky do v podstatě proof of concept fungujícího stavu 😄 Tohle před tím tak dobře nešlo Tady jsem o tom postoval, např random roguelike game idea s LLM generated characters co jsou powered by LLM 😄 ⁠ Ale furt to např suckuje ve víc komplexnějším machine learningu když to neguiduju totálně za ručičku, ale stejně to někdy překvapuje, čím víc se to vede za ručičku tím líp Ale jde vidět jak to pomalu a jistě tu komplexitu víc a víc zdolává s každým novým releasem Dneska mám další nápad jak trénovat na vědu kreativnější modely přes reinforcment learning signály hodnotící jak moc jsou rebelský a revolutionary, možná rychle poskládám dohromady, až něco dodělám v práci Takže pokud chceš lepší výsledek tak doporučuju používat Cursor agenta+Claude [Cursor - The AI Code Editor](https://www.cursor.com/) , a nechat ho iterovat nad děláním tý appky dokud tam pořád je error nebo nějakej bug, a dokud jsou věci jinak než chceš, a všechno mu to říkat. A výsledek tohodle konstantního iterovaní je, že to buďto utluče do nějaký funkční verze, nebo se utopí ve špatně nastavený komplexitě. 😄 Zároveň čím víc ho vedeš za ručičku, tím líp, s tím co přesně chceš aby udělal za task, jaký přesnější technologie a vzory nebo rovnice v kódu má použít, jak přesněji strukturovat kód, nechat ho hledat návody na webu, informace z libraries, docs, dělat plány, apod., nebo ho nudgovat refaktorovat, unifikovat duped kód apod, redukovat špatnou komplexitu když se začne topit, posílat screenshoty z frontendu atd. 😄 Plus rollbackovat na starší verze když se to začne roztíkat 😄 A nejnovějšího Clauda co před těma dvěma týdny vyšel je zároveň potřeba někdy zastavit, aby se nesnažil postavit celou firemní infrastrukturu když jsi chtěl jen přidat jeden graf lmao 😄 připadá mi že tomu nejnovějšímu Claudovi dali až moc velkou dávku Adderallu 😄 můžeš si tam dát vlastní Anthropic API key co je pak dle usage, nebo dát $20 Cursoru, což se dle mě vyplatí víc, a Cursor mají privacy mód a Anthropic říká že nad tím co jim posíláš netrénuje pokud nejsi flagged pro trust safety review (na webu o tomhle všem mají víc detailů) někdy je vibe coding pocitově jak ovládat vesmírnou loď 😄 teď tam ještě přidali Yolo mód kde jede nekonečně a nemusíš nic approvovat 😄 je strašná sranda mu dát nějakou vágní ideu a pak říkat "make it better" "make it better" "make it better" když chce dát člověk víc autonomity jemu 😄 mají nejlepší coding modely už asi rok no 😄 a před pár dnů vydali Claude Code co je na tom možná líp než Cursor oba OpenAI a Anthropic dělají hodně nemorálních sviňáren, ale myslím že Antropic je na tom overall líp z toho všeho co jsem slyšel, a těm alespoň nevládne až moc takovej velkej král lhaní pro získání moci 😄 rat race, everyone must be the first one a Google je dle mě na tom ještě hůř 😄 mi připadá že pokud by se v používání techu měl člověk řídit jenom podle toho jak moc jsou výrobci morální tak sedím v jeskyni se selfmade procesorem s vlastně napsaným OS (nebo exotickým linuxem) s vlastně napsanýma programama a vlastně trénovanýma AIčkama atd. 😄 ono je taky problém že často neexistuje jednoduše jeden optimální vhodnej model nebo komplexní systém obsahující modely, a člověk musí prostě trial and error bruteforcnout milion modelů a systémů a služeb protože se prostě neví, ale i když se už něco ví, tak někdy klienti cpou do chatgpt něco na co existuje tuna specializovanějších nebo lepších modelů, a někdy by bylo např nejlepší natrénovat si vlastní model, na co každej fakt nemá dovednosti, atd. :smile: " Let Claude in Cursor iterate over the app while there's still an error or a bug, and while things are different than you want, and send it all to Claude, and tell Claude everything explicitly that comes to mind that is wrong, like when you talk to a human. The result of this constant iteration is that it either gets hammered into some working version, or it drowns in chaotic wrong complexity beyond repair. At the same time, the more you lead him by the hand with what exactly you want him to do for the task, the better. The more overall context you give him, the better. Tell him as much as you would tell to a coworker about the code and more, give him plans, logs, code, guides and everything. Use other reasoning models for planning sometimes. You can tell him much more what precise technologies and patterns in the code he should use, lead him in structuring the code, letting him look for tutorials on the web, information from libraries, documentation, use thinking models for making plans first, give him extra tools, etc. You can nudge him to refactor, unify duplicated code, reduce bad complexity when it starts to melt down, send screenshots from the frontend, etc. Rollback to older versions when it starts to drown too much in bad complexity. The latest Claude that came out two weeks ago also needs to be stopped sometimes so that he doesn't try to build the entire company infrastructure when you just wanted to add one chart, they gave him too much Adderall. 😄 Vibe coding is like piloting a spaceship, or taming a beast, or drawing using an interesting brush that paints with latent space 🖌️ " Think of AI as latent space brush And single pass through multibillion dimensional latent space isn't enough, I need quadrillion googols dimensional latent space with optimal iterative reasoning refinement i believe generalist omnimodal models will eventually eat all specialized models across all domains, just give it time People are laughing at non-technical vibecoders with buggy code, but it seems to me that the fact that those people who don't understand the technical stuff can still get this relatively far for now, thanks to all the AI tools, is pretty mindblowing tbh, when those AI tools had trouble writing any kind of functional coherent function a few years ago. When this rate of progress is extrapolated on the various graphs of capabilities over time, measured by all sorts of different differently flawed benchmarks, that I'm watching, I really wonder where those capabilities will be in a few years. https://x.com/burny_tech/status/1903259429534912588?t=42Kq23W2uxiIGgq1BPkr7w&s=19 AI forecasting has its issues but it's the best we have I think Extrapolace grafů benchmarků je jeden způsob predikce ve forecastingu. Samozřejmě může být wrong. Zároveň jsem to napsal tak obecně, že snad jediný counterexample k my obecný predikci, že asi bude nějaký progress, by bylo, kdyby se do pár let stal úplně minimální, nebo absolutně žádný progress, čemu dávám dost malou ale nenulovou pravděpodobnost, takže to úplně nevyvracím. 😄 Zatím do teď mě přijde že tahle metodologie relativně funguje, i když má svý flaws 😄 Plus to jde extrapolovat mnoha způsoby, podle toho, jaká funkce se fitne podle dat a metodologie. Plus tím, jak tohle je pokus o predikci extrémně komplexního fenoménu, co se blbě exaktněji definuje a měří, co se snaží aproximovat bambilion ovlivňujících interacting variables, kde ještě dle mě dost hraje roli teorie chaosu, tak uncertainty jakýmkoliv směrem je tam dle mě fakt gigantická. https://x.com/burny_tech/status/1903817268514971742 2024Q3: “Reasoning” will probably need non-neural search, like MuZero. ︀︀2024Q4: Oh… apparently you can just do thinking in the context window and it just *learns* to backtrack and so on? Huh. ︀︀2025Q1: Memory will probably need test-time backward-passes, like AlphaProof. 2025Q2: Test time adaptation goes mainstream? Or more neurosymbolic architectures? Neurally guided program synthesis? Combining with knowledge graphs? Generalizable world models? [https://www.youtube.com/watch?v=w9WE1aOPjHc](https://www.youtube.com/watch?v=w9WE1aOPjHc) [https://www.youtube.com/watch?v=mfbRHhOCgzs](https://www.youtube.com/watch?v=mfbRHhOCgzs) Current AI models have some nonzero degree of out of distribution generalization capability allowing for nonzero degree of novel stuff that isn't just merging and recombinations of memorized patterns together. Reinforcement learning is the currently best driver of out of distribution generalization. But cracking stronger out of distribution generalization in general that is reliable is still unsolved holy grail of AI. Reasoning using chains of thought in language, chains of continuous thought/latent space, graphs of thoughts, chains of images, maybe soon chains of audio/videos... I wonder how soon is some architecture that combines it all, since humans think abstractly, in language, visually, in audio, in video. With fully multimodal base. An agent/multiagent system that writes and runs a specialized agent/multiagent system for the query at hand How about increasing image gen prompt adherence using reinforcement learning by generating an image, prompt visual LLM for evaluating prompt adherence and converting that into reward signal And you could use the LLM to try to extract a lot of more signals to create all sorts of incentives And in language you could try to use LLM as a judge in non-easily-verifiable domains and get reward signal from that It will be expensive tho LLM accuracy will be probably often broken but it should give better signals than just noise Or instead of actual prompt adherence, you'll index on adherence to the vLLM's world model, which may be too distant from ground truth And noise might get amplified too much RL algorithm inferring on the fly which combination of modalities is more effective for various tasks in it's hypergraph of multimodal thoughts? https://fxtwitter.com/TheTuringPost/status/1906304408415359067?t=QrP_I5vSzaLt-3r42Hyyig&s=19 ještě mě napadá že by možná AIčkám šlo feedovat pouze irl pictures/videos (a/nebo zkušenosti robotů) a pak nějak incentivitzovat ať nějak zhmotní ty jejich naučený absktratní koncepty z latentního prostoru (a jejich mutace) v abstraktnějším vizuálním jazyce, což si myslím že je velká část toho jak první umění u lidí vzniklo, když pralidi poprvý načmárali tvary zvířat v hlíně, když se inspirovali čistě reálným životem, a ne (v kombinaci) s jinými umělci, kde tím jak byli první, tak to jinak nešlo 😄 což by možná v podobný formě šlo nejak aplikovat i na derivace rovnic světa? 🤔 AIčka co pracují z ničeho částečně existují, jako jsou různý typy genetických nebo guided novelty algoritmů, ale jejich výsledky jsou často dost alien věci, což je ale taky interesting, a je to relativně málo developed, jak na to nejde tolik pozornosti 😄 v praxi je teď nejvíc trendy že se jim nejdřív většinou ukážou lidský a jiný syntetický data v první fázi v pretrainingu, a v druhý fázi se učí přes reinforcement learning pomocí nějaký reward funkce, což se učí sami od sebe bez lidských a jiných syntetických dat, kde pak vznikají ty alien vzory, co jsou nám ale zároveň bližší, díky tomu initial human biasu 😄 ale existuje mnohem větší algoritmická diverzita než tohle, a různý hybridy, ale tohle je teď jenom nejvíc mainstream Čím míň lidský inspirace a čím víc samoučení bez inspirace, tím víc ty vzory mají tendence být alien. Což jde asi říct i u lidí: Čím víc kdokoliv tvoří cokoliv v izolaci bez influencí od jiných lidí, tím to má tendenci být odlišnější od jiných a unikátnější 😄 A u AIček to je vyrobený přes biasy různých typů architektur a učících algoritmů, než přes ty biasy co má mozek v jeho architektuře a učícím algoritmu, i když je tam určitý nenulový overlap ai replacing swes Digital industrial revolution 😄 Čím víc vývoj kolem tohodle sleduju, tím víc mám pocit že při každým (často jen částečně) zautomatizovaným typu procesu vznikne několik dalších nezautomatizovaných míst a ten celkový systém to upgrade v tom čeho je celkově schopen A myslím že hodně části toho procesu ještě dlouho nebude zautomatizovatelný, tím jak dosavadní různý AI systémy jsou v dost aspektech jiný typ inteligence než ta lidská Ale open source a public modely jsou důležitý aby to upgradování co nejvíc lidí co nejvíc uniformě To že jsou to jiný typy intelligence je zároveň výhodný v tom, že zase v některých jiných doménách je to schopný dělat věci co lidi nejsou schopni dělat skoro vůbec Ale platí to i opačně