OpenAI predstavilo ChatGPT-5.5, nový frontier model zameraný na reálnu prácu s komplexnými cieľmi. Model má lepšie rozumieť dlhším zadaniam, používať nástroje, kontrolovať vlastné výstupy a doťahovať viackrokové úlohy až do konca. Pre používateľov je dôležité hlavne to, že nejde len o lepšie odpovede v chate, ale o posun k modelu, ktorý dokáže samostatnejšie pracovať nad celým zadaním.
Medzi hlavné novinky patrí pokročilejšie riadenie reasoning režimu, veľké kontextové okno, práca s textom aj obrázkami a silnejšia podpora programovania. GPT-5.5 teraz poháňa ako ChatGPT, tak aj Codex, takže sa jeho schopnosti premietajú aj do vývojárskych nástrojov.
Predstavenie modelu GPT-5.5 od OpenAI Zdroj: https://www.youtube.com/watch?v=blGtYq9mL18
Zdroje: predstavenie GPT-5.5 od OpenAI, video Introducing GPT-5.5.
Codex 3.0 od OpenAI posúva coding asistenta smerom k autonómnemu vývojovému agentovi. Vďaka modelu GPT-5.5 má zvládať návrh, implementáciu, testovanie aj ladenie aplikácií vo viacerých krokoch. Dôležitá je tiež práca s vizuálnym prostredím a prehliadačom, kde agent dokáže testovať workflow podobne ako bežný používateľ.
Z praktického pohľadu je zaujímavé hlavne prepojenie s browser automation, konzolou, sieťovými logmi a generovaním dokumentov v Microsoft Office alebo Google Drive. Cieľom je automatizovať celý cyklus build, test a debug, čo môže výrazne zrýchliť vývojové tímy aj interné QA.
Ak podobné agentické workflow plánujete napojiť do vlastných aplikácií cez API, pozrite sa na Prenájom LLM s API. Získate prostredie, cez ktoré je možné modely integrovať do interných nástrojov, automatizácií a firemných systémov.
Codex is INSANE - Everything New in 10 Minutes Zdroj: https://www.youtube.com/watch?v=t2G0L0cqktw
OpenAI rozšírilo Realtime API o tri nové hlasové modely. GPT Realtime 2 pridáva konfigurovateľné reasoning schopnosti do speech-to-speech scenárov, má lepšie dodržiavanie inštrukcií a spoľahlivejšie používanie nástrojov pri zložitejších hlasových agentoch.
Popri ňom prichádza GPT Realtime Translate pre streamovaný preklad reči do reči a GPT Realtime Whisper pre živý prepis zvuku, titulky a poznámky. Všetky tri modely sú podľa OpenAI všeobecne dostupné pre produkčné použitie, čo je dôležité pre call centrá, asistentov, interný support aj aplikácie s hlasovým ovládaním.
Zdroje: OpenAI o nových hlasových modeloch v API.
Grok 4.3 je nový pre-trained model od xAI, ktorý zachováva podobnú veľkosť ako Grok 4.2, ale prináša upravenú architektúru a znalostný cutoff v decembri 2025. Dlhšie tréningové behy majú zlepšovať hĺbku reasoning schopností, čo je dôležité hlavne pri komplexných dopytoch a viackrokovom riešení problémov.
Z prevádzkového pohľadu poteší aj nové API, cena za vstupné tokeny je oproti predchádzajúcej verzii takmer o polovicu nižšia. Slabším miestom zostáva absencia trvalej pamäte medzi reláciami, čo je znateľné hlavne pri dlhodobejšej práci na projektoch alebo pri osobnejších asistentoch.
Zdroj: release notes Grok 4.3.
NVIDIA Nemotron 3 Nano Omni je open omni-modal reasoning model s 30B celkovými a 3B aktívnymi parametrami v architektúre MoE. Spája porozumenie textu, obrazu, zvuku a videa, takže mieri na agentov, ktorí musia pracovať s viacerými typmi vstupov v jednom procese.
NVIDIA uvádza až 9× vyššiu efektivitu pre agentické workflow, napríklad computer use, prácu s dokumentmi alebo audio-video reasoning. Model je dostupný vo formátoch NVFP4, FP8 a BF16, čo uľahčuje výber medzi rýchlosťou, presnosťou a nárokmi na hardware.
Predstavenie NVIDIA Nemotron 3 Nano Omni Zdroj: https://www.youtube.com/watch?v=AZ2zr0zOi5M
Pre tímy, ktoré chcú podobné modely testovať vo vlastnej réžii, dáva zmysel dedikovaný výkon bez zdieľaných limitov. AI GPU server Vám umožní overiť reálnu rýchlosť inferencie, pamäťové nároky aj správanie modelu v praktických úlohách.
Zdroje: NVIDIA blog, Nemotron 3 Nano Omni na Hugging Face, video NVIDIA Nemotron 3 Nano Omni.
Kimi-K2.6 od Moonshot AI je open-weight multimodálny agentický model s 1T parametrami. Podľa uvedených benchmarkov dorovnáva GPT-5.5 na SWE-Bench Pro s výsledkom 58,6 % a vedie na Humanity's Last Exam s nástrojmi, kde dosahuje 54,0 %.
Výrazným parametrom je aj cena. Moonshot AI uvádza približne 80 % nižšiu cenu za milión tokenov, čo môže byť zásadné pre produkčnú prevádzku a väčšie interné nasadenie. Model má navyše škálovať až na 300 sub-agentov a 4 000 koordinovaných krokov, takže mieri na veľmi dlhé agentické úlohy.
Pokiaľ sa výsledky potvrdia v praxi, Kimi-K2.6 bude patriť medzi najsilnejšie otvorené modely pre programovanie, analýzu a automatizáciu. Zaujímavý je hlavne pre tímy, ktoré chcú špičkový výkon, ale zároveň hľadajú väčšiu kontrolu nad prevádzkou a nákladmi.
Predstavenie Kimi K2.6 ako open-source coding modelu Zdroj: https://www.youtube.com/watch?v=scuzhhZpoHs
Zdroje: blog Kimi-K2.6, Kimi-K2.6 na Hugging Face, video Meet Kimi K2.6.
Otestujte výkon NVIDIA RTX PRO 6000 Blackwell pre vLLM, firemné AI API aj viac používateľov súčasne.
Bez investície do vlastného hardvéru si overíte, koľko výkonu skutočne dostanete z jedného GPU.
DeepSeek-V4-Pro je preview release masívneho Mixture-of-Experts modelu s 1,6T celkovými parametrami a 49B aktívnymi parametrami. DeepSeek ho stavia ako model pre frontier-level výkon v reasoningu, programovaní a viacjazyčných úlohách.
Veľkosť modelu ukazuje, že open-weight scéna sa rýchlo približuje segmentu najlepších uzavretých systémov. Pre bežné lokálne použitie ale pôjde o veľmi náročnú kategóriu, ktorá bude dávať zmysel skôr vo výkonných serverových zostavách alebo špecializovanom clusteri.
Videoshrnutie modelu DeepSeek V4 a jeho výkonu Zdroj: https://www.youtube.com/watch?v=p7K3xfViWCE
Zdroje: DeepSeek-V4-Pro na Hugging Face, video zhrnutie DeepSeek V4.
DeepSeek-V4-Flash je rýchlejší a úspornejší súrodenec modelu V4-Pro. Ponúka 284B celkových a 13B aktívnych parametrov, takže cieli na lepší pomer kvality a výpočtových nákladov.
Zdroj: DeepSeek-V4-Flash na Hugging Face.
Qwen3.6-35B-A3B je otvorený 35B MoE model s aktívnymi približne 3B parametrami. Qwen ho smeruje hlavne na agentické programovanie a praktické coding úlohy, kde je dôležitý výkon, cena inferencie a stabilita dlhého kontextu.
Podľa používateľských testov si model veľmi dobre drží informácie aj v dlhom kontexte okolo 200K tokenov, a to aj pri agresívnejšej kvantizácii. To je dôležité pre prácu nad väčšími repozitármi, rozsiahlou dokumentáciou alebo dlhšími technickými zadaniami.
Praktické porovnanie Qwen3.6 a Gemma 4 v dlhom kontexte Zdroj: https://www.youtube.com/watch?v=ONQcX9s6_co
Zdroje: Qwen blog, Qwen3.6-35B-A3B na Hugging Face, video Qwen3.6 vs Gemma 4.
Qwen3.6-27B je dense model s 27B parametrami, ktorý má ponúknuť veľmi silný coding výkon v kompaktnejšom formáte.
Podľa dostupných benchmarkov prekonáva Claude Opus 4.5 a doťahuje na Claude Opus 4.6, čo je pri modeli tejto veľkosti veľmi pôsobivé. Pre interné použitie je to zaujímavé hlavne tam, kde chcete silný lokálny model, ale nechcete stavať infraštruktúru okolo veľmi veľkého MoE systému.
Videoshrnutie modelu Qwen3.6-27B pre lokálne použitie Zdroj: https://www.youtube.com/watch?v=geYiiJV2ccU
Zdroje: Qwen3.6-27B blog, Qwen3.6-27B na Hugging Face, videoshrnutie Qwen3.6-27B.
ZAYA1-8B od Zyphry je reasoning MoE model s 8B celkovými a iba 700M aktívnymi parametrami. Napriek tomu má byť konkurencieschopný s výrazne väčšími modelmi v matematike, programovaní a zložitejšom uvažovaní.
Zaujímavý je aj tréning na akcelerátoroch AMD Instinct MI300. Ukazuje to, že výkonný tréning AI modelov nemusí byť nutne naviazaný iba na NVIDIA ekosystém. Pre trh je to dobrá správa, pretože širšia hardvérová konkurencia môže časom znížiť cenu vývoja aj prevádzky.
Zdroje: Zyphra blog, ZAYA1-8B na Hugging Face.
Otestujte výkon NVIDIA RTX PRO 6000 Blackwell pre vLLM, firemné AI API aj viac používateľov súčasne.
Bez investície do vlastného hardvéru si overíte, koľko výkonu skutočne dostanete z jednoho GPU.
Ternary Bonsai 8B od PrismML ukazuje extrémnu kompresiu na 1,58 bitu na váhu. Celý 8B model sa vojde do približne 1,75 GB, čo je zhruba 9× menej než pri full-precision variantoch podobnej veľkosti.
Model dosahuje priemerné benchmark skóre 75,5, prekonáva doterajšie 1-bit modely a beží približne na 82 tokenoch/s. PrismML zároveň uvádza až 5× lepšiu energetickú efektivitu a 8× vyššiu rýchlosť, čo môže byť dôležité pre lacné lokálne AI, edge nasadenie alebo interných asistentov s nižšími nárokmi na absolútnu kvalitu.
Praktické otestovanie modelu Ternary Bonsai 8B Zdroj: https://www.youtube.com/watch?v=lDlkkDs43aw
Zdroje: PrismML Ternary Bonsai, Ternary Bonsai 8B GGUF na Hugging Face, video test Ternary Bonsai.