Najvýkonnejšie servery Najvýkonnejšie servery

AI novinky 06/2026: NVIDIA zasypala trh novinkami, Google s Qwenom posúvajú hranice autonómneho programovania

Júnové AI novinky predstavujú štyri silné smery: rýchlejšie vizuálne generovanie, efektívnejšie open modely pre agentické úlohy, nástup multimodálnych systémov a lepšie benchmarky pre reálne programovanie. NVIDIA posúva výskum v oblasti obrazu, 3D rekonštrukcie a vlastnej AI infraštruktúry, zatiaľ čo Google, MiniMax, Datacurve a Qwen pridávajú modely a nástroje zaujímavé pre produkčnú prevádzku, interné AI nasadenie aj vývojové tímy.

Cosmos 3 - NVIDIA

Cosmos 3 je omnimodálny world model od NVIDIA pre oblasť Physical AI. V jednom systéme spája porozumenie, generovanie, simuláciu aj akciu nad textom, obrazom, videom, audiom a robotickými akciami. Pokrýva šesť schopností od vision-language reasoning cez generovanie obrazu a videa až po robot policy a forward alebo inverse dynamics.

Cosmos 3 je dôležitý hlavne tým, že posúva open ekosystém smerom k modelom, ktoré nie sú len jazykové alebo obrazové, ale majú ambíciu riadiť celé simulačné a robotické workflow. NVIDIA uvádza prvé miesto medzi open modelmi v benchmarkoch pre robotiku, smart space, autonómne riadenie a taktiež špičku v text-to-image, image-to-video a robot policy úlohách. Súčasťou vydania sú navyše reporty, model cards aj kód. Náš pohľad je, že práve podobné foundation modely budú zaujímavé pre tímy, ktoré chcú stavať vlastné interné AI nasadenie okolo robotiky alebo priemyselnej automatizácie bez uzavretého vendor lock-inu.

Introducing NVIDIA Cosmos 3: The Open Model That Thinks, Generates, and Acts Zdroj: https://www.youtube.com/watch?v=q7Hj3J9SOXw

Zdroje: projekt Cosmos 3 od NVIDIA Research, video Introducing NVIDIA Cosmos 3.

PiD - NVIDIA

PiD je nový dekódovací postup pre latentné difúzne modely, ktorý spája dekódovanie a super-resolution do jedného kroku. Namiesto klasického postupu, kedy sa obraz najprv dekóduje a až následne sa zvyšuje jeho rozlíšenie, generuje obraz rovno v pixelovom priestore vo vysokom rozlíšení. NVIDIA uvádza prevod z 512 x 512 na 2 048 x 2 048 pod 210 ms na GB200 a až 6x vyššiu rýchlosť oproti kaskádovým prístupom.

Dôležité je hlavne to, že PiD nie je len čiastková optimalizácia, ale zmena celej inference cesty. Podľa NVIDIA dosahuje 99,4 % preferencie proti najlepšej baseline a funguje naprieč latentnými priestormi ako FLUX, SD3, DINOv2.

Zdroje: projekt PiD od NVIDIA Research.

Deja View - NVIDIA

Deja View je nový model pre multi-view 3D rekonštrukciu, ktorý namiesto hlbokého zásobníka unikátnych vrstiev opakovane používa transformer blok. Počet iterácií pri spresňovaní tak funguje ako praktický výpočtový gombík pri inferencii. Model má len 117 M parametrov, ale v piatich benchmarkoch dorovnáva alebo prekonáva oveľa väčšie systémy ako pi3959 M, VGGT1 257 MDepth Anything 3-G1 201 M parametrami.

Prečo je to dôležité: Deja View spochybňuje jednoduchú logiku, že lepší výsledok nutne znamená väčší model. NVIDIA ukazuje, že pri 3D rekonštrukcii môže byť iteratívne spresňovanie lepší induktívny predpoklad než čisté zväčšovanie sítě. Pre organizácie, ktoré stavujú digitálne dvojčatá, robotické simulácie alebo vizuálnu inšpekciu, je to zaujímavé hlavne kvôli nižším nárokom na výpočet aj ľahšiemu škálovaniu.

Zdroje: projekt Deja View od NVIDIA Research.

Vyskúšajte AI/GPU server až na 7 dní ZADARMO

Otestujte výkon NVIDIA RTX PRO 6000 Blackwell pre vLLM, firemné AI API aj viac užívateľov súčasne.
Bez investície do vlastného hardvéru si overíte, koľko výkonu skutočne dostanete z jedného GPU.

Chcem vyskúšať AI/GPU server
RTX PRO 6000 Blackwell

Nemotron 3 Ultra - NVIDIA

Nemotron 3 Ultra 550B A55B je zatiaľ najvýkonnejší otvorený LLM od NVIDIA. Ide o MoE model s 550 B celkovými a 55 B aktívnymi parametrami, hybridnou architektúrou Mamba-Attention, routovaním LatentMoE a natívnou podporou speculative decoding cez MTP vrstvy. NVIDIA uvádza až 5x vyšší throughput, respektíve až 5,9x rýchlejšiu inferenciu než porovnateľné otvorené modely typu GLM-5.1, a to pri zachovaní podobnej kvality.

Model mieri na dlho bežiace agentické workflow, kde hrá rolu nielen presnosť, ale aj cena každého kroku. NVIDIA uvádza zníženie nákladov agentických úloh až o 30 %, kontext až 1 M tokenov, otvorenú licenciu OpenMDW-1.1 a kompletné vydanie checkpointov, datasetov aj tréningových receptov. V porovnaní s GLM 5.1 alebo Kimi K2.6 je zaujímavé hlavne to, že Nemotron 3 Ultra 550B A55B kombinuje vysoký výkon s výrazne efektívnejšou inferenciou.

Pre tímy, ktoré chcú model prevádzkovať samy, je to dôležitá správa hlavne kvôli variantom BF16NVFP4. Práve tu dáva zmysel testovať správanie modelu na dedikovanom AI GPU serveri, kde si overíte skutočný throughput, spotrebu pamäte aj to, či sa podobne veľký open model hodí pre Vašu produkčnú prevádzku.

Nemotron 3 Ultra Tutorial: Build an Autonomous Research Agent with NemoHermes and OpenCode Zdroj: https://www.youtube.com/watch?v=TaR3FKKuxvc

Zdroje: NVIDIA blog k Nemotron 3 Ultra, výskumná stránka Nemotron 3 Ultra, video Nemotron 3 Ultra Tutorial.

Gemma 4 12B - Google

Gemma 4 12B od Google DeepMind je stredne veľký multimodálny model, ktorý má bežať lokálne aj na spotrebiteľskom notebooku so 16 GB RAM. Hlavnou novinkou je encoder-free architektúra, v ktorej obraz aj audio vstupujú priamo do jazykového backbone modelu. Google tým z Gemma 4 12B robí prvý stredne veľký variant radu Gemma s natívnym spracovaním audia.

Dôležité je, že sa model výkonovo približuje väčšiemu 26B MoE modelu, ale s výrazne nižšou pamäťovou stopou. Výhodou je aj otvorenosť pod licenciou Apache 2.0 a rýchla podpora v Hugging Face, Ollama, llama.cppvLLM.

Predstavenie modelu Gemma 4 12B od Google DeepMind Zdroj: https://www.youtube.com/watch?v=LJIfSr2fVTc

Zdroje: predstavenie Gemma 4 12B od Google, video k Gemma 4 12B.

MiniMax M3 - MiniMax

MiniMax M3 je open-weight LLM, ktorý spája silné programovanie, agentické reasoning úlohy, natívnu multimodalitu a kontext až 1 M tokenov. Podľa MiniMax ide o prvý otvorený model, ktorý zvláda túto kombináciu v jednom balení. Tréning od začiatku zahrnoval text aj vision dáta nad viac než 100 T tokenmi a architektúra stojí na Sparse Attention.

Dôležitosť MiniMax M3 je hlavne v ukážkach dlhého autonómneho behu. Model mal počas 12 hodín samostatne reprodukovať ICLR paper18 commitmi a 23 figúrami a počas 24 hodín optimalizovať CUDA FP8 GEMM kernel na 9,4x zrýchlenie bez ľudského zásahu. To je presne ten typ signálu, ktorý zaujíma vývojové tímy riešiace dlhšie agentické workflow, automatizáciu výskumu alebo interné nástroje nad veľkými repozitármi.

MiniMax M3 IS INSANE! BEST Opensource AI Model! Beats Opus 4.7 and 50x Cheaper! (Fully Tested) Zdroj: https://www.youtube.com/watch?v=p6Npi-HBoRU

Zdroje: stránka modelu MiniMax M3, video k MiniMax M3.

DeepSWE - Datacurve

DeepSWE je nový benchmark od Datacurve zameraný na frontier AI coding agentov v dlhých softvérovo inžinierskych úlohách. Obsahuje 113 ručne písaných úloh nad 91 aktívnymi open-source repozitármi v jazykoch TypeScript, Go, Python, JavaScriptRust. Každá úloha vyžaduje prieskum repozitára, zásah do viacerých súborov a overenie správania. V priemere ide o 668 pridaných riadkov cez 7 súborov.

Hlavný prínos je v tom, že úlohy nie sú prevzaté z už zlúčených pull requestov, takže benchmark výrazne znižuje problém úniku benchmarkových úloh a zapamätania známych riešení, ktorý trápi časť starších sád typu SWE-Bench Pro. V rebríčku k 30. 5. 2026 vedie GPT-5.5 so 70 %, nasleduje Claude Opus 4.858 %GPT-5.456 %. Pre podnikové použitie je dôležité aj to, že DeepSWE sleduje nielen úspešnosť, ale aj cenu, runtime a objem tokenov. Pokiaľ podobných agentov plánujete integrovať cez API do vlastných workflow, dáva zmysel sledovať aj Prenájom LLM s API, kde môžete modely napojiť do interných nástrojov bez stavby celej integračnej vrstvy od nuly.

Zdroje: benchmark DeepSWE, leaderboard DeepSWE z 30. 5. 2026.

Qwen3.7-Max - Qwen

Qwen3.7-Max je proprietárny model od Alibaba zameraný priamo na éru agentov. Mieri na programovanie, kancelársku automatizáciu a dlhé autonómne behy v ráde tisícov krokov. Podľa zverejnených výsledkov vedie na Terminal Bench 2.0, na SWE-Verified je na úrovni Claude Opus 4.6 a zároveň patrí na špičku benchmarkov GPQA Diamond, HLE, HMMT 2026 aj IMO.

Silný dojem robia hlavne praktické ukážky. Qwen3.7-Max mal viac než deň autonómne optimalizovať kernel pre neznámy hardvér a dosiahnuť výrazne lepší výkon než referenčný Triton. Ďalšie demo ukazuje podstatne lepší výsledok na YC-Bench než starší Qwen3.6-PlusQwen3.5-Plus. Pre interné AI nasadenie je to dôležité hlavne tam, kde chcete dlhé autonómne workflow, ale zároveň potrebujete, aby model dobre fungoval naprieč rôznymi harnessmi ako Claude Code, OpenClaw alebo Qwen Code.

Qwen 3.7 Max: NEW Powerful AI Model! Beats Opus 4.6, Gemini 3.1, Deepseek v4! (Fully Tested) Zdroj: https://www.youtube.com/watch?v=UXar6lNCNcc

Zdroje: predstavenie Qwen3.7-Max, video k Qwen3.7-Max.

Qwen3.7-Plus - Qwen

Qwen3.7-Plus je multimodálny agentický model, ktorý spája vision a jazyk do jednej agentnej základne. Prakticky to znamená, že vie vnímať scénu, čítať a ovládať GUI, písať kód podľa vizuálnej predlohy a prepojovať prácu v grafickom rozhraní aj v CLI v jednej slučke. Vo zverejnených benchmarkoch prekonáva Claude Opus 4.6 v GUI a mobilných agentických úlohách a silne rastie aj v oblasti multimodálneho vnímania.

Dôležitý je aj praktický dopad. Qwen uvádza autonómny full-cycle vývoj aplikácie od zadania cez kód až po testy a dokumentáciu. Ďalšia ukážka zahŕňa vernú rekonštrukciu aplikácie macOS Stocks s napojením na živé trhové dáta. Náš pohľad je, že Qwen3.7-Plus bude zaujímavý hlavne pre tímy, ktoré chcú stavať vlastných multimodálnych agentov pre interné použitie, QA alebo ovládanie podnikových aplikácií bez prepínania medzi niekoľkými špecializovanými modelmi.

Zdroje: predstavenie Qwen3.7-Plus.