Najvýkonnejšie servery Najvýkonnejšie servery
Google s modelom Gemma 4 aktuálne výrazne posunul open source scénu. Nová generácia prináša silnejšie varianty pre náročnejšie nasadenie, menšie modely pre úspornú prevádzku aj zaujímavé možnosti, ako si tieto modely rýchlo vyskúšať v praxi. Práve Gemma 4 teraz patrí medzi najdôležitejšie novinky pre každého, kto sleduje dostupné a výkonné otvorené AI modely.

AI scéna zažíva v posledných týdžňoch veľmi dynamické obdobie, ktorému aktuálne dominuje príchod modelu Claude Mythos a jeho schopnosť odhalovať kritické bezpečnostné trhliny. Okrem bezpečnosti sa však pozornosť upiera tiež k rozvoju open source sféry. Sledujeme nástup efektivnejšej kvantizácie a príchod hardwaru, ktorý sprístupňuje vysoký výkon širšiemu spektru užívateľov.

Gemma 4 - Google

Google vydal štyri rôzne varianty modelov Gemma 4 pod licenciou Apache 2.0, čo je pre komerčné použitie veľmi zaujímavé z hľadiska otvorenosti aj možnosti širšieho nasadenia. Najviac pozornosti priťahuje Gemma 4 - 31B, ktorá predstavuje priami výkonový posun oproti Gemma 3 27B a cieli na uživateľov, ktorí chcú čo najsilnejší otvorený model z tejto rady.

Popritom Google predstavil aj menšie varianty Gemma 4 - E2BGemma 4 - E4B. Tieto modely mieria na veľmi efektivnu prevádzku a dávajú zmysel tam, kde je dôležitá nízkaa hardwarová náročnosť, napríklad na koncových zariaďeniach alebo v mobilných scenároch. Zaujímavá je tiež Gemma 4 26B-A4B, ktorá je o niečo slabšia ako variant 31B, ale časť tohoto rozdielu vyvažuje vyššou rýchlosťou generovania tokenov.

Gemma 4 je dôležitá hlavne tým, že rozširuje ponuku použiteľných open source modelov naprieč výkonovými triedami. Dá sa teda lepšie vyberať medzi maximálnym výkonom, menšou pamäťovou náročnosťou a rýchlejšou inferenciou podľa konkrétneho use case. Pokiaľ si chcete Gemma 4 31B a Gemma 4 26B rovnako vyskúšať zadarmo, môžete využiť tiež AirGPT.cz.

Oficiálne predstavenie What’s new in Gemma 4 priamo od Google Zdroj: https://www.youtube.com/watch?v=jZVBoFOJK-Q

Zdroje: článok od Google, Gemma 4 31B na Hugging Face, Gemma 4 26B-A4B na Hugging Face, Gemma 4 E4B na Hugging Face, AirGPT.cz.

Turbo Quant - Google

Google tiež ukázal technológiu Turbo Quant, teda novú kvantizáciu, ktorá má podľa popisu umožniť prevádzku modelu až na úrovni Q3 bez výraznek straty schopností. Súčásťou je aj kompresesia KV cache, čo je dôležité hlavne pre dlhší kontext a efektívnejšie využitie pamäte.

Na papieri ide o veľmi zaujímavý posun, pretože nižšia kvantizácia obvykle znamená menšie pamäťové nároky aj lepšiu dostupnosť lokálnej prevádzky. Prvé neoficiálne testy ale naznačují, že rýchlosť generovania tokenov môže byť slabšia, ako by užívatelia čakali. Zatiaľ preto pôjde skôr o technológiu, ktorú bude potrebné hodnotiť až podľa oficiálnej implementácie a reálného nasadenia.

Pokiaľ riešite prevádzku väčších modelov, kvantizáciu alebo testovanie výkonu v praxi, vlastný dedikovaný výkon býva istejší ako čakanie na zdieľané kapacity. Práve preto řväčšina tímov volí AI GPU server, kde majú prostredie plne pod kontrolou.

Zdroj: research od Google.

Claude Mythos Preview - Anthropic

Anthropic predstavil súkromný model Claude Mythos Preview, ktorý vznikol primárne ako špičkový programovací model. Vedľajším efektom ale je, že dokáže veľmi dobre hľadať exploity, zraniteľnosti a závažné chyby v systémoch, prehľiadačoch aj aplikáciách. Nejde teda o model navrhnutý čisto pre bezpečnostný výskum, ale o veľmi silný coding model, ktorý sa v tejto oblasti ukázal ako mimoriadne schopný.

Dôležité je, že Anthropic zatiaľ neplánuje tento model sprístupniť verejnosti. Dôvodom je vysoké riziko zneužitia, pretože rovnká schopnosť, ktorá pomáha obrancom, môže významne pomôcť aj útočníkom.

Claude Mythos Preview v krátkom video zhrnutí Zdroj: https://youtube.com/watch?v=XRgGFQ0EgM0

Z pohľadu internej bezpečnosti je zaujímavé hlavne to, že podobné modely môžu výrazne zrýchliť audit aplikácií, knižníc aj vlastného kódu. Pokiaľ hľadáte službu, cez ktorú môžete podobné modely rýchlo napojiť do vlastných aplikácií a workflow, pozrite sa na Prenájom LLM s API.

Zdroje: Projekt Glasswing, research článok, ďalšie video zhrnutie.

Claude Code - Anthropic

Anthropic zároveň upravil limity v predplatnom pre Claude Code a obmedzenia boli podľa všetkého cieľené hlavne na OpenClaw. Ide o open-source framework pre autonómnych AI agentov, ktorý umožňuje spúšťať a ovládať umelú inteligenciu priamo z bežných komunikačných aplikácií, ako sú Telegram, WhatsApp alebo Discord. Prakticky to znamená, že časť workflow, ktorá kedysi mohla fungovať voľnejšie cez externé nástroje, je teraz viac zviazaná s oficiálnym prostredím Anthropicu.

Veľkú pozornosť vzbudil tiež únik Claude Code, vďaka ktorému bolo možné nahľoadnuť do pozadia toho, ako celý program funguje. Nešlo teda iba o reputačný problém, ale aj o situáciu, ktorá ukázala vnútorné princípy nástroja, jeho logiku a spôsob, akým je postavené samotné workflow.

Video zhrnutie zmien ohľadom Claude Code a obmedzení napojenia na OpenClaw Zdroj: https://youtube.com/watch?v=stZr6U_7S90

Zdroje: video zhrnutie úniku source code.

Rotor Quant - Scrya

Scrya prišla s technologiou Rotor Quant, ktorá podľa prvých informácií rieši slabiny, ktoré sa objavovali pri Turbo Quantu od Google. Pokiaľ sa tieto výsledky potvrdia aj v praxi, môže ísť o veľmi dôležitý krok pre efektivnu inferenciu väčších modelov pri zachovaní použiteľného výkonu aj rozumnej rýchlosti.

Práve oblasť kvantizácie dnes rozhoduje o tom, či sa pokročilý model dá prevádzkovať lokálne, vo firemnej infraštruktúre alebo len vo veľkých cloudových inštaláciách. Rotor Quant preto môže byť dôležitý nie len pre vývojárov, ale aj pre interné AI tímy, ktoré hľadajú cestu k lacnejšiemu a praktickejšiemu nasadeniu bez výrazných kompromisov.

Zdroj: článok o Rotor Quant.

Vyskúšajte AI/GPU server až na 7 dní ZADARMO

Otestujte výkon NVIDIA RTX PRO 6000 Blackwell pre vLLM, firemní AI API aj viac užívateľov súčasne.
Bez investície do vlastného hardwaru si overíte, koľko výkonu skutočne dostanete z jednoho GPU.

Chcem vyskúšať AI/GPU server
RTX PRO 6000 Blackwell

Qwen3.5-Omni - Alibaba

Alibaba rozširuje radu Qwen o model Qwen3.5-Omni, ktorý pracuje nie len s textom, ale tiež s obrázkami, videom a zvukom. Nejde teda len o daľší jazykový model, ale o multimodálny systém, ktorý dokáže spájať viac typov vstupov do jedného workflow.

Z praktického pohľadu je zaujímavé hlavne to, že Qwen3.5-Omni vie z nahraného videa a textového popisku pripraviť program alebo návrh riešenia. To rozširuje možnosti promptovania ďaleko za čisto textové scénáre. Pre komerčné nasadenie môže byť táto schopnosť užitočná napríklad pri automatizácii analýzy obrazových dát, internej dokumentácie alebo prevodu vizuálnych postupov do strojovo spracovatelnej podoby.

Qwen3.6-Plus - Alibaba

Druhou veľkou novinkou je Qwen3.6-Plus, ktorý nie je open source a podľa dostupných informácií mieri výkonovo proti silným modelom typu Claude Sonnet 4.6. Alibaba ho cieľi hlavne na programovanie a agentic coding, teda na scenáre, kde model nerieši len jeden prompt, ale dlhšie pracovné úlohy.

Zaujímavé je aj to, že neskôr majú byť vydané slabšie varianty tohoto smeru na Hugging Face. Pokiaľ sa potvrdí dobrý pomer výkonu a ceny, môže ísť o ďalšiu silnú alternatívu pre vývojové oddelenia, ktoré chcú moderný coding model bez plnej závislosti na amerických poskytovateľoch.

Nezávislé video s testom Qwen3.6-Plus Zdroj: https://youtube.com/watch?v=LQnoFIKJP3Q

Zdroj: Qwen3.6-Plus.

GLM-5.1 - Z.ai

Model GLM-5.1 od Z.ai patrí medzi najzaujímavejšie open source novinky poslednej doby. Výkonovo sa podľa dostupných informácií dostáva na úroveň Claude Opus 4.6 a zároveň mieri aj na náročnejšiu agentic coding úlohy.

Veľkou výhodou je otvorenosť modelu a nižšia cena oproti komerčným alternativam najvyššej triedy. Nevýhodou naopak zostáva jeho veľkosť, ktorá môže byť zásadnou prekážkou pre lokálnu prevádku. Pre organizácie s dostatečne silnou infraštruktúrou však môže ísť o veľmi zaujímavú cestu, ako získať špičkový model bez nutnosti platiť cenu za uzavreté API riešenie.

Zdroje: článok GLM-5.1, GLM-5.1 na Hugging Face.

Minimax 2.7 - Minimax

Minimax 2.7 je open source model s 229 B parametrami, ktorý vnímame ako veľmi vhodný výkonný interný model pre firmy. Výkonovo sa pohybuje okolo úrovne Claude Sonnet 4.6, ale zároveň dáva zmysel aj tam, kde chcete mať model pod vlastnou kontrolou a neriešiť všetko len cez externé API.

Z nášho pohľadu je na Minimax 2.7 najzaujímavejšie to, že ide o veľký model, ktorý už je možné realisticky plánovať pre internú prevádzku. Dvojica kariet 2× RTX PRO 6000 Blackwell ponúka dohromady 192 GB VRAM, teda 96 GB + 96 GB, takže je reálne uvažovať aj o prevádzke okolo Q5 s plným kontextom až 200 k. Presné čísla budú vždy závisieť na konkrétnej implementácii, ale práve tento typ odhadu z Minimaxu 2.7 robí veľmi zaujímavú voľbu pre interné AI nasadenie s vysokým výkonom.

  • Silný interný model – dává zmysel tam, kde chcete výkonnú AI držať vnútri vlastnej infraštruktúry.
  • Velká kapacita VRAM – zostava s 2× RTX PRO 6000 Blackwell otvára priestor aj pre vyššiu kvantizáciu a dlouhý kontext.
  • Vhodné pre podnikové nasadenie – kombinuje vysoký výkon a reálnu prevádzkovateľnosť bez nutnosti stavať extrémny cluster.

Pokiaľ chcete podobné modely testovať vo vlastnej réžii, pozrite sa na AI GPU servery. Vyhnite sa čakaniu na verejné kapacity a máte istotu, že výkon, VRAM a sieť zostávajú pod Vašou kontrolou.

Zdroje: hlavná stránka Minimax 2.7, Minimax 2.7 na Hugging Face.

Intel Arc B70 Pro - Intel

Intel Arc B70 Pro je podľa doterajších informácií mimoriadne zaujímavá GPU novinka hlavne z pohľadu pomeru cena, výkon a kapacita pamäte. Jedna karta stojí približne 950 USD a ponúka 32 GB VRAM, čo je v tejto cenovej hladine veľmi atraktívna kombinácia pre lokálne AI experimenty aj menšie firemné nasadenie.

Slabším miestom zostáva software podpora. Ovládače a frameworky bývajú podľa skúseností pozadu zhruba o 2 mesiace, takže novšie modely alebo nové inferenčné postupy na týchto kartách nemusia fungovať okamžite. Pokiaľ ale Intel tempo podpory zlepší, môže ísť o veľmi silnú voľbu pre používateľov, ktorí hľadajú lacnekšiu alternatívu k zavedejším GPU platformám.

Praktické testovanie zostavy sa 4× Intel Arc B70 Pro Zdroj: https://youtube.com/watch?v=RcIWhm16ouQ

Bonsai 8B - PrismML

PrismML ukazuje na modely Bonsai 8B veľmi agresívnu kompresiu až na 1-bit. Podľa zverejňovaných informácií tým model prichádza asi o 30 % svojich schopností, ale zároveň je približne 14× menší v pamäti a až  rýchlejší pri generovaní tokenov. To je veľmi výrazný kompromis, ktorý môže byť v niektorých scenároch prekvapivo užitočný.

Firma si technologiu zatiaľ necháva pre seba, ale tvrdí, že ju je možné použiť aj na iné modely. Pokuaľ by sa to potvrdilo vo väčšom merítku, mohlo by ísť o zaujímavú cestu pre prevádzku AI v prostredí s veľmi obmedzenou pamäťou alebo tam, kde je rýchlosť dôležitejšia ako absolútna kvalita odpovede. Pre špecializované prevádzky by to mohlo znamenať lacnejšie nasadenie modelov na bežnejšom hardware.

Praktické testovanie kompresie Bonsai 8B Zdroj: https://youtube.com/watch?v=aNg47-U_x6A

Zdroje: Bonsai 8B na Hugging Face, web PrismML.