Najvýkonnejšie servery Najvýkonnejšie servery
Papierové špecifikácie nových grafických kariet od AMD vyzerajú skvele a ich cena láka na nákup alebo prenájom pre AI projekty. Dokáže ale softvérová platforma ROCm (alebo komunitná barlička ZLUDA) v reálnom nasadení LLM modelov konkurovať zavedenému štandardu NVIDIA CUDA? Vzali sme karty radu Radeon W7900 a porovnali s NVIDIA CUDA na RTX PRO 6000 Blackwell. Výsledky testu vás možno prekvapia.

Prečo je inštalácia na AMD náročnejšia, než sa zdá

Zamerajme sa najprv na to, čo je pre AMD ROCm zásadnou limitáciou: operačný systém. AMD oficiálne podporuje iba Ubuntu a distribúcie založené na RHEL. Na Debiane buď stojíte pred kompiláciou zo zdrojových kódov, alebo sa spokojíte so starou verziou ROCm. apt-get balíčky pre Debian oficiálne neexistujú. A toto obmedzenie sa netýka iba distribúcie ako takej, ale celého ekosystému frameworkov, ktoré na nej stavajú.

Maty

Matyho TIP:
Výber GPU pre LLM inference nie je len o papierových špecifikáciách alebo cene za GB VRAM. Je to hlavne o tom, koľko času strávite nastavovaním, a koľko času ušetríte pre skutočnú prácu s modelmi. Práve tu sa ukazuje zásadný rozdiel medzi teóriou a realitou produkčného nasadenia.

Frameworky: kde NVIDIA vedie na plnej čiare

Rozdiel v podpore inference frameworkov je najmarkantnejší. Pozrite sa na prehľad, ktorý vychádza z oficiálnej dokumentácie a skúseností z testovania.

Framework NVIDIA (CUDA) AMD (ROCm) Poznámka
vLLM natívny pip balíček nutné stavať zo zdroja žiadny ROCm pip balíček, Python 3.13 nepodporovaný
SGLang natívna pip nutné stavať zo zdroja vyžaduje setup_rocm.py, GRUB úpravy
llama.cpp CUDA (rýchle) ROCm/hip + Vulkan najlepšia AMD podpora
Ollama natívna funguje, občas problémy menšia komunita, pomalšie opravy
LM Studio natívna často zlyhá ROCm detekcia na Linuxe problémová

Najzreteľnejšie je rozdiel vidieť na vLLM. Pri NVIDIA stačí pip install vllm a máte hotovo. Pri AMD musíte stavať zo zdroja cez Dockerfile.rocm, riešiť Python verziu a počkať, kým sa kompilácia dokončí. Podobne je na tom SGLang, kde sú síce ROCm 7.2 zmienky z júna 2026, ale stále sú potrebné GRUB úpravy a ručná konfigurácia NUMA balanced.

Pre AMD SGLang sú potrebné nasledujúce systémové úpravy, ktoré pri NVIDIA nie sú potrebné vôbec.

GRUB a NUMA nastavení
# Upravit /etc/default/grub a přidat do GRUB_CMDLINE_LINUX:
pci=realloc=off iommu=pt

# Poté spustit:
sudo update-grub

# Zakázat NUMA auto-balancing:
sudo sh -c 'echo 0 > /proc/sys/kernel/numa_balancing'

Pri NVIDIA žiadne takéto úpravy nie sú potrebné. Jednoducho nainštalujete a idete.

ZLuda: zaujímavá alternatíva, ale s limitmi

ZLuda prešla v posledných mesiacoch výrazným vylepšením. ROCm 7 podpora prišla koncom roka 2025, plná podpora llama.cpp je takmer na úrovni natívneho ROCm backendu, a na Windows je situácia lepšia než predtým. To všetko znie nádejne.

Lenže ZLuda má jednu zásadnú limitáciu, ktorú potvrdzuje aj ich dokumentácia: PyTorch podpora je stále vo vývoji. ZLuda funguje pre aplikácie, ktoré volajú CUDA priamo, ako llama.cpp. Pre frameworky postavené na PyTorch interných CUDA väzbách, typicky vLLM, ZLuda nefunguje. Práve to je dôvod, prečo vám vLLM + ZLuda nepôjde rozbehnúť.

Kvantizácia na AMD: pomalšia cesta k úspore pamäte

Úspora VRAM cez kvantizáciu je pre LLM nasadenie zásadná. Ale aj tu AMD zaostáva, respektíve ponúka pomalšiu cestu. Pozrite sa na prehľad kompatibility kvantizačných metód.

Metóda kvantizácie NVIDIA AMD
FP8 natívna Aiter/Triton (funguje)
AWQ Marlin (rýchle) Triton dequant (pomalejší)
GPTQ natívna hit-and-miss na ROCm 6.3
MXFP4 natívna iba CDNA3/CDNA4
W8A8 natívna funguje
awq_marlin funguje nefunguje
gptq_marlin funguje nefunguje
gguf funguje nefunguje
modelopt_fp8/fp4 funguje nefunguje

Kľúčový rozdiel je pri AWQ. Na NVIDIA existuje optimalizovaný Marlin kernel, ktorý je výrazne rýchlejší. Na AMD musíte použiť Triton dequantizáciu, teda pomalšiu cestu. Pre DeepSeek-V3/R1 alebo iné predkvantifikované FP8 modely to na AMD funguje out-of-the-box, ale pre vlastnú kvantizáciu alebo použitie Marlin kernelov sa nedostanete.

NVIDIA CUDA: čo dáva plug-and-play zážitok

Pri NVIDIA je celý proces podstatne priamočiarejší. vLLM nainštalujete cez pip, máte Python 3.13 podporu a môžete začať. SGLang ide na pip bez dodatočných úprav. AWQMarlin kernelmi funguje out-of-the-box.

Predovšetkým ale nepotrebujete žiadne GRUB úpravy, žiadne NUMA balancing hacky, žiadne kompilácie zo zdroja. Celý stack funguje na štandardných balíčkovacích nástrojoch. A ak niečo nefunguje, komunita a dokumentácia NVIDIA je podstatne rozsiahlejšia, čo znamená rýchlejšie riešenie problémov.

„Hneď na začiatku sme stavili na tie najlepšie technológie od NVIDIA a nehľadali kompromisy v lacnejších riešeniach. Toto rozhodnutie sa nám jednoznačne vyplatilo a vďaka nemu naďalej určujeme trend na poli AI GPU serverov v ČR. Ukazuje sa, že pre AMD bude cesta do reálneho produkčného nasadenia ešte veľmi dlhá. Vidina toho, že za zlomok ceny dostanete na papieri to isté čo pri NVIDIA, je síce lákavá, ale vo výsledku neušetríte nič – skôr naopak. Výsledky nášho testu to jasne potvrdili.“

Vyskúšajte RTX PRO 6000 Blackwell až na 7 dní ZADARMO

Presvedčte sa sami o sile najvýkonnejšej AI GPU na trhu. Otestujte RTX PRO 6000 a plaťte až po vyskúšaní. Na AI/GPU serveri rozbehnete vLLM, SGLang aj llama.cpp bez kompilácie, bez GRUB úprav a bez laborovania.

Chcem vyskúšať AI/GPU server
NVIDIA RTX PRO 6000 Blackwell k okamžitému pronájmu

Kedy dáva zmysel zvoliť NVIDIA

NVIDIA je praktická voľba, ak vám záleží na rýchlosti nasadenia a stabilnej prevádzke bez prekvapení.

  • Rýchla implementácia - pip install vLLM a funguje. Žiadna kompilácia, žiaden Dockerfile, žiadne čakanie.
  • Produkčné nasadenie - stabilné pip wheel, široká komunita, rýchla podpora.
  • Širšia podpora frameworkov - vLLM, SGLang, Ollama, LM Studio. Všetko funguje bez dodatočných úprav.
  • Rýchlejšie AWQ - Marlin kernely namiesto Triton dequant znamenajú vyšší throughput pri rovnakej kvantizácii.

Kedy AMD dáva zmysel

Existujú, samozrejme, scenáre, kde môže dávať ekonomický zmysel investovať čas do ROCm nastavenia.

  • Max VRAM za menej peňazí - podobná kapacita videopamäte za výrazne nižšiu cenu. Ak máte čas a chuť laborovať, úspora je reálna.
  • MI300X v dátovom centre - 192 GB HBM3, konkurenčné alebo rýchlejšie ako H100 na throughput, žiadne tensor-paralel overhead pre veľké modely. Tu AMD váľa.
  • llama.cpp na ROCm - ak chcete primárne llama.cpp, dá sa rozbehnúť priamo na ROCm bez problémov.

Porovnanie v kocke

Aspekt NVIDIA CUDA AMD ROCm
Inštalácie vLLM pip install vllm nutné stavať zo zdroja
Python verzie 3.9 az 3.13 3.9 az 3.12 (bez 3.13)
OS podpora Ubuntu, Debian, RHEL, Windows Ubuntu, RHEL (Debian obmedzené)
Systémové úpravy žiadne GRUB, NUMA, HSA_OVERRIDE
AWQ rychlost Marlin (rýchle) Triton (pomalšie)
Čas na produkciu hodiny dni až týždne

Zhrnuté jednoducho: NVIDIA = plug-and-play, AMD = ušetríte peniaze, ale strávite čas. Pre väčšinu firemných nasadení, kde ide o rýchlu implementáciu a stabilnú prevádzku, je NVIDIA jednoznačná voľba. AMD má zmysel pre špecifické scenáre nasadenia, kde vám ide primárne o maximálnu VRAM za minimálne peniaze a máte kapacitu na debugovanie ROCm.

Vyskúšajte NVIDIA RTX PRO 6000 Blackwell

Nečakajte na finálne rozhodnutie. Na AI/GPU serveri otestujte reálny výkon na vašom modeli, vašom kontexte a vašom počte používateľov. Rozdiel medzi NVIDIA a AMD v praxi spoznáte rýchlo, a to bez jediného dňa laborovania.

Chcem otestovať NVIDIA RTX PRO 6000
NVIDIA RTX PRO 6000 Blackwell

Zhrnutie

Pre väčšinu produkčných nasadení, kde chcete rýchlo rozbehnúť inference, stabilnú prevádzku a širokú podporu frameworkov, je však NVIDIA praktickejšia voľba. Rozdiel v cene za hardware sa vám môže vrátiť v podobe ušetrených hodín strávených nastavovaním a debugovaním.

AMD môže dávať zmysel, ak máte špecifické požiadavky na maximálnu VRAM za dostupnú cenu a ste pripravení investovať čas do nastavenia ROCm.

Objednajte si AI/GPU server s NVIDIA RTX PRO 6000 Blackwell na 7 dní ZADARMO a otestujte vlastný model na pripravenom prostredí. Práve praktický test na vašom workloadu vám dá najlepšiu odpoveď.

Potrebujete poradiť s výberom GPU?

Kontaktujte odborníka na AI GPU servery

Napíšte nám a pripravíme vám porovnanie pre váš konkrétny scenár nasadenia. Či už riešite menšie interné API, alebo produkčné nasadenie pre desiatky používateľov, poradíme s výberom konfigurácie.