Zamerajme sa najprv na to, čo je pre AMD ROCm zásadnou limitáciou: operačný systém. AMD oficiálne podporuje iba Ubuntu a distribúcie založené na RHEL. Na Debiane buď stojíte pred kompiláciou zo zdrojových kódov, alebo sa spokojíte so starou verziou ROCm. apt-get balíčky pre Debian oficiálne neexistujú. A toto obmedzenie sa netýka iba distribúcie ako takej, ale celého ekosystému frameworkov, ktoré na nej stavajú.
Matyho TIP:
Výber GPU pre LLM inference nie je len o papierových špecifikáciách alebo cene za GB VRAM. Je to hlavne o tom, koľko času strávite nastavovaním, a koľko času ušetríte pre skutočnú prácu s modelmi. Práve tu sa ukazuje zásadný rozdiel medzi teóriou a realitou produkčného nasadenia.
Rozdiel v podpore inference frameworkov je najmarkantnejší. Pozrite sa na prehľad, ktorý vychádza z oficiálnej dokumentácie a skúseností z testovania.
| Framework | NVIDIA (CUDA) | AMD (ROCm) | Poznámka |
|---|---|---|---|
| vLLM | natívny pip balíček | nutné stavať zo zdroja | žiadny ROCm pip balíček, Python 3.13 nepodporovaný |
| SGLang | natívna pip | nutné stavať zo zdroja | vyžaduje setup_rocm.py, GRUB úpravy |
| llama.cpp | CUDA (rýchle) | ROCm/hip + Vulkan | najlepšia AMD podpora |
| Ollama | natívna | funguje, občas problémy | menšia komunita, pomalšie opravy |
| LM Studio | natívna | často zlyhá | ROCm detekcia na Linuxe problémová |
Najzreteľnejšie je rozdiel vidieť na vLLM. Pri NVIDIA stačí pip install vllm a máte hotovo. Pri AMD musíte stavať zo zdroja cez Dockerfile.rocm, riešiť Python verziu a počkať, kým sa kompilácia dokončí. Podobne je na tom SGLang, kde sú síce ROCm 7.2 zmienky z júna 2026, ale stále sú potrebné GRUB úpravy a ručná konfigurácia NUMA balanced.
Pre AMD SGLang sú potrebné nasledujúce systémové úpravy, ktoré pri NVIDIA nie sú potrebné vôbec.
# Upravit /etc/default/grub a přidat do GRUB_CMDLINE_LINUX:
pci=realloc=off iommu=pt
# Poté spustit:
sudo update-grub
# Zakázat NUMA auto-balancing:
sudo sh -c 'echo 0 > /proc/sys/kernel/numa_balancing'
Pri NVIDIA žiadne takéto úpravy nie sú potrebné. Jednoducho nainštalujete a idete.
ZLuda prešla v posledných mesiacoch výrazným vylepšením. ROCm 7 podpora prišla koncom roka 2025, plná podpora llama.cpp je takmer na úrovni natívneho ROCm backendu, a na Windows je situácia lepšia než predtým. To všetko znie nádejne.
Lenže ZLuda má jednu zásadnú limitáciu, ktorú potvrdzuje aj ich dokumentácia: PyTorch podpora je stále vo vývoji. ZLuda funguje pre aplikácie, ktoré volajú CUDA priamo, ako llama.cpp. Pre frameworky postavené na PyTorch interných CUDA väzbách, typicky vLLM, ZLuda nefunguje. Práve to je dôvod, prečo vám vLLM + ZLuda nepôjde rozbehnúť.
Úspora VRAM cez kvantizáciu je pre LLM nasadenie zásadná. Ale aj tu AMD zaostáva, respektíve ponúka pomalšiu cestu. Pozrite sa na prehľad kompatibility kvantizačných metód.
| Metóda kvantizácie | NVIDIA | AMD |
|---|---|---|
| FP8 | natívna | Aiter/Triton (funguje) |
| AWQ | Marlin (rýchle) | Triton dequant (pomalejší) |
| GPTQ | natívna | hit-and-miss na ROCm 6.3 |
| MXFP4 | natívna | iba CDNA3/CDNA4 |
| W8A8 | natívna | funguje |
| awq_marlin | funguje | nefunguje |
| gptq_marlin | funguje | nefunguje |
| gguf | funguje | nefunguje |
| modelopt_fp8/fp4 | funguje | nefunguje |
Kľúčový rozdiel je pri AWQ. Na NVIDIA existuje optimalizovaný Marlin kernel, ktorý je výrazne rýchlejší. Na AMD musíte použiť Triton dequantizáciu, teda pomalšiu cestu. Pre DeepSeek-V3/R1 alebo iné predkvantifikované FP8 modely to na AMD funguje out-of-the-box, ale pre vlastnú kvantizáciu alebo použitie Marlin kernelov sa nedostanete.
Pri NVIDIA je celý proces podstatne priamočiarejší. vLLM nainštalujete cez pip, máte Python 3.13 podporu a môžete začať. SGLang ide na pip bez dodatočných úprav. AWQ s Marlin kernelmi funguje out-of-the-box.
Predovšetkým ale nepotrebujete žiadne GRUB úpravy, žiadne NUMA balancing hacky, žiadne kompilácie zo zdroja. Celý stack funguje na štandardných balíčkovacích nástrojoch. A ak niečo nefunguje, komunita a dokumentácia NVIDIA je podstatne rozsiahlejšia, čo znamená rýchlejšie riešenie problémov.
„Hneď na začiatku sme stavili na tie najlepšie technológie od NVIDIA a nehľadali kompromisy v lacnejších riešeniach. Toto rozhodnutie sa nám jednoznačne vyplatilo a vďaka nemu naďalej určujeme trend na poli AI GPU serverov v ČR. Ukazuje sa, že pre AMD bude cesta do reálneho produkčného nasadenia ešte veľmi dlhá. Vidina toho, že za zlomok ceny dostanete na papieri to isté čo pri NVIDIA, je síce lákavá, ale vo výsledku neušetríte nič – skôr naopak. Výsledky nášho testu to jasne potvrdili.“
Presvedčte sa sami o sile najvýkonnejšej AI GPU na trhu. Otestujte RTX PRO 6000 a plaťte až po vyskúšaní. Na AI/GPU serveri rozbehnete vLLM, SGLang aj llama.cpp bez kompilácie, bez GRUB úprav a bez laborovania.
Chcem vyskúšať AI/GPU server
NVIDIA je praktická voľba, ak vám záleží na rýchlosti nasadenia a stabilnej prevádzke bez prekvapení.
Existujú, samozrejme, scenáre, kde môže dávať ekonomický zmysel investovať čas do ROCm nastavenia.
| Aspekt | NVIDIA CUDA | AMD ROCm |
|---|---|---|
| Inštalácie vLLM | pip install vllm |
nutné stavať zo zdroja |
| Python verzie | 3.9 az 3.13 | 3.9 az 3.12 (bez 3.13) |
| OS podpora | Ubuntu, Debian, RHEL, Windows | Ubuntu, RHEL (Debian obmedzené) |
| Systémové úpravy | žiadne | GRUB, NUMA, HSA_OVERRIDE |
| AWQ rychlost | Marlin (rýchle) | Triton (pomalšie) |
| Čas na produkciu | hodiny | dni až týždne |
Zhrnuté jednoducho: NVIDIA = plug-and-play, AMD = ušetríte peniaze, ale strávite čas. Pre väčšinu firemných nasadení, kde ide o rýchlu implementáciu a stabilnú prevádzku, je NVIDIA jednoznačná voľba. AMD má zmysel pre špecifické scenáre nasadenia, kde vám ide primárne o maximálnu VRAM za minimálne peniaze a máte kapacitu na debugovanie ROCm.
Nečakajte na finálne rozhodnutie. Na AI/GPU serveri otestujte reálny výkon na vašom modeli, vašom kontexte a vašom počte používateľov. Rozdiel medzi NVIDIA a AMD v praxi spoznáte rýchlo, a to bez jediného dňa laborovania.
Chcem otestovať NVIDIA RTX PRO 6000
Pre väčšinu produkčných nasadení, kde chcete rýchlo rozbehnúť inference, stabilnú prevádzku a širokú podporu frameworkov, je však NVIDIA praktickejšia voľba. Rozdiel v cene za hardware sa vám môže vrátiť v podobe ušetrených hodín strávených nastavovaním a debugovaním.
AMD môže dávať zmysel, ak máte špecifické požiadavky na maximálnu VRAM za dostupnú cenu a ste pripravení investovať čas do nastavenia ROCm.
Objednajte si AI/GPU server s NVIDIA RTX PRO 6000 Blackwell na 7 dní ZADARMO a otestujte vlastný model na pripravenom prostredí. Práve praktický test na vašom workloadu vám dá najlepšiu odpoveď.
Napíšte nám a pripravíme vám porovnanie pre váš konkrétny scenár nasadenia. Či už riešite menšie interné API, alebo produkčné nasadenie pre desiatky používateľov, poradíme s výberom konfigurácie.