Najvýkonnejšie servery Najvýkonnejšie servery
Koľko GPU sa vám pre vLLM naozaj oplatí, pokiaľ vám nejde len o pekný benchmark, ale reálny výkon pre viac používateľov a dlhší kontext? Otestovali sme menší model Qwen3.6-27B-FP8 na NVIDIA RTX PRO 6000 Blackwell v konfigurácii 1x GPU, 2x GPU a 4x GPU, a práve tu je dobre vidieť zásadný rozdieľ medzi maximálnym "marketingovým" výkonom na papiery a rozumnou investíciou.

Čo sme testovali a prečo je to dôležité

Tentokrát sme nešli po nejväčšom dostupnom modely, ale po menšom a praktickejšom nasadení. Model Qwen3.6-27B-FP8 je presne ten typ LLM, ktorý si kopa z vás dokáže predstaviť v internom AI API, firemnom chatbote alebo na automatizáciu dlhších dokumentov. Práve u takého modelu dáva zmysel riešiť, či si vystačíte s jednou kartou, či sa oplatí pridať druhú, alebo či už dává zmysel isť rovno do 4x GPU.

Všetky testy bežali na RTX PRO 6000 Blackwell96 GB VRAM na kartu. Porovnávali sme výkon pri krátkom 1K kontexte, ale aj dlhších 10K, 50K100K kontextoch. Súčasne sme otestovali aj varianty so zapnutým/vypnutým MTP. Vďaka tomu je dobre vidieť nie len maximálnu rýchlosť, ale aj to, ako sa jednotlivé konfigurácie chovajú pri dlhšom kontexte a viacerých paralelných požiadavkách.

RTX PRO 6000 Blackwell k okamžitému prenájmu

Chcete si overiť, či je pre vás lepšie 2x GPU alebo 4x GPU? Objednajte AI/GPU server, spusťte vlastné vLLM benchmarky a otestujte reálny výkon bez čakania na nový hardware.

Objednajte testovacie AI/GPU server
RTX PRO 6000 Blackwell skladom k okamžitému prenájmu

Ako benchmark čítať: nejde len o maximálne tokeny za sekundu

Pri malom a strednom modely je ľahké nechať sa zlákať len najvyšším číslom v benchmarku. Lenže samotná maximálna rýchlosť nestačí. V praxi vás zaujíma tiež TTFT, teda za ako dlho model začne odpovedať, a tiež to, ako sa rýchlosť chová pri dlhšom kontexte. Práve tam sa ukazuje, že niektoré nastavenia vyzerajú skvele pri krátkom prompte, ale pri dlhšom kontexte alebo vyššej súbežnosti začnú strácať.

Pri analýze výsledkov je preto užitočné zamerať sa na dva odlišné aspekty. Zaprvé, koľko výkonu pridá ďalšie GPU pri krátkom kontexte. Zadruhé, ako dobre si konfigurácia drží výkon pri dlhších promptoch a pri viac užívateľoch. A práve tu začína byť vidieť, prečo je 2x GPU zlatý stred a prečo 4x GPU dáva zmysel hlavne tam, kde chcete vyššiu súbežnosť, väčšiu pamäťovú rezervu a prevádzku náročnejších modelov.

Všetky testy bežali na rovnakom modely Qwen/Qwen3.6-27B-FP8 a na rovnakom type kariet RTX PRO 6000 Blackwell 96 GB. Menili sme iba počet GPU, stav MTP, dĺžku kontextu a súbežnosť. Vďaka tomu je možné výsledky medzi sebou porovnať priamo.

Pre benchmarky 1K context sme merali súbežnosť 1, 8, 32 a 64 aktívnych používateľov. Pre benchmarky 10K, 50K a 100K context sme merali 1 používateľa, aby bolo čisto viedieť, ako sa mení rýchlosť generovania s dĺžkou promptu a so zapnutým alebo vypnutým MTP.

Warmup bol zapnutý pred každým meraním. Krátke behy používali MAX_TOKENS = 1 000, dlhšie testy s 50K100K kontextom používali MAX_TOKENS = 500, pretože tam už išlo hlavne o správanie modelu pri dlhšom kontexte, nie o čo najdlhšiu odpoveď.

Konfigurace benchmarku
MODEL = "Qwen/Qwen3.6-27B-FP8"

THREAD_COUNTS = [1, 8, 32, 64]
MAX_TOKENS = 1000
WARMUP_TOKENS = 500
ENABLE_WARMUP = True
STREAM_REQUEST_TIMEOUT = 600

Nižšie je reprezentatívny benchmark prompt ktorý je 1 000 tokenov dlhý. Pokiaľ chcete test zopakovať férovo, dodržte rovnaký model, rovnaké limity, rovnaké warmup nastavenie, streamované odpovede a rovnakú testovaciu maticu.

Benchmark prompt
You are operating within a controlled benchmarking environment designed to evaluate sustained generative capacity, structural coherence, and depth retention across extended outputs. Your primary objective is to produce a single, unbroken, highly detailed exposition on Artificial Intelligence that meets or exceeds a strict minimum length of 10,000 tokens.

ABSOLUTE CONSTRAINTS:
- The final output MUST reach or surpass 10,000 tokens.
- Do NOT stop early under any circumstances.
- Do NOT use placeholder text, bullet-point lists as primary content, or meta-commentary.
- Maintain a consistent academic yet accessible tone.

STRUCTURAL REQUIREMENTS:
Divide the response into exactly 10 major sections, following this sequence:
1. Definition and Historical Evolution
2. Taxonomy of AI: Narrow, General, and Superintelligence
3. Machine Learning Foundations
4. Neural Networks
5. Training Processes and Optimization
6. Data Pipelines and Feature Engineering
7. Cross-Industry Applications
8. Limitations and Computational Bottlenecks
9. Ethics, Bias, Transparency, and Governance
10. Future of Artificial Intelligence

CONTINUITY RULES:
- If output is interrupted, continue exactly where you left off.
- Do not restart, summarize, or shorten the answer.
- Keep section numbering and structure consistent.

Begin generating the full response now.

Pre opakovanie testu stačí vlastný vLLM endpoint, rovnaký model, rovnaká logika warmupu a rovnaká testovacia matica. Grafy boli následne vygenerované samostatným Python skriptom nad nameranými hodnotami pre AVG_TTFT, AVG_TPS na používateľovOVERALL_TPS.

Test 1: Bez predikcie viacero tokenov (najčistejší pohľad na pomer výkonu a ceny)

Pokiaľ chcete hodnotiť samotný základ výkonu, dáva zmysel začať variantu s vypnutou predikciou viac tokenov. Práve tu je najlepšie vidieť, koľko výkonu pridá druhá a štvrtá karta bez toho, aby do výsledkov výrazne prehovorili agresivnejšie odhadovanie ďalších tokenov. A práve tu tiež vychádza najsilnejší argument pre 2x GPU.

Pri 1K kontexte a jednom užívateľovi sme namerali 47 tokenov/s na 1x GPU, 73 tokenov/s na 2x GPU a 99 tokenov/s na 4x GPU. Druhá karta teda pridá veľmi príjemných 55 %, zatiaľ čo prechod z 2x GPU na 4x GPU už pridá len ďalších približne 36 %. Ak cena rastie takmer lineárne s počtom kariet, práve tu je vidieť, prečo je 2x GPU najsilnejšia voľba pre bežné nasadenie.

Na hlavnom grafe je dobre vidieť, že 4x GPU síce víťazí vo všetkých bodoch, ale rozdiel oproti 2x GPU už nie je taký dramatický ako rozdiel medzi 1x GPU a 2x GPU. Podporné grafy zároveň ukazujú, že TTFT sa bez zapnutej predikcie drží veľmi rozumne a celkový throughput rastie podľa očakávania s vyššou súbežnosťou. Inými slovami, 2x GPU je veľmi dobrý kompromis pre väčšinu produkčných API, zatiaľ čo 4x GPU začína byť obhájiteľné hlavne vtedy, ak naozaj využijete vyššiu súbežnosť alebo chcete väčšiu rezervu do budúcnosti.

Test 2: So zapnutou predikciou viac tokenov (vyššia špičková rýchlosť, ale nie vždy lepšia prax)

Keď predikciu viac tokenov zapnete, papierovo dostanete výrazne vyššiu rýchlosť pri krátkom kontexte. Pri jednom užívateľovi vyskočí výkon na 84 tokenov/s pri 1x GPU, 126 tokenov/s pri 2x GPU a 162 tokenov/s pri 4x GPU. To vyzerá skvele a pre krátke promptovanie alebo situácie, kde potrebujete čo najvyššiu okamžitú rýchlosť, je to zaujímavé.

Lenže súčasne sa zhoršuje latencia pri viacerých užívateľoch. Napríklad pri ôsmich aktívnych užívateľoch rastie TTFT na 824 ms, 1 229 ms1 000 ms. Vo variante bez tejto predikcie boli rovnaké hodnoty iba 188 ms, 161 ms146 ms. To je obrovský rozdiel v pocite z odozvy.

Zapnutá predikcia teda nie je zlá. Len je potrebné ju čítať správne. Ak chcete čo najvyšší krátkodobý throughput pri menšom kontexte, vie pridať veľmi pekné čísla. Ak vám však záleží na stabilnejšej odozve a reálnej práci s dlhším kontextom, prestáva byť výhoda taká jednoznačná. Preto sme ďalšiu časť benchmarku postavili práve na dĺžke kontextu.

Vyskúšajte RTX PRO 6000 Blackwell pre vLLM

Nečakajte na teoretické čísla. Spusťte vlastný model, vlastné context window a vlastný počet užívateľov na našom AI/GPU serveri. Práve pri takomto teste rýchlo spoznáte, či vám stačí 2x GPU, alebo už využijete výhodu 4x GPU.

Objednajte AI/GPU server
Vyzkúšajte RTX PRO 6000 Blackwell pro vLLM

Test 3: Dlhý kontext (prečo býva výhodnejšia vypnutá predikcia)

Toto je jedna z najzaujímavejších častí celého testu. Hneď ako sa dostanete na 50K alebo 100K kontext, začína byť veľmi dobre vidieť, že variant bez predikcie viac tokenov sa spomaľuje podstatne menej ako režim so zapnutou predikciou. A to je dôležité, pretože práve dlhší kontext býva v reálnom nasadení veľmi drahý na pamäť aj na výkon.

Na 2x GPU bez predikcie klesne rýchlosť z 73 tokenov/s pri 1K na 62 tokenov/s pri 100K. Na 4x GPU klesne zo 99 tokenov/s na 90 tokenov/s. To je veľmi dobrý výsledok. So zapnutou predikciou je prepad oveľa tvrdší. Na 2x GPU padá výkon zo 126 tokenov/s na 30 tokenov/s, na 4x GPU zo 162 tokenov/s na 33 tokenov/s.

Praktický záver: Ak čakáte dlhé vstupy, veľké dokumenty, RAG nad rozsiahlym kontextom alebo viac požiadaviek s dlhším promptom, je veľmi rozumné benchmarkovať aj variant bez predikcie viac tokenov. Pri krátkom kontexte totiž môže zapnutá predikcia vyzerať skvele, ale pri dlhom kontexte sa výhoda často stráca, alebo sa dokonca obracia proti nej.

Práve tu je vidieť ďalší dôvod, prečo je voľba 2x GPU taká zaujímavá. Bez zapnutej predikcie drží aj pri dlhom kontexte stále veľmi použiteľnú rýchlosť a súčasne už ponúka podstatne väčšiu pamäťovú rezervu ako jedna karta. Pre väčšinu firemných use caseov je to praktickejšie než naháňať extrémne krátke benchmarky so zapnutou predikciou.

Porovnanie vypnutej a zapnutej predikcie podľa počtu GPU

Nasledujúca trojica grafov ukazuje to isté z iného uhla. Každý graf patrí jednej GPU a porovnáva, ako sa správa vypnutázapnutá predikcia viac tokenov naprieč dĺžkou kontextu. Najzaujímavejší je prostredný graf pre 2x GPU, keďže práve ten najlepšie reprezentuje konfiguráciu, ktorá sa podľa dát vyplatí najčastejšie.

Na 1x GPU ešte zapnutá predikcia dáva zmysel pri krátkom kontexte, ale pri 100K už spadne rýchlosť na iba 28 tokenov/s, zatiaľ čo variant bez predikcie drží 38 tokenov/s. Na 2x GPU je rozdiel ešte výrečnejší: 62 tokenov/s bez predikcie proti 30 tokenom/s so zapnutou predikciou pri 100K kontexte. A na 4x GPU je výsledok najtvrdší, 90 tokenov/s bez predikcie proti 33 tokenom/s so zapnutou predikciou.

Ak to zhrnieme jednoducho, zapnutá predikcia je výborná pre krátke a rýchle scenáre, vypnutá predikcia je istejšia voľba pre dlhý kontext. A práve preto je dobré mať pri návrhu servera dosť pamäte a dosť GPU, aby si človek mohol zvoliť nastavenie podľa workloadu a nebol tlačený len jedným benchmarkom.

Z pohľadu reálneho nasadenia sa preto ako veľmi inteligentný návrh ponúka systém zložený z dvoch 2x GPU uzlov. Na prvej 2x GPU konfigurácii môžete nechať zapnutú predikciu viac tokenov a obsluhovať na nej kratšie requesty do 10K kontextu. Pred oba varianty potom stačí postaviť proxy, ktorá bude požiadavky automaticky smerovať podľa dĺžky vstupu. Kratšie prompty pošle na rýchlejší variant so zapnutou predikciou, dlhšie vstupy nad 10K na druhý 2x GPU variant bez predikcie, ktorý si výrazne lepšie drží výkon na dlhom kontexte. V praxi tak získate veľmi rozumnú kombináciu rýchlosti pre krátke otázky a stability pre náročnejšiu prácu s dlhšími dokumentmi.

KV cache: hlavný dôvod, prečo 4x GPU stále dáva zmysel

Čistá rýchlosť generovania nie je jediný dôvod, prečo pridávať GPU. V skutočnej prevádzke je často ešte dôležitejšia veľkosť KV cache. Čím viac GPU máte, tým viac priestoru získate pre veľké kontexty a paralelné požiadavky. A to je vlastnosť, ktorú bežný benchmark jedným číslom často vôbec neukáže.

Konfigurácia GPU KV cache size Maximum používateľov, ktorí vyťažia kontext na max
1x GPU 980 000 tokenov 4x
2x GPU 2 470 000 tokenov 9x
4x GPU 5 405 000 tokenov 21x

To znamená, že so 4x GPU dokážete obslúžiť zhruba 20 užívateľov súčasne aj v prípade, že každý z nich príde s plným 262K kontextom. To je veľmi silný argument pre produkčné nasadenie. V reálnej prevádzke navyše väčšina užívateľov nebude využívať úplne celý kontext, takže skutočná kapacita môže byť ešte vyššia.

Práve tu je potrebné čítať dáta správne. 2x GPU vyhráva pomer ceny a rýchlosti. 4x GPU ale vyhráva tam, kde je dôležitá robustnosť, dlhé context windows, viac súčasných požiadaviek a menšie riziko, že sa dostanete na limit pamäte príliš skoro.

Maty

Matyho TIP:
Zabudnite na nekonečné rady a poradovníky na grafické karty. Kým ostatní na hardvér stále čakajú, my máme dostatok výkonných GPU kariet skladom k okamžitému prenájmu . Nestrácajte drahocenný čas, začnite trénovať a prevádzkovať svoje LLM modely hneď!

Veľká VRAM otvára cestu k výrazne väčším modelom

So 4x GPU už sa nebavíme iba o Qwen 27B. Dohromady totiž získate 384 GB VRAM, teda 96 GB × 4. A práve to otvára priestor pre modely, ktoré sú pre menšie konfigurácie mimo hry, alebo dávajú zmysel len s výraznými kompromismi.

V praxi sme takto rozbehli aj ďalšie veľké modely, ktoré ukazujú, kam sa dá s podobnou konfiguráciou posunúť. Nejde teda len o vyšší throughput na Qwene, ale aj o to, že si s väčšou VRAM môžete dovoliť oveľa ambicióznejší AI stack.

  • MiniMax-M2.7 - 230 B total parameters, 10 B active parameters
  • DeepSeek-V4-Flash - 284 B total parameters, 13 B activated parameters, až 1 M context
  • MiMo-V2.5 - Sparse MoE, 310 B total parameters, 15 B activated parameters, až 1 M context

Ak teda dnes staviate server len pre jeden konkrétny model, môže sa vám zdať 4x GPU zbytočné. Ak však chcete nechať otvorené dvere pre väčšie MoE modely, dlhší kontext a vyššiu súbežnosť, je to už úplne iný typ infraštruktúry.

Kedy zvoliť 1x GPU, 2x GPU alebo 4x GPU

Kedy dáva zmysel 1x GPU

  • Prvé testy a prototypy - pokiaľ chcete rozumný vstupný bod bez väčšej investície
  • Menší počet používateľov - pre ľahšie interné použitie môže byť výkon dostačujúci
  • Jednoduchší workload - kratšie prompty, menšia súbežnosť a nižšie nároky na KV cache

Kedy sa už oplatí 4x GPU

  • Vysoká súbežnosť - vyšší celkový throughput a podstatne väčšia pamäťová rezerva
  • Dlhé context windows - okolo 21 plných 262K requestov naraz už je veľmi silný parameter
  • Väčšie modely a MoE - 384 GB VRAM otvára priestor pre triedu modelov, kam sa menšie zostavy nedostanú
  • Budúci rast - ak viete, že workload porastie, 4x GPU vám dá pokojnejšiu rezervu

Čo od 4x GPU nečakať

  • NieNajlepší pomer ceny a rýchlosti pre menší model - pri Qwen 27B vychádza najlepšie 2x GPU
  • NieLineárne škálovanie výkonu - 4 karty neprinesú 4-násobok rýchlosti oproti 1 karte
  • NieAutomaticky najlepšie nastavenie - bez správnej práce s MTPkontextom môžete o časť výkonu zbytočne prísť
Maty

Matyho TIP:
Pokiaľ vám ide čisto o pomer cena/výkon, dáta hovoria jasne pre 2x GPU. Pokiaľ ale riešite dlhé kontexty, viac aktívnych používateľov súčasne alebo chcete otvoriť cestu k výrazne väčším modelom, 4x GPU má stále veľmi silný praktický zmysel.

Konfigurácia Rýchlosť pri 1 používateľovi Zisk výkonu KV cache 262K kontext naraz Praktický záver
1x GPU 47 tokenov/s základ 980 000 tokenov 4 používatelia Dobrá vstupná varianta, ale výkonová rezerva je obmedzená.
2x GPU 73 tokenov/s +55 % 2 470 000 tokenov 9 používatelia Najlepší pomer ceny, rýchlosti a použiteľnosti v praxi.
4x GPU 99 tokenov/s +111 % 5 405 000 tokenov 21 používatelia Najlepší pre vysokú súbežnosť, veľkú KV cache a väčšie modely.

Zhrnutie: čo sa oplatí najviac

Pokiaľ chcete z menšieho modelu Qwen dostať čo najlepší pomer cena výkon, najviac sa oplatí  2x GPU. Získate výrazný skok oproti 1x GPU, väčšie KV cache, lepšiu rezervu pre viac používateľov a pritom sa ešte nedostávate do situácie, kedy za ďalšie karty platíte viac, než koľko vám vráti v rýchlosti.

4x GPU ale rozhodne nie je slepá ulička. Len je potrebné ho predávať poctivo. Pri Qwen 27B nie je najvýhodnejší len na samotné tokeny za sekundu. Dáva však veľmi dobrý zmysel vo chvíli, keď riešite dlhé kontexty, vyššiu súbežnosť, veľkú KV cache a budúci prechod na výrazne väčšie modely. A práve to je dôvod, prečo môže byť 4x GPU správna voľba pre náročnejšiu produkčnú infraštruktúru.

Začnite teda podľa reálneho workloadu. Pre väčšinu firemných deploymentov voľte 2x GPU. Ak však chcete maximum priestoru pre rast, robustné API a veľké modely, objednajte 4x GPU server pre vLLM.

Chcete s výberom poradiť?
Sme vám k dispozícii
!

Kontaktujte odborníka na AI GPU servery

Napíšte nám a pripravíme vám vhodné riešenie pre menšie aj veľké jazykové modely, dlhšie kontexty aj vlastnú AI API.