Staviame efektívny GPU server: Koľko grafických kariet zvoliť pre rôzne LLM modely?

Obsah

Úvod
Čo sme testovali a prečo je to dôležité
Ako benchmark čítať: nejde len o maximálne tokeny za sekundu
Test 1: Bez predikcie viacero tokenov (najčistejší pohľad na pomer výkonu a ceny)
Test 2: So zapnutou predikciou viac tokenov (vyššia špičková rýchlosť, ale nie vždy lepšia prax)
Test 3: Dlhý kontext (prečo býva výhodnejšia vypnutá predikcia)
Porovnanie vypnutej a zapnutej predikcie podľa počtu GPU
KV cache: hlavný dôvod, prečo 4x GPU stále dáva zmysel
Veľká VRAM otvára cestu k výrazne väčším modelom
Kedy zvoliť 1x GPU, 2x GPU alebo 4x GPU
Zhrnutie: čo sa oplatí najviac

Zdieľajte článok

Mohlo by vás ďalej zaujímať

Nenašli ste čo ste hľadali?

Kontaktujte nás

Koľko GPU sa vám pre vLLM naozaj oplatí, pokiaľ vám nejde len o pekný benchmark, ale reálny výkon pre viac používateľov a dlhší kontext? Otestovali sme menší model Qwen3.6-27B-FP8 na NVIDIA RTX PRO 6000 Blackwell v konfigurácii 1x GPU, 2x GPU a 4x GPU, a práve tu je dobre vidieť zásadný rozdieľ medzi maximálnym "marketingovým" výkonom na papiery a rozumnou investíciou.

Čo sme testovali a prečo je to dôležité

Tentokrát sme nešli po nejväčšom dostupnom modely, ale po menšom a praktickejšom nasadení. Model Qwen3.6-27B-FP8 je presne ten typ LLM, ktorý si kopa z vás dokáže predstaviť v internom AI API, firemnom chatbote alebo na automatizáciu dlhších dokumentov. Práve u takého modelu dáva zmysel riešiť, či si vystačíte s jednou kartou, či sa oplatí pridať druhú, alebo či už dává zmysel isť rovno do 4x GPU.

Všetky testy bežali na RTX PRO 6000 Blackwell s 96 GB VRAM na kartu. Porovnávali sme výkon pri krátkom 1K kontexte, ale aj dlhších 10K, 50K a 100K kontextoch. Súčasne sme otestovali aj varianty so zapnutým/vypnutým MTP. Vďaka tomu je dobre vidieť nie len maximálnu rýchlosť, ale aj to, ako sa jednotlivé konfigurácie chovajú pri dlhšom kontexte a viacerých paralelných požiadavkách.

RTX PRO 6000 Blackwell k okamžitému prenájmu

Chcete si overiť, či je pre vás lepšie 2x GPU alebo 4x GPU? Objednajte AI/GPU server, spusťte vlastné vLLM benchmarky a otestujte reálny výkon bez čakania na nový hardware.

Objednajte testovacie AI/GPU server

RTX PRO 6000 Blackwell skladom k okamžitému prenájmu

Ako benchmark čítať: nejde len o maximálne tokeny za sekundu

Pri malom a strednom modely je ľahké nechať sa zlákať len najvyšším číslom v benchmarku. Lenže samotná maximálna rýchlosť nestačí. V praxi vás zaujíma tiež TTFT, teda za ako dlho model začne odpovedať, a tiež to, ako sa rýchlosť chová pri dlhšom kontexte. Práve tam sa ukazuje, že niektoré nastavenia vyzerajú skvele pri krátkom prompte, ale pri dlhšom kontexte alebo vyššej súbežnosti začnú strácať.

Pri analýze výsledkov je preto užitočné zamerať sa na dva odlišné aspekty. Zaprvé, koľko výkonu pridá ďalšie GPU pri krátkom kontexte. Zadruhé, ako dobre si konfigurácia drží výkon pri dlhších promptoch a pri viac užívateľoch. A práve tu začína byť vidieť, prečo je 2x GPU zlatý stred a prečo 4x GPU dáva zmysel hlavne tam, kde chcete vyššiu súbežnosť, väčšiu pamäťovú rezervu a prevádzku náročnejších modelov.

Presná metodika benchmarku, testovací prompt a matica všetkých testov

Všetky testy bežali na rovnakom modely Qwen/Qwen3.6-27B-FP8 a na rovnakom type kariet RTX PRO 6000 Blackwell 96 GB. Menili sme iba počet GPU, stav MTP, dĺžku kontextu a súbežnosť. Vďaka tomu je možné výsledky medzi sebou porovnať priamo.

Pre benchmarky 1K context sme merali súbežnosť 1, 8, 32 a 64 aktívnych používateľov. Pre benchmarky 10K, 50K a 100K context sme merali 1 používateľa, aby bolo čisto viedieť, ako sa mení rýchlosť generovania s dĺžkou promptu a so zapnutým alebo vypnutým MTP.

Warmup bol zapnutý pred každým meraním. Krátke behy používali MAX_TOKENS = 1 000, dlhšie testy s 50K a 100K kontextom používali MAX_TOKENS = 500, pretože tam už išlo hlavne o správanie modelu pri dlhšom kontexte, nie o čo najdlhšiu odpoveď.

Konfigurace benchmarku

                MODEL = "Qwen/Qwen3.6-27B-FP8"

THREAD_COUNTS = [1, 8, 32, 64]
MAX_TOKENS = 1000
WARMUP_TOKENS = 500
ENABLE_WARMUP = True
STREAM_REQUEST_TIMEOUT = 600
            

                1x GPU MTP off ALL concurrency 1k context
1x GPU MTP off 10k context
1x GPU MTP off 50k context
1x GPU MTP off 100k context

2x GPU MTP off ALL concurrency 1k context
2x GPU MTP off 10k context
2x GPU MTP off 50k context
2x GPU MTP off 100k context

4x GPU MTP off ALL concurrency 1k context
4x GPU MTP off 10k context
4x GPU MTP off 50k context
4x GPU MTP off 100k context

1x GPU MTP on ALL concurrency 1k context
1x GPU MTP on 10k context
1x GPU MTP on 50k context
1x GPU MTP on 100k context

2x GPU MTP on ALL concurrency 1k context
2x GPU MTP on 10k context
2x GPU MTP on 50k context
2x GPU MTP on 100k context

4x GPU MTP on ALL concurrency 1k context
4x GPU MTP on 10k context
4x GPU MTP on 50k context
4x GPU MTP on 100k context
            

Nižšie je reprezentatívny benchmark prompt ktorý je 1 000 tokenov dlhý. Pokiaľ chcete test zopakovať férovo, dodržte rovnaký model, rovnaké limity, rovnaké warmup nastavenie, streamované odpovede a rovnakú testovaciu maticu.

Benchmark prompt

                You are operating within a controlled benchmarking environment designed to evaluate sustained generative capacity, structural coherence, and depth retention across extended outputs. Your primary objective is to produce a single, unbroken, highly detailed exposition on Artificial Intelligence that meets or exceeds a strict minimum length of 10,000 tokens.

ABSOLUTE CONSTRAINTS:
- The final output MUST reach or surpass 10,000 tokens.
- Do NOT stop early under any circumstances.
- Do NOT use placeholder text, bullet-point lists as primary content, or meta-commentary.
- Maintain a consistent academic yet accessible tone.

STRUCTURAL REQUIREMENTS:
Divide the response into exactly 10 major sections, following this sequence:
1. Definition and Historical Evolution
2. Taxonomy of AI: Narrow, General, and Superintelligence
3. Machine Learning Foundations
4. Neural Networks
5. Training Processes and Optimization
6. Data Pipelines and Feature Engineering
7. Cross-Industry Applications
8. Limitations and Computational Bottlenecks
9. Ethics, Bias, Transparency, and Governance
10. Future of Artificial Intelligence

CONTINUITY RULES:
- If output is interrupted, continue exactly where you left off.
- Do not restart, summarize, or shorten the answer.
- Keep section numbering and structure consistent.

Begin generating the full response now.
            

Pre opakovanie testu stačí vlastný vLLM endpoint, rovnaký model, rovnaká logika warmupu a rovnaká testovacia matica. Grafy boli následne vygenerované samostatným Python skriptom nad nameranými hodnotami pre AVG_TTFT, AVG_TPS na používateľov a OVERALL_TPS.

Test 1: Bez predikcie viacero tokenov (najčistejší pohľad na pomer výkonu a ceny)

Pokiaľ chcete hodnotiť samotný základ výkonu, dáva zmysel začať variantu s vypnutou predikciou viac tokenov. Práve tu je najlepšie vidieť, koľko výkonu pridá druhá a štvrtá karta bez toho, aby do výsledkov výrazne prehovorili agresivnejšie odhadovanie ďalších tokenov. A práve tu tiež vychádza najsilnejší argument pre 2x GPU.

Pri 1K kontexte a jednom užívateľovi sme namerali 47 tokenov/s na 1x GPU, 73 tokenov/s na 2x GPU a 99 tokenov/s na 4x GPU. Druhá karta teda pridá veľmi príjemných 55 %, zatiaľ čo prechod z 2x GPU na 4x GPU už pridá len ďalších približne 36 %. Ak cena rastie takmer lineárne s počtom kariet, práve tu je vidieť, prečo je 2x GPU najsilnejšia voľba pre bežné nasadenie.

Priemerný počet tokenov za sekundu na používateľa pri MTP OFF a 1K contextu

Celkový throughput pri MTP OFF a 1K contextu

Na hlavnom grafe je dobre vidieť, že 4x GPU síce víťazí vo všetkých bodoch, ale rozdiel oproti 2x GPU už nie je taký dramatický ako rozdiel medzi 1x GPU a 2x GPU. Podporné grafy zároveň ukazujú, že TTFT sa bez zapnutej predikcie drží veľmi rozumne a celkový throughput rastie podľa očakávania s vyššou súbežnosťou. Inými slovami, 2x GPU je veľmi dobrý kompromis pre väčšinu produkčných API, zatiaľ čo 4x GPU začína byť obhájiteľné hlavne vtedy, ak naozaj využijete vyššiu súbežnosť alebo chcete väčšiu rezervu do budúcnosti.

Test 2: So zapnutou predikciou viac tokenov (vyššia špičková rýchlosť, ale nie vždy lepšia prax)

Keď predikciu viac tokenov zapnete, papierovo dostanete výrazne vyššiu rýchlosť pri krátkom kontexte. Pri jednom užívateľovi vyskočí výkon na 84 tokenov/s pri 1x GPU, 126 tokenov/s pri 2x GPU a 162 tokenov/s pri 4x GPU. To vyzerá skvele a pre krátke promptovanie alebo situácie, kde potrebujete čo najvyššiu okamžitú rýchlosť, je to zaujímavé.

Lenže súčasne sa zhoršuje latencia pri viacerých užívateľoch. Napríklad pri ôsmich aktívnych užívateľoch rastie TTFT na 824 ms, 1 229 ms a 1 000 ms. Vo variante bez tejto predikcie boli rovnaké hodnoty iba 188 ms, 161 ms a 146 ms. To je obrovský rozdiel v pocite z odozvy.

Priemerný počet tokenov za sekundu na používateľa pri MTP ON a 1K contextu

Celkový throughput pri MTP ON a 1K contextu

Zapnutá predikcia teda nie je zlá. Len je potrebné ju čítať správne. Ak chcete čo najvyšší krátkodobý throughput pri menšom kontexte, vie pridať veľmi pekné čísla. Ak vám však záleží na stabilnejšej odozve a reálnej práci s dlhším kontextom, prestáva byť výhoda taká jednoznačná. Preto sme ďalšiu časť benchmarku postavili práve na dĺžke kontextu.

Vyskúšajte RTX PRO 6000 Blackwell pre vLLM

Nečakajte na teoretické čísla. Spusťte vlastný model, vlastné context window a vlastný počet užívateľov na našom AI/GPU serveri. Práve pri takomto teste rýchlo spoznáte, či vám stačí 2x GPU, alebo už využijete výhodu 4x GPU.

Objednajte AI/GPU server

Vyzkúšajte RTX PRO 6000 Blackwell pro vLLM

Test 3: Dlhý kontext (prečo býva výhodnejšia vypnutá predikcia)

Toto je jedna z najzaujímavejších častí celého testu. Hneď ako sa dostanete na 50K alebo 100K kontext, začína byť veľmi dobre vidieť, že variant bez predikcie viac tokenov sa spomaľuje podstatne menej ako režim so zapnutou predikciou. A to je dôležité, pretože práve dlhší kontext býva v reálnom nasadení veľmi drahý na pamäť aj na výkon.

Na 2x GPU bez predikcie klesne rýchlosť z 73 tokenov/s pri 1K na 62 tokenov/s pri 100K. Na 4x GPU klesne zo 99 tokenov/s na 90 tokenov/s. To je veľmi dobrý výsledok. So zapnutou predikciou je prepad oveľa tvrdší. Na 2x GPU padá výkon zo 126 tokenov/s na 30 tokenov/s, na 4x GPU zo 162 tokenov/s na 33 tokenov/s.

Vplyv dĺžky kontextu na priemernú rýchlost pri MTP OFF

Vplyv dĺžky kontextu na priemernú rýchlosť pri MTP ON

Praktický záver: Ak čakáte dlhé vstupy, veľké dokumenty, RAG nad rozsiahlym kontextom alebo viac požiadaviek s dlhším promptom, je veľmi rozumné benchmarkovať aj variant bez predikcie viac tokenov. Pri krátkom kontexte totiž môže zapnutá predikcia vyzerať skvele, ale pri dlhom kontexte sa výhoda často stráca, alebo sa dokonca obracia proti nej.

Práve tu je vidieť ďalší dôvod, prečo je voľba 2x GPU taká zaujímavá. Bez zapnutej predikcie drží aj pri dlhom kontexte stále veľmi použiteľnú rýchlosť a súčasne už ponúka podstatne väčšiu pamäťovú rezervu ako jedna karta. Pre väčšinu firemných use caseov je to praktickejšie než naháňať extrémne krátke benchmarky so zapnutou predikciou.

Porovnanie vypnutej a zapnutej predikcie podľa počtu GPU

Nasledujúca trojica grafov ukazuje to isté z iného uhla. Každý graf patrí jednej GPU a porovnáva, ako sa správa vypnutá a zapnutá predikcia viac tokenov naprieč dĺžkou kontextu. Najzaujímavejší je prostredný graf pre 2x GPU, keďže práve ten najlepšie reprezentuje konfiguráciu, ktorá sa podľa dát vyplatí najčastejšie.

MTP OFF vs ON při 2x GPU naprieč rôznymi dĺžkami kontextu

MTP OFF vs ON pri 1x GPU naprieč rôznymi dĺžkami kontextu

MTP OFF vs ON pri 4x GPU naprieč rôznymi dĺžkami kontextu

Na 1x GPU ešte zapnutá predikcia dáva zmysel pri krátkom kontexte, ale pri 100K už spadne rýchlosť na iba 28 tokenov/s, zatiaľ čo variant bez predikcie drží 38 tokenov/s. Na 2x GPU je rozdiel ešte výrečnejší: 62 tokenov/s bez predikcie proti 30 tokenom/s so zapnutou predikciou pri 100K kontexte. A na 4x GPU je výsledok najtvrdší, 90 tokenov/s bez predikcie proti 33 tokenom/s so zapnutou predikciou.

Ak to zhrnieme jednoducho, zapnutá predikcia je výborná pre krátke a rýchle scenáre, vypnutá predikcia je istejšia voľba pre dlhý kontext. A práve preto je dobré mať pri návrhu servera dosť pamäte a dosť GPU, aby si človek mohol zvoliť nastavenie podľa workloadu a nebol tlačený len jedným benchmarkom.

Z pohľadu reálneho nasadenia sa preto ako veľmi inteligentný návrh ponúka systém zložený z dvoch 2x GPU uzlov. Na prvej 2x GPU konfigurácii môžete nechať zapnutú predikciu viac tokenov a obsluhovať na nej kratšie requesty do 10K kontextu. Pred oba varianty potom stačí postaviť proxy, ktorá bude požiadavky automaticky smerovať podľa dĺžky vstupu. Kratšie prompty pošle na rýchlejší variant so zapnutou predikciou, dlhšie vstupy nad 10K na druhý 2x GPU variant bez predikcie, ktorý si výrazne lepšie drží výkon na dlhom kontexte. V praxi tak získate veľmi rozumnú kombináciu rýchlosti pre krátke otázky a stability pre náročnejšiu prácu s dlhšími dokumentmi.

KV cache: hlavný dôvod, prečo 4x GPU stále dáva zmysel

Čistá rýchlosť generovania nie je jediný dôvod, prečo pridávať GPU. V skutočnej prevádzke je často ešte dôležitejšia veľkosť KV cache. Čím viac GPU máte, tým viac priestoru získate pre veľké kontexty a paralelné požiadavky. A to je vlastnosť, ktorú bežný benchmark jedným číslom často vôbec neukáže.

Konfigurácia	GPU KV cache size	Maximum používateľov, ktorí vyťažia kontext na max
1x GPU	980 000 tokenov	4x
2x GPU	2 470 000 tokenov	9x
4x GPU	5 405 000 tokenov	21x

To znamená, že so 4x GPU dokážete obslúžiť zhruba 20 užívateľov súčasne aj v prípade, že každý z nich príde s plným 262K kontextom. To je veľmi silný argument pre produkčné nasadenie. V reálnej prevádzke navyše väčšina užívateľov nebude využívať úplne celý kontext, takže skutočná kapacita môže byť ešte vyššia.

Práve tu je potrebné čítať dáta správne. 2x GPU vyhráva pomer ceny a rýchlosti. 4x GPU ale vyhráva tam, kde je dôležitá robustnosť, dlhé context windows, viac súčasných požiadaviek a menšie riziko, že sa dostanete na limit pamäte príliš skoro.

Matyho TIP:
Zabudnite na nekonečné rady a poradovníky na grafické karty. Kým ostatní na hardvér stále čakajú, my máme dostatok výkonných GPU kariet skladom k okamžitému prenájmu . Nestrácajte drahocenný čas, začnite trénovať a prevádzkovať svoje LLM modely hneď!

Veľká VRAM otvára cestu k výrazne väčším modelom

So 4x GPU už sa nebavíme iba o Qwen 27B. Dohromady totiž získate 384 GB VRAM, teda 96 GB × 4. A práve to otvára priestor pre modely, ktoré sú pre menšie konfigurácie mimo hry, alebo dávajú zmysel len s výraznými kompromismi.

V praxi sme takto rozbehli aj ďalšie veľké modely, ktoré ukazujú, kam sa dá s podobnou konfiguráciou posunúť. Nejde teda len o vyšší throughput na Qwene, ale aj o to, že si s väčšou VRAM môžete dovoliť oveľa ambicióznejší AI stack.

MiniMax-M2.7 - 230 B total parameters, 10 B active parameters
DeepSeek-V4-Flash - 284 B total parameters, 13 B activated parameters, až 1 M context
MiMo-V2.5 - Sparse MoE, 310 B total parameters, 15 B activated parameters, až 1 M context

Ak teda dnes staviate server len pre jeden konkrétny model, môže sa vám zdať 4x GPU zbytočné. Ak však chcete nechať otvorené dvere pre väčšie MoE modely, dlhší kontext a vyššiu súbežnosť, je to už úplne iný typ infraštruktúry.

Kedy zvoliť 1x GPU, 2x GPU alebo 4x GPU

Kedy dáva zmysel 1x GPU

Prvé testy a prototypy - pokiaľ chcete rozumný vstupný bod bez väčšej investície
Menší počet používateľov - pre ľahšie interné použitie môže byť výkon dostačujúci
Jednoduchší workload - kratšie prompty, menšia súbežnosť a nižšie nároky na KV cache

Odporúčame

Prečo je 2x GPU najvýhodnejšia voľba

Najlepší pomer ceny a rýchlosti - skok zo 47 na 73 tokenov/s je v praxi veľmi znateľný
Výrazne väčšia KV cache - zvládnete približne 9 plnohodnotných requestov naraz
Lepší dlhý kontext bez MTP - aj pri 100K contexte zostáva rýchlosť veľmi použiteľná
Rozumná produkčná rezerva - dosť výkonu pre API, ale bez prestrelenej ceny

Prejsť do konfigurátora GPU servera.

Kedy sa už oplatí 4x GPU

Vysoká súbežnosť - vyšší celkový throughput a podstatne väčšia pamäťová rezerva
Dlhé context windows - okolo 21 plných 262K requestov naraz už je veľmi silný parameter
Väčšie modely a MoE - 384 GB VRAM otvára priestor pre triedu modelov, kam sa menšie zostavy nedostanú
Budúci rast - ak viete, že workload porastie, 4x GPU vám dá pokojnejšiu rezervu

Čo od 4x GPU nečakať

Najlepší pomer ceny a rýchlosti pre menší model - pri Qwen 27B vychádza najlepšie 2x GPU
Lineárne škálovanie výkonu - 4 karty neprinesú 4-násobok rýchlosti oproti 1 karte
Automaticky najlepšie nastavenie - bez správnej práce s MTP a kontextom môžete o časť výkonu zbytočne prísť

Matyho TIP:
Pokiaľ vám ide čisto o pomer cena/výkon, dáta hovoria jasne pre 2x GPU. Pokiaľ ale riešite dlhé kontexty, viac aktívnych používateľov súčasne alebo chcete otvoriť cestu k výrazne väčším modelom, 4x GPU má stále veľmi silný praktický zmysel.

Konfigurácia	Rýchlosť pri 1 používateľovi	Zisk výkonu	KV cache	262K kontext naraz	Praktický záver
1x GPU	47 tokenov/s	základ	980 000 tokenov	4 používatelia	Dobrá vstupná varianta, ale výkonová rezerva je obmedzená.
2x GPU	73 tokenov/s	+55 %	2 470 000 tokenov	9 používatelia	Najlepší pomer ceny, rýchlosti a použiteľnosti v praxi.
4x GPU	99 tokenov/s	+111 %	5 405 000 tokenov	21 používatelia	Najlepší pre vysokú súbežnosť, veľkú KV cache a väčšie modely.

Zhrnutie: čo sa oplatí najviac

Pokiaľ chcete z menšieho modelu Qwen dostať čo najlepší pomer cena výkon, najviac sa oplatí 2x GPU. Získate výrazný skok oproti 1x GPU, väčšie KV cache, lepšiu rezervu pre viac používateľov a pritom sa ešte nedostávate do situácie, kedy za ďalšie karty platíte viac, než koľko vám vráti v rýchlosti.

4x GPU ale rozhodne nie je slepá ulička. Len je potrebné ho predávať poctivo. Pri Qwen 27B nie je najvýhodnejší len na samotné tokeny za sekundu. Dáva však veľmi dobrý zmysel vo chvíli, keď riešite dlhé kontexty, vyššiu súbežnosť, veľkú KV cache a budúci prechod na výrazne väčšie modely. A práve to je dôvod, prečo môže byť 4x GPU správna voľba pre náročnejšiu produkčnú infraštruktúru.

Začnite teda podľa reálneho workloadu. Pre väčšinu firemných deploymentov voľte 2x GPU. Ak však chcete maximum priestoru pre rast, robustné API a veľké modely, objednajte 4x GPU server pre vLLM.

Chcete s výberom poradiť?
Sme vám k dispozícii!

Napíšte nám a pripravíme vám vhodné riešenie pre menšie aj veľké jazykové modely, dlhšie kontexty aj vlastnú AI API.

Prehľad aktualit

Cloud Server VPS

Cloud Server VPS Dedicated

Cloud Server VPS + LAMP

Cloud Server Ekonom

Cloud Server Nextcloud

Cloud Server Webhosting

Cloud Server WordPress

Cloud Server Managed Windows

Cloud Mail

Cloud Newsleter

Cloud Disk

AI/GPU Server

Pronájem LLM s API

Inference AI Cloud s API

Zoner AI Image Creator

Zoner AI Editor

AirGPT

Technológie a datacentra

Virtualizácia

Software

Grafické karty pre AI/GPU služby

Zálohovanie dát

Zákaznícka administrácia

SSL certifikát Basic DV

SSD Storage

DKIM

Nápověda

Pomocné nástroje

Cenník služeb

Licencovanie softwaru spoločnosti Microsoft

Garancia dostupnosti

Garancia vrátenia platby

Porovnanie výkonu serverov s konkurenciou

Kto sme

Udržateľnosť a životné prostredie

Zákaznícke referencie

Staviame efektívny GPU server: Koľko grafických kariet zvoliť pre rôzne LLM modely?

Obsah

Obsah

Zdieľajte článok

Mohlo by vás ďalej zaujímať

Nenašli ste čo ste hľadali?

Čo sme testovali a prečo je to dôležité

RTX PRO 6000 Blackwell k okamžitému prenájmu

Ako benchmark čítať: nejde len o maximálne tokeny za sekundu

Presná metodika benchmarku, testovací prompt a matica všetkých testov

Konfigurace benchmarku

Benchmark prompt

Test 1: Bez predikcie viacero tokenov (najčistejší pohľad na pomer výkonu a ceny)

Test 2: So zapnutou predikciou viac tokenov (vyššia špičková rýchlosť, ale nie vždy lepšia prax)

Vyskúšajte RTX PRO 6000 Blackwell pre vLLM

Test 3: Dlhý kontext (prečo býva výhodnejšia vypnutá predikcia)

Porovnanie vypnutej a zapnutej predikcie podľa počtu GPU

KV cache: hlavný dôvod, prečo 4x GPU stále dáva zmysel

Veľká VRAM otvára cestu k výrazne väčším modelom

Kedy zvoliť 1x GPU, 2x GPU alebo 4x GPU

Kedy dáva zmysel 1x GPU

Prečo je 2x GPU najvýhodnejšia voľba

Kedy sa už oplatí 4x GPU

Čo od 4x GPU nečakať

Zhrnutie: čo sa oplatí najviac

Chcete s výberom poradiť? Sme vám k dispozícii!

Chcete s výberom poradiť?
Sme vám k dispozícii!