Výkon AI serveru zabalený do mobilního notebooku
Dell AI pracovní stanice umožňuje provozovat generativní modely přímo v zařízení. Rychle, bezpečně a bez platby za cloudové API. Ideální pro vývoj, interní nástroje i práci s citlivými firemními daty.
Od společnosti Dell Technologies jsme si zapůjčili tuto konfiguraci: Dell Pro Max, Intel® Core™ Ultra 7 265H 2.20 GHz, 32 GB RAM, Intel® Arc™ Pro 140 T GPU, 1 TB disk, 16palcový displej. A naši AI specialisté ji podrobili několika testům.
Od společnosti Dell Technologies jsme si zapůjčili tuto konfiguraci: Dell Pro Max, Intel® Core™ Ultra 7 265H 2.20 GHz, 32 GB RAM, Intel® Arc™ Pro 140 T GPU, 1 TB disk, 16palcový displej. A naši AI specialisté ji podrobili několika testům.
Proč vůbec využívat pro AI potřeby lokální infrastrukturu?
Test vývoje aplikace s generativní AI
Pro tyto potřeby je podstatná grafická karta, která má jak propustnost, tak i dostatek sdílené paměti. Na testovaném Dell stroji se nachází Intel® Arc™ Pro 140 T, která má 16 GB sdílené paměti. I když většina softwarových aplikací je dnes navržena pro Nvidia ekosystém a předpokládá CUDA nebo NVIDIA toolkit, lze na této grafické kartě Intel provozovat modely pomocí dockeru či ollamy speciálně zkompilované pro grafické karty Intel (také v dockeru). Pro testování jsme zprovoznili GPT-OSS Open AI model s 20B parametrů v dockeru. Velikost modelu je 12 GB (kvantizovaný), na grafickou kartu se tedy vejde.
Běžný člověk dokáže číst zhruba 8 tokenů za vteřinu. Pro rychlé čtení je potřeba 12 a více tokenů za vteřinu. Z Task Manageru je zřejmé, že model zabírá 12,5 GB sdílené paměti GPU a vytížení dosahuje 99 %.
První dotaz byl generován rychlostí 6 tokenů za vteřinu – pro UX to není ideální. Je to dáno nutností model nejprve načíst do paměti. Druhý dotaz byl již generován rychlostí 46 tokenů za vteřinu, což je velmi dobré. Na první odpověď bylo třeba čekat 11 sekund, na druhou 1,5 sekundy.
Běžný člověk dokáže číst zhruba 8 tokenů za vteřinu. Pro rychlé čtení je potřeba 12 a více tokenů za vteřinu. Z Task Manageru je zřejmé, že model zabírá 12,5 GB sdílené paměti GPU a vytížení dosahuje 99 %.
První dotaz byl generován rychlostí 6 tokenů za vteřinu – pro UX to není ideální. Je to dáno nutností model nejprve načíst do paměti. Druhý dotaz byl již generován rychlostí 46 tokenů za vteřinu, což je velmi dobré. Na první odpověď bylo třeba čekat 11 sekund, na druhou 1,5 sekundy.
Test modelem Gemma3
Pro generativní AI není potřeba GPT-OSS 20B. Podstatné ale je, aby model uměl česky. Gemma3 od Googlu toto splňuje a má i menší velikost (méně parametrů) - 3.8B parametrů. Na disku zabírá 2.5 GB.
Byly použity stejné dva dotazy. První dotaz byl zpracován rychlostí 75 tokenů za vteřinu, druhý 84 tokenů za vteřinu. Načítání modelu tedy výrazně zrychlilo. Model zabíral 5.8 GB sdílené paměti a využití GPU při inferenci dosahovalo 94 %.
Byly použity stejné dva dotazy. První dotaz byl zpracován rychlostí 75 tokenů za vteřinu, druhý 84 tokenů za vteřinu. Načítání modelu tedy výrazně zrychlilo. Model zabíral 5.8 GB sdílené paměti a využití GPU při inferenci dosahovalo 94 %.
Test výkonu Dell Pro Max versus Mac Pro M4
Pro porovnání výkonu byl proveden stejný test na Mac Pro M4 s 48 GB sdílené paměti. Architektura je jiná (ARM), ale pro provoz modelu lze také využít docker. Stejný model a stejné 2 dotazy.
Poznatky a závěry z testování Dell Pro Max pro AI potřeby
Grafická karta Intel může být vnímána jako nevýhoda, protože některé platformy OpenWebUI s kompilovanou ollamou předpokládají jen grafickou kartu NVidia a možnost nativního provozu s Intel GPU vůbec nemají. Pro psaní AI aplikace (prototypu) nebo vlastního AI agenta je ale testované zařízení použitelné a plně dostačující, protože Docker model poskytuje REST API ve standardu OPENAI. Je jedno, zda je použit docker, ollama, nebo přímo cloud OpenAI. Je tedy možné mít Visual Studio / Cursor, který využívá právě lokální model. A provozovat n8n s ollamou jako inference modelem.
Pro spuštění Dockeru potažmo jakéhokoliv modelu je potřeba mít instalovaný na Windows Subsystem for Linux, aktuální verze již je stabilní, na rozdíl od dřívější zkušeností. Během testování nedošlo k pádu systému ani jednou. Notebook je v provozu hlučnější, v režimu, kdy není v plném zatížení, spouští větrák již při 83 % využití RAM a 15 % využití CPU (naměřená hodnota hluku: 55 dB).
Pro spuštění Dockeru potažmo jakéhokoliv modelu je potřeba mít instalovaný na Windows Subsystem for Linux, aktuální verze již je stabilní, na rozdíl od dřívější zkušeností. Během testování nedošlo k pádu systému ani jednou. Notebook je v provozu hlučnější, v režimu, kdy není v plném zatížení, spouští větrák již při 83 % využití RAM a 15 % využití CPU (naměřená hodnota hluku: 55 dB).
Jaká konfigurace Dell by mohla odpovídat vašim potřebám?
Naši specialisté vybrali modely Dell Pro Max, které jsou aktuálně nejlépe dostupné a mají atraktivní cenové podmínky. Pro podnikové využití rádi jako Dell Platinum parner nabídneme i speciální ceny.
NEVÁHEJTE, KONTAKTUJTE NÁS.
Máte zájem o další informace nebo o nabídku pro vaši konkrétní situaci?
BUĎTE U TOHO
Přihlaste se k odběru našich newsletterů, ať vám nic podstatného neuteče.



