Pro generativní AI v lokálním prostředí již přicházejí i výkonnější mobilní pomocníci

Aricoma specialisté, kteří mají zkušenosti s využíváním pokročilých AI algoritmů, testovali nové modely Dell AI koncových zařízení. Zajímá vás, jak to dopadlo? A co vám může v roce 2026 efektivně pomoci s AI potřebami?

Inspirace a aktuality

Výkon AI serveru zabalený do mobilního notebooku

Dell AI pracovní stanice umožňuje provozovat generativní modely přímo v zařízení. Rychle, bezpečně a bez platby za cloudové API. Ideální pro vývoj, interní nástroje i práci s citlivými firemními daty.

Od společnosti Dell Technologies jsme si zapůjčili tuto konfiguraci: Dell Pro Max, Intel® Core™ Ultra 7 265H 2.20 GHz, 32 GB RAM, Intel® Arc™ Pro 140 T GPU, 1 TB disk, 16palcový displej. A naši AI specialisté ji podrobili několika testům.

Proč vůbec využívat pro AI potřeby lokální infrastrukturu?

Nižší provozní náklady

Za AI výkon se neplatí průběžné poplatky. Firmy investují do zařízení jednorázově a mohou provozovat modely bez dalších nákladů na cloudové API.

Bezpečnost dat

Veškeré zpracování probíhá přímo na notebooku. Firemní data neopouštějí interní prostředí, což je ideální pro citlivé dokumenty nebo interní databáze.

Okamžitá odezva

Modely běží lokálně, takže reakce nejsou omezovány připojením k internetu ani latencí vzdáleného serveru.

Kompatibilita s firemním prostředím

Notebook funguje jako běžná Windows 11 stanice, kterou lze spravovat existujícími firemními nástroji. Není nutné zavádět nové platformy ani měnit infrastrukturu.

Jak to funguje na mobilní pracovní stanici?

Aricoma AI tým zaměřený na návrhy a nasazování užitečných řešení v oblasti umělé inteligence, zpracování strukturovaných i nestrukturovaných dat, pokročilé datové analýzy i využití strojového učení včetně oblasti rozsáhlých jazykových modelů, má za sebou více než 7 let zkušeností z projektů na lokálním trhu.

Pro lokální AI potřeby zákazníků využívají serverové AI systémy s NVIDIA kartami (nejnověji s architekturou BlackWell) či elegantní vstupenku do AI světa v podobě NVIDIA DGX Spark. Jak to ale funguje v notebooku?

Test vývoje aplikace s generativní AI

Pro tyto potřeby je podstatná grafická karta, která má jak propustnost, tak i dostatek sdílené paměti. Na testovaném Dell stroji se nachází Intel® Arc™ Pro 140 T, která má 16 GB sdílené paměti. I když většina softwarových aplikací je dnes navržena pro Nvidia ekosystém a předpokládá CUDA nebo NVIDIA toolkit, lze na této grafické kartě Intel provozovat modely pomocí dockeru či ollamy speciálně zkompilované pro grafické karty Intel (také v dockeru). Pro testování jsme zprovoznili GPT-OSS Open AI model s 20B parametrů v dockeru. Velikost modelu je 12 GB (kvantizovaný), na grafickou kartu se tedy vejde.

Běžný člověk dokáže číst zhruba 8 tokenů za vteřinu. Pro rychlé čtení je potřeba 12 a více tokenů za vteřinu. Z Task Manageru je zřejmé, že model zabírá 12,5 GB sdílené paměti GPU a vytížení dosahuje 99 %.
První dotaz byl generován rychlostí 6 tokenů za vteřinu – pro UX to není ideální. Je to dáno nutností model nejprve načíst do paměti. Druhý dotaz byl již generován rychlostí 46 tokenů za vteřinu, což je velmi dobré. Na první odpověď bylo třeba čekat 11 sekund, na druhou 1,5 sekundy.

Test modelem Gemma3

Pro generativní AI není potřeba GPT-OSS 20B. Podstatné ale je, aby model uměl česky. Gemma3 od Googlu toto splňuje a má i menší velikost (méně parametrů) - 3.8B parametrů. Na disku zabírá 2.5 GB.

Byly použity stejné dva dotazy. První dotaz byl zpracován rychlostí 75 tokenů za vteřinu, druhý 84 tokenů za vteřinu. Načítání modelu tedy výrazně zrychlilo. Model zabíral 5.8 GB sdílené paměti a využití GPU při inferenci dosahovalo 94 %.

Test výkonu Dell Pro Max versus Mac Pro M4

Pro porovnání výkonu byl proveden stejný test na Mac Pro M4 s 48 GB sdílené paměti. Architektura je jiná (ARM), ale pro provoz modelu lze také využít docker. Stejný model a stejné 2 dotazy.

Poznatky a závěry z testování Dell Pro Max pro AI potřeby

Grafická karta Intel může být vnímána jako nevýhoda, protože některé platformy OpenWebUI s kompilovanou ollamou předpokládají jen grafickou kartu NVidia a možnost nativního provozu s Intel GPU vůbec nemají. Pro psaní AI aplikace (prototypu) nebo vlastního AI agenta je ale testované zařízení použitelné a plně dostačující, protože Docker model poskytuje REST API ve standardu OPENAI. Je jedno, zda je použit docker, ollama, nebo přímo cloud OpenAI. Je tedy možné mít Visual Studio / Cursor, který využívá právě lokální model. A provozovat n8n s ollamou jako inference modelem.

Pro spuštění Dockeru potažmo jakéhokoliv modelu je potřeba mít instalovaný na Windows Subsystem for Linux, aktuální verze již je stabilní, na rozdíl od dřívější zkušeností. Během testování nedošlo k pádu systému ani jednou. Notebook je v provozu hlučnější, v režimu, kdy není v plném zatížení, spouští větrák již při 83 % využití RAM a 15 % využití CPU (naměřená hodnota hluku: 55 dB).

Martin Biolek

Blockchain & DEV Specialist

martin.biolek@aricoma.com

Jaká konfigurace Dell by mohla odpovídat vašim potřebám?

Naši specialisté vybrali modely Dell Pro Max, které jsou aktuálně nejlépe dostupné a mají atraktivní cenové podmínky. Pro podnikové využití rádi jako Dell Platinum parner nabídneme i speciální ceny.