Midjourney na vlastním PC? Generujeme obrázky zdarma se Stable Diffusion a GPU od NVIDIA

20.1.2025| Chytré technologie, Ne na Seznam, Umělá inteligence, Vybráno| 3 komentáře|

Máte počítač s výkonným hardwarem a nadupanou grafickou kartou? Využít jeho výkon nemusíte jen na hraní či práci. Na lokálním počítači můžete zcela zdarma spustit alternativu k ChatGPT či obrázkovým generátorům typu Midjourney. A to vše zcela zdarma. Jak na to?

Volba správného hardwaru pro AI

Marketing prodejců i značek se většinou točí kolem NPU, TOPS a FLOPS a může být obtížné rozlišit, které specifikace jsou skutečně důležité pro provoz AI modelů. Dlouhodobě se jako nejlepší volba pro práci s AI modely ukazují grafické karty NVIDIA, a to především díky vynikající softwarové podpoře a specializovaným Tensor jádrům.

Naprosto zásadním parametrem pro provoz AI modelů je nicméně kapacita paměti, konkrétně VRAM u dedikovaných grafických karet. Všechny AI modely vyžadují značný prostor v paměti pro dosažení optimálního výkonu. Potřebná kapacita závisí na velikosti modelu, přesnosti, v jaké byl natrénován, a možnostech kvantizace.

Obrázek: Midjourney na vlastním PC? Generujeme obrázky zdarma se Stable Diffusion a GPU od NVIDIA

Pro hrátky s AI je ideálních alespoň 8 GB VRAM. Foto: Unsplash

Většina současných AI modelů je trénována s 16bitovou přesností, což znamená, že na každou miliardu parametrů potřebujete přibližně 2 GB paměti. Proto se běžně využívá kvantizace na 8 nebo dokonce 4 bity, která výrazně snižuje paměťové nároky. Při 4bitové přesnosti potřebujete pouze 0,5 GB na miliardu parametrů. Tak či onak je ideální GPU minimálně s 8 GB VRAM a ideálně s 16 GB a více.

Důležitá je ale i samotná přítomnost Tensor jader (Tensor Cores), což jsou specializované výpočetní jednotky pro operace s maticemi a tenzory, které jsou klíčové pro hluboké učení. Tensor Cores nabízejí pokročilou technologii mixed-precision computing, která umožňuje provádět výpočty s různou úrovní přesnosti podle aktuální potřeby. Systém dokáže dynamicky přizpůsobovat přesnost výpočtů tak, aby dosáhl maximálního výkonu při zachování požadované přesnosti výsledků. Co je pro vás důležité je fakt, že technologie přináší výrazné zrychlení zpracování AI úloh – u trénování rozsáhlých modelů dokonce odborníci pozorují až čtyřnásobné zvýšení výkonu. I když lze AI modely teoreticky provozovat na široké škále hardwaru (klidně i na mobilu nebo Raspberry Pi), bez specializovaných akcelerátorů jako jsou Tensor jádra je běh vždy znatelně pomalejší. Jak moc? Výrazně, ale to si ukážeme níže.

Obrázek: Midjourney na vlastním PC? Generujeme obrázky zdarma se Stable Diffusion a GPU od NVIDIA

TensorRT výrazně zkracuje dobu generování výstupů generativní AI. Foto: Se souhlasem NVIDIA

Výpočetní náročnost AI modelů

Stable Diffusion využívá difuzní procesy pro generování obrazu na základě textových a obrazových vstupů. Jde o výpočetně velmi náročný proces – na nespecializovaném hardwaru, jako jsou CPU, může generování jediného obrázku v nízkém rozlišení trvat několik minut. Jen pro představu, obrázek s rozlišením 800×800 jsme generovali na výkonném 12jádrovém CPU AMD Ryzen 9 3900X 11 minut a 41 sekund. Na GPU RTX 4060 stejný úkon se stejným promptem a nastavením trval 6,8 sekundy.

Obrázek: Midjourney na vlastním PC? Generujeme obrázky zdarma se Stable Diffusion a GPU od NVIDIA

GPU u generativní AI jasně poráží CPU. Pokud má navíc specializovaná jádra pro AI výpočty, tak je rozdíl ještě propastnější. Foto: Redakce inSmart.cz

Bez dedikovaného hardwaru jsou AI funkce pomalé, protože procesory (CPU) nejsou ze své podstaty navrženy pro vysoce paralelní operace, které vyžadují neuronové sítě. Místo toho jsou optimalizovány pro všeobecné výpočetní úlohy. Stable Diffusion je typickým příkladem toho, proč je GPU pro efektivní provoz AI modelů výrazně lepší volbou.

I když lze AI modely teoreticky provozovat na široké škále hardwaru, viz výše, bez specializovaných akcelerátorů, jako jsou Tensor jádra, bude běh výrazně pomalejší. Proto jsou produkty NVIDIA se svými Tensor jádry dlouhodobě preferovanou volbou pro práci s AI. Díky úspěchům na poli umělé inteligence se NVIDIA stala druhou nejhodnotnější společností světa hned po Applu.

Jako Midjourney, ale na vlastním PC? Generujeme obrázky zdarma se Stable Diffusion

Modely jako Stable Diffusion či Flux generují obraz pomocí tzv. generativní AI. Stačí zadat textový popis a modely se postarají o zbytek. Jak generativní AI na počítači s Windows spustit a využít možností vašeho např. herního či pracovního hardwaru? A proč to vůbec dělat? Na rozdíl od cloudových služeb typu Midjourney získáte plnou kontrolu nad procesem generování a možnost experimentovat s různými modely a parametry. Dále nejste závislí na přístupu k internetu a můžete model provozovat i offline.

Je jen na vás, jakou úroveň realističnosti zvolíte. Na své si přijdou umělecké duše i nadšenci do cyberpunku. Foto: Redakce inSmart.cz

Už dávno navíc neplatí, že zprovoznění modelu na lokálním zařízení je technický oříšek, kvůli kterému musíte znát Python a mistrně rozumnět použitým technologiím. Díky nástrojům typu Stable Diffusion web UI a Comfy UI, které lze po letech vývoje snadno na pár kliknutí nainstalovat se softwarem Stability Martix, je celý proces otázkou několika minut. Výhodou je, že nástroj si sám stáhne veškeré knihovny a související soubory pro hladký běh a vy se tak můžete soustředit na samotné generování.

Stability Matrix: Nejrychlejší cesta k používání obrázkových generátorů na PC s Windows

Stability Matrix si zdarma stáhnete z oficiálních stránek vývojářů. Po rychlé instalaci se nástroj spustí a vy můžete začít se stahováním modelů. Proces je to jednoduchý a na výběr máte řadu modelů v čele s FLUX a Stable Diffusion, které ve světě open-source patří k tomu nejlepšímu. Modely si stáhnete zdarma a na výběr jich jsou desítky, přičemž se liší počtem parametrů či konkrétním zaměřením. Komunita kolem generativních nástrojů je překvapivě velká a možná budete překvapeni, jak velké možnosti výběru jsou. Jak konkrétně postupovat?

Stáhněte a nainstalujte Stability Matri (myslete na to, že modely a doprovodné soubory mají i desítky GB, takže pro instalaci zvolte disk s dostatkem místa).
Otevřete Stability Matrix a v záložce „Packages“ nainstalujte Stable Diffusion Web UI od AUTOMATIC1111
Následně přejděte do katalogu modelů a podle velikosti své VRAM vyberte model dle potřeb a stáhněte jej kliknutím na tlačítko „Import“.
Po úspěšném stažení spustíte WebUI kliknutím na tlačítko „Launch“.
Po chvíli dojde k otevření webového rozhraní, které vám umožní začít generovat obrázky a jednoduše ovládat Stable Diffusion.

Výběr modelů je skutečně bohatý, výběr konkrétního je na vás podle toho, co přesně chcete generovat. Pokud nevíte, sáhněte např. po DreamShaperu, který nabízí pěkné výstupy z mnoha oblastí. Foto: Redakce inSmart.czVěřím, že v tuto chvíli už nebudete chtít čekat a rovnou si zkusíte se základním nastavením něco vygenerovat. A to je naprosto v pořádku. Až si s generátorem trošku pohrajete, doporučuji si ještě dočíst zbytek článku, kde se dozvíte, jak nainstalovat a aktivovat TensorRT, což výrazně zrychlí proces generování, a jak dosáhnout co nejlepších výsledků díky nastavení a promptům.

Hardwarové požadavky a optimalizace výkonu

Jak padlo výše, zásadním faktorem pro plynulý běh Stable Diffusion je dostupná paměť grafické karty. Aktuální generativní modely, které nabízí velmi kvalitní výsledky, dnes vyžadují minimálně 8 GB VRAM pro bezproblémový provoz. Při nedostatku paměti může dojít k výraznému zpomalení generování, protože systém musí data přesouvat mezi GPU a RAM. A zpomalení je to citelné – samotní tvůrci nástrojů varují před cca 10násobným zpomalením, pokud k něčemu takovému dojde. Ideálně je tedy zapotřebí vybírat nejen takový model, který podle galerie nabízí skvělé výsledky, ale především takový, který dobře poběží na vašem hardwaru. Pokud máte starší hardware, mohu doporučit následující kroky:

Využijte odlehčený model optimalizovaný pro menší VRAM.
Snižte rozlišení generovaných obrázků.
Implementujte xFormers pro lepší paměťovou efektivitu.
Použijte modely s nižším počtem parametrů.
Dejte si záležet na detailnosti promptu.

Obrázek: Midjourney na vlastním PC? Generujeme obrázky zdarma se Stable Diffusion a GPU od NVIDIA

Zajímavé je sledovat, jak generativní modely využívají především VRAM, nikoliv samotný „tvrdý“ výkon karty. Pro hrátky s generativní AI včetně textových modelů typu DeepSeek sáhněte po modelech karet s co největší pamětí VRAM. Foto: Redakce inSmart.cz

Pro uživatele s grafickými kartami s 6 GB VRAM nebo méně doporučiji začít s odlehčenými modely jako SD 1.5 base nebo specializovanými verzemi optimalizovanými pro nižší paměťové nároky. My jsme pro test použili zmíněné GPU NVIDIA RTX 4060 s 8GB VRAM. I s touto dnes již dobře dostupnou kartou v ceně 8 000 Kč lze dosáhnout skvělých výsledků a rychlého generování. To, co CPU trvá více jak 10 minut zvládá karta během 5-7 sekund.

Zrychlujeme generování díky TensorRT

Jak padlo výše, byla by škoda nevyužít plně potenciálu vaší grafické karty. Dalším krokem by měla být instalace podpory pro Tensor jádra s názvem TensorRT. Jelikož je návod poněkud obsáhlejší, odkáži vás zde přímo na oficiální návod od NVIDIA, kde se dozvíte vše důležité. Nenechte se odradit případnými chybovými hláškami. Stačí je zadat do Googlu a následovat jednoduché instrukce – komunita je zde skutečně aktivní.

Pokud vlastníte moderní GPU od NVIDIA, ušetří vám použití TensorRT spoustu času. Rozdíl v rychlosti je oproti základní knihovně PyTorch až 2,5násobný. Při našem testování se čas potřebný pro vygenerování výstupu snížil o cca 35 %, tedy ze 7 sekund na 4,5 sekundy.

	PyTorch	TensorRT
RTX2080 Ti	2,2 it/s	7,4 it/s
RTX4060	7 it/s	12 it/s

Rozdíly se mění dle použadovaného rozlišení výstupu a dalších parametrů. Pokud máte GPU od NVIDIA, budeme rádi, pokud se v diskuzi podělíte o vaše hodnoty a jakého rozdílu se povedlo dosáhnout vám.

Jak psát pompty jako profík?

Struktura promptu zásadně ovlivňuje výsledný výstup. Dobrý prompt by měl obsahovat popis subjektu, jeho detaily, požadovaný umělecký styl, kvalitativní popis a technické specifikace. Pro dosažení profesionálních výsledků je dobré používat přesné kvalitativní modifikátory jako „highly detailed“, „masterpiece“, „8k resolution“ či „photorealistic“. A ještě jedna důležitá věc – prompty zde pište zásadně v angličtině. Jiné jazyky jsou problematické.

Prompt pro portrét může vypadat např. takto:

„A weathered elderly craftsman in his workshop, intricate wood carvings visible in the background, warm afternoon light through dusty windows, rich wooden textures, shot on Hasselblad, 100mm macro lens, F2.8, professional studio lighting, photorealistic, detailed skin and material textures, volumetric lighting, cinematic color grading.“

Skvělým zdrojem inspirace jsou různé galerie a databáze promptů, kde spolu sdílí komunita. Myslete na to, že výstupy se budou lišit podle použitého checkpointu, modelu a dalšího nastavení. Osobně se mi velmi osvědčilo použití ChatGPT pro generování promptů. Stačí do GPT napsat „Napiš mi detailní prompt pro Stable Diffusion na základě mého stručného zadání: detailní fotografie dívky zblízka“. Získáte tak detailní zadání a o to lepší jsou potom výsledky:

„A hyper-realistic close-up portrait of a young woman’s face, perfectly centered in the frame. Her smooth, natural skin is illuminated by soft, diffused light, capturing every detail, including fine pores and subtle imperfections. Her expressive eyes are deep and captivating, reflecting natural light with realistic reflections. Her lips are slightly parted, full, and well-defined with a natural texture. Her hair gently frames her face, some strands softly falling across her forehead. The background is blurred with a professional bokeh effect, making her facial features the sole focus of the image. The image is highly detailed, ultra-sharp, and has a photorealistic quality, mimicking a high-end DSLR camera shot. Ultra-realistic, 8K resolution, cinematic lighting, HDR, ultra-detailed skin texture, soft depth of field, lifelike shadows, and high contrast.“

Obrázek: Midjourney na vlastním PC? Generujeme obrázky zdarma se Stable Diffusion a GPU od NVIDIA

Obrázek byl vygenerován na lokálním PC během 5,3 sekund díky GPU NVIDIA RTX 4060 s TensorRT. Ten stejný úkon zabere výkonnému procesoru skoro 12 minut. A co se kvality výstypu týče, záleží nejen na modelu, ale velkou roli hraje také prompt. Foto: Redakce inSmart.cz

Práce s negativními prompty

Pamatujete si na problematické generování pstů na rukou? I tomu se lze vyvarovat. Pro eliminaci nežádoucích artefaktů v generovaných obrázcích jsou zásadní negativní prompty. Základní negativní prompt by měl obsahovat běžné problémy jako deformace, šum, rozmazání a anatomické nepřesnosti. Standardní template, který si můžete vykopírovat níže, můžete dále rozšiřovat podle konkrétních potřeb a scén:

„ugly, deformed, noisy, blurry, low quality, distorted, out of focus, bad anatomy, wrong anatomy, extra limbs, poorly drawn face, poorly drawn hands, missing fingers, extra fingers, floating limbs, disconnected limbs, mutation, mutated, watermark, signature, text“

Obrázek: Midjourney na vlastním PC? Generujeme obrázky zdarma se Stable Diffusion a GPU od NVIDIA

Negativní prompt pomůže s některými neduhy. Především starším modelům však příliš nejdou prsty, tak se jim ideálně vyhněte. Foto: Redakce inSmart.cz

Klíčové parametry pro optimální výsledky

Stable Diffusion funguje na principu difuzního procesu, který postupně transformuje náhodný šum na finální obraz podle zadaného textového promtu. Jádrem systému je difuzní model, který řídí celý proces transformace. O finální vzhled a kvalitu obrazu se stará komponenta VAE (Variational Autoencoder), zatímco různé samplery nabízejí odlišné algoritmy pro řízení procesu generování.

Kvalitu generovaného obrazu ovlivňuje několik klíčových parametrů. Počet kroků (Steps) určuje, kolik iterací AI provede při generování. Pro většinu případů je optimální rozsah mezi 20 a 30 kroky, přičemž detailní portréty obvykle vyžadují 30 a více kroků pro zachycení jemných detailů, zatímco u krajin často postačí 20-30 kroků.

Parametr CFG Scale kontroluje, jak přesně bude AI následovat zadaný prompt. Při hodnotách 7-11 dosáhnete nejlepších výsledků. Nižší hodnoty dávají AI větší kreativní volnost, zatímco vyšší hodnoty zajistí přesnější interpretaci promptu.

Samplery a jejich využití

Různé samplery nabízejí odlišné přístupy ke generování obrazu. Euler a (ancestral) vyniká rychlostí a kreativitou, což z něj dělá ideální volbu pro rychlé prototypování a umělecké interpretace. Obvykle poskytuje dobré výsledky již při 20-30 krocích.

DPM++ 2M Karras je specialista na detailní výstupy, především u portrétů a obličejů. Pro nejlepší výsledky vyžaduje 20-50 kroků, ale odměnou jsou konzistentní a vysoce kvalitní obrazy. DDIM naopak nabízí velmi přesné a reprodukovatelné výsledky s možností rychlé generace i při nižším počtu kroků.

Tipy na nastavení generátoru

Při generování portrétů je optimální využít sampler DPM++ 2M Karras s 30-50 kroky a CFG Scale 7-8, s důrazem na detaily kůže a osvětlení. Pro krajiny se osvědčuje Euler a nebo DPM++ SDE Karras s 20-40 kroky a CFG Scale 8-10, kde je klíčová práce s atmosférickými efekty. U uměleckých výstupů doporučuji Euler a s 20-30 kroky a nižším CFG Scale (6-8) pro větší kreativní svobodu.

Zvláštní pozornost je třeba věnovat generování obrazů ve vysokém rozlišení. Pokud se pokusíte generovat obrázek ve vyšším rozlišení, než na jakém byl model natrénován, můžete se setkat s bizarními výsledky jako jsou postavy s více hlavami, končetinami nebo očima. Pokud tedy plánujete generovat například 4K tapety na plochu, buďte připraveni na možné komplikace a artefakty. Řešit se to dá různými upscalery, ale to už je téma na jiný článek.

Obrázek: Midjourney na vlastním PC? Generujeme obrázky zdarma se Stable Diffusion a GPU od NVIDIA

Pokud potřebujete z technických důvodů použít Comfy UI, které často funguje o něco lépe, ale nelíbí se vám složité UI, můžete ve Stability Matrix sáhnout po záložce Inference. Ta vše zjednodušuje na pole pro prompty a základní nastavení s přehledným zobrazením důležitých parametrů i výstupů. Foto: Redakce inSmart.cz

Než se vám vše dostane pod kůži, doporučuji experimentovat při ladění pouze s jedním parametrem současně, aby bylo možné jasně identifikovat vliv změn na výsledný obraz. Po chvíli vám vše půjde snadno a budete překvapeni prakticky neomezenými možnostmi generativních modelů.

Zvlášť se mi osvědčila vlastní knihovna promptů, které mi v minulosti fungovaly. Ačkoliv vše může zpočátku vypadat poněkud neintuitivně, s rostoucími zkušenostmi budete schopni přesněji předvídat vliv jednotlivých parametrů a vytvářet stále působivější výstupy. Zkoušeli jste už lokálně spustit generativní AI? A jaké jsou vaše zkušenosti ve srovnání s online službami?

V navazujícím článku se podíváme, jak využít GPU pro provoz lokální alternativy ChatGPT, která nepotřebuje přístup k internetu a funguje zcela zdarma.

Zdroje: 1, 2, 3

O autorovi

František Boček

Práce mě přivádí k nejnovějším trendům a novinkám v technologickém světě, které nadšeně sdílím se čtenáři magazínu

Odebírat

3 Komentářů

nejstarší

nejnovější nejlépe hodnocené

Inline Feedbacks

View all comments