Máte chaos ve fotkách? AI NVIDIA ChatRTX najde v PC obrázky podle textového popisu

NVIDIA rozšířila schopnosti své lokální AI aplikace ChatRTX o možnost vyhledávání obrázků podle textových popisů zadaných uživatelem. Nová funkce využívá CLIP – vizuální a jazykový model od OpenAI. Co umí?

ChatRTX (původně Chat with RTX) byla původně navržena jako demo ukázka technologie pro připojení velkých jazykových modelů (LLM) k lokálním datovým sadám složeným z dokumentů, poznámek, fotografií a dalších souborů. Aplikace pak na základě těchto dat personalizuje odpovědi LLM modelu tak, aby byly relevantní pro obsah zpracovávaných souborů.

Obrázek: Máte chaos ve fotkách? AI NVIDIA ChatRTX najde v PC obrázky podle textového popisu

S výkonnou GPU můžete na svém PC provozovat zajímavé AI aplikace. Foto: Redakce inSmart.cz

Co uměla první verze? Chatovat s vašimi dokumenty, viz naše představení Chat with RTX od NVIDIA je AI, která díky grafice ve vašem PC funguje lokálně.

Až doposud byly funkce nástroje omezené a NVIDIA první verzi zveřejnila bez podpory práce s fotografiemi. AI zkrátka uměla pracovat pouze s textem. To se nyní mění. NVIDIA do Chat with RTX integrovala podporu neuronové sítě CLIP (Contrastive Language-Image Pre-Training), která kombinuje možnosti zpracování přirozeného jazyka s počítačovým viděním.

AI umožňuje uživatelům vybrat lokální složku s obrázky ve formátech JPEG, GIF nebo PNG a následně aplikaci klást textové dotazy týkající se obsahu těchto obrázků. Pokud tedy často hledáte konkrétní fotografie ve svém PC a nemáte v nich úplně pořádek, jde o zajímavé řešení. Jednoduše programu řeknete, kde máte všechny své fotografie, a následně můžete vyhledávat pouhým zadáváním dotazů do ChatRTX.

Obrázek: Máte chaos ve fotkách? AI NVIDIA ChatRTX najde v PC obrázky podle textového popisu

CLIP je novým AI modelem v ChatRTX. Funguje překvapivě dobře. Foto: Redakce inSmart.cz

Jak vyhledávání v obrázcích funguje?

Novou verzi ChatRTX jsme již otestovali a máme k ní několik poznatků. Prvním je, že CLIP v ChatRTX překvapivě dobře rozumí česky i když se o tom NVIDIA nikde nezmiňuje.

Jednoduše tedy napíšete do chatu instrukce a ChatRTX vám vrátí odpověď v podobě odpovídajících obrázků s krátkým komentářem (ten je nehledě na jazyk vašeho dotazu v angličtině). Model CLIP dokáže analyzovat vizuální obsah nahraných snímků a sémanticky ho porovnat se zadaným textem dotazu, aby vrátil relevantní obrázky.

ChatRTX díky modelu Whisper od OpenAI nově dokáže také velmi dobře rozeznávat řeč. Foto: Redakce inSmart.cz

Příkladem může být dotaz „Ukaž mi obrázky, na kterých jsou kočky“ nebo „Najdi fotky obsahující kočárek“. Odpovědí je trojice fotografií s možností zobrazení veškerých nalezených výsledků. Ty ChatRTX pro účely zobrazení dočasně zkopíruje do složky, se kterou můžete dále pracovat, což oceníte v případě, že chcete s fotkami hromadně pracovat.

Obrázek: Máte chaos ve fotkách? AI NVIDIA ChatRTX najde v PC obrázky podle textového popisu

Vyberete složku s fotografiemi, zadáte dotaz a AI sama vybere, jaké snímky odpovídají zadání. Výsledek je překvapivě dobrý. Foto: Redakce inSmart.cz

Lokální AI se zlepšuje

Funkce je celkem šikovná, to ano, ale nic jiného CLIP v ChatRTX zatím neumí. Je vlastně takovým pokročilým vyhledávačem v nesetříděných a neoznačených obrázcích. Chápe, na co se ptáte a vrátí vám odpovídající fotografie. To je vše. Nedokáže se s vámi o obsahu fotografií např. dále bavit. Ale nutno podotknout, že NVIDIA nástroj vyvíjí poměrně krátce a neustále přidává nové funkce.

Tohle je jen začátek, tvrdí NVIDIA

Rozšiřováním podpory pro multimodální vstupy v podobě textu a obrazu dále rozšiřujeme možnosti a použitelnost velkých jazykových modelů,“ zmínila NVIDIA. „Toto je jen začátek našich ambiciózních plánů na hlubokou integraci pokročilých AI systémů do celého portfolia produktů a služeb společnosti.

Aktualizace aplikace, podporující vyhledávání obrázků podle textového popisu či hlasové zadávání, je pro uživatele grafik NVIDIA k dispozici zdarma. Pro využití ChatRTX je nutné disponovat počítačem s NVIDIA GeForce RTX řady 30 a 40, alespoň 8 GB VRAM a operačním systémem Windows. Dále je zapotřebí alespoň 16 GB RAM a dostatek místa na disku – instalační soubor totiž zabírá přes 30 GB.

Zdroj: Redakce inSmart.cz, NVIDIA

Odebírat
Upozornit na
guest
0 Komentářů
nejstarší
nejnovější nejlépe hodnocené
Inline Feedbacks
View all comments
Obrázek: Menší než nehet, větší než pevný disk: Nové paměťové karty SanDisk mají extrémní kapacitu až 2 TB
Menší než nehet, větší než pevný disk: Nové paměťové karty SanDisk mají extrémní kapacitu až 2 TB
Obrázek: Robotický vysavač SwitchBot S10 si dokáže sám doplnit vodu a doveze ji i do zvlhčovače vzduchu
Robotický vysavač SwitchBot S10 si dokáže sám doplnit vodu a doveze ji i do zvlhčovače vzduchu
Obrázek: Budoucnost robotických vysavačů podle Dreame: Vysouvací mopy, vyjíždění do schodů a dokovací stanice napojená na odpady
Budoucnost robotických vysavačů podle Dreame: Vysouvací mopy, vyjíždění do schodů a dokovací stanice napojená na odpady
Obrázek: Vědci našli lék na jizvy: Klíčem k jejich léčbě může být parazitický červ
Vědci našli lék na jizvy: Klíčem k jejich léčbě může být parazitický červ
Obrázek: Zaplavila vám elektroniku voda? Do rýže ji nestrkejte. Jak zachránit velké domácí spotřebiče?
Zaplavila vám elektroniku voda? Do rýže ji nestrkejte. Jak zachránit velké domácí spotřebiče?
Obrázek: Kudy k vám může přitéct velká voda? Unikátní online mapa ukáže, jaká místa může zalít
Kudy k vám může přitéct velká voda? Unikátní online mapa ukáže, jaká místa může zalít
Obrázek: Přijdou silné bouřky, nebo slabé přeháňky? Přesná aplikace vám to pomůže zjistit
Přijdou silné bouřky, nebo slabé přeháňky? Přesná aplikace vám to pomůže zjistit
Obrázek: Kód, který ochromil svět: Microsoft svolává rivaly, aby odvrátil budoucí kybernetickou apokalypsu
Kód, který ochromil svět: Microsoft svolává rivaly, aby odvrátil budoucí kybernetickou apokalypsu