NVIDIA rozšířila schopnosti své lokální AI aplikace ChatRTX o možnost vyhledávání obrázků podle textových popisů zadaných uživatelem. Nová funkce využívá CLIP – vizuální a jazykový model od OpenAI. Co umí?
ChatRTX (původně Chat with RTX) byla původně navržena jako demo ukázka technologie pro připojení velkých jazykových modelů (LLM) k lokálním datovým sadám složeným z dokumentů, poznámek, fotografií a dalších souborů. Aplikace pak na základě těchto dat personalizuje odpovědi LLM modelu tak, aby byly relevantní pro obsah zpracovávaných souborů.
Co uměla první verze? Chatovat s vašimi dokumenty, viz naše představení Chat with RTX od NVIDIA je AI, která díky grafice ve vašem PC funguje lokálně.
Až doposud byly funkce nástroje omezené a NVIDIA první verzi zveřejnila bez podpory práce s fotografiemi. AI zkrátka uměla pracovat pouze s textem. To se nyní mění. NVIDIA do Chat with RTX integrovala podporu neuronové sítě CLIP (Contrastive Language-Image Pre-Training), která kombinuje možnosti zpracování přirozeného jazyka s počítačovým viděním.
AI umožňuje uživatelům vybrat lokální složku s obrázky ve formátech JPEG, GIF nebo PNG a následně aplikaci klást textové dotazy týkající se obsahu těchto obrázků. Pokud tedy často hledáte konkrétní fotografie ve svém PC a nemáte v nich úplně pořádek, jde o zajímavé řešení. Jednoduše programu řeknete, kde máte všechny své fotografie, a následně můžete vyhledávat pouhým zadáváním dotazů do ChatRTX.
Jak vyhledávání v obrázcích funguje?
Novou verzi ChatRTX jsme již otestovali a máme k ní několik poznatků. Prvním je, že CLIP v ChatRTX překvapivě dobře rozumí česky i když se o tom NVIDIA nikde nezmiňuje.
Jednoduše tedy napíšete do chatu instrukce a ChatRTX vám vrátí odpověď v podobě odpovídajících obrázků s krátkým komentářem (ten je nehledě na jazyk vašeho dotazu v angličtině). Model CLIP dokáže analyzovat vizuální obsah nahraných snímků a sémanticky ho porovnat se zadaným textem dotazu, aby vrátil relevantní obrázky.
ChatRTX díky modelu Whisper od OpenAI nově dokáže také velmi dobře rozeznávat řeč. Foto: Redakce inSmart.cz
Příkladem může být dotaz „Ukaž mi obrázky, na kterých jsou kočky“ nebo „Najdi fotky obsahující kočárek“. Odpovědí je trojice fotografií s možností zobrazení veškerých nalezených výsledků. Ty ChatRTX pro účely zobrazení dočasně zkopíruje do složky, se kterou můžete dále pracovat, což oceníte v případě, že chcete s fotkami hromadně pracovat.
Lokální AI se zlepšuje
Funkce je celkem šikovná, to ano, ale nic jiného CLIP v ChatRTX zatím neumí. Je vlastně takovým pokročilým vyhledávačem v nesetříděných a neoznačených obrázcích. Chápe, na co se ptáte a vrátí vám odpovídající fotografie. To je vše. Nedokáže se s vámi o obsahu fotografií např. dále bavit. Ale nutno podotknout, že NVIDIA nástroj vyvíjí poměrně krátce a neustále přidává nové funkce.
Tohle je jen začátek, tvrdí NVIDIA
„Rozšiřováním podpory pro multimodální vstupy v podobě textu a obrazu dále rozšiřujeme možnosti a použitelnost velkých jazykových modelů,“ zmínila NVIDIA. „Toto je jen začátek našich ambiciózních plánů na hlubokou integraci pokročilých AI systémů do celého portfolia produktů a služeb společnosti.“
Aktualizace aplikace, podporující vyhledávání obrázků podle textového popisu či hlasové zadávání, je pro uživatele grafik NVIDIA k dispozici zdarma. Pro využití ChatRTX je nutné disponovat počítačem s NVIDIA GeForce RTX řady 30 a 40, alespoň 8 GB VRAM a operačním systémem Windows. Dále je zapotřebí alespoň 16 GB RAM a dostatek místa na disku – instalační soubor totiž zabírá přes 30 GB.
Zdroj: Redakce inSmart.cz, NVIDIA