Máte chaos ve fotkách? AI NVIDIA ChatRTX najde v PC obrázky podle textového popisu

NVIDIA rozšířila schopnosti své lokální AI aplikace ChatRTX o možnost vyhledávání obrázků podle textových popisů zadaných uživatelem. Nová funkce využívá CLIP – vizuální a jazykový model od OpenAI. Co umí?

ChatRTX (původně Chat with RTX) byla původně navržena jako demo ukázka technologie pro připojení velkých jazykových modelů (LLM) k lokálním datovým sadám složeným z dokumentů, poznámek, fotografií a dalších souborů. Aplikace pak na základě těchto dat personalizuje odpovědi LLM modelu tak, aby byly relevantní pro obsah zpracovávaných souborů.

Obrázek: Máte chaos ve fotkách? AI NVIDIA ChatRTX najde v PC obrázky podle textového popisu

S výkonnou GPU můžete na svém PC provozovat zajímavé AI aplikace. Foto: Redakce inSmart.cz

Co uměla první verze? Chatovat s vašimi dokumenty, viz naše představení Chat with RTX od NVIDIA je AI, která díky grafice ve vašem PC funguje lokálně.

Až doposud byly funkce nástroje omezené a NVIDIA první verzi zveřejnila bez podpory práce s fotografiemi. AI zkrátka uměla pracovat pouze s textem. To se nyní mění. NVIDIA do Chat with RTX integrovala podporu neuronové sítě CLIP (Contrastive Language-Image Pre-Training), která kombinuje možnosti zpracování přirozeného jazyka s počítačovým viděním.

AI umožňuje uživatelům vybrat lokální složku s obrázky ve formátech JPEG, GIF nebo PNG a následně aplikaci klást textové dotazy týkající se obsahu těchto obrázků. Pokud tedy často hledáte konkrétní fotografie ve svém PC a nemáte v nich úplně pořádek, jde o zajímavé řešení. Jednoduše programu řeknete, kde máte všechny své fotografie, a následně můžete vyhledávat pouhým zadáváním dotazů do ChatRTX.

Obrázek: Máte chaos ve fotkách? AI NVIDIA ChatRTX najde v PC obrázky podle textového popisu

CLIP je novým AI modelem v ChatRTX. Funguje překvapivě dobře. Foto: Redakce inSmart.cz

Jak vyhledávání v obrázcích funguje?

Novou verzi ChatRTX jsme již otestovali a máme k ní několik poznatků. Prvním je, že CLIP v ChatRTX překvapivě dobře rozumí česky i když se o tom NVIDIA nikde nezmiňuje.

Jednoduše tedy napíšete do chatu instrukce a ChatRTX vám vrátí odpověď v podobě odpovídajících obrázků s krátkým komentářem (ten je nehledě na jazyk vašeho dotazu v angličtině). Model CLIP dokáže analyzovat vizuální obsah nahraných snímků a sémanticky ho porovnat se zadaným textem dotazu, aby vrátil relevantní obrázky.

ChatRTX díky modelu Whisper od OpenAI nově dokáže také velmi dobře rozeznávat řeč. Foto: Redakce inSmart.cz

Příkladem může být dotaz „Ukaž mi obrázky, na kterých jsou kočky“ nebo „Najdi fotky obsahující kočárek“. Odpovědí je trojice fotografií s možností zobrazení veškerých nalezených výsledků. Ty ChatRTX pro účely zobrazení dočasně zkopíruje do složky, se kterou můžete dále pracovat, což oceníte v případě, že chcete s fotkami hromadně pracovat.

Obrázek: Máte chaos ve fotkách? AI NVIDIA ChatRTX najde v PC obrázky podle textového popisu

Vyberete složku s fotografiemi, zadáte dotaz a AI sama vybere, jaké snímky odpovídají zadání. Výsledek je překvapivě dobrý. Foto: Redakce inSmart.cz

Lokální AI se zlepšuje

Funkce je celkem šikovná, to ano, ale nic jiného CLIP v ChatRTX zatím neumí. Je vlastně takovým pokročilým vyhledávačem v nesetříděných a neoznačených obrázcích. Chápe, na co se ptáte a vrátí vám odpovídající fotografie. To je vše. Nedokáže se s vámi o obsahu fotografií např. dále bavit. Ale nutno podotknout, že NVIDIA nástroj vyvíjí poměrně krátce a neustále přidává nové funkce.

Tohle je jen začátek, tvrdí NVIDIA

Rozšiřováním podpory pro multimodální vstupy v podobě textu a obrazu dále rozšiřujeme možnosti a použitelnost velkých jazykových modelů,“ zmínila NVIDIA. „Toto je jen začátek našich ambiciózních plánů na hlubokou integraci pokročilých AI systémů do celého portfolia produktů a služeb společnosti.

Aktualizace aplikace, podporující vyhledávání obrázků podle textového popisu či hlasové zadávání, je pro uživatele grafik NVIDIA k dispozici zdarma. Pro využití ChatRTX je nutné disponovat počítačem s NVIDIA GeForce RTX řady 30 a 40, alespoň 8 GB VRAM a operačním systémem Windows. Dále je zapotřebí alespoň 16 GB RAM a dostatek místa na disku – instalační soubor totiž zabírá přes 30 GB.

Zdroj: Redakce inSmart.cz, NVIDIA

Odebírat
Upozornit na
guest
0 Komentářů
nejstarší
nejnovější nejlépe hodnocené
Inline Feedbacks
View all comments
Obrázek: Nejdražší ohňostroj v historii: Evropa vyšle do vesmíru satelit, který obratem shoří v atmosféře
Nejdražší ohňostroj v historii: Evropa vyšle do vesmíru satelit, který obratem shoří v atmosféře
Obrázek: Vrátí se Intel na výsluní? Nová architektura grafických karet Arc by se mohla vyrovnat Radeonům od AMD
Vrátí se Intel na výsluní? Nová architektura grafických karet Arc by se mohla vyrovnat Radeonům od AMD
Obrázek: Evropa má umělý Měsíc pro testování vesmírných technologií: V Německu otevřelo výzkumné zařízení LUNA
Evropa má umělý Měsíc pro testování vesmírných technologií: V Německu otevřelo výzkumné zařízení LUNA
Obrázek: Víra konspirátorů ve spiknutí není tak neochvějná, znejistila je AI
Víra konspirátorů ve spiknutí není tak neochvějná, znejistila je AI
Obrázek: Zaplavila vám elektroniku voda? Do rýže ji nestrkejte. Jak zachránit velké domácí spotřebiče?
Zaplavila vám elektroniku voda? Do rýže ji nestrkejte. Jak zachránit velké domácí spotřebiče?
Obrázek: Kudy k vám může přitéct velká voda? Unikátní online mapa ukáže, jaká místa může zalít
Kudy k vám může přitéct velká voda? Unikátní online mapa ukáže, jaká místa může zalít
Obrázek: Přijdou silné bouřky, nebo slabé přeháňky? Přesná aplikace vám to pomůže zjistit
Přijdou silné bouřky, nebo slabé přeháňky? Přesná aplikace vám to pomůže zjistit
Obrázek: Kód, který ochromil svět: Microsoft svolává rivaly, aby odvrátil budoucí kybernetickou apokalypsu
Kód, který ochromil svět: Microsoft svolává rivaly, aby odvrátil budoucí kybernetickou apokalypsu