S výsledkem 90 % je Gemini Ultra první model s umělou inteligencí, který v benchmarku MMLU překonal lidské experty. Multimodální umělá inteligence Gemini od společnosti Google má být univerzální AI, která dokáže vyřešit téměř cokoliv, o co ji požádáte. Na trh dorazí ve 3 verzích, přičemž jedna má být dokonce schopna fungovat offline na mobilních telefonech. Co umí?
Výzkumná laboratoř umělé inteligence Google DeepMind zveřejnila informace a ukázky fungování nové multimodální AI s názvem Gemini. AI bez problémů odpovídá na komplexní otázky, reaguje na hlas i obraz a hravě si poradí s analýzou obrovského množství dat. Nejlepší demonstrací je video od vývojářů, které ukazuje některé jeho funkce v praxi. Pokud jste vždy chtěli svého vlastního Jarvise, brzy se ho dočkáte.
Aktualizace z 10. prosince 2023: Google podle dostupných informací video níže zkrášlil a vše sestříhal tak, aby vypadalo lépe než ve skutečnosti. Vyměněny byly např. použité prompty. Nyní čelí ze strany komunity nemalé kritice.
Gemini je multimodální AI se vším všudy
Multimodalita je v oblasti AI konceptem, kdy AI kombinuje různé typy informací – text, kód, audio, obraz a video – což jí umožňuje komplexnější porozumění a interakci s okolním světem. Gemini, vyvinutá Google DeepMind, má představovat významný krok vpřed v této oblasti, které zatím vévodí GPT-4 od OpenAI. Díky schopnosti integrace a zpracování různých datových formátů ji bude snadno možné integrovat do aplikací a služeb.
Podle Google je Gemini 1.0 schopna efektivně analyzovat a zpracovávat informace z obrovského množství dokumentů, což umožňuje rychlejší a přesnější prohledávání vědeckých výzkumných prací. I díky tomu by mohla být nová AI důležitým asistentem vědců po celém světě, kterým např. pomůže vyhledávat důležité informace v již vydaných studiích a vědeckých pracích.
Programátoři mohou využívat Gemini jako nástroj pro návrh kódu. Google zde slibuje lepší kvalitu výstupních zdrojových kódů, než je tomu nyní u konkurence.
Google klade velký důraz na bezpečnost a etické aspekty vývoje AI. Gemini prošla rozsáhlými bezpečnostními hodnoceními a byla vybavena mechanismy k zajištění spravedlivosti a minimalizaci zkreslení.
Video, obraz, hlas i text. AI rozumí téměř všemu
Co tedy Gemini už nyní dokáže? Stejně jako u GPT-4 a dalších AI nástrojů jsou možnosti Gemini omezené především naší představivostí. Google připravil na webu řadu ukázek pro každodenních použití. Využití v praxi jsou však o poznání větší.
Gemini 1.0 bude postupně integrována do různých produktů a služeb Google, včetně vyhledávání, reklamy a chytrých zařízení. To otevírá nové možnosti pro využití AI v každodenním životě.
- Zpracování obrazu a videa: Gemini Ultra dokázala překonat předchozí modely v rozpoznávání a analýze obrazu bez potřeby OCR systémů.
- Programování: Gemini umí generovat a vysvětlovat kód v populárních programovacích jazycích. Podle Googlu je nyní jedním z nejlepších modelů pro kódování na světě.
- Multimodální porozumění: Gemini je schopna efektivně pracovat s různými typy dat, což jí umožňuje lépe porozumět složitým tématům a poskytovat přesnější odpovědi.
Gemini Ultra, Pro a Nano. Pro datacentra i mobily
- Gemini Ultra: Je cloudová AI navržená pro složité úlohy. Podle Google překonává aktuální modely v čele s GPT-4 v mnoha benchmarkových testech. Je schopna vysoce komplexního uvažování a analýzy. Veřejnosti bude dostupná v příštím roce.
- Gemini Pro: Je cloudová AI optimalizovaná pro širokou škálu úkolů, je vhodná pro podniky a vývojáře ke škálování jejich AI aplikací. Objeví se během nejbližších dní např. v AI nástroji Bard a dalších službách Googlu.
- Gemini Nano: Offline model určený pro zařízení jako jsou mobilní telefony, což znamená rozšíření možností AI přímo do rukou uživatelů. Právě Gemini Nano by mohla být AI, která bude využívat výpočetního potenciálu nových mobilních čipů v čele s Qualcomm Snapdragon Gen.3 a MediaTek Dimensity 9300. Demonstrována byla na zařízení Pixel 8 Pro od Googlu.
„Gemini od Google DeepMind představuje významný posun v oblasti umělé inteligence. Její schopnosti a flexibilita překračují současné standardy a otevírají dveře k novým možnostem výzkumu, vývoje a aplikací v různých oblastech. Tato nová éra AI slibuje nejen technologický pokrok, ale i rozšíření hranic lidského poznání a tvůrčího potenciálu,“ zmiňuje Google na svém webu.
Vývojáři budou moci modely také integrovat do svých aplikací pomocí Google AI Studio a Google Cloud Vertex AI. K dispozici bude již od 13. prosince 2023. Konkrétní cenové podmínky zatím Google nezveřejnil.
Zdroj: Google