Novinky ze světa AI #138: Technologičtí lídři před koncem roku posouvají hranice svých modelů

19.12.2025| Umělá inteligence| Žádné komentáře|

Giganti ve světě umělé inteligence OpenAI, Google a Meta během pár dní představili přelomové AI nástroje – od extrémně rychlého generování obrázků přes zvukovou separaci až po GPT‑5.2, který překonává lidské odborníky. Souboj technologických gigantů o budoucnost umělé inteligence vstupuje do nové fáze.

OpenAI dotahuje Google: Nová verze ChatGPT Images má být odpovědí na Nano Banana Pro

Společnost OpenAI uvedla na trh významnou aktualizaci svého generátoru a editorů obrázků ChatGPT Images. Nová verze s číslovkou 1.5 dokáže vytvářet i editovat obrázky až čtyřikrát rychleji než jeho předchůdce, navíc s údajně mnohem vyšší přesností, co se dodržování instrukcí uživatele týče.

Introducing ChatGPT Images, powered by our flagship new image generation model.

– Stronger instruction following
– Precise editing
– Detail preservation
– 4x faster than before

Rolling out today in ChatGPT for all users, and in the API as GPT Image 1.5. pic.twitter.com/NLNIPEYJnr

— OpenAI (@OpenAI) December 16, 2025

OpenAI na svém webu uvádí, že vás ChatGPT Images zaujme především precizností svých úkonů, ať už jde o text-to-image prompty, stylové efekty nebo konkrétní úpravy fotografií. Výsledkem by měl být užitečný nástroj pro designéry, marketéry i běžné uživatele, kteří chtějí vizualizovat své myšlenky během konverzací s ChatGPT. Model tak poskytuje ucelený a konzistentní výstup, a OpenAI tak s ChatGPT Images představuje vyzyvatele v poslední době populárního generátoru Nano Banana Pro od společnosti Google.

SAM Studio od Mety dokáže zázraky se zvukovými stopami

Meta zpřístupnila veřejnosti svůj nový open-source model SAM Audio, jenž umí automaticky izolovat a upravovat specifické zvuky z audio nahrávky. Jak již vyplývá z jeho označení, patří do rodiny Segment Anything Model (SAM), a pro svou práci využívá multimodální přístupy. Díky tomu umožňuje odlišit hlasy, hudbu nebo ruchy pomocí textových příkazů, vizuálních výběrů (například kliknutím na osobu ve videu) nebo časových úseků. Následně je pak schopen danou zvukovou stopu rozdělit na cílový výstup a zbytek pozadí.

Novinka je k dispozici ke stažení na GitHubu, Hugging Face i na webu Segment Anything Playground, kde si vývojáři i běžní uživatelé mohou vyzkoušet jeho schopnosti bez nutnosti vlastního provozu. Podle společnosti Meta je SAM Audio první „unifikovaný“ systém pro zvukovou separaci, a nástroj tak může najít uplatnění hned v několika scénářích – od zkvalitnění dialogů v podcastech a videích přes využití pro výzkumné účely až po specializované aplikace v hudebním průmyslu. Díky open-source licenci lze navíc SAM Audio využít nejen pro kreativní, ale i profesionální tvorbu.

Disney a OpenAI uzavřely miliardovou dohodu, společně brojí proti Googlu

Nadnárodní konglomerát Disney uzavřel strategickou licenční smlouvu se společností OpenAI. Dokument umožní generativním nástrojům ChatGPT a Sora využívat více než 200 ikonických postav z Disneyho světa, včetně Marvelu, Pixaru či Star Wars. Dohoda zahrnuje miliardovou investici do OpenAI a roční exkluzivitu, po jejímž uplynutí může Disney spolupracovat i s dalšími vývojáři AI technologií. Tento krok by měl vést ke vytvoření nových interaktivních zážitků, personalizovaných příběhů a obsahu pro fanoušky na základě vlastních preferencí. Partnerství s OpenAI může být pro Disney klíčovým krokem k tomu, aby si udržel kontrolu nad svým obsahem a zároveň využil potenciál AI pro nové formy zábavy.

Obrázek: Novinky ze světa AI #138: Technologičtí lídři před koncem roku posouvají hranice svých modelů

Dohodou mezi společnostmi Disney a OpenAI získal vývojář ChatGPT exkluzivní přístup ke slavným animovaným postavičkám. Foto: Pixabay

V návaznosti na dohodu pak Disney zaslal společnosti Google předžalobní výzvu kvůli údajnému neoprávněnému využívání chráněných postav v AI modelech a na platformách jako YouTube. Tento krok ukazuje, jak rychle se mění pravidla hry v oblasti duševního vlastnictví a generativní AI.

Google uvádí Gemini 3 Flash: Rychlost a efektivita za dostupnou cenu

Google představil nový model Gemini 3 Flash, který je optimalizovaný pro rychlé odpovědi a nízkou latenci. Flash je navržen jako odlehčená varianta vlajkového Gemini 3 Pro, stále však nabízí multimodální schopnosti – zvládá text, obrázky i základní analytické úlohy. Díky menší velikosti je ideální pro využití tam, kde je klíčová rychlost a nízké náklady. V budoucnu tak mohl pohánět například chatboty, zákaznickou podporu nebo mobilní aplikace.

Introducing Gemini 3 Flash, our frontier intelligence model, available at scale for everyone. It excels at coding, tool calling, and is stronger than 2.5 Pro across most metrics!! ⚡️

Available in the API at $0.50 in / 1M tokens and $3.00 out / 1M tokens across. pic.twitter.com/KTWn9sz1Kf

— Logan Kilpatrick (@OfficialLoganK) December 17, 2025

Model je dostupný přes Gemini API i v samotné aplikaci, přičemž Google v dokumentu oznamujícím jeho spuštění zdůrazňuje jeho cenovou dostupnost: Flash stojí výrazně méně než Pro, což otevírá dveře širšímu nasazení v komerčních projektech. Nový model by měl být navíc schopen zvládnout zpracovat až stovky požadavků za sekundu, což ho činí atraktivním pro firmy, které potřebují škálovat AI služby bez vysokých nákladů. Google tak pokračuje ve své strategii nabídnout flexibilní portfolio modelů, od špičkového Pro až po rychlý Flash pro masové použití.

Nová éra pro profesionální AI: OpenAI spustil GPT-5.2

OpenAI koncem minulého týdne spustilo GPT‑5.2, dosud nejvýkonnější model z páté generace LLM (large language models). Předplatitelé se mohou těšit hned ze třech verzí – Instant, Thinking a Pro – lišících se primárním účelem využití. Model přináší zásadní vylepšení pro kancelářské aplikace i kódování: díky kontextovému oknu až 400 000 tokenů, zvládá zpracovávat dlouhé dokumenty, současně vytváří tabulky, prezentace, kódy i analýzy obrázků. V rámci benchmarku GDPval navíc předčil lidské odborníky v 70,9 % úloh napříč 44 profesními obory.

Obrázek: Novinky ze světa AI #138: Technologičtí lídři před koncem roku posouvají hranice svých modelů

Společnost OpenAI představila svůj dosud nejpokročilejší model GPT-5.2. Dokáže obstát v konkurenčním boji s Gemini 3? Foto: Unsplash

Vývoj GPT-5.2 probíhal pod interním tlakem označovaným jako „Code Red“, kdy vedení společnosti přesunulo veškeré zdroje na dokončení modelu a reakci na konkurenci – zejména Google Gemini 3 Pro. Výsledkem je nástroj nabízející vyšší rychlost generování, chytřejší integraci nástrojů a lepší vizuální výstupy, znamená výrazný posun a pro podniky i profesionály. V průběhu ledna příštího roku pak OpenAI plánuje další vylepšení, zejména v rámci nižší latence, osobnostního projevu či kvality generovaných obrázků.

Zdroje: 1, 2, 3, 4, 5

O autorovi

David Vanda

Již od malička jsem fanouškem počítačových her, průlomových technologií a nových objevů. Můj velký obdiv a respekt pak patří nástrojům umělé inteligence. Seznamovat čtenáře s novinkami v těchto oborech je pro mě současně radostí i posláním.

Odebírat

0 Komentářů

nejstarší

nejnovější nejlépe hodnocené

Inline Feedbacks

View all comments