Celý svět aktuálně s napětím sleduje výkon jazykových modelů DeepSeek stejnojmenné čínské společnosti, které dominují benchmarkovým testům a staví se tak na či dokonce nad úroveň nejvýkonnějších modelů GPT či Claude.
Společnost DeepSeek byla založena v roce 2023, přičemž již od uvedení prvních AI produktů na trh na sebe dokázala strhnout obří vlnu pozornosti. Velké jazykové modely (LLM) s úctyhodným výkonem a nízkými provozními náklady donutily čínské technologické giganty vstoupit do cenové války, ze které vzešel jako vítěz právě DeepSeek se svým modelem V2. Letos se na trhu objevily hned dvě rodiny LLM: DeepSeek V3 a R1. Oba tyto modely přitom předčily veškerá dosavadní očekávání.
Revoluční výkon za minimum nákladů
Důvodem, proč DeepSeek aktuální víří vody umělé inteligence, je především jeho úctyhodný výkon, kterého dosahuje za výrazně menší náklady než konkurenční jazykové modely. Vývojáři totiž měli k dispozici pouze starší verzi čipů NVIDIA H800, které do Číny dorazily ještě před zavedením nových sankcí. I přesto se jim však podařilo optimalizací přepisu příkazů z jazyka uživatele do digitalizované verze dosáhnout úspory až 75 % v rámci využití paměti procesorů, a to bez výraznějšího vlivu na přesnost získaných odpovědí.
🚀 DeepSeek-R1 is here!
⚡ Performance on par with OpenAI-o1
📖 Fully open-source model & technical report
🏆 MIT licensed: Distill & commercialize freely!🌐 Website & API are live now! Try DeepThink at https://t.co/v1TFy7LHNy today!
🐋 1/n pic.twitter.com/7BlpWAPu6y
— DeepSeek (@deepseek_ai) January 20, 2025
Kromě nízkých nákladů na samotný provoz pak vývojáři modelu DeepSeek V3, který aktuálně dominuje řadě benchmarkových testů, ušetřili nemalé výdaje i na samotný trénink. V titulcích zahraničních médií se objevují informace o tom, že čínský startup tyto pokročilé modely vytvořil za „směšných“ 5 milionů dolarů (bezmála 119 milionů korun) – realita je ovšem trochu jiná. Jak totiž upozornil mimo jiné deník Financial Times, v této sumě je nejspíš započten pouze provoz jednotlivých GPU, a výsledná suma tak nereflektuje náklady na vývoj či testování. I přesto ale modely DeepSeek využívají výkon starších čipů skutečně na maximum. Další velkou předností těchto LLM je schopnost využít tzv. multi-token systém, kdy AI namísto postupného čtení příkazu slovo po slově dokáže přímo číst celé věty, čímž dosahuje dvojnásobné rychlosti oproti „běžným“ modelům, aniž by docházelo k výrazné ztrátě na přesnosti a správnosti následných odpovědí.
Výrobci AI čipů se bojí: Modelům DeepSeek stačí k fungování běžný procesor
Úspěch čínské umělé inteligence však příliš nehraje do karet právě společnosti NVIDIA a dalším výrobcům AI čipů, které tvrdí, že bez těchto supervýkonných procesorů se umělá inteligence neobejde. Jak se ale ukazuje, modely společnosti DeepSeek to zvládají s nečekanou lehkostí a plynulostí, a podle dostupných zpráv mohou bez problémů fungovat například i na výkonnějším herním procesoru. Důsledky této situace se již projevují na akciích velkých technologických gigantů, které od zveřejnění výsledků prvních benchmarkových testů LLM DeepSeek R1 a V3 postupně klesají.
Modely DeepSeek by měly být dostupné i u nás, a podle našeho testu rozumí i češtině. Počítejte nicméně s tím, že registraci je možné dokončit pouze přes určité e-mailové domény. Přístup by měl fungovat například přes Gmail, v době sepisování tohoto článku však služba hlásila některým uživatelům chybu a nebylo možné se přihlásit. Je možné, že modely aktuálně nezvládají nápor nových uživatelů, kteří si chtějí výkon DeepSeek R1 a V3 vyzkoušet na vlastní pěst. Již brzy vám přineseme článek s praktickými zkušenostmi s novým LLM.
Úvodní foto: Freepik