Co když se umělá inteligence naučí hlouposti? Vědci z MIT našli chyby v datech pro učení AI

Datasety pro učení umělé inteligence obsahují chyby, které mohou mít fatální dopady. Vědci z MIT odhalili chyby v 10 nejčastějších souborech dat pro učení algoritmů. Proč je to problém?

Algoritmy strojového učení potřebují pro své správné fungování velké množství dat. Jedině tak dokáží správně fungovat. Fázi učení si můžete představit např. tak, že algoritmu poskytnete vzorek dat, který je detailně oštítkovaný a roztříděný.

Možná si vzpomenete na ověřovací systém Captcha, kde musíte vybrat např. pouze obrázky, na kterých jsou semafory. Vývojáři používají tento systém právě k učení algoritmů a pokud jste jej vyplnili, podíleli jste se možná i vy na učení umělé inteligence, která bude v budoucnu rozpoznávat okolí chytrých automobilů.

Když se umělá inteligence učí nesmysly

Tým výzkumníků z MIT analyzoval desítku nejčastěji citovaných datasetů a zjistil, že kolem 3,4 % dat nebylo správně označeno, což by mohlo způsobit problémy s umělou inteligencí, která se na těchto datech učila.

Obrázek: Co když se umělá inteligence naučí hlouposti? Vědci z MIT našli chyby v datech pro učení AI

Strojové učení a umělá inteligence budou postupně součástí většiny systémů kolem nás. Foto: Freepik

Datasety byly podle informací použity ve více než 100 000 případech a obsahují textová data z médií, Amazonu i filmové databáze IMDb. Problémy se týkaly kategorizace dat ve stylu špatného označení recenzí na Amazonu za pozitivní (když šlo o negativní) a naopak.

Grafické datasety pro změnu obsahují chybné označení některých živočišných druhů. Chybně označené jsou podle vědců i některé objekty – lahev s vodou na kole je označena nevýrazně na fotografii s výrazným horským kolem apod. Další absurditou je např. dítě označené štítkem „bradavka“.

Další z datasetů je pro změnu tvořen audio soubory extrahovanými z YouTube videí. Vlog YouTubera mluvícího na kameru byl označen jako „kostelní zvon“, i když se ve videu objevuje zvon jen ve velmi krátkém úseku. Podobný problém byl např. i s označením videa Bruce Springsteena za výstup orchestru.

Umělá inteligence zničila šachy, nyní je chce změnou pravidel vrátit na výsluní. Umělá inteligence objevila antibiotikum schopné zabíjet rezistentní bakterie.

Jak se hledají chyby v obřích datasetech?

Aby vědci objevili chyby v datasetech, použili tzv. confident learning, díky čemuž mohli nalézt chyby v označení dat či úplně irelevantní data. Takto objevené chyby validovali prostřednictvím Amazon Mechanical Turk a zjistili, že kolem 54 % dat, která algoritmus označil, měla skutečně chybně určené štítky. Tým následně vytvořil webovou stránku labelerrors.com, kde zjištěné chyby zveřejnili a každý si je tak může prohlížet.

Obrázek: Co když se umělá inteligence naučí hlouposti? Vědci z MIT našli chyby v datech pro učení AI

Jedna věc je algoritmus něco naučit, druhá naučit ho to správně. Foto: Freepik

Pokud jsou vstupní data chybně označena, může to způsobit problémy, které se projeví ve velmi specifických situacích. Kupříkladu u algoritmu pro autonomní řízení automobilu by pak mohlo dojít k nehodám a dalším nepříjemnostem.

Odebírat
Upozornit na
guest
0 Komentářů
Inline Feedbacks
View all comments
Obrázek: Návrat k normálu? Veletrh IFA 2021 bude v Berlíně skutečně naživo, pandemii navzdory
Návrat k normálu? Veletrh IFA 2021 bude v Berlíně skutečně naživo, pandemii navzdory
Obrázek: Repasované počítače jsou zajímavou alternativou: Kdy se vyplatí a podle čeho vybírat?
Repasované počítače jsou zajímavou alternativou: Kdy se vyplatí a podle čeho vybírat?
Obrázek: Opice hraje videohru pomocí mozku: Elon Musk ukazuje další vývoj Neuralinku
Opice hraje videohru pomocí mozku: Elon Musk ukazuje další vývoj Neuralinku
Obrázek: Od mobilů k počítačům a monitorům: Huawei to zkouší s novými produkty
Od mobilů k počítačům a monitorům: Huawei to zkouší s novými produkty
Obrázek: Repasované počítače jsou zajímavou alternativou: Kdy se vyplatí a podle čeho vybírat?
Repasované počítače jsou zajímavou alternativou: Kdy se vyplatí a podle čeho vybírat?
Obrázek: Podvodníci volají z čísel českých bank a kradou z účtů statisíce: Jak poznat nebezpečný podvod?
Podvodníci volají z čísel českých bank a kradou z účtů statisíce: Jak poznat nebezpečný podvod?
Obrázek: Čeští politici neumí rozbalit ZIP archiv. Co to je a jak si poradit?
Čeští politici neumí rozbalit ZIP archiv. Co to je a jak si poradit?
Obrázek: Uniklé e-maily a telefonní čísla z Facebooku: Co radí odborníci z antivirových firem?
Uniklé e-maily a telefonní čísla z Facebooku: Co radí odborníci z antivirových firem?
Obrázek: Skotsko uspokojuje 98,4 % domácí poptávky po elektřině obnovitelně, vytápění a doprava ale váznou
Skotsko uspokojuje 98,4 % domácí poptávky po elektřině obnovitelně, vytápění a doprava ale váznou

V roce 2011 si Skotsko stanovilo cíl dosáhnout do roku 2020 stavu, kdy veškeré elektrické nároky vyrobí pomocí ekologických, obnovitelných zdrojů....

Zavřít