Ludzie rozumieją otaczające ich interakcje oraz potrafią przewidywać ich skutki. Widząc trzy rysunki: pierwszy, pokazujący trzy puszki ustawione jedna na drugiej; drugi z palcem przytykanym do podstawy tej konstrukcji oraz trzeci, z leżącymi w nieładzie puszkami, wywnioskujemy, że palec był odpowiedzialny za ich strącenie. W przypadku maszyn takie rozumowanie jest niemożliwe. A w zasadzie było. Do czasu, aż naukowcy z MIT rozpoczęli swój projekt.
Tego typu przedsięwzięcie nie jest pierwszym w historii, bowiem wcześniej swoich sił w tej kwestii próbowały Google oraz Baidu. Ich przedstawiciele zajmowali się modelowaniem czasowo-przestrzennym opartym na sztucznej inteligencji, jednak efekty były różne. Zdaniem ludzi z MIT, nowe rozwiązanie jest lepsze, ponieważ łączy w sobie dokładność i skuteczność osiągniętą przez projekty Baidu i Google.
Na czym polega cała magia? Badacze zbudowali system wykorzystujący SI, który rozpoznaje zmiany stanu przedmiotów. Jest on wydajny, a przy tym na tyle szybki, by robić to w czasie rzeczywistym. Naukowcom udało się wyszkolić sieć neuronową przy użyciu trzech zestawów danych, które zawierały kolejno: 20 tysięcy filmów i 174 gesty, 150 tysięcy filmów i 27 gestów oraz 10 tysięcy filmów i 157 gestów. Filmy pokazywały poszczególne działania, natomiast gesty je kategoryzowały, ucząc oprogramowanie nowych pojęć.
W ten sposób sztuczna inteligencja nauczyła się realnie oceniać napotkane sytuacje. Podczas testów osiągnęła niezwykle wysoką, 95-procentową skuteczność. Sieć neuronowa była na tyle sprytna, że rozróżniała nawet pozornie podobne czynności. Mowa m.in. o „otwieraniu książki” oraz „udawaniu otwierania książki”.
[Źródło: venturebeat.com; grafika: MIT]