Sztuczna inteligencja generuje twarze na podstawie głosu

Speech2Face jest siecią neuronową przeszkoloną przez naukowców tak, że myśli w sposób podobny, co nasz mózg. Więc czy kiedykolwiek wyobrażałeś sobie wygląd osoby, której nigdy nie widziałeś, po prostu opierając się na jej głosie? Jeśli tak, to nic więcej ci nie potrzeba, żeby pojąc działanie wspomnianej sztucznej inteligencji, która generuje twarze ludzi tylko i wyłącznie na podstawie ich głosu.

Czytaj też: Sztuczna inteligencja wytwarza więcej CO2 niż samochody

Do wyszkolenia Speech2Face były potrzebne miliony filmów edukacyjnych z udziałem ponad 100000 różnych osób. Najpierw wysłuchiwała nagrań, a później łączyła je ze zdjęciami lektora lub rozmówcy. Na podstawie tego zbioru danych ta sztuczna inteligencja nauczyła się „powiązań między sygnałami głosowymi a pewnymi cechami fizycznymi na ludzkiej twarzy”. Dzięki temu na podstawie tylko i wyłącznie samego nagrania była w stanie wygenerować fotorealistyczną twarz, która jako-tako pasowała do zdjęcia aktora głosowego.

Jednak SI nie wie (jeszcze) tego, jak dokładnie wygląda konkretna osoba na podstawie jej głosu. Sieć neuronowa rozpoznała pewne kluczowe szczegóły w mowie, które wskazywały na płeć, wiek i pochodzenie etniczne, czyli te cechy, które są wspólne dla wielu ludzi. Ze względu na to komputer generuje tylko przeciętnie wyglądające twarze i „Nie będzie wytwarzać obrazów konkretnych osób”.

Jak to z algorytmami bywa i ten ma swoje bolączki. Kiedy na przykład przysłuchiwał się nagraniu Azjaty mówiącego po chińsku, program wytworzył obraz azjatyckiej twarzy. Jednakże, gdy ten sam mężczyzna mówił po angielsku w innym klipie audio, AI wytworzyło twarz białego człowieka. Algorytm wykazywał również uprzedzenia płciowe, kojarząc niskie głosy z męskimi twarzami i wysokimi głosami z kobiecymi twarzami.

Czytaj też: Ta kosiarka jest szybsza od Twojego samochodu

Źródło: LiveScience

Sztuczna inteligencja generuje twarze na podstawie głosu

Endorfy Fishtank 6000 Corona – premierowy test obudowy. Endorfy goni konkurencję w ofercie skrzynek typu akwarium

Hama 7020 kobiecym okiem: piękny smartwatch za mniej niż 300 zł. Wygląda jak miliony monet i działa jak zegarek Bonda!

be quiet! Light Base 500 XL – test obudowy

Rambus wprowadza przełączniki IP PCIe 7.0 z multipleksowaniem z podziałem czasu

Moduły RAM TeamGroup Elite DDR5 osiągają taktowanie 8000 MT/s przy napięciu 1.1 V działając przy tym natywnie na platformach Intel i AMD bez potrzeby włączania profili EXPO / XMP

Sztuczna inteligencja generuje twarze na podstawie głosu

Endorfy Fishtank 6000 Corona – premierowy test obudowy. Endorfy goni konkurencję w ofercie skrzynek typu akwarium

Hama 7020 kobiecym okiem: piękny smartwatch za mniej niż 300 zł. Wygląda jak miliony monet i działa jak zegarek Bonda!

be quiet! Light Base 500 XL – test obudowy

Rambus wprowadza przełączniki IP PCIe 7.0 z multipleksowaniem z podziałem czasu

Moduły RAM TeamGroup Elite DDR5 osiągają taktowanie 8000 MT/s przy napięciu 1.1 V działając przy tym natywnie na platformach Intel i AMD bez potrzeby włączania profili EXPO / XMP

Menu