WRÓĆ DO STRONY
GŁÓWNEJ
Rozrywka

Maszynowe uczenie poprawia nagrania mono

Najczęściej mamy do czynienia z nagraniami stworzonymi w systemie stereo, ale wbrew pozorom, na te mono trafiamy częściej, niż może się nam wydawać. Nie ważne, czy to akurat audycje radiowe, czy audiobooki, gdzie ten system został użyty celowo. Co jednak w przypadku nagrań, które są w systemie monograficznym, a za wszelką cenę chcemy, aby „grały” w trybie stereo? Tutaj rękę wyciąga duet naukowców – Ruohan Gao z Uniwersytetu w Texasie oraz Kristen Grauman z Facebook Research.

Ta dwójka we współpracy opracowała system uczenia maszynowego, którego okrzyknęli nazwą 2.5D Sound. Ten wymaga do działania dosyć niestandardowego połączenia, bo nie tylko nagrania mono, ale również towarzyszącemu mu materiałowi wideo. Ten drugi musi ukazywać swojego rodzaju wskazówki, które wykorzystuje algorytm, aby sztucznie przekształcić nagranie, rozdzielając ścieżki przeznaczone dla lewej i prawej słuchawki, manipulując dodatkowo różnicą ich poziomu głośności. Jak to przy użyciu sztucznej inteligencji bywa (maszynowe uczenie to jej odłam), naukowcy początkowo musieli stworzyć bazę danych przy użyciu dwóch mikrofonów i kamery. W niej umieścili utwory stereo, do których podpięli wcześniej przygotowane materiały wideo.

Algorytm najpierw oddawał się słuchaniu utworów, a potem parował je z odpowiadającymi im materiałami wideo, ucząc się, jak przekształcać monofoniczne nagrania do pożądanej formy. Owoc tej pracy możemy usłyszeć powyżej, choć nawet przy tak rozległej bazie danych, system nie jest idealny i nadal wymaga jej rozwijania. Wszystko przez to, że nie jest w stanie rozpoznać dźwięków, które nie znalazły się w jego początkowym repertuarze.

Czytaj też: Ta technologia zapewnia każdemu pasażerowi w samochodzie prywatną strefę audio

 Źródło: New Atlas