Разные искусственные интеллекты не смогли определиться, что звучит на записи — «Янни» или «Лорел»
Похоже, что феномен приводит к разногласиям даже среди компьютеров.
Компания Sonix сравнила разные системы распознавания речи на основе искусственного интеллекта с помощью феномена «Янни» или «Лорел». Инженеры пропустили запись через инструменты Google, Amazon, IBM и через свою собственную разработку.
Искусственные интеллекты Google и Sonix с первого раза распознали верное значение — «Лорел». Однако у систем Amazon и IBM возникли трудности: одна слышала слова «year old» (год старый), а вторая распознала «Лорел», но через раз путала слово с «yeah role».
Наверху — Amazon Transcription, внизу — IBM Watson
В разговоре с TechCrunch гендиректор Sonix отметил, что распознавание человеческого голоса это сложный процесс, потому что существует много разных вариаций голоса, ритма, акцента и частоты.
Реальность такова, что разные компании могут оптимизировать разные используемые шаблоны, поэтому результаты могут отличаться.
Редактор издания Дэвин Колдуи (David Coldewey) предположил, что разные результаты могут возникнуть из-за того, что ИИ тренировали на разных частотах человеческого голоса. Журналисту показалось разумным такое объяснение.
16 мая в соцсетях распространилась запись, на которой диктор произносит всего одно слово, но пользователи слышали разные варианты: некоторые «Лорел», а другие — «Янни». Учёные решили, что из-за частотной характеристики звука, люди в зависимости от техники и возраста слышат его по-разному.
На следующий день журналисты Wired выяснили, откуда появился мем и что на самом деле звучало на записи. Оказалось, что феномен обнаружила девятиклассница, делавшая домашнее задание, когда встретила непонятное слово Laurel и решила найти его в онлайн-словаре Vocabulary.com.
#технологии #мемы #ии