Разные искусственные интеллекты не смогли определиться, что звучит на записи — «Янни» или «Лорел»

Похоже, что феномен приводит к разногласиям даже среди компьютеров.

Компания Sonix сравнила разные системы распознавания речи на основе искусственного интеллекта с помощью феномена «Янни» или «Лорел». Инженеры пропустили запись через инструменты Google, Amazon, IBM и через свою собственную разработку.

Искусственные интеллекты Google и Sonix с первого раза распознали верное значение — «Лорел». Однако у систем Amazon и IBM возникли трудности: одна слышала слова «year old» (год старый), а вторая распознала «Лорел», но через раз путала слово с «yeah role».

Наверху — Amazon Transcription, внизу — IBM Watson

В разговоре с TechCrunch гендиректор Sonix отметил, что распознавание человеческого голоса это сложный процесс, потому что существует много разных вариаций голоса, ритма, акцента и частоты.

Реальность такова, что разные компании могут оптимизировать разные используемые шаблоны, поэтому результаты могут отличаться.

Джейми Сазерленд

Редактор издания Дэвин Колдуи (David Coldewey) предположил, что разные результаты могут возникнуть из-за того, что ИИ тренировали на разных частотах человеческого голоса. Журналисту показалось разумным такое объяснение.

16 мая в соцсетях распространилась запись, на которой диктор произносит всего одно слово, но пользователи слышали разные варианты: некоторые «Лорел», а другие — «Янни». Учёные решили, что из-за частотной характеристики звука, люди в зависимости от техники и возраста слышат его по-разному.

На следующий день журналисты Wired выяснили, откуда появился мем и что на самом деле звучало на записи. Оказалось, что феномен обнаружила девятиклассница, делавшая домашнее задание, когда встретила непонятное слово Laurel и решила найти его в онлайн-словаре Vocabulary.com.

#технологии #мемы #ии