{"id":1064,"title":"\u041f\u0440\u043e\u0439\u0434\u0438\u0442\u0435 \u044d\u0442\u043e\u0442 \u0442\u0435\u0441\u0442, \u043f\u043e\u043a\u0430 \u043a\u0440\u0438\u043f\u0442\u043e\u0433\u0440\u0430\u0444\u0438\u044e \u0438\u0437 \u0435\u0434\u044b \u043d\u0435 \u0437\u0430\u043f\u0440\u0435\u0442\u0438\u043b\u0438","url":"\/redirect?component=advertising&id=1064&url=https:\/\/tjournal.ru\/special\/kaleidofood&placeBit=1&hash=f30606208ead4bb67ee3624f20be3cd7a9b9c0ae8b2bd8a40218541848752d25","isPaidAndBannersEnabled":false}

«Это безумие! — Нет, это Google Translate!»: веб-переводчик показывает стихи в ответ на бессмыслицу Статьи редакции

Не так давно в Translate внедрили машинное обучение, чтобы улучшить качество переводов, и вот что получилось.

Занимавшийся глубоким машинным обучением бывший сотрудник Google Дан Лу (Dan Luu) обнаружил, что если последовательно вводить несколько одинаковых иероглифов на хирагане (прим.ред.— японская письменность), добавляя одни и те же символы с каждой новой строкой, Google-переводчик выдаёт осмысленные фразы и выражения, а иногда и рифмует строки. Результат может быть самым неожиданным, несмотря на довольно просто изначальное значение символов. Об этом Дан Лу сообщил в своём твиттере.

Запись блогера приобрела вирусный эффект, за сутки набрав почти 8 тысячи ретвитов и лайков, и вдохновила других пользователей твиттера на эксперименты. Это вылилось в небольшой флешмоб.

Некоторые из пользователей шутили, что таким образом можно придумать новые способы писать сюжеты для порнофильмов или придумывать слова для популярных песен.

Как оказалось, этот эффект работает и со связкой испанский-английский.

Один из пользователей вдохновился на создание музыкального клипа по мотивам твита Дан Лу. Ролик получил название «Успешная атака».

Однако первоначально необычное поведение переводчика Google заметили на Reddit. В записи от 12 апреля 2017 года пользователь под ником DIA13OLICAL записал видео, на котором продемонстрировал, что если ввести «えぐ» на японском и повторять символы — через раз будут появляться очень забавные результаты.

Чаще всего DIA13OLICAL попадался перевод «DECEARING EGG» («Обжигающее яйцо»). Однако, чем дальше пользователь заходил — тем большая бессмыслица появлялась в переводе.

Комментаторы на YouTube в шутку отметили, что теперь юмор у машин официально лучше, чем у человека и они научились придумывать новые слова.

15 апреля на видео DIA13OLICAL отреагировали в групповом блоге о лингвистике Пеннсильванского университета. 16 апреля автор сайта Марк Либерман (Mark Liberman) обнаружил, что подобный эффект наблюдается и с повторением тайских и корейских символов. Он связал это с тем, что Google использует в Translate особую архитектуру рекуррентных нейронных сетей — LSTM (Долгая краткосрочная память). А одной из особенностей подобных систем является то, что они могут прогнозировать значения на основе введённых до этого символов, но делают это в зависимости от того, на чём они натренированы. В качестве примера Либерман привёл перевод символов «ไๅ», которые он повторил 25 раз, каждый раз добавляя по одной копии знаков в строку. В результате у него получилось стихотворение, похожее на работы американской писательницы Гертруды Стайн.

TJ провёл эксперименты с использованием русских букв и получил такие же неожиданные результаты, как и пользователь Reddit.

Также выяснилось, что баг работает и в обратную сторону: написав несколько раз подряд буквенное сочетание «ash» на английском языке, можно увидеть интересный перевод на русский.

При попытке обнаружить подтасовку переводов через «предложения» (прим.ред — раньше это случалось довольно часто), Google Translate выдал верный ответ.

TJ обратился к российскому представительству Google, но компания не прокомментировала ситуацию.

В конце 2016 года Google начала использовать нейросети в своём переводчике. Тогда пользователи заметили, что качество переводов значительно выросло, а в некоторых случаях дошло до уровня профессионалов. Например, профессор Токийского университета Дзюн Рэкимото (Jun Rekimoto) перевёл один абзац из книги «Снега Килиманджаро» самостоятельно на японский, а затем с помощью Google Translate обратно на английский. После этого он опубликовал в твиттере два варианта — англоязычный оригинал и свою интерпретацию, переведённую Google, и предложил cвоим подписчикам в Твиттере отгадать, что было оригиналом. Большинство пользователей приняло за «официальный» вариант Рэкимото.

0
25 комментариев
Популярные
По порядку
Написать комментарий...
Всякий татарин

TJ обратился к российскому представительству Google, но компания не прокомментировала ситуацию.

Ответить
21
Развернуть ветку
Всякий татарин

ну они же ответили) просто не стали давать комментарий)

Ответить
1
Развернуть ветку
Всякий татарин

Комментарий удален по просьбе пользователя

Ответить
4
Развернуть ветку
Всякий татарин

Спасибо, поправил

Ответить
0
Развернуть ветку
Всякий татарин

Комментарий удален по просьбе пользователя

Ответить
0
Развернуть ветку
Всякий татарин

Теперь я знаю кто пишет все эти ТЖ комменты

Ответить
3
Развернуть ветку
Всякий татарин

Комментарий удален по просьбе пользователя

Ответить
3
Развернуть ветку
Всякий татарин

смотрите, что мне нейросеть по-немецки сгенерировала:
Du
Du hast
Du hast mich
Du
Du hast
Du hast mich
Du hast mich
Du hast mich gefragt
Du hast mich gefragt
Du hast mich gefragt und ich hab nichts gesagt
Willst du bis der Tod euch scheidet
Treu ihr sein für alle Tage
Nein
Willst du bis der Tod euch scheidet
Treu ihr sein für alle Tage
Nein

Ответить
3
Развернуть ветку
Всякий татарин

Доработали бы Ютуб что ли в этом Гугле, многие не понимают почему видео только в 320р или начинается не сначала, да и ещё там косяков полно.

Ответить
2
Развернуть ветку
Всякий татарин

Да ютуб вообще в последнее время нормально и в полной мере работает только в хроме. Понятно, что Гугл хочет привлечь больше пользователей для своего браузера, но это как-то не совсем честно.

Ответить
1
Развернуть ветку
Всякий татарин

Больше смысла чем в текстах русской попсы.

Ответить
1
Развернуть ветку
Всякий татарин

Комментарий удален по просьбе пользователя

Ответить
0
Развернуть ветку
Всякий татарин

Напоминает.

Ответить
1
Развернуть ветку
Всякий татарин

Комментарий удален по просьбе пользователя

Ответить
0
Развернуть ветку
Всякий татарин

Камалетдинов, удаляй статью. В хирагане нет никаких иероглифов, это слоговое письмо.

Ответить
0
Развернуть ветку
Всякий татарин

Jun Rekimoto — Дзюн Рэкимото.

Ответить
0
Развернуть ветку
Всякий татарин

Дзюна исправил, спасибо

Ответить
1
Развернуть ветку
Всякий татарин

Первоначально термин «иероглиф» употреблялся по отношению к древнеегипетскому письму, в котором сочетались элементы идеографического, силлабического и фонетического (акрофонического) писем. Сейчас кроме этого термин применяется для характеристики знаков китайского письма, а также знаков кандзи и кокудзи в японском языке (они используются в комбинации со слоговыми азбуками: катаканой и хираганой

Ответить
–2
Развернуть ветку
Всякий татарин

Перечитай свою цитату, пожалуйста. Иероглифы (= идеограммы) это кандзи. А кана — слоговая азбука. Ровно то, о чём я говорил.

Как же я «люблю» таких собеседников, которые приводят цитаты, которые не удосужившись прочесть и понять сами.

Ответить
1
Развернуть ветку
Всякий татарин

И кстати — не Лу, а Лыу, видимо, — он вьетнамец.

Ответить
1
Развернуть ветку
Всякий татарин
Ответить
0
Развернуть ветку
Всякий татарин

какого, блядь, Хэмингуэя?

Ответить
–1
Развернуть ветку
Всякий татарин

молодцы, поправили

Ответить
0
Развернуть ветку
Всякий татарин

Речь, кстати, и правда была о Хемингуэе. Перепутаны были названия произведений.

Ответить
0
Развернуть ветку
Всякий татарин

ну дела это не меняет)

Ответить
0
Развернуть ветку
Читать все 25 комментариев
null