Новости
Артём Мазанов

Megogo запустит нейросеть для поиска в фильмах мата из списка Роскомнадзора, сцен курения и употребления алкоголя

Нейросеть решили запустить после протокола регулятора за мат и секс в фильме сервиса.

Нейросеть должна будет проанализировать более чем 700 тысяч единиц контента, чтобы найти там запрещённый законом контент. Об этом «Ведомостям» рассказал глава сервиса Виктор Чеканов.

Чеканов уточнил, что запуск такой системы — превентивная мера. «Цель – выявить контент с матом и указанными сценами, чтобы устранить возможные нарушения: запикать или проставить маркировку „18+“», — объяснил он.

Нейросеть будет распознавать четыре группы нецензурных слов из списка Роскомнадзора и производные от них: х**, п***а, е*** (нецензурное обозначение секса) и б**** (как пишут «Ведомости», это «обозначение женщины распутного поведения»). К этим четырём словам Megogo добавил ещё два: мудак и м**** (обозначение женского полового органа). За использование последнего слова Роскомнадзор в 2018 году составил протокол на Znak.com.

По словам главы сервиса, нейросеть состоит из двух решений. Первое — автономный инструмент для распознавания речи с открытым исходным кодом Vosk, второе — система визуального распознавания. Чеканов уточнил, что нейросеть сможет самостоятельно идентифицировать запрещённый к распространению контент через год, но пока участие человека необходимо.

Нейросеть сейчас обучают тестировщики. Кроме того, в процессе участвуют и редакторы. Робот находит в аудиовизуальном контенте сцены, к примеру, с матом и проставляет таймкоды, а они проверяют, правильно ли робот идентифицировал слова, и, если это действительно мат, запикивают. Либо проставляют маркировку «18+»

Виктор Чеканов

Чеканов рассказал, что нейросеть также сможет распознавать сцены насилия. Но как именно алгоритм будет их определять, пока неизвестно. «Даже человеку иногда сложно определить степень допустимой на экране жестокости», — добавил глава Megogo.

* * *

Megogo стал первым стримингом, на который Роскомнадзор составил протокол за мат и секс: «нецензурную брань и эксплуатацию темы секса» нашли в фильме «Никто не знает про секс», у которого на видеосервисе была маркировка «16+» вместо «18+». Чеканов тогда объяснил, что стриминг ориентировался на данные прокатного удостоверения Минкультуры. Позже Роскомнадзор уточнил, что по закону от 2012 года видеосервисы должны самостоятельно определять и при необходимости менять маркировку.

#новости