Офтоп
Никита Лихачёв

В Salesforce научились убирать «воду» из текстов при помощи нейросетей

Компания рассчитывает, что созданные алгоритмами выжимки упростят чтение новостей и писем от клиентов.

Распечатки новостной ленты в редакции The New York Times, 1942 год. Фото Библиотеки Конгресса

Salesforce — разработчик самой популярной в мире CRM-системы и одна из самых дорогих компаний в области облачных технологий. В 2016 году она купила стартап MetaMind, специализирующийся на машинном обучении и обработке естественного языка.

MetaMind разработала алгоритм на базе нейросетей, который сканирует англоязычный текст и делает из него краткую выжимку. Такие алгоритмы существовали давно, однако в Salesforce заявили, что им удалось сделать прорыв.

Процесс работы алгоритма

Для оценки используется показатель ROUGE, который получается при помощи обработки стандартного массива статей сайтов CNN и Daily Mail. Для этих массивов уже написаны выжимки руками человека, а метод оценки работает так: то, что получилось у алгоритма, сравнивается с «человеческой выжимкой» (в ней ищут упоминания слов и выражений), и оценка показывает то, насколько результат близок к «рукотворному идеалу».

Оценка ROUGE, получившаяся у алгоритма Salesforce, оказалась выше, чем у учёных, которые разрабатывали похожие алгоритмы в последние годы. В Salesforce объясняют это использованием сразу двух моделей для создания выжимок: «подкреплённого обучения» (алгоритм тренируется добиться более высокого ROUGE-показателя) и «курируемого обучения» (когда база старается слово в слово попасть в то, что заложено в «человеческой выжимке»).

Выжимки создаются двумя способами: убиранием лишних слов из текста или пересказом при помощи введения новых слов (и выражений). Для второго подхода и требуется машинное обучение.

По мнению журналистов из MIT Technology Review, алгоритм Salesforce производит «удивительно связные и точные» выжимки. Например, новость The New York Times длиной в 345 слов превратилась в три предложения из 50 слов.

Social network published a series of advertisements in newspapers in Britain on Monday.

It has removed tens of thousands of fake accounts in Britain.

It also said it would hire 3,000 more moderators, almost doubling the number of people worldwide who scan for inappropriate or offensive content.

выжимка из новости NYT, сократившая объём для чтения в семь раз

В Salesforce считают, что алгоритм поможет быстрее читать новости или сокращать письма клиентов, с которыми постоянно сталкиваются сотрудники компании: «В 2017 году средний человек будет тратить 12 часов и 7 минут ежедневно, потребляя контент из медиа в той или иной форме, и эта цифра дальше будет только расти».

С подробностями работы алгоритма и другими примерами создания выжимки можно ознакомиться в блоге MetaMind. По всей видимости, алгоритм работает только с английским языком.