В Salesforce научились убирать «воду» из текстов при помощи нейросетей Материал редакции

Компания рассчитывает, что созданные алгоритмами выжимки упростят чтение новостей и писем от клиентов.

В закладки
Распечатки новостной ленты в редакции The New York Times, 1942 год. Фото Библиотеки Конгресса

Salesforce — разработчик самой популярной в мире CRM-системы и одна из самых дорогих компаний в области облачных технологий. В 2016 году она купила стартап MetaMind, специализирующийся на машинном обучении и обработке естественного языка.

MetaMind разработала алгоритм на базе нейросетей, который сканирует англоязычный текст и делает из него краткую выжимку. Такие алгоритмы существовали давно, однако в Salesforce заявили, что им удалось сделать прорыв.

Процесс работы алгоритма

Для оценки используется показатель ROUGE, который получается при помощи обработки стандартного массива статей сайтов CNN и Daily Mail. Для этих массивов уже написаны выжимки руками человека, а метод оценки работает так: то, что получилось у алгоритма, сравнивается с «человеческой выжимкой» (в ней ищут упоминания слов и выражений), и оценка показывает то, насколько результат близок к «рукотворному идеалу».

Оценка ROUGE, получившаяся у алгоритма Salesforce, оказалась выше, чем у учёных, которые разрабатывали похожие алгоритмы в последние годы. В Salesforce объясняют это использованием сразу двух моделей для создания выжимок: «подкреплённого обучения» (алгоритм тренируется добиться более высокого ROUGE-показателя) и «курируемого обучения» (когда база старается слово в слово попасть в то, что заложено в «человеческой выжимке»).

Выжимки создаются двумя способами: убиранием лишних слов из текста или пересказом при помощи введения новых слов (и выражений). Для второго подхода и требуется машинное обучение.

По мнению журналистов из MIT Technology Review, алгоритм Salesforce производит «удивительно связные и точные» выжимки. Например, новость The New York Times длиной в 345 слов превратилась в три предложения из 50 слов.

Social network published a series of advertisements in newspapers in Britain on Monday.

It has removed tens of thousands of fake accounts in Britain.

It also said it would hire 3,000 more moderators, almost doubling the number of people worldwide who scan for inappropriate or offensive content.

выжимка из новости NYT, сократившая объём для чтения в семь раз

В Salesforce считают, что алгоритм поможет быстрее читать новости или сокращать письма клиентов, с которыми постоянно сталкиваются сотрудники компании: «В 2017 году средний человек будет тратить 12 часов и 7 минут ежедневно, потребляя контент из медиа в той или иной форме, и эта цифра дальше будет только расти».

С подробностями работы алгоритма и другими примерами создания выжимки можно ознакомиться в блоге MetaMind. По всей видимости, алгоритм работает только с английским языком.

{ "author_name": "Никита Лихачёв", "author_type": "self", "tags": [], "comments": 50, "likes": 47, "favorites": 4, "is_advertisement": false, "subsite_label": "flood", "id": 44307, "is_wide": false, "is_ugc": true, "date": "Sun, 14 May 2017 22:34:13 +0300", "is_special": false }
Комментарии

Уличный томагавк_два

4

Нейросеть может грамотно сжать новость до 350 знаков, а клоны Сашина – нет.

Честный цвет

9

По всей видимости, алгоритм работает только с английским языком.

Где-то облегчённо выдохнул один Ильяхов.

Офтоп
дискуссии в сообществе доступны только владельцам клубного аккаунта
С клубным аккаунтом вы сможете
создавать записи и вести дискуссии в закрытых сообществах
наслаждаться нашим сайтом без рекламы
помочь проекту и почувствовать себя лучше
Купить за 75₽
Обсуждаемое
Новости
Кадыров объяснил призывы убивать интернет-пользователей, оскорбляющих честь. Причина в особенностях чеченского языка
По его словам, подобные выражения часто используются в чеченском языке и не должны восприниматься буквально.
Гость TJ
Гость TJ: Михаил Светов
Трансляция с ответами на комментарии начнётся в 17:00 по Москве.
Разборы
Протестующие Гонконга превратили университеты в «крепости». Их несколько дней обороняют с луками и катапультами
Вузы Гонконга стали полем битвы с полноценными осадами и обороной, спортзалы — медпунктами, а инвентарь — оружием.
Популярное за три дня
Технологии
Microsoft поместит весь открытый исходный код с GitHub в «Хранилище судного дня» в Арктике
Для этого его распечатают и перенесут на особую плёнку, которая может продержаться до 2 тысяч лет.
Животные
Реакция котов на кошачьи фильтры в соцсетях
Истории
Большая статья про сон: из чего он состоит и зачем нужен
А ещё личный опыт путешествий прямо в сны, чтобы посмотреть их изнутри.

Прямой эфир

[ { "id": 1, "label": "100%×150_Branding_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox_method": "createAdaptive", "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "ezfl" } } }, { "id": 2, "label": "1200х400", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "ezfn" } } }, { "id": 3, "label": "240х200 _ТГБ_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "i", "ps": "cndo", "p2": "fizc" } } }, { "id": 4, "label": "Article Branding", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "cfovy", "p2": "glug" } } }, { "id": 5, "label": "300x500_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "ezfk" } } }, { "id": 6, "disable": true, "label": "1180х250_Interpool_баннер над комментариями_Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "clmf", "p2": "ffyh" } } }, { "id": 7, "label": "Article Footer 100%_desktop_mobile", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byswn", "p2": "fjxb" } } }, { "id": 8, "label": "Fullscreen Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fjoh" } } }, { "id": 9, "label": "Fullscreen Mobile", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fjog" } } }, { "id": 10, "disable": true, "label": "Native Partner Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyb" } } }, { "id": 11, "disable": true, "label": "Native Partner Mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyc" } } }, { "id": 12, "label": "Кнопка в шапке", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fdhx" } } }, { "id": 13, "label": "DM InPage Video PartnerCode", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox_method": "createAdaptive", "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "cndo", "p2": "flvn" } } }, { "id": 14, "label": "Yandex context video banner", "provider": "yandex", "yandex": { "block_id": "VI-223677-0", "render_to": "inpage_VI-223677-0-130073047", "adfox_url": "//ads.adfox.ru/228129/getCode?pp=h&ps=cndo&p2=fpjw&puid1=&puid2=&puid3=&puid4=&puid8=&puid9=&puid10=&puid21=&puid22=&puid31=&puid32=&puid33=&fmt=1&dl={REFERER}&pr=" } }, { "id": 15, "label": "Баннер в ленте на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byudv", "p2": "ftjf" } } }, { "id": 16, "label": "Кнопка в шапке мобайл", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "ccydt", "p2": "ftwx" } } }, { "id": 17, "label": "Stratum Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fzvb" } } }, { "id": 18, "label": "Stratum Mobile", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fzvc" } } }, { "id": 20, "label": "Кнопка в сайдбаре", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "chfbk", "p2": "gnwc" } } } ]