[ { "id": 1, "label": "100%×150_Branding_desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "ezfl" } } }, { "id": 2, "label": "1200х400", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "ezfn" } } }, { "id": 3, "label": "240х200 _ТГБ_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "i", "ps": "cndo", "p2": "fizc" } } }, { "id": 4, "label": "240х200_mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "i", "ps": "cndo", "p2": "flbq" } } }, { "id": 5, "label": "300x500_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "ezfk" } } }, { "id": 6, "disable": true, "label": "1180х250_Interpool_баннер над комментариями_Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "clmf", "p2": "ffyh" } } }, { "id": 7, "disable": true, "label": "Article Footer 100%_desktop_mobile", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fjxb" } } }, { "id": 8, "label": "Fullscreen Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fjoh" } } }, { "id": 9, "label": "Fullscreen Mobile", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fjog" } } }, { "id": 10, "disable": true, "label": "Native Partner Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyb" } } }, { "id": 11, "disable": true, "label": "Native Partner Mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyc" } } }, { "id": 12, "label": "Кнопка в шапке", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fdhx" } } }, { "id": 13, "label": "DM InPage Video PartnerCode", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox_method": "create", "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "cndo", "p2": "flvn" } } }, { "id": 14, "label": "Yandex context video banner", "provider": "yandex", "yandex": { "block_id": "VI-223677-0", "render_to": "inpage_VI-223677-0-101273134", "adfox_url": "//ads.adfox.ru/228129/getCode?p1=byaeu&p2=fpjw&puid1=&puid2=&puid3=&puid4=&puid8=&puid9=&puid11=&puid12=&puid13=&puid14=&puid21=&puid22=&puid31=&fmt=1&pr=" } } ]
{ "author_name": "Никита Лихачёв", "author_type": "self", "tags": [], "comments": 53, "likes": 49, "favorites": 4, "is_advertisement": false, "section_name": "default" }
Никита Лихачёв
7 805

В Salesforce научились убирать «воду» из текстов при помощи нейросетей

Компания рассчитывает, что созданные алгоритмами выжимки упростят чтение новостей и писем от клиентов.

Поделиться

В избранное

В избранном

Распечатки новостной ленты в редакции The New York Times, 1942 год. Фото Библиотеки Конгресса

Salesforce — разработчик самой популярной в мире CRM-системы и одна из самых дорогих компаний в области облачных технологий. В 2016 году она купила стартап MetaMind, специализирующийся на машинном обучении и обработке естественного языка.

MetaMind разработала алгоритм на базе нейросетей, который сканирует англоязычный текст и делает из него краткую выжимку. Такие алгоритмы существовали давно, однако в Salesforce заявили, что им удалось сделать прорыв.

Процесс работы алгоритма

Для оценки используется показатель ROUGE, который получается при помощи обработки стандартного массива статей сайтов CNN и Daily Mail. Для этих массивов уже написаны выжимки руками человека, а метод оценки работает так: то, что получилось у алгоритма, сравнивается с «человеческой выжимкой» (в ней ищут упоминания слов и выражений), и оценка показывает то, насколько результат близок к «рукотворному идеалу».

Оценка ROUGE, получившаяся у алгоритма Salesforce, оказалась выше, чем у учёных, которые разрабатывали похожие алгоритмы в последние годы. В Salesforce объясняют это использованием сразу двух моделей для создания выжимок: «подкреплённого обучения» (алгоритм тренируется добиться более высокого ROUGE-показателя) и «курируемого обучения» (когда база старается слово в слово попасть в то, что заложено в «человеческой выжимке»).

Выжимки создаются двумя способами: убиранием лишних слов из текста или пересказом при помощи введения новых слов (и выражений). Для второго подхода и требуется машинное обучение.

По мнению журналистов из MIT Technology Review, алгоритм Salesforce производит «удивительно связные и точные» выжимки. Например, новость The New York Times длиной в 345 слов превратилась в три предложения из 50 слов.

Social network published a series of advertisements in newspapers in Britain on Monday.

It has removed tens of thousands of fake accounts in Britain.

It also said it would hire 3,000 more moderators, almost doubling the number of people worldwide who scan for inappropriate or offensive content.

выжимка из новости NYT, сократившая объём для чтения в семь раз

В Salesforce считают, что алгоритм поможет быстрее читать новости или сокращать письма клиентов, с которыми постоянно сталкиваются сотрудники компании: «В 2017 году средний человек будет тратить 12 часов и 7 минут ежедневно, потребляя контент из медиа в той или иной форме, и эта цифра дальше будет только расти».

С подробностями работы алгоритма и другими примерами создания выжимки можно ознакомиться в блоге MetaMind. По всей видимости, алгоритм работает только с английским языком.

Популярные материалы
Показать еще
{ "is_needs_advanced_access": true }

Лучшие комментарии

Дискуссии по теме
доступны только владельцам клубного аккаунта

Купить за 75₽
Авторизоваться

Преимущества
клубного аккаунта

  • отсутствие рекламы
  • возможность писать комментарии и статьи
  • общение с членами клуба
Подробнее

Преимущества
клубного аккаунта

  • отсутствие рекламы
  • возможность читать и писать комментарии
  • общение с членами клуба
  • возможность создавать записи

Сколько это стоит?

Членство в клубе стоит всего 75₽ в месяц. Или даже дешевле при оплате за год.

Что такое клуб?

Клуб ТЖ это сообщество единомышленников. Мы любим читать новости, любим писать статьи, любим общаться друг с другом.

Вступить в клуб

Комментарии Комм.

Популярные

По порядку

Прямой эфир

Вы не против подписаться на важные новости от TJ?

Нет, не против