Учёные использовали Твиттер, чтобы научить компьютер распознавать сарказм

Учёные из Университета Карнеги — Меллон, расположенного в Питтсбурге, использовали Твиттер для создания компьютерного алгоритма, обнаруживающего сарказм. О результатах своего исследования они рассказали в научной работе под названием «Контекстное обнаружение сарказма в Твиттере» (Contextualized Sarcasm Detection on Twitter).

«Теория большого взрыва»

Обнаружение сарказма в тексте с помощью компьютера является непростой задачей, так как подобные насмешки зачастую обретают ироничный смысл только в контексте. Если провести рядовой речевой анализ, машина может просто не найти никакого юмора.

Поэтому в качестве платформы для исследования учёные выбрали Твиттер. В своём алгоритме они учитывали несколько основных факторов, включая ключевые слова (например, «clearly», «shocked» и «gasp» — аналоги русскоязычного «ага, конечно»), хэштеги (#lol и #sarcasm), а также местоположение, возраст и пол автора вместе с коммуникациями с другими пользователями и текстами его предыдущих твитов.

Благодаря анализу комбинации из текстовых и контекстных параметров учёным удалось создать программу, которая определяет наличие сарказма в записи с вероятностью 85%.

В рамках эксперимента удалось установить, что больше всего склонны к сарказму пользователи мужского пола без верификации и, вероятно, с ненастоящим именем в профиле.

Кроме того, тег #sarcasm оказался вводящим в заблуждение — чаще всего он применяется для пояснения мыслей, которые могут быть неправильно поняты неосведомлённой аудиторией, а не реальным сарказмом.

По мнению учёных, их система может быть применена для автоматической модерации контента. В социальных сетях нередки случаи, когда профили или отдельные записи пользователей блокируются из-за какой-либо шутки, неправильно воспринятой алгоритмом проверки или контролирующим органом.

Например, в 2013 году шуточный твит бывшего шеф-редактора TJ Султана Сулейманова на тему суицида был заблокирован на территории России.