Двач, клубняк и порно: «Яндекс» сравнил поисковые запросы своих пользователей со словарём Даля
«Яндекс» провёл исследование, чтобы узнать, сколько слов из словаря Даля, изданного в середине XIX века, употребляются в современных поисковых запросах. О своих выводах исследователи рассказали в блоге компании.
Список слов, заданных в поисковых запросах за год, в «Яндексе» сравнили со словами из Национального корпуса русского языка за XX и XXI века, получив около 750 тысяч пересечений. При этом в словаре Даля всего примерно 200 тысяч слов, из которых 18% за год ни разу не встретилась в поисковых запросах к «Яндексу», примерно 38% слов упоминались в запросах, но отсутствовали в корпусе русского языка, а 44% слов попали в пересечение поиска и корпуса.
Одной из главных сложностей исследователи назвали омонимию — совпадение, при котором слова могут одинаково писаться, но иметь в словаре Даля и в поисковом запросе совершенно разные значения.
У Даля, например, встречаются такие популярные в интернете слова, как «порно», «двач», «прикол», «клубняк» — но совсем в другом значении. Иногда написание слов у Даля совпадает с распространённой в поиске ошибкой или опечаткой — «навинка», «насиление», «загатка».