Роскомнадзор потратит 58,5 миллиона рублей на систему автоматического поиска «запрещённой» информации в СМИ и соцсетях Статьи редакции
ИС МИР должна отслеживать зеркала заблокированных сайтов, анализировать мнение автора публикации и группировать тексты по упоминаемым в них людям.
Подведомственное Роскомнадзору предприятие Главный радиочастотный центр (ГРЧЦ) объявило тендер на создание автоматической системы поиска «запрещённой» информации в СМИ, соцсетях и мессенджерах. Документы опубликовали на портале госзакупок.
Систему назовут «Мониторинг информационных ресурсов» (ИС МИР). Она будет «выявлять данные, распространение которых на территории Российской Федерации ограничено или запрещено».
Согласно требованиям, система должна:
- отслеживать публикации с «запрещённой» информацией;
- собирать ссылки на источники данных;
- отслеживать зеркала заблокированных сайтов и «неточные смысловые копии» материалов;
- группировать тексты по упоминаемым людям, организациям и локациям;
- анализировать мнение автора публикации и классифицировать оценку по трём категориям: негативной, нейтральной и позитивной;
- предсказывать, каких пользователей интернета может заинтересовать текст с «запрещённой» информацией на основе социально-демографических факторов: пола, возраста, образования и дохода.
Исполнителю заказа нужно адаптировать ИС МИР-1 для одновременной работы не менее 500 пользователей. Хранить данные система должна в течение трёх лет.
Согласно договору, ИС МИР будет создаваться в два этапа. Цена за первый — 58,5 миллионов рублей. Выбрать подрядчика должны до 17 сентября.
Комментарий недоступен
Комментарий недоступен
Ну про мозги спорно
черное на белом, кто-то был не прав
Комментарий недоступен
Можно, но придется изменять кириллические буквы в словах на латинские, чтобы обмануть робота.
бляяя
Молчание - золото
По трем категориям: Минус чашка рис и 1 кошкажена, Вы пока не отправляетесь в лагерь, +20 социальный кредит и одна кошкажена.
Комментарий недоступен
Комментарий недоступен
что-то сумма мелковата
Первоначальная сумма тендера ничего не значит. Крымский мост, Зенит арена и космодром Восточный показали как в разы может дорожать проект при его реализации
Комментарий недоступен
А потому что всё давно сделано. По пунктам:
отслеживать публикации с «запрещённой» информацией;Веб-скрапер.
собирать ссылки на источники данных;Веб-скрапер!
отслеживать зеркала заблокированных сайтов и «неточные смысловые копии» материалов;Веб-скрапер! Неточные смысловые копии можно распознать методами, которые придумали даже не в прошлом столетии — тезаурус Роже был написан в 1805 году, сомневаюсь, что для русского языка не сделали аналога.
группировать тексты по упоминаемым людям, организациям и локациям;Методы автоматической кластеризации были разработаны ещё в прошлом веке.
анализировать мнение автора публикации и классифицировать оценку по трём категориям: негативной, нейтральной и позитивной;Слова всяко будут либо положительны, либо отрицательны, либо нейтральны. Выставляем веса (в конце текст важнее, там вывод обычно, так что и веса должны быть больше), считаем сумму баллов, получаем простейший инструмент оценки тональности текстов. Хочется навороченнее — идите на kaggle, там миллион подобных соревнований есть.
предсказывать, каких пользователей интернета может заинтересовать текст с «запрещённой» информацией на основе социально-демографических факторов: пола, возраста, образования и дохода.Ну тут пользователи сами долбоёбы — оставляют свои данные о поле, возрасте, образовании и доходе в соцсетях. Даже если не оставляют — большинство признаков легко предсказать с высокой точностью по графу контактов. Через куки можно отслеживать что читает пользователь, вуаля — есть датасет. Дальше уже всё довольно тривиально решается через машинку.
Комментарий недоступен
Комментарий удален модератором
потому что уже давно готово, фсб проплатил года 2 назад. решили по 2 кругу денег попилить
if 'Спутник' = lastUsedName then 'Мир' else 'Спутник' end if;
вы приняты!
За 58 млн.р "переиграть" весь Интернет .. ну такое
Комментарий недоступен
парсэръ миллионэръ
Комментарий недоступен
Бумеры изобрели «Медиалогию»
Комментарий недоступен
Лучше бы переселили на эти бабки людей из Воркуты.
https://www.youtube.com/watch?v=JJblj5OX9fA
но нахуя?
Сущие копейки
Роскомнадзор потратит ВСЕ МИЛЛИОНЫ РУБЛЕЙ на систему автоматического поиска «запрещённой» информации в СМИ и соцсетях.
Hey I fixed it for you!
Слишком амбициозная задачка. Глобальная индексация интернета, плюс логика распознавания контекста. Это, наверное, по трудозатратам, как написать новый поисковик типа Яндекса или Гугла.
Интересно будет глянуть анализ мнения тжшников
Звучит серьёзно. А когда не останется выделенных бюджетов, просто законодательно обяжут сами СМИ заполнять где у них запрещёнка опубликована )
следущий модуль кибергулага
Комментарий недоступен
Мудрые товарищи из Роскома продолжают строить "Планету Торманс", ничего нового
предсказывать, каких пользователей интернета может заинтересовать текст с «запрещённой» информацией на основе социально-демографических факторов: пола, возраста, образования и дохода.
это невозможно
шо там можно на 800к долларов создать?