{"id":2130,"url":"\/distributions\/2130\/click?bit=1&hash=5ef750b92ee202e0c63115b34357ef20436292d7827467014206cbf8e61dec69","title":"\u041a\u0430\u043a \u0438\u043d\u0432\u0435\u0441\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c, \u043a\u043e\u0433\u0434\u0430 \u043d\u0438\u0447\u0435\u0433\u043e \u043d\u0435\u043f\u043e\u043d\u044f\u0442\u043d\u043e? \u0411\u0435\u0437 \u043f\u0430\u043d\u0438\u043a\u0438","buttonText":"\u041f\u043e\u0434\u0440\u043e\u0431\u043d\u0435\u0435","imageUuid":"910989eb-2da4-5328-bca6-e06a8b9deeff","isPaidAndBannersEnabled":false}

Роскомнадзор потратит 58,5 миллиона рублей на систему автоматического поиска «запрещённой» информации в СМИ и соцсетях Статьи редакции

ИС МИР должна отслеживать зеркала заблокированных сайтов, анализировать мнение автора публикации и группировать тексты по упоминаемым в них людям.

Подведомственное Роскомнадзору предприятие Главный радиочастотный центр (ГРЧЦ) объявило тендер на создание автоматической системы поиска «запрещённой» информации в СМИ, соцсетях и мессенджерах. Документы опубликовали на портале госзакупок.

Систему назовут «Мониторинг информационных ресурсов» (ИС МИР). Она будет «выявлять данные, распространение которых на территории Российской Федерации ограничено или запрещено».

Согласно требованиям, система должна:

  • отслеживать публикации с «запрещённой» информацией;
  • собирать ссылки на источники данных;
  • отслеживать зеркала заблокированных сайтов и «неточные смысловые копии» материалов;
  • группировать тексты по упоминаемым людям, организациям и локациям;
  • анализировать мнение автора публикации и классифицировать оценку по трём категориям: негативной, нейтральной и позитивной;
  • предсказывать, каких пользователей интернета может заинтересовать текст с «запрещённой» информацией на основе социально-демографических факторов: пола, возраста, образования и дохода.

Исполнителю заказа нужно адаптировать ИС МИР-1 для одновременной работы не менее 500 пользователей. Хранить данные система должна в течение трёх лет.

Согласно договору, ИС МИР будет создаваться в два этапа. Цена за первый — 58,5 миллионов рублей. Выбрать подрядчика должны до 17 сентября.

0
68 комментариев
Написать комментарий...
Плотный пришелец

Комментарий недоступен

Ответить
Развернуть ветку
Шумный коктейль

Комментарий недоступен

Ответить
Развернуть ветку
2 комментария
Щячло Попячтса

Ну про мозги спорно

Ответить
Развернуть ветку
18 комментариев
испанский смех

черное на белом, кто-то был не прав

Ответить
Развернуть ветку
Остальной звук

Комментарий недоступен

Ответить
Развернуть ветку
Alex Blake

Можно, но придется изменять кириллические буквы в словах на латинские, чтобы обмануть робота. 

Ответить
Развернуть ветку
10 комментариев
Семен Прозов

бляяя

Ответить
Развернуть ветку
House M.D.

Молчание - золото

Ответить
Развернуть ветку
1 комментарий
Sloowbruh

По трем категориям: Минус чашка рис и 1 кошкажена, Вы пока не отправляетесь в лагерь,  +20 социальный кредит и одна кошкажена.

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Bad Mother Fucker

что-то сумма мелковата

Ответить
Развернуть ветку
Alex Blake

Первоначальная сумма тендера ничего не значит. Крымский мост, Зенит арена и космодром Восточный показали как в разы может дорожать проект при его реализации

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Импортный глобус

А потому что всё давно сделано. По пунктам:

отслеживать публикации с «запрещённой» информацией;

Веб-скрапер.

собирать ссылки на источники данных;

Веб-скрапер!

отслеживать зеркала заблокированных сайтов и «неточные смысловые копии» материалов;

Веб-скрапер! Неточные смысловые копии можно распознать методами, которые придумали даже не в прошлом столетии — тезаурус Роже был написан в 1805 году, сомневаюсь, что для русского языка не сделали аналога.

группировать тексты по упоминаемым людям, организациям и локациям;

Методы автоматической кластеризации были разработаны ещё в прошлом веке.

анализировать мнение автора публикации и классифицировать оценку по трём категориям: негативной, нейтральной и позитивной;

Слова всяко будут либо положительны, либо отрицательны, либо нейтральны. Выставляем веса (в конце текст важнее, там вывод обычно, так что и веса должны быть больше), считаем сумму баллов, получаем простейший инструмент оценки тональности текстов. Хочется навороченнее — идите на kaggle, там миллион подобных соревнований есть.

предсказывать, каких пользователей интернета может заинтересовать текст с «запрещённой» информацией на основе социально-демографических факторов: пола, возраста, образования и дохода.

Ну тут пользователи сами долбоёбы — оставляют свои данные о поле, возрасте, образовании и доходе в соцсетях. Даже если не оставляют — большинство признаков легко предсказать с высокой точностью по графу контактов. Через куки можно отслеживать что читает пользователь, вуаля — есть датасет. Дальше уже всё довольно тривиально решается через машинку.

Ответить
Развернуть ветку
Остальной звук

Комментарий недоступен

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Michael Petrov

потому что уже давно готово, фсб проплатил года 2 назад. решили по 2 кругу денег попилить

Ответить
Развернуть ветку
Обязательный Женя

if 'Спутник' = lastUsedName then 'Мир' else 'Спутник' end if;

Ответить
Развернуть ветку
испанский смех

вы приняты!

Ответить
Развернуть ветку
Василий Дробовский

За 58 млн.р "переиграть" весь Интернет .. ну такое

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Ваша Закладко

парсэръ миллионэръ

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Man Overboard

Бумеры изобрели «Медиалогию» 

Ответить
Развернуть ветку
Испанский Женя

Комментарий недоступен

Ответить
Развернуть ветку
Миржан Досымбаев

Лучше бы переселили на эти бабки людей из Воркуты. 
https://www.youtube.com/watch?v=JJblj5OX9fA

Ответить
Развернуть ветку
испанский смех

но нахуя?

Ответить
Развернуть ветку
Андрей Невский

Сущие копейки

Ответить
Развернуть ветку
Торжественный микроскоп

Роскомнадзор потратит ВСЕ МИЛЛИОНЫ РУБЛЕЙ на систему автоматического поиска «запрещённой» информации в СМИ и соцсетях.

Hey I fixed it for you!

Ответить
Развернуть ветку
Alex Blake

Слишком амбициозная задачка. Глобальная индексация интернета, плюс логика распознавания контекста. Это, наверное, по трудозатратам, как написать новый поисковик типа Яндекса или Гугла. 

Ответить
Развернуть ветку
Пьяный ГОСТ

Интересно будет глянуть анализ мнения тжшников

Ответить
Развернуть ветку
Alex

Звучит серьёзно. А когда не останется выделенных бюджетов, просто законодательно обяжут сами СМИ заполнять где у них запрещёнка опубликована )

Ответить
Развернуть ветку
Goose in Bus

следущий модуль кибергулага 

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Fiuh

Мудрые товарищи из Роскома продолжают строить "Планету Торманс", ничего нового

Ответить
Развернуть ветку
испанский смех
анализировать мнение автора публикации и классифицировать оценку по трём категориям: негативной, нейтральной и позитивной;
предсказывать, каких пользователей интернета может заинтересовать текст с «запрещённой» информацией на основе социально-демографических факторов: пола, возраста, образования и дохода.

это невозможно

Ответить
Развернуть ветку
Драгоценный ихтиандр

шо там можно на 800к долларов создать?

Ответить
Развернуть ветку
Читать все 68 комментариев
null