Сбер выложил в открытый доступ первую русскоязычную модель для обучения нейросети GPT-3
Её можно обучить на русской литературе, новостях и «Википедии».
В русскоязычный обучающий корпус суммарным объёмом свыше 600 Гб вошли русская литература, русская и английская «Википедии», новостные сайты и сайты с вопросами и ответами, публичные разделы Pikabu, материалы научно-популярного сайта 22century.ru и банковского «Банки.ру», а также корпус Omnia Russica. Чтобы научить GPT-3 обрабатывать программный код, Сбер включил в обучающий корпус модели данные из GitHub и StackOverflow.
«Если в оригинальном корпусе, использованном OpenAI, соотношение английского и других языков составляет 93:7, то в нашем случае соотношение русского и других языков составляет примерно 9:1», — подчеркнул Марков.
В компании отметили, что это первый обучающий корпус на русском языке. Проектом занимались SberDevices, SberCloud, занимающийся сопровождением суперкомпьютера «Кристофари», и команда AGI NLP.
В мае 2020 года OpenAI представила третью версию языковой модели GPT. Она способна не только генерировать тексты (в том числе стихи, шутки и литературные пародии), но и исправлять грамматические ошибки, вести диалоги и писать программный код.
#новости #нейросети #сбер