Технологии
Ольга Щербинина

Сбер выложил в открытый доступ первую русскоязычную модель для обучения нейросети GPT-3

Её можно обучить на русской литературе, новостях и «Википедии».

Сбер выложил в открытый доступ русскоязычную модель для генерации текстов GPT-3 Large с 760 миллионами параметров. Об этом на «Хабре» рассказал управляющий директор департамента SberDevices Сергей Марков.

В русскоязычный обучающий корпус суммарным объёмом свыше 600 Гб вошли русская литература, русская и английская «Википедии», новостные сайты и сайты с вопросами и ответами, публичные разделы Pikabu, материалы научно-популярного сайта 22century.ru и банковского «Банки.ру», а также корпус Omnia Russica. Чтобы научить GPT-3 обрабатывать программный код, Сбер включил в обучающий корпус модели данные из GitHub и StackOverflow.

«Если в оригинальном корпусе, использованном OpenAI, соотношение английского и других языков составляет 93:7, то в нашем случае соотношение русского и других языков составляет примерно 9:1», — подчеркнул Марков.

В компании отметили, что это первый обучающий корпус на русском языке. Проектом занимались SberDevices, SberCloud, занимающийся сопровождением суперкомпьютера «Кристофари», и команда AGI NLP.

В мае 2020 года OpenAI представила третью версию языковой модели GPT. Она способна не только генерировать тексты (в том числе стихи, шутки и литературные пародии), но и исправлять грамматические ошибки, вести диалоги и писать программный код.

#новости #нейросети #сбер