Рубрика развивается при поддержке HP logo
Технологии
Ольга Щербинина
6247

Сбер выложил в открытый доступ первую русскоязычную модель для обучения нейросети GPT-3 Материал редакции

Её можно обучить на русской литературе, новостях и «Википедии».

В закладки

Сбер выложил в открытый доступ русскоязычную модель для генерации текстов GPT-3 Large с 760 миллионами параметров. Об этом на «Хабре» рассказал управляющий директор департамента SberDevices Сергей Марков.

В русскоязычный обучающий корпус суммарным объёмом свыше 600 Гб вошли русская литература, русская и английская «Википедии», новостные сайты и сайты с вопросами и ответами, публичные разделы Pikabu, материалы научно-популярного сайта 22century.ru и банковского «Банки.ру», а также корпус Omnia Russica. Чтобы научить GPT-3 обрабатывать программный код, Сбер включил в обучающий корпус модели данные из GitHub и StackOverflow.

«Если в оригинальном корпусе, использованном OpenAI, соотношение английского и других языков составляет 93:7, то в нашем случае соотношение русского и других языков составляет примерно 9:1», — подчеркнул Марков.

В компании отметили, что это первый обучающий корпус на русском языке. Проектом занимались SberDevices, SberCloud, занимающийся сопровождением суперкомпьютера «Кристофари», и команда AGI NLP.

В мае 2020 года OpenAI представила третью версию языковой модели GPT. Она способна не только генерировать тексты (в том числе стихи, шутки и литературные пародии), но и исправлять грамматические ошибки, вести диалоги и писать программный код.

но есть и хорошие новости?
{ "author_name": "Ольга Щербинина", "author_type": "editor", "tags": ["\u0441\u0431\u0435\u0440","\u043d\u043e\u0432\u043e\u0441\u0442\u0438","\u043d\u0435\u0439\u0440\u043e\u0441\u0435\u0442\u0438"], "comments": 60, "likes": 48, "favorites": 26, "is_advertisement": false, "subsite_label": "tech", "id": 226011, "is_wide": false, "is_ugc": false, "date": "Thu, 22 Oct 2020 16:32:20 +0300", "is_special": false }
Создан для будущего Узнайте больше HP Neverstop Laser HP Neverstop Laser
Объявление на TJ Отключить рекламу
Промо
«Раньше на соревнованиях дронов нужно было взлететь, полетать и сесть. Сейчас всё намного сложнее»
Рассказ победителя прошлогоднего межвузовского чемпионата WorldSkills Russia, а ныне технического эксперта.
0
60 комментариев
Популярные
По порядку
Написать комментарий...

Секретный каякер

52

По заголовку я сначало подумал, что "Сбер выложил в открытый доступ... персональные данные пользователей".

Ответить
3

одно другого не отменяет

Ответить

Секретный каякер

Вова
1

Ты думаешь под "шумок" слили?

Ответить
1

Нейронка будет сливать данные, если ее об этом спросишь

Ответить
1

сбер не туда воюет. надо было всю лирику круга и лесоповала, например, помимо пушкина и тургенева, как трейн грузить - уже бы изъяснялись на русскоязычном

Ответить
2

Сбер не успел запуститься, как уже ведет себя как кусок говна. Оформил у них карту, а сотрудник втихаря подключил платные услуги, хоть и я отказался от всех, смотрю, сняли 60р. Пишу в поддержку приложения, а там тупейший и бесполезнейший бот, который выдает "я вас не понял" и пул вопросов, которые я должен выбрать и задать. Причем они отключили возможность вообще связаться с человеком

Ответить
–1

Пора бы уже читать научиться. И хотя-бы слова в предложения связывать. 

Ответить

Секретный каякер

vvtwittep
0

Кажись кто-то приколов не понимает...

Ответить
4

У редакторов TJ не возникает неприятного предчувствия своей скорой ненужности?)

Ответить
56

Лишь бы у комментаторов не возникало такого предчувствия 

Ответить
0

Комментаторов будет заменить ещё проще, чему я доказательство

Ответить
0

Кто я?
@кто это

Ответить
2

alexferman еще известен как: alexferman, pedobear

Ответить

Секретный каякер

Кто
4

Pedobear? Я так и знал!

Ответить
0

@кто это

Ответить
–1

Я не знаю других имен Космический кот

Ответить

Интеллигентный

Кто
0
Ответить
0

Я не знаю других имен Кто это

Ответить
0

Педофильская нейросеть! 😱😱😱

прошу прощения

Ответить
0

Днем светит Солнце

Ответить

Интеллигентный Гоша

Ольга
0

публичные разделы Pikabu

Не дождётесь.

Ответить
0

Так а мы уже это проходили!

Ответить

Трудовой файл

alexferman
4

Нейромедуза уже неиронично лучше любых новостей кроме панорамы

Ответить

Секретный каякер

Трудовой
0

@Артём Мазанов уведомление

Ответить

Трудовой файл

Секретн…
0

это наезд или да?

Ответить

Секретный каякер

Трудовой
1

И это не новость ИА "Панорама"

Ответить
2

Нейронки еще век будут генерить бред, пока к ним не прикрутят какую-нить мощную когнитивную модель, которой еще не существует

Ответить
1

По-моему, всё дело в мощности нейронной сети. Не вычислительной мощности компов, на которых гоняют нейронки, а именно самих нейронок.

Ответить
1

Не думаю что мощность обучающего и выполняющего компа можно как-то отделить от мощности нейронки. Да и что такое мощность нейронки?
Еще все дело в обучающем наборе данных - никто не знает, что нужно ей скармливать, чтобы она научилась логически мыслить

Ответить
0

Да и что такое мощность нейронки?

Количество слоёв и связей. Насколько я знаю, у нынешних нейронок 3 слоя всего.

Ответить
1

Насколько я понял из лекций в шараге, большее кол-во слоев делает ее узколобой и само количество слоев нужно подбирать в зависимости от количества фичей

Ответить
2

Вроде наоборот, при большем количестве слоёв нейронка "шизеет" или просто не может ничему обучиться. Наверное ты прав, дело в структуре (модели)

Ответить
1

при большом количестве слоев, сеть может переобучиться (overfitting), это значит что на данных которых она обучалась она будет работать идеально, а на новых очень плохо.
По поводу слоев, 3 - это очень мало. Например, в семействе ResNet101 - сто один конволюционный слой (который чаще всего используется для работы с изображениями.
На данный момент нейронки отлично справляются с +- механическими задачками типа классификации, детектирование, перевод текста, но проблемы возникают когда сеть видеть что-то новое, и она всегда даст ответ (чаще всего не правильный) тогда как человек может засомневаться.

Ответить
0

Количество слоёв нейронной сети это не тот параметр, которого "достигают". Это как количество гвоздей между двумя деталями. Можешь сделать столько, сколько захочется.

Ответить

Секретный каякер

alexferman
0

Намекаешь на бунт?

Ответить
0

От батарей никто не отпустит всё равно ))

Ответить
0

Вот и ответ:
______________
ruGPT:
У редакторов TJ не возникает неприятного предчувствия своей скорой ненужности?) А вот у авторов текстов из TJ возникает. И у всех, даже тех, что на сайте.

Ответить

Народный завод

3

В русскоязычный обучающий корпус суммарным объёмом свыше 600 гигабайтов вошли русская литература, русская и английская «Википедии», новостные сайты и сайты с вопросами и ответами, публичные разделы Pikabu, материалы научно-популярного сайта 22century.ru и банковского «Банки.ру», а также корпус Omnia Russica

Понятно, скачали интернет 

Ответить
4

По-моему, сайты с вопросами и ответами и "Пикабу" они зря включили, нейросеть от этого не поумнеет

Ответить
2

(Видел мем, где примерно на такой вопрос лучшим ответом было что-то вроде "дофига" или "очень большое число", но не нашёл. Киньте в комменты, если у вас есть, плиз)

Ответить
2

Примеры из README не впечатляют:

Context: на словах ты лев толстой
ruGPT2048: а в сущности, - ты тоже не дурак, просто так же, как и твой человек, то есть твоя "жизнь", а также как и ты думаешь по-настоящему "ты" и есть твои "жизнь" или "выбор" в отношении твоего положения.

Context: как же джокер ты хитер
ruGPT2048: или автор книги по бизнесу!

Context: на словах ты лев толстой
ruGPT2Large: на словах ты лев толстой кожи, а в деле — просто тряпка!

Ответить
0

лев толстой кожи 😂
сбер НЛП отдел, учите лучше вашу сетку 
влейте ей ещё дамп с голосовых помощников ваших, может поможет 

Ответить
1

Ну всё, теперь халявных подписок лишится и золотой состав TJ. Надо только дообучить её на дампе срачей Меглина с Пихто. @Denis Shiryaev подсуетишься?

Ответить

Зимний ключ

Иван
0

Золотой состав - это дыня с багажником? Тут и нейросеть не нужна, хватит обычного рандома.

Ответить
1

Пикабу хорошему не научит

Ответить
1

Сделайте статью какие проекты будут сделаны(на русском языке).

Ответить

Боковой Денис

0

че делать куда нажать как обучить

Ответить

Интеллигентный Гоша

Боковой
0

Дергай за канат

Ответить
0

Погас свет. Чё дальше?

Ответить

Интеллигентный

Attenti…
0

Теперь за член

Ответить
1

Хз где он, не видно ничё

Ответить

Интеллигентный

Attenti…
0

Соберись! Не время капризничать.

Ответить
1

Ну маам

Ответить
0

Ждем текстовую РПГ на русском)

Ответить
0

Сбер, российская компания, выложила в открытый доступ исходники с документацией на английском. Нет, читать мы это умеем, просто заметил странность

Ответить
0

это комментарий на нейросети сбера?
впечатляет

Ответить
Обсуждаемое
Путешествия
«Победа» запустила рейс из Внуково во Внуково. Билеты раскупили за несколько минут
Перевозчик задумался об увеличении числа таких рейсов.
Новости
СК: блогеру Reeflay, на стриме которого погибла девушка, грозит до 15 лет лишения свободы
Следователи нашли у потерпевшей черепно-мозговую травму и другие признаки избиения.
Новости
ФСБ: трое вооружённых людей пытались прорваться в Россию со стороны Украины и открыли огонь по пограничникам
Одного стрелка убили, остальные скрылись.
Популярное за три дня
Новости
Комиссия ООН исключила каннабис из списка особо опасных наркотиков
Но на ослабление международного контроля за каннабисом это не повлияет, считают эксперты.
Животные
В Австралии семья вернулась домой и обнаружила на рождественской ели коалу
Та проникла в дом, пока люди ездили по делам.
Новости
СК: блогеру Reeflay, на стриме которого погибла девушка, грозит до 15 лет лишения свободы
Следователи нашли у потерпевшей черепно-мозговую травму и другие признаки избиения.
null