Рубрика развивается при поддержке HP logo
Технологии
Ольга Щербинина
6167

Сбер выложил в открытый доступ первую русскоязычную модель для обучения нейросети GPT-3 Материал редакции

Её можно обучить на русской литературе, новостях и «Википедии».

В закладки

Сбер выложил в открытый доступ русскоязычную модель для генерации текстов GPT-3 Large с 760 миллионами параметров. Об этом на «Хабре» рассказал управляющий директор департамента SberDevices Сергей Марков.

В русскоязычный обучающий корпус суммарным объёмом свыше 600 Гб вошли русская литература, русская и английская «Википедии», новостные сайты и сайты с вопросами и ответами, публичные разделы Pikabu, материалы научно-популярного сайта 22century.ru и банковского «Банки.ру», а также корпус Omnia Russica. Чтобы научить GPT-3 обрабатывать программный код, Сбер включил в обучающий корпус модели данные из GitHub и StackOverflow.

«Если в оригинальном корпусе, использованном OpenAI, соотношение английского и других языков составляет 93:7, то в нашем случае соотношение русского и других языков составляет примерно 9:1», — подчеркнул Марков.

В компании отметили, что это первый обучающий корпус на русском языке. Проектом занимались SberDevices, SberCloud, занимающийся сопровождением суперкомпьютера «Кристофари», и команда AGI NLP.

В мае 2020 года OpenAI представила третью версию языковой модели GPT. Она способна не только генерировать тексты (в том числе стихи, шутки и литературные пародии), но и исправлять грамматические ошибки, вести диалоги и писать программный код.

но есть и хорошие новости?
{ "author_name": "Ольга Щербинина", "author_type": "editor", "tags": ["\u0441\u0431\u0435\u0440","\u043d\u043e\u0432\u043e\u0441\u0442\u0438","\u043d\u0435\u0439\u0440\u043e\u0441\u0435\u0442\u0438"], "comments": 60, "likes": 48, "favorites": 26, "is_advertisement": false, "subsite_label": "tech", "id": 226011, "is_wide": false, "is_ugc": false, "date": "Thu, 22 Oct 2020 16:32:20 +0300", "is_special": false }
Создан для будущего Узнайте больше HP Neverstop Laser HP Neverstop Laser
Объявление на TJ Отключить рекламу
Маркетинг
Как рассказать о продукте на сайте, чтобы вызвать доверие клиентов: секретная редакторская методика
Мифы и реальность о том, как клиент думает и как изучает сайты. Что вызывает желание купить и почему текст — не главное.
0
60 комментариев
Популярные
По порядку
Написать комментарий...

Значимый Макс

52

По заголовку я сначало подумал, что "Сбер выложил в открытый доступ... персональные данные пользователей".

Ответить
3

одно другого не отменяет

Ответить

Значимый Макс

Вова
1

Ты думаешь под "шумок" слили?

Ответить
1

Нейронка будет сливать данные, если ее об этом спросишь

Ответить
1

сбер не туда воюет. надо было всю лирику круга и лесоповала, например, помимо пушкина и тургенева, как трейн грузить - уже бы изъяснялись на русскоязычном

Ответить
2

Сбер не успел запуститься, как уже ведет себя как кусок говна. Оформил у них карту, а сотрудник втихаря подключил платные услуги, хоть и я отказался от всех, смотрю, сняли 60р. Пишу в поддержку приложения, а там тупейший и бесполезнейший бот, который выдает "я вас не понял" и пул вопросов, которые я должен выбрать и задать. Причем они отключили возможность вообще связаться с человеком

Ответить
–1

Пора бы уже читать научиться. И хотя-бы слова в предложения связывать. 

Ответить

Значимый Макс

vvtwittep
0

Кажись кто-то приколов не понимает...

Ответить
4

У редакторов TJ не возникает неприятного предчувствия своей скорой ненужности?)

Ответить
56

Лишь бы у комментаторов не возникало такого предчувствия 

Ответить
0

Комментаторов будет заменить ещё проще, чему я доказательство

Ответить
0

Кто я?
@кто это

Ответить
2

alexferman еще известен как: alexferman, pedobear

Ответить

Значимый Макс

Кто
4

Pedobear? Я так и знал!

Ответить
0

@кто это

Ответить
–1

Я не знаю других имен Космический кот

Ответить

Исключительный

Кто
0
Ответить
0

Я не знаю других имен Кто это

Ответить
0

Педофильская нейросеть! 😱😱😱

прошу прощения

Ответить
0

Днем светит Солнце

Ответить

Исключительный американец

Ольга
0

публичные разделы Pikabu

Не дождётесь.

Ответить
0

Так а мы уже это проходили!

Ответить

Домашний завод

alexferman
4

Нейромедуза уже неиронично лучше любых новостей кроме панорамы

Ответить

Значимый Макс

Домашний
0

@Артём Мазанов уведомление

Ответить

Домашний завод

Значимый
0

это наезд или да?

Ответить

Значимый Макс

Домашний
1

И это не новость ИА "Панорама"

Ответить
2

Нейронки еще век будут генерить бред, пока к ним не прикрутят какую-нить мощную когнитивную модель, которой еще не существует

Ответить
1

По-моему, всё дело в мощности нейронной сети. Не вычислительной мощности компов, на которых гоняют нейронки, а именно самих нейронок.

Ответить
1

Не думаю что мощность обучающего и выполняющего компа можно как-то отделить от мощности нейронки. Да и что такое мощность нейронки?
Еще все дело в обучающем наборе данных - никто не знает, что нужно ей скармливать, чтобы она научилась логически мыслить

Ответить
0

Да и что такое мощность нейронки?

Количество слоёв и связей. Насколько я знаю, у нынешних нейронок 3 слоя всего.

Ответить
1

Насколько я понял из лекций в шараге, большее кол-во слоев делает ее узколобой и само количество слоев нужно подбирать в зависимости от количества фичей

Ответить
2

Вроде наоборот, при большем количестве слоёв нейронка "шизеет" или просто не может ничему обучиться. Наверное ты прав, дело в структуре (модели)

Ответить
1

при большом количестве слоев, сеть может переобучиться (overfitting), это значит что на данных которых она обучалась она будет работать идеально, а на новых очень плохо.
По поводу слоев, 3 - это очень мало. Например, в семействе ResNet101 - сто один конволюционный слой (который чаще всего используется для работы с изображениями.
На данный момент нейронки отлично справляются с +- механическими задачками типа классификации, детектирование, перевод текста, но проблемы возникают когда сеть видеть что-то новое, и она всегда даст ответ (чаще всего не правильный) тогда как человек может засомневаться.

Ответить
0

Количество слоёв нейронной сети это не тот параметр, которого "достигают". Это как количество гвоздей между двумя деталями. Можешь сделать столько, сколько захочется.

Ответить

Значимый Макс

alexferman
0

Намекаешь на бунт?

Ответить
0

От батарей никто не отпустит всё равно ))

Ответить
0

Вот и ответ:
______________
ruGPT:
У редакторов TJ не возникает неприятного предчувствия своей скорой ненужности?) А вот у авторов текстов из TJ возникает. И у всех, даже тех, что на сайте.

Ответить

Свободный Артем

3

В русскоязычный обучающий корпус суммарным объёмом свыше 600 гигабайтов вошли русская литература, русская и английская «Википедии», новостные сайты и сайты с вопросами и ответами, публичные разделы Pikabu, материалы научно-популярного сайта 22century.ru и банковского «Банки.ру», а также корпус Omnia Russica

Понятно, скачали интернет 

Ответить
4

По-моему, сайты с вопросами и ответами и "Пикабу" они зря включили, нейросеть от этого не поумнеет

Ответить
2

(Видел мем, где примерно на такой вопрос лучшим ответом было что-то вроде "дофига" или "очень большое число", но не нашёл. Киньте в комменты, если у вас есть, плиз)

Ответить
2

Примеры из README не впечатляют:

Context: на словах ты лев толстой
ruGPT2048: а в сущности, - ты тоже не дурак, просто так же, как и твой человек, то есть твоя "жизнь", а также как и ты думаешь по-настоящему "ты" и есть твои "жизнь" или "выбор" в отношении твоего положения.

Context: как же джокер ты хитер
ruGPT2048: или автор книги по бизнесу!

Context: на словах ты лев толстой
ruGPT2Large: на словах ты лев толстой кожи, а в деле — просто тряпка!

Ответить
0

лев толстой кожи 😂
сбер НЛП отдел, учите лучше вашу сетку 
влейте ей ещё дамп с голосовых помощников ваших, может поможет 

Ответить
1

Ну всё, теперь халявных подписок лишится и золотой состав TJ. Надо только дообучить её на дампе срачей Меглина с Пихто. @Denis Shiryaev подсуетишься?

Ответить

Направленный коктейль

Иван
0

Золотой состав - это дыня с багажником? Тут и нейросеть не нужна, хватит обычного рандома.

Ответить
1

Пикабу хорошему не научит

Ответить
1

Сделайте статью какие проекты будут сделаны(на русском языке).

Ответить

Геологический колос

0

че делать куда нажать как обучить

Ответить

Исключительный американец

Геологический
0

Дергай за канат

Ответить
0

Погас свет. Чё дальше?

Ответить

Исключительный американец

AttentiveMilk
0

Теперь за член

Ответить
1

Хз где он, не видно ничё

Ответить

Исключительный

Attenti…
0

Соберись! Не время капризничать.

Ответить
1

Ну маам

Ответить
0

Ждем текстовую РПГ на русском)

Ответить
0

Сбер, российская компания, выложила в открытый доступ исходники с документацией на английском. Нет, читать мы это умеем, просто заметил странность

Ответить
0

это комментарий на нейросети сбера?
впечатляет

Ответить
Обсуждаемое
Новости
В Белоруссии вновь прошли протесты: силовики применили спецсредства и задержали больше 200 человек
Белорусы вышли на 106 день протестов.
Новости
Правительство утвердило порядок предустановки российского ПО на смартфоны, компьютеры и другую электронику
Предустанавливать на гаджеты будут в том числе российские поисковики, браузеры, мессенджеры, новостные агрегаторы.
Разборы
Изнасилования и незащищённость: что происходит на пальмовых плантациях, связанных с крупными косметическими брендами
Женщины и подростки подвергаются регулярному насилию — об этом знают крупные компании, закупающие пальмовое масло у плантаций.
Популярное за три дня
Наука
Ключи от шкатулки Пандоры: нулевой пациент Эболы
Погибли тысячи людей, были потрачены миллиарды долларов, ВОЗ неоднократно предупреждала мир о возможности глобальной пандемии. Невероятными усилиями вспышки останавливали каждый раз, привлекали военных, врачей со всего земного шара. Разворачивались операции по спасению мира с десантом и оцеплением в десятки километров. Сегодня в разработке…
Интернет
Жюри школьной олимпиады по математике подсказало участникам неверные ответы на сайте с решениями домашних заданий
Списавшим можно только посочувствовать — скорее всего, их ждёт дисквалификация.
Интернет
В TikTok показали норвежскую клинику: с роботами, медицинской одеждой из терминалов и футуристичной отправкой лекарств
В соцсети больницу называют «другим миром» и сокрушаются об уровне медицины в своих странах.

Комментарии

null