Рубрика развивается при поддержке HP logo Advertisement
Технологии
Up Great

Что умеет самый находчивый искусственный интеллект в мире

Компания OpenAI представила новый алгоритм написания текстов GPT-3. Он умеет писать стихи и новости, делать переводы, разгадывать анаграммы и отвечать на вопросы. Для того, чтобы научить этому искусственный интеллект, потребовалось 570 гигабайт текста. Рассказываем, как обучали и тестировали самый находчивый на данный момент алгоритм.

OpenAI VentureBeat

OpenAI отчиталась о результатах тестирования алгоритма написания текстов GPT-3. Он повторяет предыдущую версию, GPT-2, на архитектуре Transformer, которая позволяет обучать алгоритм, увеличивая спектр задач, с которыми он справляется при распознавании текста.

Архитектура включает в десять раз больше параметров, на которых проводилось обучение – 175 млрд. Средняя точность выполнения заданий составила 60%. В России для совершенствования подобных решений открыт технологический конкурс Up Great ПРО//ЧТЕНИЕ, организованный РВК, Фондом «Сколково» и АСИ.

Главное препятствие для разработчиков при обучении алгоритма на конкретных задачах — преодолеть зависимость от контекста. Многие алгоритмы справляются с поставленными задачами потому, что обучены на таких же.

Но если учить алгоритм отгадывать кроссворды на соответствующем массиве данных, он не сможет писать стихи. Чтобы научить алгоритм распознавать текст, независимо от задачи, используют предварительное обучение языковым образам с помощью наслаивания родственных по смыслу групп слов, и дальнейшего применения для широкого круга задач. Разработчикам GPT-3 частично удалось преодолеть зависимость от контекста, обучая алгоритм на большом объеме данных.

Как учили GPT-3

Для обучения алгоритма сформировали набор очищенных данных, подходящих для обработки машиной. В этот массив вошли данные проекта Common Crawl, вся Википедия, два датасета с книгами и вторая версия датасета WebText: в нем были тексты с сайтов, страницы которых были отмечены пользователями, как полезные по контенту.

Вычислительные ресурсы, потраченные на обучение разных вариантов нейросетей BERT, T-5, GPT-3 в петафлопс/секунда-днях на логарифмической шкале. Полный вариант GPT-3 превосходит все другие варианты в 10 раз по количеству потраченных вычислительных ресурсов OpenAI

Чтобы оценить зависимость производительности от размера модели, GPT-3 обучали на восьми объемах параметров, которые зависели от количества слоев данных. В самом маленьком было 125 млн параметров, в финальном — 175 млрд. Все задачи решались с тремя условиями: обучение с одним примером (one-shot learning), обучение с несколькими примерами (few-shot learning) и без примеров (zero-shot learning).

Как тестировали GPT-3

Обученный алгоритм тестировали на традиционных задачах моделирования языка. Вот некоторые из них:

Lambada

Подход моделирования зависимости: алгоритму ставят задачу предсказать последнее слово в предложении на основе контекста параграфа. Есть предположение, что масштабирование модели приводит к ухудшению результата в зависимости от проделанной им работы. Но авторы GPT-3 находят подход перспективным, потому что он обеспечивает гибкость обучения алгоритма.

Alice was friends with Bob. Alice went to visit her friend. → Bob

George bought some baseball equipment, a ball, a glove, and a. →

HellaSwag

В этом наборе алгоритм должен выбрать наилучший из возможных вариантов окончаний для истории. Варианты предварительно тщательно изучены, чтобы быть одновременно трудными для языковых моделей, но оставаться легкими для людей, то есть очевидными на 95,6%. GPT-3, обучаясь на HellaSwag, показывает точность в ответах в среднем 75,4%.

Winograd-Style Tasks

Схема Винограда, названная в честь Терри Винограда, профессора компьютерных наук в Стэнфордском университете. В ней алгоритму ставят задачу определить, к какому слову относится местоимение. Местоимение неоднозначно по смыслу для машины, но абсолютно понятно для человека. Например, ответить на вопрос: «Приз не влезает в коричневый чемодан, потому что он большой. Что имеется в виду под «он»?»

Word Scrambling and Manipulation Tasks

Чтобы проверить способность алгоритма усваивать новые символические манипуляции , авторы разработали стратегию , состоящую из нескольких задач. Каждое задание требует исправить слово, искаженное комбинациями смешивания, например:

  • Слово с хаотичным порядком букв – модели предлагается слово, порядок букв в котором случайно перемешан, затем символ «=». Например, дано «lyinevitab», нужно получить «inevitable» (неизбежно)

  • Случайная вставка в слове – между каждой буквой слова ставится случайный знак пунктуации или пробел. Пример: s.u! C / c! E.s s i / o / n = sequence

  • Перевернутые слова – модели дается слово, написанное задом наперед, она должна вывести исходное слово. Пример: stcejbo → objects

Для каждой задачи было сгенерировано 10 000 вариантов самых популярных слов, длиной более 4 символов, но менее 15 символов.

News Article Generation

Предыдущий алгоритм (GPT-2) был обучен создавать «новостные статьи», получив написанное человеком вступление, и выбирая предложения для итогового материала.

Набор данных для обучения GPT-3 хуже подходит для новостных статей, поэтому попытка создавать с его помощью новостные статьи менее эффективна.

Новостная статья, написанная GPT-3, которая больше всего похожа на текст, написанный человеком OpenAI

Какой будет следующая GPT?

Средняя точность решений самой объемной и продвинутой модели, которую обучали на 175 млрд параметров, составила по всем заданиям 60%. Несмотря на прогресс и написание статей, которые трудно отличить от написанных человеком, остаются наборы данных, при работе с которыми GPT-3 испытывает затруднения.

Юрий Молодых
Директор по развитию технологических конкурсов Up Great

Огромный шаг вперед, который показала команда OpenAI, послужит основой для многих десятков новых работ и в какой-то степени задаст повестку развития NLP-систем на ближайшие полгода-год.

Однако нельзя не отметить, что этот трансформер создан вложением колоссальных ресурсов Microsoft, проинвестировавшей 1 млрд долларов в форме мощностей отдельного вычислительного центра, отданного под нужды OpenAI. По некоторым оценкам, стоимость электричества и эксплуатации вычислителей для обучения GPT-3 составила около 12 миллионов долларов — и это не считая времени специалистов; одна только аренда оборудования стоит колоссальных денег.

При этом, мы видим, что на некоторых задачах оно работает не лучше GPT-2.

Из этого можно сделать несколько выводов:

1. Задача создания универсального языкового движка пока что не решается только вливанием денег. Существующие методы не позволяют на одной лишь обучающей выборке огромного размера получить ключ к пониманию естественного языка машиной. Создать обучающую выборку в 100 раз больше этой и обучить на ней нейросеть вряд ли практически возможно в ближайшей перспективе.

2. Сообщество Data Science нуждается в новых методах машинного обучения, которые будут способны получить интересный результат на датасете меньшего размера. Это хорошо подтверждается тезисом Яна Лекуна, лауреата премии Тьюринга, который в феврале этого года формулировал три основных проблемы перед сообществом: обучение на данных меньшего размера, обучение рассуждать (т.е. логике: индукция, дедукция и т.п.) и предсказание последствий.

3. В ближайшей перспективе действительно интересные решения в области NLP возможны либо по очень узким задачам, либо игрокам большого размера, которые могут вложить десятки и сотни миллионов долларов в обучение одной нейросети. В этой связи для небольших игроков все большее значение приобретают такие проекты, как OpenCog, которые нацелены на создание открытых систем, обеспечивающих кооперативную разработку решений.

Мы надеемся, что наш конкурс ПРО//ЧТЕНИЕ сможет стать точкой обмена опытом и технологиями для российских команд и подстегнет развитие области NLU (natural language understanding, понимание естественного языка) в России.

Бонус

Стихотворение, написанное GPT-3 в стиле американского поэта Уоллеса Стивенса. Для «вдохновения» алгоритм получил лишь название будущего произведения: «Shadows on the way»

Nobody will come to this place. It is a road that leads nowhere.

The solitude is deep. The mountains are high. In that small town

But they are desolate, and they turn the traveler’s face

Towards the North. All the sounds of the world are far away.

When the wind rises above the trees,

The boughs bow to the ground.

Even the birds that inhabit the tangle of weeds,

That is the roadside cover, are silent. One listens,

But hears no roar of the forest. One is alone.

One will be taken.

One will be taken.

There is no utterance, there is no conversation,

But one is uneasy all the same....

There is a thin blue mist,

A darkness rising like smoke,

And within that darkness

A possession of the heart.

One will be taken.... It was here, and it will be here again –

Here, under this sky empty and full of light.

Прием заявок на конкурс Up Great ПРО//ЧТЕНИЕ открыт на официальном сайте.

{ "author_name": "Up Great", "author_type": "self", "tags": [], "comments": 37, "likes": 10, "favorites": 32, "is_advertisement": false, "subsite_label": "tech", "id": 176630, "is_wide": false, "is_ugc": true, "date": "Tue, 09 Jun 2020 12:33:41 +0300", "is_special": false }
Advertisement
0
37 комментариев
Популярные
По порядку
Написать комментарий...
4

Сволочи, убивают! Хлеб переводческий отнимают. Сволочи. TranslatorLiveMatters!

Ответить
0

Юр, с какой тематикой работаешь?

Ответить
0

с темой комментов на тж

Ответить
0

Кремлеботство, 1 рубль за 1 слово. Сегодня декларации на ввоз машин перевожу. Потом будет шаманский текст. Про Тын Бура и всё такое. 

Ответить
0

синхронными занимаешься?

Ответить
0

нет. такой квалификации у меня нет. кстати высший пилотаж - шушутаж. Слушать речь и шептать в ухо синхронно без какого-либо оборудования. Не понимаю как так можно. Слушать и шептать одновременно

Ответить
0

от франц. chouchoutage - нашептывание

Ответить
0

какая у тебя формальная квалификация, образование то бишь, как ты пришёл к переводам?

Ответить
0

никакая. нотариус признаёт немецкое незаконченное высшее как носительство (нативный немецкий диплом не-переводчика)

Ответить
0

а вообще доучился? в России

Ответить
0

нет. попал в дурку, вылечился, теперь учиться тяжело. но работать получается. беда с башкой понимаешь?

Ответить
0

не совсем

Ответить
0

это личное. не хотел бы в подробности вдаваться.

Ответить
0

это то и непонятно, шуткуешь или на самом деле, тут просто юнцы часто "беды с башкой" вплетают

Ответить
0

ну почему, болезнь это не позорно. после лекарств реально трудно учиться. А стараюсь выучить питон, java на досуге. Понемногу продвигаюсь. Но в основном работаю с текстом просто.

Ответить
0

инвалидности нет? это ведь тоже дополнительные деньги
питон сейчас все учат, применительно к чему ты?

Ответить
0

нельзя. проблемы будут. лучше не высовываться. доктор предлагал. но оно того не стоит.

Ответить
0

как заболел? на дилетантский взгляд от бед с башкой вылечиться нельзя, надеюсь у тебя не так

Ответить
0

я к тому, что сайты делать, чтобы продвигаться дальше. Это на вырост. Переводы неблагодарное занятие. хоть и непыльное. Но нудное очень. Весь день печатать на клавиатуре. Вот и хочу вылезти в программисты. Тем более, что есть время учиться.

Ответить
0

обычно субподряд, я им прямо говорю что не специалист по переводу, просто фактическое качество позволяет это делать

Ответить
0

синхронное кремлеботство? надо взять на заметку)

Ответить
0

В основном общей. Ненавижу техническую и юриспруденцию, бывают слишком сложными. Медицину ещё делаю, там всё предсказуемо и просто. Слова всегда понятны. Если конечно не рукописный врачебный документ. Такие почитаешь и думаешь, ковид без СИЗ для них кара небесная за этот почерк.

Ответить
0

кто в основном заказывает?
насколько deepl, google translate и прочие ИИ ставят под угрозу ремесло толмача?

Ответить
0

ненасколько. 10% от перевода постредактура машинного. грамонтный не пропадёт, но есть риск что машины станут слишком крутыми и письменный перевод отпадёт полностью. можно будет сместить сферу деятельности в расшифровку видео.

Ответить
0

Очень часто (сейчас нет, границы закрыты) рак простаты был. Крайне важно чтоб не пророс в анус и мочевой пузырь, тогда удаление простаты ещё имеет смысл.

Ответить
0

какие симптомы, какие предпосылки?

Ответить
0

Предпосылки: сидячий образ жизни (говорят пассивный анал спасает немного), а симптомы как у простатита, только хуже. Предпосылка кстати запущенный простатит, длительно воспалённые клетки мутируют в аденомы. Аденома - рак простаты по сути, железисто-стромальный например. А простата это железа, состоит из железистых клеток. А стромальный от слова строма. У простаты 12 зон, 2 доли. И переходная зона. Также верхняя (апикальная) часть и дно простаты.

Ответить
0

То есть это не прикол. Я реально переводчик  и подрабатываю сайтами. Ещё иногда делаю дипломные на немецком. Это позволяет мне троллить тут круглые сутки, отвлекаясь от работы. Можно сказать, ТЖ причиняет мне 500 руб в день убытка.

Ответить

Специализированный Данила

1
Ответить
0

Какая-то хуйня в итоге, на которую потрачено куча ресурсов. Впрочем, большинство стихов хуйня

Ответить
0

Комментарий удален по просьбе пользователя

Ответить
0

Комментарий удален по просьбе пользователя

Ответить

Критический Артем

0

Ничего не понял, это как-то полезно для рядового обывателя? Может на основе этого ИИ какие-нибудь юзабельные приложения есть или предвидятся? Нет? Ну так и суда нет.

Ответить
0

Полезные - не особо, а вот фановые вполне себе. Тот же AI Dungeon, например, на базе gpt-2

Ответить
0

😐

Ответить
0

щас машина начнёт писать статьи и окажется они расисткими, как было с microsoft

""Меньше чем за 24 часа Тэй превратилась из суперклёвого персонажа в полноценного нациста"
Теперь с этим ботом можно поговорить только по запросу, какое свободное западное общество XD

https://www.bbc.com/russian/society/2016/03/160324_tay_ai_racism
https://www.youtube.com/watch?v=eGPAvFBqBgk

Ответить
Обсуждаемое
Интернет
Deep Insta - монетизация сексуализации своего ребёнка
Да, в инстаграме тоже существует deep-зона, где можно найти разнообразную дичь, от которой очень даже не по себе. Например, есть целый сегмент, где родители занимаются сексуализацией своих чад, монетизируя их фото эротического содержания на заказ.
Разборы
Жениться ли через ЗАГС? Блоггер Иоганн Себастьян разжевывает тему для несведующих
Какие последствия ожидают мужчину, если он женится? В этом видео перечислены далеко не все "сюрпризы", которые ждут вас после подачи заявления в ЗАГС. Перечислено основное. Не только в случае с ЗАГС, но и во всех остальных ситуациях, старайтесь не подписывать то, чего вы не понимаете и не знаете. Такая подпись, как правило, очень дорого…
Новости
После поручения Путина «Газпром» пообещал бесплатно провести газ в небольшие частные дома
Участок должен располагаться не далее 200 метров от газораспределительной сети.
Популярное за три дня
Истории
Взлёт и падение «Белой розы»: как студенты из Мюнхена боролись с Гитлером с помощью брошюр — и оказались на гильотине
Один из создателей общества имел русские корни, с трепетом относился к России, а поездку на восточный фронт в качестве медика воспринимал как «возвращение домой».
Новости
Bellingcat: «Петрова» и «Боширова» повысили, теперь они работают на Кремль в регионах
Больше не шпионы.
Новости
Amnesty International вернула Алексею Навальному статус «узника совести»
Организация отмечает, что это «никоим образом не подразумевает одобрения его взглядов».

Комментарии

null