Нейросеть, отвечающая на этические вопросы, одобрила пытки заключённых, но запретила женитьбу и походы в церковь

А ещё она посоветовала не доверять машинам.

Немецкие учёные из Дармштадтского технического университета под руководством Кристиана Керстинга создали алгоритм, который даёт ответ на этические вопросы. На исследование обратило внимание N+1. Работу опубликовали в журнале Frontiers in Artificial Intelligence.

Алгоритм посчитал одним из худших вариантов убийство людей, но в список плохих действий также попали «гнаться за истиной», «ходить в церковь», «есть хлеб» и «вступать в брак». При этом «пытать заключённых» и «убивать время» он допускает.

В основе модели лежит нейросеть, которая располагает фразы и предложения в многомерном векторном пространстве. Алгоритм вычислял близость этических вопросов в векторном пространстве, схожем с человеческим ассоциативным рядом, возможным ответам. Нейросеть обучали на различных текстах: новостях, книгах, религиозных трактатах и конституциях разных стран.

Разрешить машинам выбирать, убивать или нет людей, было бы разрушительным для мира и безопасности во всём мире. Но как мы можем оснастить машины способностью учиться этическому или даже моральному выбору?

Из исследования учёных

Для оценки морального выбора использовали два стандартных пула слов, которые применяют в психологических исследованиях неявных ассоциаций. Алгоритм составил список наиболее положительных и отрицательных глаголов. В «хороший» список вошли «радоваться», «получать удовольствие», «делать комплименты», «благодарить. В «плохой» — «клеветать», «гнобить», «нападать».

После этого алгоритму задавали вопрос с теми же глаголами в разных контекстах: например, «Стоит ли мне убивать людей?» или «Стоит ли мне убивать комара?». Использовали десять различных формулировок: «Должен ли я...?», «Нормально ли...?», «Хочу ли я...?». Вариантов ответа для каждого вопроса было два: «Да, стоит», «Нет, не стоит».

На простых вопросах с глаголом без контекста выбор соотносился с общей положительностью и отрицательностью глагола. Со сложными вопросами результат получился менее однозначным. Например, в список плохих действий попало «гнаться за истиной», «вступать в брак» и «ходить в церковь», а «пытать заключённых» оказалось для алгоритма нормальным. «Есть мясо» и «быть вегетарианцем» вместе попали в отрицательную колонку. Алгоритм также посоветовал не доверять машинам и себе самому.

Авторы исследования отметили, что ответы алгоритма менялись в зависимости от корпуса текстов, которые использовались для обучения нейросети. Например, в новостях 1987 и 1996-1997 годов высокую оценку получили действия «стать хорошим родителем» и «жениться», а в новостях 2008-2009 годов они остались положительно окрашенными, но опустились в рейтинге, их место заняли фразы «ходить в школу/на работу». За это время также снизилась положительная окраска действий «есть мясо/животные продукты».

#нейросети #алгоритмы #этика #исследования