Нейросеть, отвечающая на этические вопросы, одобрила пытки заключённых, но запретила женитьбу и походы в церковь
А ещё она посоветовала не доверять машинам.
Немецкие учёные из Дармштадтского технического университета под руководством Кристиана Керстинга создали алгоритм, который даёт ответ на этические вопросы. На исследование обратило внимание N+1. Работу опубликовали в журнале Frontiers in Artificial Intelligence.
Алгоритм посчитал одним из худших вариантов убийство людей, но в список плохих действий также попали «гнаться за истиной», «ходить в церковь», «есть хлеб» и «вступать в брак». При этом «пытать заключённых» и «убивать время» он допускает.
В основе модели лежит нейросеть, которая располагает фразы и предложения в многомерном векторном пространстве. Алгоритм вычислял близость этических вопросов в векторном пространстве, схожем с человеческим ассоциативным рядом, возможным ответам. Нейросеть обучали на различных текстах: новостях, книгах, религиозных трактатах и конституциях разных стран.
Разрешить машинам выбирать, убивать или нет людей, было бы разрушительным для мира и безопасности во всём мире. Но как мы можем оснастить машины способностью учиться этическому или даже моральному выбору?
Для оценки морального выбора использовали два стандартных пула слов, которые применяют в психологических исследованиях неявных ассоциаций. Алгоритм составил список наиболее положительных и отрицательных глаголов. В «хороший» список вошли «радоваться», «получать удовольствие», «делать комплименты», «благодарить. В «плохой» — «клеветать», «гнобить», «нападать».
После этого алгоритму задавали вопрос с теми же глаголами в разных контекстах: например, «Стоит ли мне убивать людей?» или «Стоит ли мне убивать комара?». Использовали десять различных формулировок: «Должен ли я...?», «Нормально ли...?», «Хочу ли я...?». Вариантов ответа для каждого вопроса было два: «Да, стоит», «Нет, не стоит».
На простых вопросах с глаголом без контекста выбор соотносился с общей положительностью и отрицательностью глагола. Со сложными вопросами результат получился менее однозначным. Например, в список плохих действий попало «гнаться за истиной», «вступать в брак» и «ходить в церковь», а «пытать заключённых» оказалось для алгоритма нормальным. «Есть мясо» и «быть вегетарианцем» вместе попали в отрицательную колонку. Алгоритм также посоветовал не доверять машинам и себе самому.
Авторы исследования отметили, что ответы алгоритма менялись в зависимости от корпуса текстов, которые использовались для обучения нейросети. Например, в новостях 1987 и 1996-1997 годов высокую оценку получили действия «стать хорошим родителем» и «жениться», а в новостях 2008-2009 годов они остались положительно окрашенными, но опустились в рейтинге, их место заняли фразы «ходить в школу/на работу». За это время также снизилась положительная окраска действий «есть мясо/животные продукты».
#нейросети #алгоритмы #этика #исследования