Технологии
Илья Шевелев

Google создал «нейросеть-орнитолога» — она узнаёт птиц по их пению с точностью эксперта

Нейросеть поможет экологам следить за состоянием лесов и коралловых рифов.

Автономная записывающая станция на штативе, фотография Лоры Стюарт

Исследовательская группа Google представила нейросеть, которая быстро классифицирует птиц по их пению. Алгоритм неконтролируемого разделения звуков на аудиозаписях MixIT поможет не только определять виды птиц, но также исследовать состояние коралловых рифов, отмечают разработчики.

Экологи используют птиц для изучения пищевых систем и здоровья лесов: например, популяции дятлов коррелируют с большим количеством сухостоя в лесах. Эффективнее всего идентифицировать птиц на слух, поскольку они отмечают территорию песнями и криками. Эксперты могут распознать в 10 раз больше птиц по аудиозаписям, чем по фотографиям.

Пение птиц записывают на автономные записывающие устройства (ARU), которые обычно устанавливают в лесу. Такие «бесшумные» станции могут работать от нескольких недель до нескольких месяцев: они оснащены чувствительными микрофонами, мощными аккумуляторами и хранилищем данных. Аналогичные приборы, более дорогие и защищённые от воздействия воды, используют для изучения биоразнообразия в океане.

Записывающая станция Swift, фотография Корнеллского университета

Записи, сделанные ARU, как правило, распознают орнитологи — они прослушивают звуки природы и классифицируют птиц «на слух». Процесс идентификации ранее отнимал много времени, в том числе из-за дефицита специалистов, которые могут справиться с этой задачей, отмечают в Google Research Team.

Орнитологи пытались ускорить идентификацию с помощью нейросетей, но выяснилось, что алгоритмы не всегда справляются со сложными задачами.

  • Нейросети ошибаются, анализируя записи «рассветного хора», сделанные в утренние часы, когда птицы наиболее активны. В это время можно одновременно услышать хор, в котором участвуют птицы самых разных видов.
  • Точность автоматизированного распознавания снижается из-за звуков ветра, шума насекомых и других обитателей живой природы.
  • Модели, как правило, обученные для поиска редких птиц, «не слышат» голоса распространённых видов. Они обучались на неполных наборах данных.

В Лаборатории Google решили эти проблемы с использованием алгоритма неконтролируемого разделения звуков (MixIT). Записи с ARU обработали MixIT, — один звуковой файл был разделён на несколько изолированных «партий», в каждой из которых содержалась трель одной птицы.

Демонстрация работы алгоритма MixIT, видео Google Research Team

Затем исследователи Google доработали алгоритм распознавания голосов EfficientNet (разработчики называют его «классификатором»): отмечается, что его обучали без разделённого аудио — по наборам данных, собранных в горах Сьерра-Невада и в северной части штата Нью-Йорк.

В классификатор внесли данные о разных видах птиц, согласно их рангу, а затем каждому виду присваивали образцы голосов. Этот метод назвали таксономическим обучением.

Для улучшения результатов распознавания также использовали случайную фильтрацию низких частот, поскольку звуки в нижней части спектра затухают позже высокочастотных — это помогает улавливать голоса птиц на большем расстоянии.

Подход оказался эффективным — тестирование по трём наборам записей звуковых ландшафтов показало высокую точность классификации птиц, пишут сотрудники лаборатории.

Разделённый звук можно использовать для создания акустических индексов: они помогут измерять здоровье экосистемы, анализируя активность птиц, насекомых и амфибий без идентификации конкретных видов.

Том Дентон, Скотт Уисдом

С помощью алгоритмов исследователи из лаборатории Google планируют изучать изменение биоразнообразия после лесных пожаров, случившихся в Калифорнии в августе 2020 года. Алгоритмы также помогут по-новому взглянуть на состояние коралловых рифов. Результаты исследования Google Research Team опубликованы в двух научных статьях, а исходный код алгоритмов есть на гитхабе.

* * *

Алгоритмы автоматического разделения звуков активно развиваются в последние годы: их применяют звукорежиссёры, музыканты и стриминги. Например, алгоритм Spleeter достаточно точно раскладывает музыкальные композиции на части: с его помощью можно вырезать вокал из песен и изучать партии музыкальных инструментов.

#новости #птицы #нейросети #google #экология