Истории
Саша Кириллова

«Кто знает, как ваши предки попали в историю»: какие открытия делают генеалоги с помощью технологий и зачем им Big Data

Узнать, что ваш прапрадед занимался колдовством и продавал односельчанам зелья уже можно в пару кликов — генеалоги рассказывают, что для этого пришлось сделать.

Фото Романа Крафта

Развитие технологий совершенствует и упрощает изучение многих сфер жизни. Это касается и генеалогии — науки, собирающей и систематизирующей сведения о происхождении, преемстве и родстве семей. Чтобы получить информацию о предках, можно обратиться к генеалогам или зайти на специальные сервисы — например, FamilySearch, hryc.by или Familio.

Поиски предков чреваты и неприятными сюрпризами: например, американка Кэти Гиллкрист выяснила, что её отец — разыскиваемый ФБР преступник, убивший пятерых человек. Случались и обратные истории: насильника Джареда Вона полиция нашла и арестовала после того, как он внёс свои данные на генеалогический сайт.

Как изменилась генеалогия в современном мире, какие технологии используют историки, а также как Big Data помогает найти родственников, TJ рассказали сотрудники генеалогического стартапа Familio Александр Воробьёв и Денис Самойлов.

Что за наука генеалогия и чем занимаются современные генеалоги

Денис Самойлов: Для большинства генеалогия — это хобби, позволяющее узнать историю своей семьи и факты, которые по тем или иным причинам не дошли до тебя устно. Для историков это ещё прикладное измерение исторической науки.

Александр Воробьев: Главным образом работа генеалога состоит из просмотра сотен и тысяч рукописных документов: метрических книг (книг для записи актов гражданского состояния — прим. TJ), ревизских сказок (результатов подушных переписей — прим.TJ) и исповедных ведомостей (списков прихожан храмов — прим. TJ).

При этом учёный должен найти, какие документы смотреть по архивным описям и где перечислены документы каждого фонда. Раньше поиск выглядел так: человек приходил в архив, брал на полке бумажные описи, а потом заказывал нужные дела. Иногда ты договаривался с кем-то о поисках истории конкретной семьи, но человек посещал архив, а после говорил: «Ничего нет».

Фото РГАДА

Проверить, посмотрел ли специалист всё, было практически невозможно. Со временем ситуация изменилась: архивы стали публиковать описи онлайн, многое стали выкладывать пользователи на форумах. Теперь к работе можно готовиться заранее и составлять задания, опираясь на то, что ты выяснил, и проверять, насколько полно просматривались документы.

Как технологии помогают генеалогии и какие истории можно найти с их помощью

Д.С.: Новые технологии начинают применяться в генеалогии довольно быстро всё-таки это прикладная наука. За последние годы вполне доступным способом исследования своей родословной стала генетическая генеалогия. Она полезна тем, что позволяет уточнить и расширить сведения, которые добываются из архивных источников. Отправляешь в пробирке немного слюны в лабораторию в Москве, а через месяц получаешь результаты.

Все генеалоги так или иначе занимаются накоплением и систематизацией информации: кто-то выписывает сведения из архивных дел в специальную тетрадь, кто-то забивает всё в Exсel, кто-то выкладывает свои находки в интернет. [Справиться с такими объёмами помогают] базы данных. Теперь уже сложно обходиться без них: семейное древо разрастается вглубь веков значительно быстрее, чем ты успеваешь запомнить все детали.

РГАЛИ Скриншот с видео Arzamas

Когда я писал магистерскую диссертацию про крестьян-отходников (тех, кто уходил с постоянного места жительства на заработки — прим. TJ) Вологодского уезда, то прогнал через программу распознавания текста все имеющиеся дореволюционные газеты — и получил массив примерно в 100 годовых подшивок. Уже по ним я «прогнал» все поисковые запросы, которые могли мне пригодиться для работы и нашёл много того, что пропустил бы вручную.

Ради интереса я «забил» и запросы, касавшиеся меня и моих друзей. Мои предки оказались не замечены в чём-то интересном: встречались, конечно, упоминания в списках избирателей — это прикольно, но ничего особенного. А вот когда я «прогнал» фамилию друга с очень редкой фамилией Пеструхин, то наткнулся на замечательную историю.

В газете «Вологодская жизнь» 1909 года нашлась статья, рассказывающая про колдуна Пеструхина из села Широгорье. Сообщалось, что он всяко дурит местных жителей и продаёт магические лекарства за бешеные деньги. Этот колдун точно родственник моего друга: село, где происходит действие, находится в пяти километрах от места рождения его деда. Таких совпадений просто не бывает.

Наибольшие препятствия, с которым встречаются генеалоги при создании баз данных, — административные. В большинстве российских архивов установлены существенные ограничения на копирование, а самостоятельная фотосъемка стоит дорого. Кроме того, во многих местах регламентируется даже количество фотографий, которые ты можешь сделать за один визит.

Не важно, снимаешь ты для своих частных целей или готов поделиться с архивом отснятым материалом — многие ведь были бы этому только рады. Цена и правила для всех одинаковы.

Способы систематизации информации тоже активно развиваются. Составить генеалогическое древо можно с помощью специальных программ и мобильных приложений. Самые известные — «Древо жизни», Family Tree Builder и MacFamilyTree. Подобный инструмент мы разрабатываем сейчас и в Familio.

Куда движутся технологии и какие программы особенно ждут генеалоги

Д.С.: Наш сервис Familio объединяет описи разных архивов в единую поисковую систему с привязкой к населённым пунктам. Это открывает новый уровень возможностей — пользователь может найти документы по своему родственнику или населенному пункту, где он жил, в любом из архивов, которые уже есть в системе.

А.В.: Мы движемся к системе «мэтчей» — автоматических поисков совпадений. Работать это будет так: если в источнике упоминается интересующая вас деревня или персона, которую вы добавили на сайт, то система предложит вам добавить эту информацию. По мере индексации архивных документов будет возможно и автоматически добавлять к своей родословной и целые поколения.

Александр Воробьёв (крайний слева) и Денис Самойлов (посередине) Фото ЕУ СПб

Д.С.: Программы для распознавания текста с изображений сейчас работают на довольно приличном уровне, хоть для этого и требуется скан хорошего разрешения с печатным текстом. Но технологии приближаются к тому, чтобы с помощью нейросетей сделать распознаваемым и рукописный текст. Для генеалогии это станет существенным шагом вперёд в деле использования Big Data, поскольку сейчас из рукописных документов создавать базы данных возможно только вручную.

Зачем нужна массовая оцифровка источников и причём тут Big Data

Д.С.: Жизнь исследователя, к сожалению, значительно короче километров архивных полок, поэтому приходится ограничивать рамки поиска. К примеру, в государственном историческом архиве в Петербурге их длины хватит, чтобы обогнуть КАД (Кольцевую автомобильную дорогу — прим. TJ).

Самые интересные вещи обнаруживаются там, где не ожидаешь их найти. Скажем, если вы исследуете жизнь предков-крестьян, то, скорее всего, вам удастся более-менее сносно изучить документы по известной деревне, но вот если предки уходили куда-нибудь на заработки — хорошо ещё, если известно куда именно — или приехали туда неизвестно откуда, то эту часть жизни документально исследовать будет сложнее. Единственный способ приоткрыть эту завесу — массовая оцифровка источников информации.

Фото Familio

Быстрый поиск по большому массиву оцифрованных данных — это, пожалуй, самый очевидный аргумент в пользу цифровизации, но далеко не единственная возможность получения новой информации. Например, если вы будете искать в таком массиве что-то про деревню Кузьминская, то поиск сильно осложнится большим количеством деревень с таким же названием.

Если вы знаете историческое административно-территориальное деление, то это уже совсем другое дело. Запрос «Кузьминская» по всем архивным описям, доступным на Familio, выдает 1205 результатов, а если узнать волость и уезд, то два выводимых результата будут уже наверняка по делу. Наша работа заключается как раз в том, чтобы такие связи устанавливались автоматически.

Как собираются базы данных и в чём сложность работы

Д.С.: В Familio мы создали крупнейшую базу населённых пунктов Российской Империи — она состоит из более 200 тысяч записей, собранных в исторических реестрах. Это позволяет в 9 из 10 случаев найти страничку деревни, откуда родом ваши «прапра».

Сбор происходит так: сначала мы берём сканы исторических реестров населённых пунктов, распознаём текст и оформляем его в специальную таблицу. Потом добавляем новый справочник в сервис привязки — специальный ресурс, где можно устанавливать связи записей из старых справочников с существующими населёнными пунктами или, пользуясь старыми картами, восстанавливать местоположение исчезнувших деревень.

Пока мы работаем в основном с дореволюционными справочниками, поскольку большинство генеалогических запросов уходит именно в этот период, но планируем добавить слои и советских населённых пунктов. Каждый последующий слой добавлять проще, поскольку чем больше данных, тем больше населённых пунктов можно нанести на карту автоматически.

Это кропотливая и сложная работа, но именно она даёт нам ключ к автоматическому нанесению на карту сведений из других источников — архивов, газет, мемуаров. Кто знает, как могли попасть в историю ваши предки?

Как найти предков (онлайн и без регистрации)

Д.С.: Первым делом нужно опросить родственников — к сожалению, они, в отличие от документов, не вечны — и узнать все детали: где и когда родилась прабабушка, какие у неё имя, фамилия и отчество. С этой информацией можно начинать поиски — делать это без основных данных бесполезно.

На следующем этапе можно добавить информацию о своём предке на страницу населённого пункта на Familio, что полезно по двум причинам. С одной стороны, на неё может наткнуться человек, которой тоже имеет интересы в этих местах — необязательно ваш родственник. Вы сможете вместе искать информацию и проходить по одному массиву документов — и это сэкономит ваше время.

С другой стороны, вы можете уже обнаружить какую-то информацию о местности на сайте. Например, по Вологодской области привязаны все ревизские сказки — сразу можно кликнуть на деревню и посмотреть, какие есть списки населения. А по Татарстану привязаны все метрические книги — записи о всех рождениях, смертях и бракосочетаниях — и документы из РГАДА (архива древних актов в Москве — прим. TJ). В любом случае там будет территориально-административное деление, зная которое можно идти в архив и запрашивать документы по этой местности.

Фото «Старая Вологда»

Наш сайт запустился только в этом году, но уже есть несколько историй, когда дальние родственники узнали о существовании друг друга через страницы деревень. Некоторые совершают и небольшие открытия: например, находят в «Базе знаний», где объединены архивные описи многих российских архивов, дела родственников, которые служили в каком-то министерстве.

Один мой знакомый петербуржец с редкой фамилией так узнал, что его предки были священниками — нашёл их дело среди документов московского архива. Так у него вряд ли дошли бы руки посмотреть сайты всех учреждений, но с объединённой поисковой системой это потребовало меньше усилий и стало возможным.

#интервью #технологии #истории #генеалогия