18. Как правильно архивировать цифровые ресурсы при архивационных кампаниях

Nov 16, 2021

Для меня цифровая архивация довольно давно превратилась в одно из важных хобби и потому я давно веду проект по цифровой архивации Национальный цифровой архив. Довольно часто возникают ситуации когда это хобби необходимо применять на практике, чаще всего когда в результате какой-то реформы или действий госорганов или иных общественных событий возникают ситуации которые могут привести к исчезновению какого-либо культурно или исторически значимого знания/контента.

Например, во время реформ органов власти очень часто возникают ситуации когда сайты ликвидируемых органов власти и иных юр лиц исчезают из сети в очень короткие сроки. Или, например, в ситуации с инагентами многие организации которых признали инагентами или даже экстремисткими организациями или когда Банк России ликвидирует банки, как правило это означает что сайт кредитной организации исчезает в тот же день.

Поэтому архивация цифровых материалов - это важно и нужно, но не просто, о чём я и расскажу.

На примере онлайн сайтов Мемориала и ранее проходившей архивации я расскажу почему архивация цифровых объектов это совсем не так просто чем просто запустить какую-то простую утилиту и сохранить веб страницы на диск.

Любая архивация материалов более или менее крупной структуры - это 4 стадии: обнаружение (discovery), приоритезация (priority), сбор (crawl), публикация или хранене (publish or storage)

Обнаружение

На этой стадии необходимо понять какие цифровые ресурсы существуют. Это сайты, соцсети, иногда базы данных и иные материалы. Обнаружение происходит несколькими способами, самый распространенный - это поиск в сети на сайтах организации или по теме, волонтеры которые собирают ссылки. Обычно есть некий корневой сайт откуда находят ссылки на сайты проектов и соцсетей организации. Альтернативный путь - это сбор данных методами OSINT. Например, через поиск всех поддоменов доменов организации или специальными краулерами которые собирают все внешние ссылки с корневого сайта. Когда я составляю списки планов архивации я использую все эти методы.

Например, для сбора внешних ссылок хорошо работает Photon краулер для OSINT на языке Python. А для сбора поддоменов работает язык запросов в поисковых системах например “site:*.корневойдомен.ру“ возвращает веб-страницы поддоменов корневого домена или же инструменты используемые специалистами по информационной безопасности такие как amass для поиска поддоменов через разного рода онлайн сервисы.

В случае архивов Мемориала корневым сайтом организации является memo.ru, а в случае архивационной кампании институтов развития корневой сайт отсутствовал поскольку речь шла о реорганизации этих институтов и надо было собирать сведения с сайта каждой организации упомянутой в планах Правительства РФ.

Результатом этой стадии является план архивации с перечнем ссылок и описанием ресурсов для архивации. Вот так этот план выглядит для Институтов Развития и вот так для сайтов Мемориала с тем дополнением что эти планы уже расширены сведениями для проритизации сбора данных.

Скриншот плана архивации институтов развития на декабрь 2020 г.

Приоритизация/Анализ

Стадия приоритизации - это стадия анализа собранных сайтов и других цифровых ресурсов. На этой стадии надо понять какие из этих цифровых ресурсов находятся в наибольшей зоне риска и какие из них необходимо сохранять в первую очередь. Обычно эти приоритеты знают хорошо специалисты/потребители архивируемых данных, но есть и другие критерии кроме их экспертного мнения. Например, чаще всего в зоне риска находятся архивные/старые сайты организации. Многие организации при обновлении своих сайтов сохраняют какое-то время свои старые версии с поддоменами “old.“ или “archive.” или, реже, “previous.“. Эти сайты работают какое-то время, а когда они работать по какой-либо причине перестают то часто их не восстанавливают. К примеру, у Мемориала старый сайт по адресу “old.memo.ru”, но давно уже вместо сайта там открывается форма авторизации, несмотря на то что на основном сайте Мемориала очень много ссылок на старую версию.

Другими факторами влияющими на приоритетность является статус цифрового ресурса, например, если инвестно что система на которой он построен выводится из эксплуатации и, также, технологическая возможность сбора материалов.

На этой же стадии определяется то каким образом архивация будет происходить. Если стандартная веб-архивация - это инструменты-краулеры с сохранением страниц в WARC файлы веб-архивов, то для социальных сетей и аккаунтов на платформах такой подход уже не работает. Для Twitter, Facebook, Youtube есть специальные инструменты выгрузки данных. А также они есть для разного рода особых ресурсов которые не поддерживают веб-краулеры.

Результатом этой стадии является план архивации с уточнением приоритетов и способов сбора данных.

Сбор

В каком-то смысле самая понятная, но не самая простая фаза. Основным способом архивации публичных материалов является веб-архивация. Для неё есть большой спектр инструментов полупрофессиональных и очень специализированных. Можно сохранить сайты самым простым образом страницами и файлами на файловой системе, можно и правильнее сохранять их в специальнмо формате WARC используемом цифровыми архивистами.

При выборе инструмента архивации и запуске самой архивации всегда есть оговорка и ограничения на “поисковые ловушки”. Поисковая ловушка или “search trap” - это разного рода ошибки и недостаточные настройки сайта приводящие к тому что поисковая система при индексировании делает много запросов на контент который не нужен для поискового индекса. Часто такими ловушками выступают разного рода списки объектов, виджеты календарей и ошибки в указании ссылок внутри сайта. Такие ловушки могут приводить к зацикливанию поискового краулера и чтобы этого избежать ограничивают краулеры, например, 100 тысячами запросов на один сайт. Это ограничение помогает с небольшими сайтами, но когда на сайте миллионы страниц может оказаться недостаточным. Поэтому часто приходится вручную отслеживать когда краулеры натыкаются на такие поисковые ловушки и добавлять правила с исключениями.

По сбора при веб-архивации итогам получаются WARC файлы которые можно посмотреть локально с помощью приложения ReplyWeb.page доступного для нескольких платформ.

PDF файлы в архиве сайта www.memo.ru через ReplyWeb.page

Не все можно собрать веб-архивацией, например, многие современные сайты делаются с технологией ajax и веб-краулеры не умеют их поддерживать. Вернее умеют, с некоторыми оговорками и гораздо большей стоимостью сбора, например, краулер Brozzler работает через интерфейс браузера. Для таких случаев пишут отдельные инструменты. Например, для архивации данных в API я написал утилиту APIBackuper.

Кроме того самые сложные объекты для архивации - это социальные сети. Некоторые из них поддаются архивации относительно просто. Это Twitter, Flickr, частично Youtube. А для большинства популярных соцсетей инструменты эти появляются и очень быстро устаревают поскольку платформы сопротивляются любому внешнему сбору данных.

Отдельная большая тема - это архивация специализированных сайтов. Например, для Wiki есть специальные инструменты от Wikiteam

Результатом сбора являются:

файлы веб архивов WARC
файлы данных CSV/JSON/XML для сбора данных из соцесетей и API
файлы слепков баз данных когда владельцы публикуют открытые данные
логи сборщиков данных и вспомогательные файлы.

Публикация и/или сохранение

Последняя стадия зависит от того с какой целью создаётся цифровой архив. Если это доступность для всех желающих то, как правило, файлы WARC выкладываются в открытый доступ, а их метаданные публикуются на порталах открытых данных. Мы так делаем на портале hubofdata.ru и ngodata.ru. В других случаях архивы подключаются к общему индексу и сразу доступны для навигации онлайн - так делают в глобальном интернет архиве Archive.org, а в третьем случае данные доступны для выгрузки только через API, так делают в проекте Common Crawl.

Альтернативно файлы могут быть сохранены для долгосрочного хранения в холодное хранилище. Особенность WARC формата в том что все метаданные всех страниц хранятся в нём вместе с содержанием и в том что этот формат довольно универсален для личного и общественного использования.

Результаты прошлой архивной кампании ресурсов Мемориала есть в плане архивации за 2016 год. Тогда Мемориал впервые признали инагентом и были заархивированы большая часть их онлайн ресурсов. Некоторые из них уже недоступны, но скорее по той причине что создавались давно и домены многих сайтов потеряны, кураторы перестали ими заниматься и так далее.

Цифровой архивацией можно заниматься самостоятельно или поручить профессионалам, главное знать что она необходима. Архивы можно предоставлять публике, а можно хотя бы хранить в холодных хранилищах таких как Amazon Glacier или Backblaze.

Мы помогаем тем кто хочет архивировать собственные ресурсы или ресурсы связанные с собственной деятельностью, консультируем корпорации как сохранять их материалы.

Если Вы знаете о каких-либо цифровых ресурсах которые имеют общественную ценность и могут исчезнуть - напишите нам и мы проведём их архивацию.

Помочь проектам Инфокультуры по цифровой архивации можно пожертвованием на сайте.

Ivan’s Begtin Newsletter on digital, open and preserved government

Discussion about this post