#7. Рождённые в цифре (digital born). Цифровые архивы новейшей истории
Если предыдущие поколения оставили нам книги и иные артефакты письма и речи. То что останется после нас?
Моя родина там, где моя библиотека. Эразм Роттердамский
Всю эту рассылку я решил посвятить незаслуженно забываемой в России теме сохранения новейшего культурного и исторического наследия. Тема цифровых архивов незаслуженно игнорируется, хотя, уже сейчас наступило время когда она как никогда актуальна.
Цифровые архивы
Вот уже много лет я считаю что архивная наука переживает в России одни из худших времен своего существования. Она практически полностью сфокусирована на классических исторических архивах наследия императораторской и советской эпохи, да, в разных аспектах, но практически всегда - это про сохранение того что создавалось более 30 лет назад, до 1990 года включительно.
Это один из удручающих меня лично факторов окружающей жизни в России. Категорическое игнорирование людьми, государством, долгосрочными институтами общества вопросов исторического и культурного наследия современной истории. Порой даже возникает ощущение что совершенно никого нет кто интересовался бы сохранением того что создавалось за эти 3 десятилетия.
Многочисленные публичные архивные инициативы у нас в стране - это, как правило, инициативы ретроспективные к какому-либо событию или историческому явлению. Это может быть великая отечественная война, гражданская война, революция 1917 года, война 1905 года и ещё множество других событий, менее массовых, но, в любом случае, давних. Эти инициативы построены вокруг сканирования книг, статей, фотографий и иных способов восстановления исторической памяти.
Ни в коем случае не умаляя ценности и значимости подобных проектов, я не могу не отметить то насколько они заслонили развитие архивной мысли от изменений произошедших в последние 20 лет. Эти изменения в том что сейчас всё большее число знаний человечества не просто создаётся в цифровой форме, а создаётся только в цифровой форме.
Это явление называется born-digital (рожденные в цифре) материалы создаваемые в цифре и имеющие отражение на физических носителях только в тех случаях если для этого предпринимаются дополнительные усилия.
Таких материалов бесконечное множество. Это, и цифровые рисунки, новости на сайтах, цифровые документы, созданное ПО и исходный код ПО, видео и аудио записи, базы данных и многое другое что невозможно было бы создавать в нецифровой форме. Сюда же и попадает всё то что создается в социальных сетях, электронная почта, переписка и чаты в системах обмена сообщениями и тому подобное.
Общепринятое заблуждение что цифровые объекты гораздо легче сохранить чем объекты физического мира. Но реальность такова что бумага может хранится, и десятилетия, и столетия, а цифровые материалы хранятся куда хуже. Далеко не все файлы документов из 90-х годов сейчас можно открыть привычными редакторами текстов, а уже если говорить о специализированных системах, то форматы хранения файлов менялись многократно за эти годы и найти нужный инструмент преобразования - это отдельная большая задача.
В контексте объектов рождённых в цифре цифровая архивация (digital preservation) - это архивация именно цифровых объектов и лишь побочно тех цифровых объектов которые были созданы на основе объектов физического мира.
В мире подобной цифровой архивацией занимаются довольно многие организации. Лидерами в таких инициативах являюстя национальные библиотеки, архивы научной информации, государственные архивы, специализированные некоммерческие организации и исследовательские центры.
Например, в мире это Digital Preservation Coalition как ведущая координирующая организация или Archive.org как крупнейший архив цифрового наследия.
В мире много и других только цифровых архивных инициатив. Есть несколько десятков веб-архивов как государственных так и частных проектов по сбору материалов с сайтов в Интернете.
Существуют такие проекты как Software Heritage созданный по инициативе исследовательского центра Inria во Франции посвящённые сохранению программного обеспечения с акцентом на ПО используемое в исследованиях и исследователями.
И так в мире ещё довольно много отдельных частных, государственных и общественных инициатив и почти полное их отсутствие в России и, что сложнее, почти полное отсутствие запроса на них.
Например, Национальный цифровой архив России, наш общественный проект Инфокультуры, оказался одним из самых сложных в поисках на него грантового, коммерческого или государственного финансирования.
Потому как здесь возникает вопрос не просто интереса к истории, а интереса к будущей интерпретации современных событий. Обычно за это в мире отвечают государства, выстраивающие архивацию всего что создают отдельные государственные институты. Но, у нас в России, нет до сих пор ни требований по сохранению цифровых материалов, ни исследований в этой области, ни интеграции в международное сообщество.
Кто-то скажет что это часть текущей общественной культуры. Малый горизонт планирования и небольшой число тех кто думает не о прошлом, а о будущем культурном и историческом наследии.
У меня до сих пор нет ответа как поменять текущую ситуацию, но есть понимание что не менять её тоже нельзя. Культура исторической памяти не может не распространяться на то думаем ли мы как о нас будут вспоминать наши правнуки. Это ведь касается не только памяти общественной жизни, это и личные архивы которые сейчас большинство ведут исключительно в социальных сетях, не задумываясь о их долгосрочной сохранности.
Разьве не следует учёным и тем кто управляет научными коллективами сохранять полученные знания на долгие годы?
Разьве политики не должны нести ответственность за решения и через 20 и через 100 лет?
Разьве все корпорации будут существовать лишь мимолётно и у них немало истории, в первую очередь цифровой?
Таких вопросов много, они актуальны для всего мира и они актуальны для России многократно, поскольку думать о них забывают.
Я считаю что есть многое из born-digital что сохранять можно и необходимо, это:
веб-архивы сайтов Рунета
глубокие веб-архивы наиболее значимых сайтов
базы данных и наборы данных для исследователей и журналистов
архивы законов, указов, постановлений и иных цифровых документов государства
исходный код и версии ПО
результаты исследований
сообщения в социальных сетях
значимые видео и аудиозаписи
и ещё многое другое
Изменения необходимы. Изменения и в массовом сознании к принятию того что надо помнить ещё и о будущей истории и сохранять современность. Изменения в законодательстве и устанавливать требования к обязательному цифровому сохранению современных документов. Изменения по появлению проектов сохранения материалов рожденных в цифре и ещё многое другое.
Заметки
Очень любопытный пример правильно организованного каталога данных - это Wolfram Data Repository. Данные в нём изначально организованы так что интегрированы с их Wolfram Notebook и всегда включают как минимум один пример их использования и общую интеграцию в Wolfram Data Framework. С точки зрения создания единой экосистемы - это очень хорошо организованный и цельный подход. Единственное ограничение в его использовании в том что экосистема Wolfram является замкнутой, она не ориентирована, например, на работу с Jupyter Notebook или с разного рода внешними data pipelines, и больше ориентирована не на data scientist’ов общего профиля, а на учёных в работе которых есть data science. В любом случае - это хороший практический пример открытости данных которая приносит выгоду и создателям сервиса и пользователям.
Ссылки
Software Heritage инициатива по архивации всего исходного кода в мире
SWORD стандарт публикации цифровых объектов в цифровых репозиториях используемый в таких проектах как Dataverse
OCFL стандарт обмена данными о цифровых объектах для сохранения. Создан на смену стандартов MOAB и BagIt, с поддержкой версиониования и объектов, условно любого типа.
The Theory and Craft of Digital Preservation книга Trevor Owens о том как устроена цифровая архивация в теории и на практике.
Metadata другая системная книга о работе с метаданными, опубликована в 2015 году и актуальна и по сей день.
LOC Digital Strategy цифровая стратегия библиотеки конгресса США, включая инициативы цифровой архивации.