#24. Гайд по быстрой архивации цифровых материалов
Сейчас, когда происходят катастрофические события, идут военные действия, публикуется огромное число текстов, изображений и видео которые могут быть недостоверными и исчезнуть через несколько часов после публикации, как никогда актуальна архивация цифровых материалов.
Этот краткий текст о том как архивировать материалы в сети, социальных сетях и мессенжерах, а акцентами на то как это может сделать рядовой пользователь.
Архивация веб-страниц
Заархивировать отдельные веб-страницы проще всего с помощью сервисов таких как Archive Today (archive.ph).
Достаточно ввести ссылку на страницу и она будет сохранена. А если страниц много или если удобнее делать это через браузер, то можно установить расширение для браузера Firefox и делать это прямо из интерфейса браузера заходя на нужную страницу.
Альтернативный путь в том чтобы сохранить через сервис Интернет Архива https://archive.org/web/ на странице в форме “Save Page Now“
Другая альтернатива, сервис Perma.cc он практикуется в академической среде и имеет смысл только если Вы пишете научную статью и у Вас есть там аккаунт.
Дополнительный сервис Conifer также позволяет архивировать страницы, но требует авторизации.
Архивация сайта целиком
Бывают ситуации когда необходимо сохранить целый сайт или много страниц на каком-то сайте. Самый простой способ - воспользоваться утилитой HTTrack, она бесплатна, имеет GUI и работает под Windows, MacOSX, Linux.
Она специально создана для пользователей без специальной технической подготовки и позволяет Вам сохранить содержимое сайта локально.
Альтернативы - использование утилит командной строки таких как wget и wpull. У этих утилит есть режим рекурсивной выгрузки всех страниц, он задается опцией “-r”. В самом простом варианте достаточно выполнить команду подобную этой.
wget \
--recursive \
--no-clobber \
--page-requisites \
--html-extension \
--convert-links \
--restrict-file-names=windows \
--domains website.org \
--no-parent \
www.website.org/
У этих инструментов также есть много других опций, постарайтесь ознакомиться с ними перед использованием.
Архивация телеграм чатов/каналов
Самый простой способ архивации конкретных телеграм чатов и каналов - это экспорт истории канала или чата с помощью Telegram Desktop. Вам необходимо открыть информацию о канале/чате и выбрать опцию “Export chat history“ (или её аналог на других языках).
После чего настроить правила экспорта указав что именно Вы хотите сохранить.
В итоге Вы получите все файлы и сообщения в указанной Вами папке.
Архивация социальных сетей
Архивация социальных сетей - это одна из сложных задач, большая часть социальных сетей и сервисов активно этому препятствуют поэтому есть только специальные инструменты под эту задачу.
Основной инструмент - это snscrape, он поддерживает
Facebook: профили пользователей, группы и сообщества
Instagram: пользовательские профили, хэштеги и места
Mastodon: пользовательские профили
Reddit: пользователи и поиск
Telegram: каналы
Twitter: пользователи, профили, хэштеги, поиск и твиты
VKontakte: пользовательские профили
Weibo (Sina Weibo): пользовательские профили
Для работы с snscrape нужен опыт работы с командной строкой, но, в целом, ничего сложного нет.
Instagram
Для сервиса Instagram есть дополнительный инструмент instaloader. Это также утилита командной строки умеющая выгружать данные по заданным параметрам и регулярно их обновлять, при заданных настройках.
Если использовать авторизованный в инстаграм аккаунт, то возможностей по получению данных больше.
Twitter
Для Twitter’а существует инструмент twint позволяющий архивировать твиты через поиск и по профилю пользователя. Он также работает с командной строки и обладает широким спектром настроек, позволяя проводить большие и сложные архивационные кампании.
Архивация собственных сайтов
Если Вы используете одну из CMS или онлайн сервисов построителей сайтов постарайтесь найти там функцию сохранению данных. Например, для Wordpress инструкция того как сохранять базы данных и содержание сайта.
Архивация личных документов и сервисов (data takeout)
Если Вам важно сохранить личные документы/сообщения и иные сведения доступные Вам в онлайн сервисах после авторизации, то воспользуйтесь сервисами Data Takeout (получения личных данных).
Их подборка собрана на странице Awesome Data Takeout
Этот список не исчерпывающий. Если Вы знаете другие полезные инструменты для персональной цифровой архивации, напишите мне на ibegtin@infoculture.ru или в чат https://t.me/begtinchat.