#6. Третья волна открытых данных, и терминология данных
И ручейки в тени лесной Чуть вьются сонною волной. / А.С. Пушкин
В этот раз темой рассылки будет третья волна открытых данных, доклад от Open Data Policy Lab и многообразие терминов вокруг данных.
Третья волна открытых данных
Если Вы ещё не читали, то очень рекомендую почитать свежий отчет/документ Third wave of Open Data [от Open Data Policy Lab (далее ODPL) о том как развивается тема открытых данных.
Документ интересный, главная его мысль в том что тематика открытых данных (open data) переживает большую перезагрузку.
Основная идея в том что первая волна - это запрос данных через законы о свободе доступа к информации (FOI). Она началась ещё до развития интернета и ускорилась с возможностью запроса данных в электронной форме.
Вторая волна - это то что проходило совсем недавно и то что получило развитие с Web 2.0, пропагандируя идею открытости по умолчанию в том числе без четких целей публикации.
Третья волна - это то что происходит сейчас, переструктуризация фокуса движения за открытость данных на конкретные цели и задачи. В основе концепция Publish with Purpose, публикуйте с целью, что сильно отличает от стратегии 2-й волны open by default (открытость по умолчанию).
Не буду утверждать что такое разделение на волны идеально, но это довольно любопытная модель классификации, хотя и на грани смешения и приближения к контролю за алгоритмами и AI.
Можно обратить внимание на что что к 3-й волне ODPL относят себя и ещё многие другие, в первую очередь, консалтинговые и академические структуры. И видно кого авторы относят ко второй, “заканчивающейся“ волне - это Open Knowledge Foundation, такие проекты как Open Data Barometer и многие другие проекты для которых open by default - это базовая идеология.
Логика авторов ODPL понятна, их акценты позволяют им выстраивать логику с учётом интересов, как заинтересованных крупных корпораций, так и академический институтов которые они и определяют новых интересантов в 3-й волне.
Как и у любого консалтингового документа, а это конечно же один из таких, правильно его читать удерживая в голове что выводы и направления - это не только отражение реальной ситуации, но и отражение их с той стороны в котором авторы видят потенциальный свой интерес и собственные наработки.
Что, впрочем, не отменяет полезности этого доклада и, вполне возможно, правоты авторов что принцип open by default не работает и переход к иным формам управления данных объединяет темы открытых данных и контроля граждан за их собственными данными.
Терминология данных
Ещё одна особенность документа про третью волну открытых данных - это высокое насыщение новыми терминами. Текст изобилует редкими терминами и сочетаниями слова ‘data’ с огромным числом уточнений и характеристик таких как: data holders, data subjects, data hoarding, data provenance, data capacity, data liquidity, data gaps. Всего таких терминов более 70. Такое обилие новой терминологии, кстати, один из признаков “консалтерских” документов, новые термины как бы продаются заказчику, аудитории, экспертным группам и формулируют каркас обсуждений на будущие месяцы и годы.
Конечно этот отчет не единственный столь терминологически насыщенный, особенно много терминов про данные в документах data-стратегий и перечитав несколько их десятков за последние несколько месяцев у меня собрался словарь в примерно 150 терминов про данные.
Из редких терминов это такие примеры как: data needs, data space, data landscape, data swamp и data silos.
Главная особенность всего что касается данных сейчас - это отсутствие устоявшейся терминологии приводит к бесконечным играм со смыслом и тому что почти за каждым термином начинает скрываться попытка “продажи” какого-то продукта или консалтинга.
Так термин data observability (наблюдаемость данных) - это теперь целый спектр продуктов по мониторингу сбору и обработке данных в в дата трубах (data pipelines).
А термин data trust - это новый формат доверительного управления данными является одной из ключевых тем для профессиональных консультантов. Так же как и термин data sharing плотно вошедший в стратегию работы с данными в Европейском союзе и описывающий все практики предоставления данных G2B, B2B, G2G, B2G и механизмы их применения.
Безусловно за каждый термином есть своё смысловое значение и часто они отражают реальные явления, но одновременно с этим бесконечное число других терминов это повторение одного и того же с чуть смещёнными акцентами.
Заметки
с учётом того что Сбербанк теперь на 50% + 1 акцию принадлежит Правительству РФ, то, безусловно, его расширение через покупку Рамблера и других сервисов можно трактовать только как постепенное поглощение государством высокотехнологического сектора и усиление государственного присутствия в медиа. Интересно есть ли какие-либо измерения присутствия государства в медиа и изменения этого присутствия?
и всё же очень удивительно отсутствие систематизированного реестра госAPI. API на базе REST, Graphql и Swagger (OpenAPI) весьма распространены в госпроектах и на госсайтах тоже, но почти никогда не документированы (за исключением редкого случая с budget.gov.ru). Есть подозрение что сами операторы/владельцы сайтов не знают об их существовании, ведь эти API это следствие применения новых фреймворков для Javascript и быстрой подгрузки данных.
Ссылки
Axios интересный формат нового медиа с очень короткими, очень понятными заметками по актуальным темам. Фокус на новости в США, но сама идея и концепция реализации стоят внимания.
COVID-19 A data perspective раздел по статистике и публикациям о COVID-19 на сайте статведомства Канады. У них же интересно то как и сколько данных они публикуют. Более 9 тысяч таблиц в разделе Данные включая 74 таблицы по COVID-19.