#27. Наборы данных особой ценности
"Ценность искусства измеряется не количеством, а качеством." Максим Горький
Среди многих тем связанных с открытыми государственными данными особняком стоит тема качества данных. Это качество можно измерять по разному. Как в Европейском союзе, осуществляя мониторинг качества метаданных, публикуя руководство по качеству публикации данных как это делается в Саудовской Аравии.
Есть, также, немало исследований, например, посвящённых качеству порталов открытых данных, но основной их фокус на возможностях порталов и качестве и полноте структурированного описания наборов данных - метаданных.
Само качество данных становится сложной задачей поскольку большая часть порталов открытых данных развивались по модели open by default когда принципиальная доступность данных важнее чем их качество, а часто и даже формат и лицензия. Именно поэтому на многих порталах открытых данных до сих пор самые популярные форматы опубликованных данных - это форматы XLS и XLSX используемые в Microsoft Excel.
Когда же Вам нужно на основе опубликованных на таком портале открытых данных создать новый продукт или провести аналитику, то всегда оказываются необходимы навыки по преобразованию, обработке и очистке. Иногда это простая задача, а иногда она требуют значительных усилий и низкое качество первичных данных становится не менее серьёзным барьером чем их отсутствие.
Причиной этого является то что до сих пор для большинства систем раскрытия открытых данных, к котором, конечно, относятся и порталы открытых данных, справедливо утверждение что они не являются дата продуктами и то что они не являются платформами для дата продуктов.
Data product или data as a product
Что такое дата продукт или данные как продукт?
Это когда потребители данных рассматриваются как клиенты/пользователи, а сами данные в виде баз данных или наборов данных обладают характеристиками ИТ продукта. У них есть владелец продукта, domain data product owner, с пользователями есть обратная связь, а также данные соответствуют набору характеристик таких как находимость, безопасность, исследуемость, понимаемость, доверительность (discoverability, security, explorability, understandability, trustworthiness).
Для данных как продукта справедливо то что:
у них есть контакт/владелец и он готов отвечать на вопросы про качество данных и исправлять ошибки;
контроль качества данных осуществляется;
аудитория их потребления понятна и учитывается;
данные доступны в формах/форматах с учётом потребностей пользователей;
есть регламент их обновления и он соблюдается;
документация существует, она актуальна и опубликована;
условия использования и ограничения четко обозначены.
Для большинства дата корпораций и современных технологических компаний в существовании дата продуктов нет ничего нового, для государственных органов и в открытых данных это всё ещё редкое явление.
О разных видах продуктов на данных создаваемых государством я ещё не раз расскажу отдельно, а сейчас хочу остановится на таком виде дата продуктов как наборы данных особой ценности (high-value datasets).
Данные особой ценности
Данные особой ценности (high-value datasets, HVDs) - это данные использование которых может принести прямую пользу обществу, гражданам, бизнесу и другим. Например, в 2020 году в Евросоюзе по заказу Еврокомиссии вышел аналитический отчет по данным особой ценности с обзором практики публикации наборов данных особой ценности в странах ЕС и в мире. Этот доклад стал результатом директивы ЕС 2019/1024 о рассмотрении того какие данные особой ценности могли бы публиковать организации в ЕС как открытые данные и без взимания платы.
Разделы с данными особой ценности уже есть на многих порталах открытых данных в мире.
В Таиланде
В Индии
А также во многих других странах. Такие инструменты измерения открытости данных как Global Data Barometer обозначают приоритеты в ценности доступных данных. Например, там фокус внимания на таких темах как: Climate action, Company information, Governance, Land, Political integrity, Procurement, Public finance. Схожие приоритеты были продекларированы в Хартии G8 по открытым данным и в ряде других глобальных идексах, сравнения и международных документах.
Роль порталов открытых данных
Данные особой ценности чаще всего рассматриваются именно в контексте порталов открытых данных. Почему? Большая часть таких порталов создавались на принципах open by default и наполнены большим числом редко обновляемых наборов данных, часто, плохого качества. В то же время, для потребителей данных, аналитиков, журналистов, разработчиков, именно они являются одним из ключевых источников данных. Именно через них, чаще всего, осуществляется поиск данных и их находимость - это важная функция таких порталов.
Данные высокой ценности, как правило, тем или иным способом обозначаются на таких порталах. В специальном разделе, специальными метками, но они доступны и легко находимы.
В каком-то смысле можно говорить о том что наличие таких меток и разделов - это часть эволюции порталов открытых данных в платформы дата продуктов и открытые маркетплейсы данных со смешением открытых и коммерческих данных. Но это более широкая тема которую я отложу для следующих публикаций.
В завершение хочу сказать что данные особой ценности - это долгоиграющая концепция. К ним можно отнести, и данные для разметки для обучения ИИ, и референсные справочные данные, и официальную статистику и многое другое за пределами основных рекомендуемых международными инициативами тем. Исследования в этой области дают возможность оценить реальный эффект от открытия данных, а сама идея соответствует идее 3-й волны открытых данных - публикуй с целью.