#32. Открытые данные в мире, в фактах и тезисах
"Метафизик от теории идёт к фактам, учёный от фактов — к теории." - Джек Лондон «Железная пята»
Я довольно много пишу о порталах открытых данных, доступности и поиске данных и развитии самой концепции открытости государства и данных в телеграм-канале и в этой рассылке, но не припомню чтобы хоть раз собрал всю ключевую информацию именно как набор тезисов и фактов.
В этой заметке я систематизирую факты и тезисы связанные с текущим состоянием отрытости данных в мире на начало 2023 года.
Концепции, смыслы и идеология
в основе открытых данных основными концептуальными документами остаются хартия открытых данных, принципы FAIR для научных данных
основными потребителями открытых данных являются программисты, аналитики, урбанисты, журналисты, учёные, географы, преподаватели и студенты
отчасти идеология открытых данных основана на политической открытости и подотчетности, отчасти на развитии малого и среднего бизнеса и инновационной экономики, отчасти на диалоге с техническим квалифицированной частью общества и на развитии научной деятельности
текущее состояние открытых данных иногда описывают как третью волну открытых данных, переход от публикации данных по умолчанию к целенаправленному раскрытию для достижения значимых общественных целей
Национальные порталы открытых данных
большая часть национальных порталов открытых данных создавались в целях повышения политической открытости правительств. Какие-то из них завязаны на глобальные инициативы вроде Open Government Partnership, другие в рамках хартии открытых данных, или в рамках национальных стратегий открытости, но в целом это главная, явно обозначаемая цель.
многие национальные порталы открытых данных создавались изначально энтузиастами и некоммерческими организациями, а далее они, либо закрывались и команды переходили на создание госпорталов открытых данных, либо консультировали органы власти по созданию национальных порталов открытых данных
почти во всех странах, включая авторитарные, существуют национальные порталы открытых данных. Исключение составляют только беднейшие страны Африки и Юго-Восточной Азии, а также островные микро-государства.
национальные порталы открытых данных в крупных странах, например, Франции (data.gouv.fr) и в США (data.gov) и других, чаще всего выступают агрегаторами, собирая данные с отраслевых порталов данных, порталов данных отдельных инициатив и ведомств, а также органов власти на суб-национальном уровне։ властей штатов, городов, регионов и так далее
в свою очередь данные национальных порталов агрегируются в наднациональных, которых немного и наиболее известный - это портал агрегатор открытых данных Европейского союза (data.europe.eu) с более чем 1.6 миллионами наборов данных
основной объём данных и число наборов данных на крупнейших национальных порталах данных составлюят геоданные и данные полученные по результатам и в процессе научных исследований. Например, на портале США data.gov из 247 тысяч наборов данных 192 тысячи наборов данных - это геоданные из которых не 2/3 - это данные геологического наблюдения, данные о погоде и наблюдения за морями и водами, с геопривязкой и в форматах геоданных
аналогично в портале агрегаторе открытых данных Евросоюза (data.europe.eu), примерно 2/3 из 1.6 миллионов наборов данных - это геоданные, собираемые из геокаталогов стран ЕС. Скорее всего геоданных там даже больше, поскольку в геоданные присутствуют не только в геокаталогах, но и в национальных порталах открытых данных
другими наиболее часто доступными данными являются данные переписи и статистического наблюдения
в основном национальные порталы создавались на базе открытого ПО CKAN, реже DKAN и ещё реже uData с использование стандарртов публикации даных DCAT AP, DCAT US, OGC и, реже, Schema.org
Региональные и городские порталы открытых данных
во многих странах, например, в Турции, нет национальных порталов открытых данных данных, но есть порталы открытых данных городов и территорий. Например, порталы открытых данных Стамбула и Анкары
региональные и городские порталы открытых данных тоже, отчасти, про политическую прозрачность, но они ещё и имеют большую практическую нагрузку по коммуникации властей городов и регионов с урбанистами, аналитиками и разработчиками работающими с данными их территорий.
в том числе поэтому на региональных и городских порталах, как правило, большая часть данных связана с инфраструктурой и слоями геоданных
иногда региональные порталы открытых данных совмещены с геопорталами. Например, портал открытых данных округа Колумбия в США, но, в целом, это не массовое явление, поскольку не все региональные и городские данные имеют геопривязку
на уровне региональных и городских порталов открытых данных выше конкуренция среди коммерческих сервисов и продуктов. Кроме CKAN и DKAN здесь активно используют продукты OpenDataSoft, Socrata и, реже, Junar.
в целом число региональных и городских порталов открытых данных исчисляется сотнями, если не тысячами, их особенно много в Европейском союзе и в Латинской Америке
Некоммерческие проекты и порталы открытых данных
многие проекты по открытым данным создавались так называемыми гражданскими хакерами или же некоммерческими организациями по своей инициативе и без участия органов власти, отчасти для того чтобы побудить правительства начать самостоятельно публиковать данные
другие инициативы, такие как большие архивы данных в Интернет-архиве archive.org запускались с целью долгосрочного сохранения данных которые могут исчезнуть
порталы открытых данных активно создаются крупными международными НКО, например, World Resource Institute и многие другие
не все такие инициативы существуют долго и часто закрываются в случаях если в стране органы власти начинают сами создавать порталы открытых данных и раскрывать данные на регулярной основе.
Репозитории открытых научных данных
открытость данных научных исследований развивалась до и параллельно идеям политической подотчетности, эти идеи непосредственно связаны с принципами FAIR (Findability, Accessibility, Interoperability, and Reuse of digital assets.), идеями о развитии открытости науки (open access) и научной честности и воспроизводимости результатов научных исследований
количественно и объёмно данные научных исследований значительно превосходят раскрытие данных в рамках политической подотчетности. Например, открытых данные в рамках исследований в ЦЕРН (opendata.cern.ch) составляют петабайты данных которые можно частично скачать, частично получить физически по запросу.
инфраструктура доступа к научным данным также существует параллельно инфраструктуре национальных порталов открытых данных. Тысячи репозиториев научных данных описаны в проектах Re3Data и FairSharing, миллионы наборов данных опубликованы на таких крупнейших порталах научных данных как SciDb в Китае и европейском Zenodo
часто системы агрегации научных данных рассматривают научные данные лишь как один из результатов научной деятельности. Например, OpenAIRE, европейский проект по систематизации и поиска по научным знаниям, агрегирует научные данные сотен крупнейших репозиториев
в рамках работы с открытыми научными данными используются собственные форматы доступа и стандарты метаданных такие как OAI-PMH, OAI-ORE, DDI, SPARQL и другие
важная характеристика научной инфраструктуры работы с данными - это множество отраслевых особенностей. Данные публикуемые в науках о земле, биоинформатике, компьютерной лингвистике и других областях часто сопутствуют и интегрированы с инструментами работы с ними, сопровождаются специфичными форматами и стандартами раскрытия метаданных и тд.
частично порталы научных данных пересекаются с порталами геоданных и национальными порталами открытых государственных данных, но лишь в той части в которых те пригодны для научного цитирования и использования в научных работах
большая часть порталов открытых научных данных построены на открытых решениях или открытом коде, поддерживаются университетами или государственными органами или научными консорциумами, но есть и коммерческие сервисы такие как Mendeley Data от Elsevier и FigShare от Digital Science, создаваемые коммерческими компаниями. Коммерческие сервисы раскрытия данных далеко не всегда рекомендуются грантодателями для публикации данных учёными.
Порталы геоданных и геокаталоги
в развитых странах геоданных составляют большую часть открытых государственных данных, как правило они публикуются на национальных и региональных порталах открытых данных и специализированных геокаталогах
к крупнейшим геопорталам можно отнести Geo Data Portal Germany с более чем 500 тысячами наборов открытых данных, а также такие порталы как ScienceBase от Геологической службы США и многие другие
среди геокаталогов наиболее популярны ПО с открытым кодом Geonetwork и онлайн сервис Hub ArcGIS от компании Esri. Также, часто для геокаталогов используется специализированное ПО разработанное по заказу географических и геологических служб стран и территорий
часто порталы геоданных совмещены с порталами открытости науки и публикации результатов научных исследований. Пример, ScienceBase в котором многие опубликованные данные сразу обладают постоянными идентификаторами и DOI.
среди каталогов данных агрегируемых в европейском портале data.europe.eu не менее половины - это геопорталы стран и территорий входящих в Европейский союз
сейчас постепенно набирает популярность спецификация STAC для публикации каталогов геоданных, а также большие объёмы геоданных, в первую очередь наблюдения за землёй со спутников, публикуются в облачных каталогах данных таких как реестр открытых данных на AWS (Amazon)
Программные продукты и стандарты
самый известный стандарт публикации каталогов открытых данных - это DCAT, разработанный W3C и сейчас наиболее актуальный в версии 2, его поддерживает большая часть каталогов данных в Европейском союзе и в США и к нему есть несколько расширений DCAT US, DCAT AP и других с учётом страновых метаданных
другим стандартом де-факто является API CKAN, как наиболее популярного портала открытых данных, включающего функции федеративного сбора данных из других порталов открытых данных. Именно поэтому CKAN до сих пор так популярен для создания национальных порталов открытых данных, поскольку его харвестеры (сборщики) позволяют из коробки собирать данные из порталов открытых данных территорий страны
в некоторых странах и проектах используют собственные разработки. Например, в Австралии заменили национальный портал на Magda, поисковик агрегатор по порталам на базе CKAN и другим. А в Евросоюзе агрегатор data.europe.eu не использует CKAN, но умеет собирать данные из всех порталов поддерживающих экспорт в DCAT
поисковые системы, в первую очередь Google, используют стандарт Schema.org для индексации наборов данных, также как и разметку DCAT внутри веб-страниц, но практически не используют данные индексов именно каталогов
каталоги научных данных используют, как специализированные каталоги данных такие как Dataverse и Invenio, так и более общие продукты управления раскрытия научными результатами такие как DSpace
важным стандартом является Frictionless Data с возможностью работы с табличными данными с предописанными метаданными и схемой, этот стандарт всё более активно применяется в задачах связанных с публикацией научных данных
Поиск данных
из глобальных поисковиков данных в интернете основным является Google Dataset search. Декларируется что он охватывает 13 тысяч сайтов и 45 миллионов наборов данных
при этом поиск по наборам данных ограничен высокой степенью “отравления поиска“ коммерческими сервисами продажи данных, поскольку цель Google в максимально широком охвате опубликованных данных, а многие используют тип данных Dataset для SEO продвижения. Это ограничивает применимость этого поиска в повседневных задачах
кроме поиска Google часто используются поисковики Datacite, агрегатор OpenAIRE и ряд других для поиска данных для научных исследований
в целом задача удобного поиска данных и по данным в общем случае не решена
Открытые данные и Big Tech
крупнейшие корпорации Big Tech весьма активно используют и отчасти продвигают открытость данных, не только как идеологию, но и как инструмент привлечения пользователей
крупнейшая поддержка проектов по открытым данным идёт от Microsoft, которые финансируют Open Data Policy Lab и другие инициативы по открытости данных в мире
компании Amazon, Google и Microsoft предоставляют доступ к каталогам особенно больших и востребованных наборов открытых данных внутри своей инфраструктуры։ AWS, BigQuery и Azure соответственно
кроме того эти компании и ряд других публикуют значительные по объёму наборы данных такие как языковые модели или же графы связей научных исследований, в дальнейшем используемых для задач машинного обучения и не только
Данные для машинного обучения и ИИ
в какой-то момент развития продуктов для машинного обучения оказалось что большая часть открытых государственных данных и порталов данных малопригодны для этой задачи
каталоги данных существующих продуктов таких как Kaggle и HuggingFace можно вынести в отдельную категорию поскольку данные там открыты, но как правило адаптированы под использование дата-сайентистами, либо с примерами загрузки данных в код в CSV или JSON форматах, либо сразу в форматах Parquet для большего удобства. Метаданные к каждому набору данных также существенно отличаются от научных репозиториев и порталов раскрытия открытых государственных данных
до сих пор создатели национальных и региональных порталов открытых данных не учитывают дата-сайентистов как отдельную группу пользователей, не публикуют данные в форматах и под задачи в которых те могли бы их использовать
в случае научных данных ситуация может отличаться, в репозиториях научных данных, эти данные могут публиковаться вместе с кодом пригодном для использования в задачах машинного обучения, а также часто практикуется параллельная публикация данных в научных репозиториях и сервисах вроде Kaggle.
Открытые данные и современный стек данных
по большей степени развитие современного стека работы с данными (modern data stack) происходило параллельно, без пересечения развитию порталов открытых данных и открытой научной инфраструктуры
стандарты и форматы публикации открытых данных и открытых научных данных часто существенно отличаются от практик в корпоративном секторе где гораздо больший акцент на качестве и своевременности получения данных