#30. Общедоступные каталоги данных международных организаций
"Теоретизировать, не имея данных, - большая ошибка". - Шерлок Холмс
Я довольно давно хотел написать о том как всё большее число каталогов открытых данных и каталогов данных создаётся международными организациями, такими как ООН и входящими в ООН структурами, но не только ими. Эти каталоги довольно разные по содержанию, стандартам, публикуемым данным, но все характерны акцентом на раскрытии данных для широкой аудитории. Иначе говоря на публикации открытых данных.
При том что международная бюрократия одна из самых забрократизированных в мире. Она крайне неспешная и глядя на многие проекты/продукты/данные межгосударственных образований сразу же представляются десятки способов сделать то же самое быстрее, лучшее, полезнее, но это один из тех случаев когда последовательность важнее скорости. А именно в последовательности действий и есть те постепенные изменения которые происходят на международном уровне.
А ещё в эту рассылку я включил большой список общедоступных каталогов данных структур входящих в ООН и других межгосударственных образований. Если Вы ищите именно данные которыми хотелось бы воспользоваться как можно скорее, то скорее пролистывайте тексты до раздела “Список каталогов данных“․
От статистики к открытым данным
Одним из главных продуктов которые самые разные межгосударственные структуры производили все эти годы были статистические материалы. Изначально в виде регулярных справочников, до Интернета в бумажном виде, и далее в виде файлов опубликованных в PDF и выложенных онлайн.
Параллельно с этим, многие из подобных структур создавали специализированные разделы на сайтах или отдельные статистические порталы где эта статистика размещалась. Например, портал статистики Всемирной торговой организации или CEPALSTAT. Например, разделы статистики были на большинстве сайтов структур входящих в ООН, на многих других сайтах экономических и политических объединений. Порталы статистики есть у APEC, у Банка международных расчётов и у многих других.
Практически все эти порталы, на самом деле, представляли собой не отдельные данные, а единые базы данных из которых были доступны коллекции показателей. Те из них которые которые были продуманы лучше, обязательно включают реестры метаданных, дают возможность экспорта данных по стандарту SDMX. Практически все эти порталы и разделы создавались на базе ограниченного числа коммерческих и бесплатных продуктов таких как։ .Stat Suit, PXWeb, Data Insight и Open SDG. Эти же продукты активно используются многими национальными статистическими агентствами. Они разного качества, не всегда поддерживают все актуальные стандарты, но практически каждый из них предоставляет гармонизованную единую базу показателей предоставляемую через веб интерфейс построения графиков и позволяющий получать данные в одном или нескольких машиночитаемых форматах.
Но в последние годы подход к работе с данными у большинства активных и крупных межгосударственных организаций начал меняться. Ключевое в этих изменениях - это акцент на теме данных в своей работе. На сайтах многих организаций раздел Data стал частью основного меню, иногда в сочетании “Data & Statistics“, но чаще, всё же, просто “Data”. Часть этих разделов по прежнему ведёт на порталы статистики которые могут переименовывать в порталы данных, но мы то помним что они остаются лишь сайтами с индикаторами, сайтами над базами с индикаторами. В других случаях, это совокупность внутренней политики, каталогов данных и микроданных, статистических индикаторов и порталов прозрачности.
Одним из примеров таких проектов является Pacific Data Hub хаб данных Тихоокеанского сообщества который включает каталог открытых данных на базе CKAN, портал с микроданными доступными по запросу, открытый портал статистических показателей по устойчивому развитию и портал с открытыми геоданными.
Другой пример, Единый каталог данных Всемирного банка в который интегрированы метаданные его баз данных, портала открытых данных и портала микроданных.
Эти проекты относительно новы. Например, Pacific Data Hub был запущен в 2020 году, а единый каталог данных Всемирного банка был открыт в 2021 году.
Кроме CKAN, который является относительно простым и бесплатным ПО, активно используется ещё и ArcGIS, причём, как в виде каталога геоданных в его облачной версии, так и в виде отдельной инсталляции. Например, портал данных о народонаселении - это именно каталог данных на базе ArcGIS. Что, вероятно, оправдано когда данные имеют геопривязку, и не будет применимо когда её нет.
Микроданные
Микроданные, как данные создаваемые в процессе проведения опросов и переписей относят к чувствительным данным, позволяющим идентифицировать конкретного человека. Они редко являются общедоступными, но часто необходимы исследователям для работы. Многие международные организации создают и наполняют централизованные порталы микроданных. Например, соответствующий портал Всемирного банка или раздел с микроданными на сайте Международной организации труда․ Чаще всего доступ к микроданным возможен только с разрешения организаций владельцев их создавших или хранящих, но текущая тенденция идёт к тому что общедоступными являются как минимум метаданные этих микроданных что упрощает возможность для исследователей данные находить и понимать насколько они могут применить данные в своей работе. Почти все из каталогов микроданных межгосударственных организаций основаны на NADA Data Catalog. Это ПО с открытым кодом позволяющее хранить и предоставлять доступ к микроданным.
Интерфейсы для программирующих аналитиков и разработчиков
Важное, если не главное, отличие современных порталов с данными от публикаций данных ранее в том что современные порталы ориентированы на аналитиков владеющих программными инструментами и на разработчиков работающих с машиночитаемыми формами и API.
Многие порталы данных позволяют выгружать данные целиком (bulk download), а не маленькими показателями/наборами данных. Например, такой инструмент есть у Международной организации труда. У других порталов есть хорошо описанная документация с их содержанием. Например, портал для разработчиков от Международного валютного фонда. Часто API, также, является неотъемлимой частью используемого каталога данных. Например, типовое API есть у CKAN, PXWeb, .Stat Suite, NADA и других продуктов. Есть немало инструкций о том как извлекать данные из этих API для использования, например, в тетрадках по работе с данными. А также инструкции как загружать данные в продукты вроде STATA
В качестве заключения
Лично я наблюдаю довольно существенные изменения в межгосударственных организациях по их стратегиям работы с данными. Помимо принятой стратегии по данным ООН, появляются стратегии других агентств. Например, IOM Migration Data Strategy, группа по стратегии данных и инновациям в ВОЗ и многие другие. Можно говорить о том что наиболее активные (живые) из межгосударственных организаций перестраивают свою публичную и внутреннюю работу на современные инструменты и подходы работы с данными.
Многие данные и инструменты сейчас создаются в контексте Sustainable Development Goals (SDG). Явно в этом направлении продолжится развитие.
Аналитики и разработчики рассматриваются ими как отдельная аудитория, для которой публикуются машиночитаемые наборы данных, предоставляется API и документация.
Список каталогов данных
Этот список настолько полон насколько возможно, пока нет единого каталога каталогов данных межгосударственных организаций и даже организаций входящих в ООН. Если Вы знаете базы данных и каталоги не учтённые в этом списке, присылайте их комментариями к этой публикации или в чате в Telegram.
Всемирный банк
data.worldbank.org - хотя и называется World Bank Open Data, на самом деле это лишь одна из баз с индикаторами по странам. Можно сказать что исторически сложилось что у этой базы данных поддомен data, хотя основные данные уже не там
microdata.worldbank.org - каталог статистических микроданных собираемых Всемирным банком. Распространяются по стандарту DDI, частично как открытые данные, частично как данные к которым следует запрашивать доступ.
databank.worldbank.org - каталог данных Всемирного банка (DataBank), а ещё вернее каталог метаданных разных банков данных включая данные из World Bank Open Data, данных рейтинга Doing Business и других. Всего 85 баз данных
datacatalog.worldbank.org - единый каталог данных где проиндексированы микроданные, данные из DataBank и других.
Международный валютный фонд
www.imf.org/en/Data - раздел “Данные” на сайте Международного валютного фонда с перечнем общедоступных баз данных.
data.imf.org - портал данных индикаторов на основе пары десятков баз данных Международного валютного фонда. Данные можно скачать через API или в машиночитаемых форматах.
UN DESA (Департамент по экономическим и социальным вопросам ООН)
Population division (Отдел по народонаселению)
www.un.org/development/desa/pd/data-landing-page - раздел посвящённый базам данных на сайте подразделения
population.un.org/dataportal - портал индикаторов отдела по народонаселению ООН
Statistics division (Статистический отдел)
data.un.org - каталог статистических показателей статистического подразделения ООН․ Фактически это не каталог разных наборов данных, а именно база показателей, аналогичная проекту набора показателей Всемирного Банка.
unstats-undesa.opendata.arcgis.com - хаб наборов данных по устойчивому развитию с геопривязкой (на базе сервисов ArcGIS)
unstats.un.org/sdgs/dataportal - база индикаторов по устойчивому развитию, с привязкой к странам, метаданными и API и с доступом по стандарту SDMX
UNHCR (Управление Верховного комиссара ООН по делам беженцев)
microdata.unhcr.org - каталог микроданных управления ООН по делам беженцев. Создан на аналогичном движке что и портал микроданных Всемирного банка и между порталами много кросс-ссылок на коллекции данных.
data.unhcr.org - портал операционных данных со сведениями о текущей ситуации и данными по странам. Скорее агрегатор неструктурированных данных, но включает коллекцию геосервисов.
unhcr.org - раздел “Data” на сайте UNHCR со списком проектов и баз данных и API доступных для аналитиков
UNESCO (Учреждение ООН по вопросам образования, науки и культуры)
www.unesco.org/en/ideas-data/data-center - раздел Данные на сайте ЮНЕСКО, с перечнем общедоступных баз данных
data.uis.unesco.org - база индикаторов собираемых институтом статистики ООН по темам культуры и науки. С возможностью их массовой выгрузки
core.unesco.org - ключевые данные ЮНЕСКО, портал раскрытия информации о проектах, финансировании, результатах и так далее. С раскрытием данных по стандарту IATI в машиночитаемой форме
opendata.unesco.org - предыдущая версия портала раскрытия информации, обновлялась до декабря 2021 года
UNDP (Программа развития ООН)
data.undp.org - платформа данных UNDP Data Futures. По сути это база индикаторов с возможностью их визуализации на карте и в виде графиков.
hdr.undp.org/data-center - данные рейтингов и сопровождающих материлов по Индексу человеческого развития
open.undp.org - портал раскрытия информации о проектах UNDP включая финансирование, местонахождение, содержание и иную информацию о проектах. Данные по стандарту IATI в машиночитаемом виде и в виде API
UN OCHA (Управление ООН по координации гуманитарных вопросов)
data.humdata.org - портал данных UN OCHA на базе доработанной версии портала CKAN и включающая десятки тысяч наборов данных. Крупнейший портал открытых данных стуктур ООН
UNIDO (Организация Объединённых Наций по промышленному развитию)
stat.unido.org - портал данных UNIDO, явно переименованный из портала статистики UNIDO. База индикаторов промышленно развития разделенных на несколько групп и программ․ Не видно наличия API, но можно скачивать отдельные индикаторы.
ILO (Международная организация труда)
ilostat.ilo.org - статистический портал ILO, машиночитаемые данные и API, включая данные в формате SDMX
www.ilo.org/surveyLib - каталог агрегатор микроданных Международной организации труда, поддерживает стандарт DDI, основан на открытом ПО NADA
WHO (Всемирная организация здравоохранения)
www.who.int/data - раздел посвящённый данным на сайте WHO с перечнем баз данных и основанных на них продуктов, таких как ежегодные отчеты
data.who.int - портал данных WHO, как и многие другие порталы данных структур ООН состоит из нескольких баз данных в виде наборов индикаторов по странам
WTO (Всемирная торговая организация)
data.wto.org - каталог баз данных WTO, объём метаданных весьма ограничен, фактически только название и описание базы данных и ссылка на сайт.
stats.wto.org - портал статистики WTO с индикаторами международной торговли в разрезе стран
ITU (Международный союз электросвязи)
datahub.itu.int - портал индикаторов ITU с индикаторами по темам коммуникации и информационным технологиям
FAO (Продовольственная и сельскохозяйственная организация ООН)
www.fao.org/statistics/en/ - раздел статистики на сайте FAO с перечнем центров данных и баз данных собираемых организацией.
www.fao.org/faostat/en/ - портал данных FAOSTAT с базой открытых индикаторов по продовольствию и сельскому хозяйству
microdata.fao.org - портал микроданных FAO, на том же движке что и порталы микроданных UNHR и Всемирного банка
amis-outlook.org - информационная система сельскохозяйственного рынка с данным индикаторов по этому рынку
UNESCAP (Экономическая и социальная комиссия для Азии и Тихого океана)
data.unescap.org - портал индикаторов устойчивого развития UNESCAP с возможностью выгрузки через API и машиночитаемых форматах
UNECE (Европейская экономическая комиссия ООН)
w3.unece.org/PXWeb/en - портал статических индикаторов UNECE с возможностью выгрузки в машиночитаемых форматах
CEPAL (Экономическая комиссия для Латинской Америки и Карибского бассейна)
statistics.cepal.org - статистический портал CEPAL с индикаторами в машиночитаемых форматах
UNODC (Управление ООН по наркотикам и преступности)
dataunodc.un.org - портал данных UNODC со статистическими показателями. Сделан на довольно устаревших технологиях, без API и ограниченным экспортом данных. Внутри используется отображение через Microsoft PowerBI в их облаке.
UNFPA (Фонд народонаселения ООН)
pdp.unfpa.org - портал данных народонаселения на базе ArcGIS с наборами данных с геопривязкой. Данных относительно немного и все относятся к страновым индикаторам
ADB (Азиатский банк развития)
data.adb.org - каталог данных Азиатского банка развития, на базе CKAN, с данными разного типа Excel, CSV и XML.
kidb.adb.org - база ключевых индикаторов Азиатского банка развития, включает машиночитаемый экспорт данных и API.
www.adb.org/what-we-do/data/main - раздел Данные и статистика на сайте ADB с перечнем баз данных Азиатского банка развития
IADB (Межамериканский банк развития)
data.iadb.org - каталог данных в форматах JSON, Excel, CSV и других с данными Межамериканского банка развития. Под лицензиями CC-BY-NC и с API.
OECD (Организация международного сотрудничества, ОЭСР)
data.oecd.org - портал индикаторов ОЭСР с данными по странам участникам и кандидатам во вступление. Включает возможность выгрузки данных через API и в форматах SDMX
stats.oecd.org - портал статистики ОЭСР OECD.Stat с базой индикаторов с возможностью выгрузки в машиночитаемых форматах
IATI (Инициатива по прозрачности международной помощи)
IATI - это открытый стандарт раскрытия и набор международных соглашений согласном которым международные и национальные агентства развития раскрывают данные о помощи развивающимся странам в специальном машиночитаемом формате данных.
iatiregistry.org - реестр опубликованных открытых данных по стандарту IATI, 1514 организаций раскрыли свои данные на январь 2023 года.
AfDB (Африканский банк развития)
dataportal.opendataforafrica.org - портал данных Африканского банка развития созданный в рамках инициативы The Africa Information Highway (AIH)
BIS (Международный банк расчётов)
www.bis.org/statistics/ - раздел статистики на сайте Международного банка расчётов, включая перечень баз данных банка доступных для широкой публики
stats.bis.org - портал статистических индикаторов BIS
SPC (Тихоокеанское сообщество)
pacificdata.org - портал и каталог данных Тихоокеанского сообщества. Более 11 тысяч записей, правда большая часть которых это PDF документы. Портал на базе CKAN
stats.pacificdata.org - портал статистики с возможностью получения данных через API и в формате SDMX
microdata.pacificdata.org - портал микроданных, почти все микроданные доступны только по запросу.
EAC (Восточноафриканское сообщество)
eac.opendataforafrica.org - портал данных EAC на базе портала Африканского банка развития, по сути выступает агрегатором данных из других официальных порталов данных.
APEC (Азиатско-Тихоокеанское экономическое сотрудничество)
statistics.apec.org - статистический портал APEC, не открытые данные, с возможностью выгрузки только в Excel
IEF (Международный энергетический форум)
www.jodidata.org - портал раскрытия данных JODI Data
UIC (Международный союз железных дорог)
uic-stats.uic.org - база статистических индикаторов с детализацией по странам и компаниям