Статистика как дата продукт
Недавно, во время анализа многих международных и национальных порталов официальной статистики, я прочитал неплохую сжатую статью Deliver Your Data as a Product, But Not as an Application.
Если не пересказывать её целиком, то мысль статьи такова что данные имеют ценности сами по себе, когда для конечного пользователя важны именно данные, то и надо сосредотачиваться на создании дата продуктов (data products), а не приложений на них основанных. И эти приложения, а ещё точнее, интерфейсы над данными должны давать больше, а не меньше возможностей по их получению.
Мысль простая, очевидная для профессиональных дата аналитиков, не очевидная, к сожалению, для многих, даже весьма уважаемых владельцев и создателей данных, и часто забываемая разработчиками ПО, которые, зачастую, вместо создания дата продуктов, прилагают усилия по созданию визуализации и сложной программной логики вместо API и массовой выгрузки.
Всё это применимо и неотъемлимо от современной статистики, как официальной государственной и межгосударственной, так и той что создаётся бизнесом или НКО.
Официальная статистика как документы
Официальная статистика - это продукт который наиболее очевидным образом является тем что должно быть открытыми государственными данными. Во многих странах она собирается уже более двух столетий и долгое время она существовала только как статистические сборники, бюллетени, отчеты и иные бумажные документы. С появлением компьютеров и далее интернета эти документы в виде сканов и электронных текстов стали доступны более широкому числу читателей, но их природа не изменилась - это были лишь электронные отражения бумажных документов.
До сих пор во многих наиболее бедных странах сложно найти официальную статистику кроме как в виде бумажных или электронных (PDF/сканы) книг и бюллетеней. С одной стороны эта форма кажется исчезающей и редкой, с другой стороны даже в развитых странах до сих пор существуют статистические бюллетени отдельных органов власти и представленные там данные только в этих документах и существуют.
Можно назвать такую форму создания и предоставления статистики как наиболее архаичную. Иногда такой подход вызван крайней бедностью статистических служб, иногда отсутствием профессионалов способных создавать статистику, иногда это связано с традициями выпуска бумажных бюллетеней, даже после исчезновения бумаги, продолжается публикация их в PDF.
Реже, но тоже может быть, это может быть вызвано сознательными усилиями владельцев данных по предоставлению статистики. Когда обязательства публиковать есть, но очень не хочется давать данные удобным пользователю способом. Иногда, чтобы их продавать уже в хорошем виде, иногда чтобы целенаправленно мешать пользователям их анализировать.
Вот пара примеров такого подхода
Официальный сайт статистической службы Туркменистана www.stat.gov.tm
Всё что есть из общедоступных данных - это вот такая картинка в разделе переписи населения. Это, правда, совсем радикальный случай, нет даже статистических бюллетеней, просто ничего нет, только пара картинок.
Раздел статистикан на официальном сайте Минтранса России mintrans.gov.ru
А вот другой пример, того как официальная статистика Минтранса России до сих пор публикуется в виде PDF документов статистического бюллетеня. Думаю что очевидно что работать с этими данными крайне сложно, построение временных рядов требует большой ручной работы.
Официальная статистика как таблицы
Со временем развития текстовых редакторов и редакторов таблиц, совершенно естественно, получили развитие, и инструменты подготовки данных, и то как с ними начали работать создало новую практику публикации статистических данных в табличной форме.
Начиная с самых очевидных форматов табличных файлов MS Excel (.xls, .xlsx) или OpenOffice (.ods) и продолжая другими форматами такими как CSV, TSV, форматами данных для программных продуктов Stata, Statistica и др.
Публикации статистических данных как таблиц кажется совершенно ественным развитием. Статистику создают таблицами, обновляют таблицами, используют таблицами. Так почему же её не публиковать таблицами?
Технических инструментов и программных продуктов для этой цели было создано немало. Можно особенно выделить продукты NESSTAR, PxWeb, .Stat. Они и многие другие позволяли использовать системы построения запросов к статистическим базам данных, просматривать отдельные индикаторы и экспортировать данных в разных табличных форматах.
К примеру, таблицами публикуется статистика Армении в статистическом банке и отчетами на сайте.
Выбор индикатора в statbank.armstat.am
Конечно, многое зависит от реализации и один и тот же владелец данных может отдавать данные более или менее удобным способом, где-то через построитель запросов, где-то в виде Excel файла, а где-то в виде HTML таблицы.
HTML таблица с индикаторами на сайте armstat.am
Конечно, доступность данных статистики в табличном виде гораздо удобнее для пользователей. Нет необходимости анализировать кучу справочников вручную или писать код для разбора PDF документов или, хуже того, сканов.
Такой доступ к данным уже кажется привычным, ну или как минимум “нормальным”.
Официальная статистика как дата продукты
Ключевое изменение последних лет - это переход от публикации статистики как документов и таблиц, к открытым данным и API. И тут надо объяснить отличия этого подхода от того что применялся ранее. Во многих статистических порталах и базах индикаторов до недавних пор приложение, способ получения данных, было первично, а сами данные были доступны неким опосредованным способом.
К примеру, такой программный продукт как PxWeb эксплуатируется в странах Северной Европы и ещё ряда стран. Он позволяет выбирать индикаторы из базы и строить запрос с получением таблицы в итоге. Далее эту таблицу можно экспортировать в форматах CSV, JSON и других форматах.
Например, база статистики Финляндии
Визуализация индикатора в системе PxWeb на сайте statfin.stat.fi
Это пример можно сказать переходного подхода, от таблиц, к дата продукту. Здесь уже есть возможность скачать данные многочисленными способами и пример доступа через API. Но до полноценного перехода нехватает двух ключевых аспектов: массовая выгрузка и API как основа продукта (API-first).
В чём они заключаются?
Массовая выгрузка (bulk download) - это возможность получения всей базы целиком. Подобное применимо не только к статистике, но к статистике точно применимо. Основная идея в том что существует большое число потребителей которым просто нужна вся база со всеми данными. Не отдельный индикатор, не отдельный малый срез за период времени, а всё и целиком. Владельцам данных часто сложно преодолеть психологический барьер того что их усилия по созданию приложений по визуализации статистики никому не нужны и то что они не имеют контроля за распространением и доступом к данным. Но… Если такой механизм не делать, то всё равно найдутся те кто напишут парсеры и получат базу индикаторов целиком. А предоставление данных целиком - это реализация принципа открытости по умолчанию (open by default) который должен быть абсолютно естественнен для проектов ориентированных на создание общего блага. Официальную статистику однозначно можно к подобному отнести.
Есть немало хороших примеров публикации данных для массовой выгрузки, я бы особенно выделил следующие.
Портал данных Европейского банка с возможностью выгрузки всех данных индикаторов.
Страница выгрузки данных с портала data.ecb.europa.eu
Особенность данного портала в количестве показателей, в общей сложности их сотни тысяч и объём их весьма велик. Несмотря на это разработчики портала дают возможность получить данные “здесь и сейчас“ и многочисленными способами. В том числе непосредственно из карточки/профиля отдельных индикаторов где данные можно скачать в привычных Excel и CSV форматах или в виде картинки графика.
Карточка индикатора на сайте data.ecb.europe.eu и форматы выгрузки
Но, обратите внимание, что доступность данных первична. Страницы индикаторов и их визуальное отображение являются скорее ценным дополнением для тех специалистов кто не владеет техническими инструментами.
Похожим образом публикуется статистика ФАОСТАТ (Статистический отдел Продовольственной и сельскохозяйственной организации Объединенных Наций)
Страница сайта faostat.org
На сайте ФАОСТАТ можно двумя файлами скачать все их индикаторы, а их много. Общий объём не так велик, около 1.5 гигабайт в сжатом виде
Некоторые порталы реализуют эти функции не в полной мере. Например, на портале данных ООН data.un.org предоставляется SDMX API на основе двжка SDMX-RI Евростата. Можно сказать что портал частично переходит на модель дата продукта, но не до конца, потому что нет массовой выгрузки
Страница API портала data.un.org
Дальнейший поиск в Гугл по ключевым словам statistics bulk download выдаст ещё немало межгосударственных и национальных статистических порталов с удобной выгрузкой данных.
Их не подавляющее число, но много, достаточно много чтобы показывать их как примеры тем кто думает об обновлении и создании новых статистических порталов.
Как мог бы выглядеть современный портал с открытой статистикой?
По следам этих размышлений я сформулировал следующие пункты которым просто не может не соответствовать хороший современных статистический портал:
1. Унификация.
Хорошо опубликованные статистические данные практически всегда хорошо унифицированы. У них есть так называется code lists, стандартизированные справочники территорий, видов деятельности и тд. Они унифицированы в единые форматы и с ними можно работать унифицированным образом с любым индикатором. Можно сказать что почти во всех развитых странах базы индикаторов доступны таким вот унифицированным образом. В современных национальных системах управления статпоказателями такая унификация почти всегда увязана на внедрение стандарта SMDX от 2 до 3 версии.
2. Массовая выгрузка.
На английском языке она звучит как bulk download, возможность выкачать базу индикаторов целиком с минимальным объёмом усилий. Может выглядеть как 1-2 zip файла со всем содержимым, так делают в FAO, или тысячи csv/csv.gz файлов по одному по каждому индикатору, со всем содержимым индикатора и каталогом ссылок на все файлы. Так делают в Евростате и ILO.
3. Универсальный поиск.
Статистические продукты бывают разные, иногда в разных информационных системах, в разных форматах, включая архивные статсборники. Универсальный поиск позволяет искать по ним всем. Начиная с интерактивных таблиц и заканчивая архивными материалами и даёт возможность найти нужные данные в нужном формате за заданный период.
4. Открытые данные по умолчанию.
Практика альтернативная возможности массовой выгрузки когда статистические показатели с самого начала публикуются на стандартизированном портале открытых данных с уже имеющимся API этого портала и доступны для выгрузки через это стандартное API. Например, так делают в ЦБ Бразилии с дата порталом на базе CKAN и в Катаре с их госпорталом открытых данных на базе OpenDataSoft
5. Экспорт данных и доступ через API.
Не просто экспорт в Excel, а как минимум выбор из 5-6 форматов начиная от самых простых вроде csv, продолжая форматами для Stata и других продуктов, автогенерацией кода для Python или R и наличию SDK к хотя бы паре популярных языков разработки для доступа к данным. У многих европейских порталов статданных есть неофициальные SDK, в других вроде статданных Гонконга автоматически генерируется код на Python на страницах интерактивных таблиц.
6. Технологичность.
Тут можно было бы добавить и соответствие лучшим дата-инженерным практикам. Это включает: доступность данных в форматах parquet, документация к API по стандарту OpenAPI, общедоступные примеры работы через Postman или аналоги, общая документация в стиле технологических проектов с интерактивными примерами, а не в форме отчетности подрядчика по контракту в PDF. Технологичность - это про доступ и про документацию, как ни странно, но это самое актуальное для статданных.
В качестве завершения хочу сказать что непременно радует появление всё большего числа порталов со статистикой понимающих что статистика - это дата продукт. Мы собираем статистические индикаторы в поисковой системе по данным Dateno и разница между удобными порталами со статистикой и архаичными резко бросается в глаза. Статистика как общественное благо заслуживает быть удобной, доступной и, обязательно, машиночитаемой!
#statistics #opendata #datacatalogs #datasets