#22. Почему невозможно хвалить Росстат
Если бы не было статистики, мы бы даже не подозревали о том, как хорошо мы работаем (с) Служебный роман
Среди многих российских органов власти Росстат (Федеральная служба государственной статистики) стоит особняком. Его основными задачами всегда было не оказание гражданам госуслуг и, в принципе, взаимодействие с гражданами, а производство данных собранных от граждан, бизнеса, всех сторон общества.
Функции статистических ведомств во всех странах, в этом смысле, похожи. Они проводят переписи, осуществляют опросы, собирают данные из альтернативных источников и по результатам публикуют статистические продукты в разных формах: данные, документы, аналитика, инфографика, результаты исследований и многое другое.
Поскольку статистические данные часто отражают состояние экономики в целом или отдельных её направлений, то и публикуемые Росстатом данные достаточно быстро распространяются СМИ, используются экономическими акторами для принятия решений и действий.
В адрес Росстата идёт много критики, например, в части переписи населения в 2021 году или изменении методик расчёта показателей. Это критика касается смысловой части работы Росстата, того как и на основе чего рассчитываются показатели, достоверность собираемых данных.
При этом в Росстате происходят изменения, создается Цифровая аналитическая платформа (ГИС ЦАП).
Я же хочу написать о том почему хвалить Росстат не то чтобы даже рано, а просто невозможно.
Но прежде надо определиться кто современные потребители статистических данных.
Кому нужна статистика и в какой форме
Основные потребители статистики за все годы не менялись. Это аналитики, исследователи, ученые, представители бизнеса, журналисты, чиновники, представители иначе говоря все заинтересованные в данных об экономики, обществе и всех остальных которые только собирает официальная статистика.
Можно говорить о том что статистические сведения используются практически повсеместно в любой профессиональной деятельности.
Но что изменилось за последние годы - так это рост числа инструментов для работы с данными. Самые базовые инструменты работы с ними такие как Excel уже стали стандартами де-факто. Статистические данные всё чаще рассматриваются в сочетании с инструментами работы, а к потребителям данных добавились дата-аналитики, дата-журналисты и программисты. Потребность в работе с данными перешла в потребность возможности выгрузки данных для локальной работы внутри информационных систем компаний, других органов власти и так далее. Статистика перестала быть нужной в форме PDF отчетов и нужна в форматах для машинной обработки (XML, JSON, CSV) и через API.
Это тенденция которая происходит по всему миру и она ярко выражена в появлении порталов открытых данных Всемирного банка (data.worldbank.org) и портала данных ООН (data.un.org) которые как раз учитывают это изменение спроса на статистические данные.
Орган власти по производству данных
Важная особенность Росстата в том что результаты его работы использует, условно, неограниченное число пользователей. Причём, в отличие от многих органов власти, Росстат отличается тем что он не просто создает цифровые продукты или продукты основанные на данных (data products). Результатом его работы являются сами данные (data as a product). В самом базовом сценарии эти данные используют просто как отдельные цифры, в публикациях СМИ например.
Но основное потребление именно как наборов данных, выгружаемых с сайта и информационных систем Росстата, загружаемых в другие системы обработки данных или используемые в аналитической работе с помощью Excel и десятков других инструментов работы с табличными данными.
Однако то что можно назвать продукцией Росстат сейчас очень сложно отнести к категории данных, потому что выходными результатами чаще оказываются PDF документы, интерактивные HTML страницы, файлы MS Word. В лучшем случае данные публикуются в виде файлов Excel.
Редким исключением является система ЕМИСС (fedstat.ru) где публикуются сведения из федерального плана статистических работ, а также витрина статистических данных. Но это, в общем-то, и всё что есть сейчас из общедоступных систем позволяющих делать хотя бы экспорт данных.
Данные как продукт (data as a product)
Какие продукты сейчас Росстат производит? Если даже хотя бы поверхностно просистематизировать
Информационные системы такие как ЕМИСС, витрина статисческих данных, Цифровая аналитическая платформа, база муниципальных показателей. Основной единицей измерения этих систем можно назвать показатель. Показатели объединённые в группы и снабжёнными метаданными - это то что можно получить из каждой из них.
Официальные публикации статистических данных, в виде файлов (PDF, Excel, HTML) (что-то из этого может дублироваться):
статистические сборники
оперативная информация
публикации официальной статистики
информационно-аналитические материалы
статистические издания
Публикации в рамках международных инициатив, такие как цели устойчивого развития и ССРД МВФ
Публикации по итогам переписей населения и иных переписей.
Справочники и классификаторы.
Открытые данные - которые, на самом деле, лишь форма публикации упомянутых выше продуктов.
Возможно есть что-то ещё, но думаю что основное я перечислил. Так вот если коротко, то за редким исключением, состояние этих продуктов удручающее.
Информационные системы Росстата
Общая характеристика всех информационных систем Росстата - их немашиночитаемость, отсутствие API, единой системы метаданных и возможности массовой выгрузки (bulk download).
Единая межведомственная статистическая система (ЕМИСС)
Ссылка: https://fedstat.ru
ЕМИСС, с одной стороны, одна из наиболее развитых систем публикации статистических показателей. На 20 января 2022 г. в ней их было 8091 от 65 ведомств. У показателей есть паспорта с метаданными, а сами данные можно смотреть на сайте или скачать в форматах Excel или в отраслевом XML формате SDMX (Statistical Data and Metadata eXchange).
Со многих точек зрения ЕМИСС выглядит довольно прилично, но практика работы с этими данными значительно отличается.
Я писал о состоянии ЕМИСС в апреле 2021 года у себя в телеграм канале, и продублирую тезисы:
Данные актуализируются с очень большими задержками. Не все, но многие данные задерживаются в среднем на 1.5-2 года. Где-то это особенность методологии, но везде ли?
По любому показателю есть "просмотр по умолчанию" при котором отображаются не все параметры, а только несколько. Например, только последние годы и только несколько регионов. Это можно поменять в настройках отображения, но надо для этого делать доп. действия и это может показаться безобидным.
На самом деле этот "просмотр по умолчанию" не безобиден. Потому что экспорт данных по умолчанию из этого просмотра по умолчанию. Нет простого способа получить все значения показателя, нужны дополнительные действия и скрейперы или ручная выгрузка данных.
У Росстата, по совершенно неизвестной мне причине, нет системы управления нормативно справочной информацией. Это называют системы НСИ. Они есть у Минздрава, ФФОМС, Минцифры и ещё много где, но у Росстате нет. В результате, например, на около 7 тысяч показателей в ЕМИСС есть чуть менее 700 справочников (691 на сегодня). Они называются code lists, такие справочники есть, например, у Евростата, система RAMON , там 283 справочника при заметно большем числе, 10.5 тыс индикаторов. Из российских 691 справочника которые видны только внутри XML файлов у десятков если не более есть пересечения. Это справочники товаров, регионов и стран. Почему так? Может быть потому что работа с НСИ - это и есть огромная методологическая работа, а вести её некому.
Может быть это проблема конкретно ЕМИСС и в других случаях ситуация получше ? В витринах данных Росстата (showdata.gks.ru) ситуация ещё хуже. Методических пояснений меньше, справочники вообще не приведены, экспорта в форматы включающие справочники (code lists) тоже нет. Только простые форматы CSV, XLS и тд. В других системах Росстата (общедоступных) нет и такого
С того времени в ЕМИСС ничего не изменилось. Ко всему этому можно добавить отсутствие API и то что при экспорте данных нет возможности получить метаданные, описание паспорта показателя.
Витрины статистических данных
Ссылка: https://showdata.gks.ru
Витрины статистических данных как и система ЕМИСС относится к относительно новым системам Росстата. При этом она имеет те же недостатки что и ЕМИСС помноженные на невозможности машинного получения данных.
Тезисно:
Нет возможности получения данных в автоматизированном режиме через API или массовую выгрузку. Каждый показатель надо выкачивать по отдельности.
Как и у ЕМИСС у каждого показателя есть режим “просмотр по умолчанию“ когда при открытии показателя по ссылке “Отчет“ он показывается не в полном объёме, а в режиме преднастроенного просмотра какой-то его малой части и для просмотра или выгрузки показателя целиком необходимо проделать обязательный набор ручных прокликиваний по всем галочкам.
Данные можно выгрузить в CSV и XLS, но они не содержат метаданных показателя. Метаданные показателей также нельзя выгрузить отдельно.
В отличии от ЕМИСС где можно хотя бы получить справочники связанные с показателем из SDMX файла, здесь нет такой возможности как и в принципе получить данные справочников. Их необходимо реконструировать из данных выгруженных по самому показателю.
Итого витрины статистических данных практически непригодны для интеграции и выгрузки данных, работать с ними можно только вручную и с набором известных ограничений.
База муниципальных показателей
Ссылка: https://rosstat.gov.ru/storage/mediabank/ykmb3eKg/munst.htm
База данных показателей муниципальных образований - это одна из yнаследованных систем Росстата, созданных очень давно и практически не обновлявшихся. Для пользователя база, по сути, представляет многоступенчатую форму запроса к СУБД по итогам заполнения которой пользователю выдается таблица в HTML которую он может по итогам скачать в формате MS Word.
Можно сказать что эта система устарела технически и морально. Из неё практически невозможно выгружать данные, а Росстат за всё это время ни разу не опубликовал данные из этой системы в формате открытых данных или хотя бы даже дампом в SQL или ином формате.
Официальные публикации статистических данных
У Росстата есть много статистической продукции публикуемой на сайте. В разделах информационно-аналитические материалы, публикации территориальных органов и официальная статистика публикуются документы в формате PDF, Word, Excel, HTML по самым разным темам.
Например, Балансы товарных ресурсов отдельных товаров (видов продукции) публикуются в виде DOC файлов, а Потребление основных продуктов питания населением Российской Федерации в виде архивов RAR внутри которых документы MS Word и Excel.
И так далее, в лучшем случае данные этих публикаций можно получить в файлов Excel. Но и эти файлы готовятся вручную, имеют разные форматы, не включают структуры справочников и, в принципе, непригодны для автоматической машинной обработки.
В худшем случае данные представлены в виде HTML страниц непригодных для работы. Пример, подраздел Финансы раздела Официальной статистики, блок О финансовых результатах деятельности организаций в январе-мае 2021 года.
Справочники и классификаторы
Росстат - это орган власти ведущий не только работу по сбору и публикации данных, но отвечающий за методологические аспекты этого сбора. Эта методологическая работа включает ведение общероссийских справочников необходимых для статистического учета. Эти справочники используются органами власти, компаниями, аналитиками, программистами, да почти всеми кто хоть как-то работает со статистическими данными и данными к этим справочникам привязанными.
На сайте Росстата есть специальный раздел Общероссийские и ведомственные классификаторы где представлены такие классификаторы как: ОКОПФ, ОКТМО, ОКАТО, ОКОГУ, ОКОФ, ОКФС и другие. Представлены, правильно, как Вы уже догадались в виде файлов MS Word. То есть даже не Excel, как некоторые, не все, статистические данные, а именно большим числом DOCX файлов из которых надо “выковыривать таблицы“.
Поскольку я сам часто сталкиваюсь с задачами для работы с данными где нужны актуальные версии справочников могу сказать что данные Росстата напрямую использовать невозможно. Те же справочники можно найти в системе Электронный бюджет Минфина России, в разделе открытые данные через API и в удобном JSON формате или в системе справочников Санкт-Петербурга, пример, классификатор ОКОГУ или в других государственных информационных системах создатели которых отдают данные в нормальном виде.
Вот здесь можно вспомнить что у Росстата же есть раздел “Открытые данные“ где справочники тоже публикуются.
Посмотрим на набор данных справочника ОКВЭД2, он публикется даже без выходных метаданных и заголовков у CSV файлов.
А многих классификаторов, таких как ОКОГУ, даже нет в разделе открытых данных.
Впрочем про раздел открытые данные я напишу отдельно.
Открытые данные
В октябре 2021 года я написал заметку у себя в телеграм канале о том как загружал данные с сайта Росстата из раздела открытые данные в раздела Статистика каталога DataCrafter’а. Когда загрузка только начиналась казалось - вот как много будет данных, 1500+ датасетов официальной статистики.
Реальность оказалась несколько иной, вот итоговые результаты:
сайта Росстата скачано 1547 наборов данных
742 наборов однотипная структура из CSV файлов с полями: area,gender,urban,value (все их можно было опубликовать как один набор данных)
ещё 617 наборов данных это однотипные показатели в формате SDMX без документации, также их можно было опубликовать как один набор данных
надо ли объяснять что это получается куча мелких файлов, эдакое "необоснованное дробление данных" (c) ради числа наборов данных
половина данных опубликовано как CSV, другая половина как XML. Файлы CSV имеют ту особенность что половина с разделителем запятой (,), половина с разделителем (;).
у 20 наборов данных у файлов CSV отсутствуют заголовки
итого, если делать всё по уму, то у Росстата на сайте было бы всего 188 наборов данных. А если ещё объединить в один датасет вакансии всех террорганов Росстата то и всего то около 103-105 наборов данных. Чувствуете разницу?
некоторые из наборов данных имеют расширение csv, а внутри это zip файлы. А иногда это zip файлы внутри которых файлы csv которые... на самом деле не csv, а тоже zip файлы
около 30% опубликованных CSV файлов в кодировке windows-1251, остальные в UTF-8, нигде при этом не указано что в каком виде.
несколько наборов данных XML - это дампы показателей из внутренней BI системы. Без документации.
Фактически сотрудники Росстата раздробили на несколько сотен файлов данные результатов переписи ВПН-2010, опубликовали множество однотипных наборов данных по территориальным подразделениям и, в целом, в разделе “Открытые данные“ на сайте данных меньше чем в ЕМИСС, витринах статистических данных и файлах официальных публикаций.
Здесь я далее не описываю то как публикуются данные переписи, поскольку на примере того как их публиковали в разделе Открытые данные, можно уже понять что публикуют их не очень то пригодными для работы.
Итого
Итого у нас есть Цифровая аналитическая платформа которую уже давно обещают, есть существующая реальность когда почти вся продукция Росстата должна быть данными и данными она не является. Есть новая команда Росстата, у которой было достаточно времени чтобы исправить то как данные готовятся и публикуются сейчас. Но ничего не меняется, хвалить Росстат категорически невозможно. Можно лишь критиковать с разной степенью ожесточенности.
Что делать чтобы поменять текущую ситуацию?
Самое очевидное это:
разработать стратегию управления данными
перейти в режим data-first для всех публикаци когда вначале публикуются данные, а все остальные формы их представления (документы, веб-страницы и BI) вторичны
предоставить API и массовую выгрузку данных из существующих информационных систем, опубликовать ВСЕ наборы данных и показатели как открытые данные
исправить и привести порядок публикацию открытых данных
а самое главное разговаривать с потребителями их продукции и учитывать их мнение.
Это и ещё многое другое предмет выработки стратегии. Реалистичны ли эти изменения? Вот в чём вопрос.