#16. Государственные реестры
Эту рассылку я решил посвятить такой специфической теме как государственные реестры, регистры, справочники и иные, как правило, общедоступные базы данных. Как правило их появление - это отражение какой-либо деятельности регулируемой государственными органами области деятельности.
Государственные реестры
В России существует несколько тысяч государственных и муниципальных органов власти, а может быть и десятков тысяч если учитывать муниципальные власти всех уровней муниципалитетов, их ведь более 20 тысяч. И почти каждый из этих органов власти ведёт от одного до десятков реестров. Это могут быть реестры имущества, зелёных насаждений, торговые реестры, реестры документации, учреждений, разрешений, лицензий, сертификатов, уполномоченных организаций, экспертов, поставщиков, счетов, разного рода объектов, лауреатов и ещё бесконечного число всего остального.
У этих реестров есть много отличий по логике их наполнения и актуализации, по составу и содержанию, по метаданным, по предназначению, но почти у всех из них есть нечто общее - низкое качество данных.
Зачем нужны реестры?
Главный смысл существования любого реестра - это предоставление справочных эталонных сведений. Это могут быть сведения о наличии у компании разрешения на какие-либо работы, наличие у объекта специального статуса и так далее. Но во всех случаях к реестрам обращаются когда хотят получить подтверждение статуса/характеристики через его наличие в нормативно-закрепленном перечне объектов (реестре).
Достоверность - это одна из базовых характеристик любого реестра. Например, мы обращаемся к реестру адвокатов чтобы убедиться что у потенциального адвоката которого мы хотим нанять есть адвокатский статус. А к реестру программного обеспечения в целях понять можно ли закупать ту или иную программу для импортозамещения.
Проблемы ведения реестров
Отсутствие общих стандартов и рекомендаций
Нет такого понятия как “типовой реестр” или стандартов ведения реестров или даже хотя бы методических рекомендаций. Есть требования которые могут устанавливаться законами или приказами ведомств относящиеся или к одному реестру или к группе по определённой тематической области, но и в этом случае эти требования описывают, как правило, только процессы формирования реестра и его содержание. Исключение составляют только случаи отраслевых систем управления нормативно-справочной информацией (НСИ) где реестры ведутся как справочники по общим правилам. Например, это системы НСИ Минздрава РФ nsi.rosminzdrav.ru и ФФОМС nsi.ffoms.ru.
Устаревание сведений
Подавляющее число реестров не учитывают жизненный цикл объектов регистрации и объектов с которыми регистрация связана. Например, орган власти ведущий реестр лицензий выданных организациям может включать в этот реестр наименование организации, виды её деятельности, контакты и адрес, при том что виды деятельности, наименование, контакты и адрес могут меняться в эталонном реестре. А при их изменении в основном реестре, в данном случае это ЕГРЮЛ, изменения не переносятся в реестр лицензий. Как следствие - данные оказываются устаревшими и могут не соответствовать действительности.
Ошибки
Одна из самых распространённых проблем с любыми реестрами - это ошибки ручного или автоматизированного ввода данных из-за отсутствия форматно-логического контроля. Эти ошибки, относительно просто отследить для некоторых типов данных, например, реквизитов организаций ИНН/ОГРН/КПП. Можно отслеживать заполненность определённых полей. Можно, с ограничениями, проверять наименования организаций, ФИО, адресов и ещё ряда типов/видов данных, но всё это упирается в то что этот контроль качества возможен только для данных в машиночитаемой форме или в базах данных, но в тех случаях когда реестры ведутся и публикуются документами.
Немашиночитаемость
Несмотря на то что реестры это практически всегда табличные данные, огромное число реестров публикуются в немашиночитаемых форматах PDF, DOC/DOCX, сканах документов и так далее. Это не только ломает модели использования данных (реестры подтверждают статус объекта, часто их надо сопоставлять автоматически с другими данными), но и резко ограничивает возможность проверки их качества. Как следствие немашиночитаемость - это характеристика культуры управления данными.
Два подхода к ведению реестров
Если отбросить все худшие варианты ведения реестров в виде регулярных публикаций документов сканов за подписью руководителей, есть всего два основных подхода к их ведению: справочник или учётная система.
Реестр как справочник
Практически любой реестр можно рассматривать как справочник. Например, ФФОМС ведёт Реестр пунктов выдачи полисов. Он ведётся наряду с такими справочниками как ОКАТО, ОКВЭД и ещё многими другими. У реестра как справочника есть версии, регулярно обновляемые и публикуемые. Похожим образом ведутся многие реестры Минздрава или, например, база данных ФИАС. Реестр как справочник хороший инструмент для всех нормативно-справочных систем в которых предусматривается возможность обращаться не только к текущей версии, но и к историческим версиям реестра.
Реестр как учётная система
Для многих реестров, особенно связанных с большим числом изменений, более актуальным является ведение реестров как учётных систем. Когда каждая запись в нём рассматривается ещё и с точки зрения возможных/потенциальных изменений и при внесении изменений можно увидеть эту запись в ретроспективе (старые редакции). Так устроен, например, справочник ЕСКЛП где у каждой записи есть карточка истории изменений.
Каким мог бы быть идеальный реестр?
В ведении реестров, на самом деле, нет какой-то высшей магии и одновременно нет необходимости упрощать до безобразия. Реестр должны обеспечивать сопоставимость и достоверность данных, учитывать что они регулируются нормативными документами, учитывать жизненный цикл объектов регистрации.
Идеальный реестр должен включать:
уникальные идентификаторы каждой записи
поиск, просмотр записи, фильтрацию и выгрузку в Excel
расширяемую структуру данных;
данные не должны удаляться, только обретать отметку архивной записи или статус “удалено“;
автоматический форматно-логический контроль (реквизиты автоматически подтягиваются из эталонных реестров + проверка на соответствие требованиям);
сохранение просмотр архивных версий записей;
указание нормативных документов и иных решений в соответствии с которыми вносятся записи (например, приказы органы власти) со ссылками на файлы документов
автоматическая синхронизация с эталонными реестрами вроде ЕГРЮЛ/ЕГРИП (при этом отражение изменений при синхронизации в истории изменений);
постоянные ссылки на реестр целиком и на конкретную запись
возможность выгрузки реестра в машиночитаемом виде целиком и доступ через API;
К этому ещё многое можно добавить, я бы пока ограничился этим списком.
Как ведут и публикуют реестры сейчас
Разные реестры ведут по разному, публикуют тоже по разному. Кроме примеров что я приводил ранее, вот ещё подборка:
Реестр программного обеспечения - в плюс: поиск, ссылки на нормативные документы, экспорт в машиночитаемые форматы, пермалинки. в минус - отсутствие истории изменений
ЕСКЛП - в плюс: поиск, пермалинки, экспорт в машиночитаемые форматы, история изменений. в минус - отсутствие ссылок на НПА (возможно неприменимо)
Реестр промышленных кластеров - в плюс: упоминание НПА (но без ссылок), в минус: немашиночитаемость, нет пермалинков, нет идентификаторов объектов, нет ссылок на нормативные документы, нет истории изменений
Если сделать “рейтинг реестров” по качеству их ведения то хорошо сделанных окажется немного. Плохо сделанных будет большинство.
При этом очень хорошо заметна разница в культуре работы с данными у разных органов власти и даже внутри одного органа власти. Если у Минюста реестр адвокатов всё ещё выглядит ужасно, то с реестром нотариусов они уже что-то пытаются делать.
Во всех случаях достоверность данных - это предмет отдельного исследования. В целом качество данных скорее плохое, чем какое-либо ещё.
Что делать?
По хорошему нужны единые требования и рекомендации, возможно единый портал НСИ или перестройка порталов открытых данных под ведение реестров. Нужен автоматический контроль качества данных, нужна машиночитаемость и ещё многое другое. Как всегда остаётся вопрос как и кто может такие правила задать и вот тут ответ неясен потому что пока что все реестры каждый орган власти делает по своему.