Обновленный портал Data.gov.ru
Посмотрите, здесь похоронены открытые данные и они для них сделали красивое надгробие (c)
15 июля 2025 года Минэкономразвития РФ вновь открыло для всех новую версию Портала открытых данных России data.gov.ru.
Для тех кто не следил ранее за его судьбой напомню что предыдущая версия портала была закрыта в 2023 году для “переноса на платформу Гостех“ и новая версия должна была быть открыта конце 2024 года, но всё растянулось до 15 июля 2025 г.
Немного цифр
До того как предыдущая версия data.gov.ru была закрыта, ещё в начале 2022 года я делал полную архивную копию собранных там данных и на 2 февраля 2022 года на портале было опубликовано более 24 тысяч наборов данных общим объёмом в 14ГБ в сжатом виде. Единый 14ГБ ZIP архив можно скачать с хранилища проекта Национального цифрового архива (ruarxive.org).
Новый портал оказался полной переделкой и на нём было размещено всего чуть менее 5826 наборов данных общим объёмом в 100МБ в виде сжатого ZIP архива (на страницах сайта декларируется меньшее их число, но через API доступно больше датасетов).
Большая часть этих данных - это CSV файлы небольшого объёма, не обновлявшиеся от 4 до 10 лет.
Прежде чем продолжить приводить цифры и другую аналитику по свежеоткрывшемуся порталу я обращусь к теме того для чего национальные порталы открытых данных создаются, для кого и в какой форме они существуют.
Для чего нужны национальные порталы открытых данных?
У примерно половины стран мира, всего 96 есть официальные государственные сайты выполняющие роль национальных порталов открытых данных. Это порталы таких стран как Франция (data.gouv.fr), Великобритания (data.gov.uk), США (data.gov), Албания (opendata.gov.al), Таиланд (data.go.th), Бразилия (dados.gov.br) и многие другие. Фактически, порталы открытых данных есть у всех развитых стран и значительной части развивающихся, а нет их, в основном, в наиболее неразвитых странах, не имеющих собственного цифрового бизнеса, развитого гражданского общества или живой науки.
Порталы открытых данных не совсем новое явление, их начали создавать на национальном уровне ещё примерно с 2010 года, а до этого были разрозненные инициативы.
Зачем же их создают? В мире порталы открытых данных ориентируются на одну или несколько целевых аудиторий специалистов имеющих потребность в данных.
Данные бывают разные, потребности, также, бывают разные:
✅ Аналитикам – полная и оперативная официальная статистика.
✅ Исследователям – отраслевые данные в своих дисциплинах для глубокого анализа и новых открытий.
✅ Геоинформатикам – доступ к цифровым картографическим материалам и геопространственным наборам данных.
✅ Общественникам и НКО – данные для гражданского контроля и мониторинга работы государственных институтов.
✅ Программистам – данные для создания и улучшения цифровых сервисов.
✅ Преподавателям и студентам – данные для обучения, практики и отработки аналитических и разработческих навыков.
к этим группам относительно недавно добавилась группа
✅ Исследователям ИИ - для обучения искусственного интеллекта, нейросетей и подключения к ИИ агентам.
Обычно национальные порталы открытых данных охватывают сразу несколько аудиторий, но бывает и специализация на какой-то конкретной.
Например, на портале открытых данных США (data.gov) преимущественно размещены исследовательские данные и геоданные.
На общеевропейском портале (data.europa.eu) и на большинстве порталов открытых данных стран Евросоза до 75% всех наборов данных - это геоданные в разнообразных форматах (Geojson, SHP, точки API для WFS, WMS и другие геосервисов).
Портал открытых данных Малайзии (data.gov.my) имеет сильный крен в сторону официальной статистики, да и создан он на базе статистического портала страны.
И так далее, примеров множество, все их объединяет акцент на доступность востребованных данных. Даже простые порталы данных, без визуализации, без API и других возможностей, полезны когда на них размещены и регулярно обновляются данные у которых есть пользователи.
На некоторых порталах, таких как портал открытых данных Франции (data.gouv.fr) есть специальный раздел с приложениями использующими наборы данных и API размещённые на портале.
Чтобы понять насколько новая версия data.gov.ru охватывает перечисленные аудитории надо подробнее взглянуть на опубликованные данные.
Глубже в данные
Рассмотрим портал data.gov.ru с точек зрения объёмов данных, их актуальности и полноты.
Объёмы данных
Общий объём всех данных на новой версии портала data.gov.ru составляет 100МБ в сжатом виде в ZIP архиве и около 1ГБ.
Из 5826 наборов данных которые удалось выгрузить с новой версии портала data.gov.ru следующим образом распределяются по их объёму:
4694 наборов данных имеют менее 100 строк (80.5%)
586 наборов данных имеют от 100 и менее 500 строк (10%)
350 наборов данных имеют от 500 и менее 10000 строк (6%
и лишь 62 набора данных имеют от 10000 строк (1%)
остальные 3% наборов данных выгрузить не удалось
Итого лишь 1% всех наборов данных можно отнести если не к большим, но хоть как-то заметным.
Много это или мало? В качестве сравнения я приведу объёмы данных статистических показателей на портале ЕМИСС (fedstat.ru) который до конца 2025 года Росстат выводит из эксплуатации. На сайте ЕМИСС сейчас доступно (удалось выгрузить совсем недавно) наборы данных 6905 показателей общим объёмом в 4.36ГБ в сжатом виде в форме CSV файлов и около 60ГБ в распакованном. Это, примерно, в 60 раз больше чем все данные на data.gov.ru.
А ведь ЕМИСС - это лишь одна из государственных информационных систем и далеко не самая большая. Гораздо большие объёмы данных публиковались Федеральным Казначейством, ФНС России и так далее.
Ещё для сравнения, в ноябре 2022 года я делал полный дамп данных с портала открытых данных Москвы (data.mos.ru), это 988 наборов данных, на тот момент, общим объёмом, в сжатом виде, 3ГБ. Это в 30 раз больше чем 5826 наборов данных на новой версии портала data.gov.ru
Как такое возможно? Этот вопрос необходимо задать ответственным лицам в Минэкономразвития РФ. Однако даже при том что данные на московском портале обновляются значительно реже и не все доступны, их объёмы многократно превышают опубликованное на федеральном портале.
Актуальность
У наборов данных на новой версии портала data.gov.ru есть атрибут firstPublication с датой первой публикации.
Из этого атрибута можно высчитать год публикации и получается вот такое распределение по годам.
Можно увидеть что лишь около 15% всех наборов данных опубликованы в 2025 году, около 84% опубликованы более 6 лет назад, в 2019 году и ранее.
От себя добавлю что даже если у набора данных указано что он обновлён в 2025 году - это ещё не значит что он актуален, по личному опыту работы с порталами открытыми данными российских госорганов скажу что актуальная отметка времени в метаданных не гарантирует актуальности самих данных и эти 892 набора данных за 2025 год ещё надо проверять вручную.
Итого на портале не менее 84% неактуальных данных. Много это или мало? Если бы портал существовал лет 10 - это не то чтобы нормально, но объяснимо, а вот для вновь открытого портала это даже не странно, это делает его довольно бесполезным для задач работы с актуальными данными.
С актуальностью данных столь плохо что даже в тех блоках которые создатели “подсвечивают“ на главной странице видно что данные устарели. Например, раздел Метеоданные содержит только один актуальный набор данных.
Этот набор данных называется Реестр лицензий на осуществление работ по активному воздействию на гидрометеорологические процессы и относить его к метеоданным можно очень условно. Это скорее данные о юридических лицах поскольку для тех кто ищет данные о погоде/климате никаких знаний он не несёт.
Полнота
Как понять насколько полон портал, действительно ли там все данные что есть в РФ? Хотя бы все доступные, открытые данные российских органов власти?
Начать стоит с того какие органы власти наиболее масштабно публиковали данные все эти годы, и по объёму, и по числу наборов данных.
Здесь можно начать с системы ЕМИСС (fedstat.ru) которую я ранее упоминал. В ЕМИСС размещено не менее 6905 наборов открытых данных и разместить их на портале открытых данных было бы логично и тем более логично что это именно те данные которые востребованы, как минимум, у исследователей и аналитиков.
Далее официальный сайт Росстата с их разделом открытых данных и не только. По итогам архивации сайтов Росстата и его территориальных органов, на них размещено более 150 тысяч Excel файлов. По хорошему портал открытых данных можно было бы сделать только на их основе, но вот беда, для этого надо потрудится и просистематизировать эти материалы.
К большим и востребованным источникам открытых данных можно отнести:
информационные системы и веб-сайты Минфина России, ФНС России и Федерального Казначейства
портал открытых данных Минкультуры РФ (opendata.mkrf.ru)
региональные порталы открытых данных таких как портал открытых данных Москвы (data.mos.ru)
и ещё ряд крупных государственных информационных систем.
Есть ли эти данные на новой версии data.gov.ru ? Увы, нет
О том что раздела “Финансы“ и финансовых данных на портале ранее писала Ольга Пархимович в своём телеграм канале
Также как и нет данных имеющих отношение к данным открытого доступа, публикуемых исследователями или для исследователей. Это данные по биоразнообразию, данные системы ЕСИМО, данные связанные с компьютерной лингвистикой и многое другое. Да, в России не всё хорошо с открытыми или хотя бы общедоступными результатами научных исследований, но они существуют, создаются за счёт средств федерального бюджета и публикуются.
Фактически аудитория исследователей не охвачена ни коим образом.
—
Не последней причиной произошедшего является архитектура и проектирование портала которое вызывает серьёзные вопросы.
Архитектура и почему она важна
Почему на портале открытых данных так мало данных? Если не количественно, то по объёму? Почему туда не попадают данные из информационных систем? Почему так мало актуальных данных?
У этого, несомненно, есть организационные причины, но в данном случае они тесно переплетены с причинами техническими. Тем как и где данные создаются, каким образом они доступны и как они используются повторно.
По моему опыту работы с источниками государственных данных в России почти все значимые данные создаются внутри государственных информационных систем. Данные внутри этих систем доступны в самых разных форматах, но преимущественно - это XML и JSON, реже CSV файлы созданные экспортом из SQL таблиц, а чаще это внутреннее или общедоступное API.
Таких государственных информационных систем в России сотни, на многих есть открытое API, данными многих из них аналитики и разработчики пользуются напрямую и существуют порталы открытых данных которые адаптированы под интеграцию с ними. Как минимум - это порталы открытых данных Москвы (data.mos.ru) и Минкультуры России (opendata.mkrf.ru), оба неидеальны, но построены как раз на механизмах интеграции с другими информационными системами. Данные на них размещаются автоматически и актуализируются регулярно. А сами данные могут быть как CSV файлами, так и данными довольно большого объёма в сложных структурах никак не укладываемых в плоские таблицы.
В то же время портал data.gov.ru просто не приспособлен для работы с подобными данными. Де-факто в нём применяется всего два механизма добавления и обновления данных: вручную и импортом данных созданных по “методрекомендациям“.
Чтобы опубликовать данные вручную сотрудникам органов власти необходимо регулярно заходить в личный кабинет на портале, вручную заполнять все метаданные и отправлять новую версию набора данных на публикацию. Причём в основном это будут сотрудники региональных и муниципальных властей которые и так не то чтобы понимают зачем они это делают, да и публикуемые ими данные не то чтобы востребованы.
Импорт данных созданных по “методрекомендациям” был изначально тупиковой ветвью агрегации данных. Вместо использования международного стандарта DCAT или Schema.org в Минэке ещё на заре создания первой версии портала data.gov.ru придумали свой формат агрегации данных основанный на списках датасетов в CSV файлах реестров и обязали чуть ли не все госучреждения и муниципальные власти создавать такие реестры. Звучит хорошо? На самом деле нет. Это привело к бесконечному числу мелких CSV файлов которые на сайтах госорганахов и госучреждений публиковались пресс-службами. Почти все они неактуальные, бессмысленные и бесполезные почти для всех задач.
При этом, в реальной жизни, данные могут существовать в очень разных форматах: в виде файлов DBF, MS Access, ZIP архивов с текстами для машинного обучения, продвинутых форматах таких как Parquet, разного рода форматах используемых в научной среде, форматах для геоданных таких как SHP, GeoJSON и многие другие.
У меня лично есть большие сомнения что в текущей версии data.gov.ru могут быть какие-либо данные кроме плоских таблиц. Это получается даже хуже чем в предыдущей версии портала в котором могли быть хотя бы приложенные файлы в условно любом формате.
В итоге существующая архитектура портала, если он вообще полноценно проектировался, никак не адаптирована на интеграцию с информационными системами и для работы с данными отличными от CSV файлов малого объёма.
Однако, вернемся к вопросу об аудиториях портала открытых данных.
Как понять что нужно пользователям?
Важно помнить что для пользователей работающих с данными в своих областях и интересах портал открытых данных и сами открытые данные являются не более чем инструментом и снижением барьера для доступа к данным. Например, бизнес выгружает какой-либо реестр напрямую с сайта ведомства через парсинг страниц, а появляется возможность скачивать одним XML/JSON/CSV файлом. Это немного, но облегчает жизнь, но совсем немного, на самом то деле. Реальное же влияние появляется когда на портале публикуются те данные которые ранее в открытом доступе не публиковались и доступ к которым обременён множеством барьеров.
В странах Европейского союза и многих других развитых странах уже давно значимым подходом к публикации является публикация наборов данных высокой ценности (high value datasets). Это чётко определённые типы наборов данных в отношении которых нет сомнений в их необходимости и востребованности разными категориями пользователей.
В Европейском союзе такими наборами данных определены:
Геопространственные данные
(кадастр, топографические карты, адресные реестры, административные границы и др.)Наблюдение за Землёй и окружающей средой
(данные о качестве воздуха и воды, о состоянии почв, мониторинг биоразнообразия, климатические ряды)Метеорологические данные
(почасовые прогнозы, архив метеоданных, данные о температурах, осадках, ветре)Статистические данные
(официальная статистика, микро‑ и макроданные, демография, экономика, сельское хозяйство и пр.)Данные компаний и собственников бенефициаров
(торговые реестры, реестры предприятий, реестры конечных бенефициаров)Мобильность и транспорт
(расписания, данные о пробках, инфраструктура, точки пересадок, схемы дорожной сети)
Кроме того схожий подход применяется в США, Канаде, Австралии, Сингапуре, Новой Зеландии, Южной Корее и Японии.
Например, в Бельгии на национальном портале открытых данных страны data.gov.be доступно 709 наборов данных высокой ценности.
Почти все эти наборы данных - это геоданные из портала геоданных в рамках программы INSPIRE Европейского союза.
Называться они могут по разному: high priority datasets, high value datasets, high impact datasets и так далее. Однако цель их всегда одна, она в концентрации усилий государства на данных имеющих наибольший экономический и социальный эффект.
В России, увы, нет актуальной государственной повестки по публикации подобных данных. В итоге портал открытых данных оказывается наполнен большим числом маленьких бессмысленных наборов данных с явной гонкой на количество опубликованного вместо качества и вместо данных которые реально востребованы.
Некоторые типы данных, такие как геопространственные данные зачастую отсутствуют как явление. Я не пишу сейчас о причинах этого лишь поскольку это отдельная большая тема о доступности геоданных в России, о ней отдельный и длинный разговор.
И, нельзя забывать про ещё одну область наиболее востребованных данных, это данные для искусственного интеллекта.
Данные для искусственного интеллекта
Несмотря на то что государственные бюрократии в мире движутся медленно, но постепенно и они ощущают эффект от хайпа вокруг темы искусственного интеллекта и всё большего числа открытых моделей, наборов данных для их обучения и сервисов для интеграции инструментов и данных с языковыми моделями.
Самые яркие примеры концентрации данных для ИИ - это коммерческие порталы Hugging Face и Kaggle, известные каждому ИИ инженеру и специалисту по data science.
Государственные исследовательские центры, наравне с коммерческими компаниями публикуют там наборы данных под свободными лицензиями. В среде создателей и регуляторов порталов открытых данных активно обсуждается то где такие датасеты должны публиковаться. На порталах открытых данных ? На порталах открытого доступа (с данными для исследователей) ? Или на тех же платформах таких как Kaggle и Hugging Face ?
Я могу лишь сказать что в России немало организаций в сфере ИИ размещающих свои наборы данных на международных ресурсах или на своих веб сайтах. Почему их нет и, похоже, не планируется появление на data.gov.ru ? Этот вопрос лучше задать ответственным лицам в Минэкономразвития, потому что у меня лично это вызывает лишь удивление. Создавать портал данных в 2025 году когда индустрия ИИ является чуть ли не главным потребителем данных - это очень и очень странно, даже как-то неестественно.
А также многое другое
Есть много других направлений в сторону которых все эти годы двигались порталы открытых данных в мире.
Так для аудитории разработчиков активно появлялись как API самих порталов, так и реестры API реального времени к которым можно было бы подключится используя инфраструктуру национального портала как прокси. Так устроены национальные порталы открытых данных в Сингапуре, США, Франции, Великобритании и на порталах данных провинций Китая.
Для аудитории исследователей создаются отдельные подпорталы научных данных, как это сделано во Франции где на базе портала data.gouv.fr развернут подпортал для публикации данных исследователей с выдачей DOI каждому набора данных, расширенными метаданными и другими возможностями значимыми именно для исследователей.
На порталах на базе облачной платформы OpenDataSoft теперь по умолчанию данные можно скачать не только в форматах JSON/XML/CSV, но и в формате Parquet удобном для быстрой аналитики и используемом в data science. Это охватывает несколько сотен порталов открытых данных в мире.
И это лишь самые очевидные изменения в порталах открытых данных последних лет.
Итого
Как бы мне не хотелось сказать хоть что-то положительное, увы, я вынужден констатировать что новый портал не несёт большого рационального смысла и практической пользы. В нем нет актуальных данных ни для одной потенциальной аудитории, нет данных сколь бы то ни было существенного объёма, нет даже наборов данных тех ведомств которые производят их в силу своей профессиональной деятельности, таких как Росстат. Почти все опубликованные там наборы данных давно потеряли актуальность.
Поэтому как относится к новой версии портала data.gov.ru? Как к мемориалу. Минэкономразвития как бы говорит нам “Посмотрите, здесь похоронены открытые данные, мы для них сделали красивое надгробие“.
К счастью наличие национального портала открытых данных на реальную открытость/закрытость информации в России никак не влияет. Все кто работал с первоисточниками так и продолжат делать и дальше. А этот портал через 2-3 года опять превратится в помойку из мелких файлов и будет закрыт уже окончательно.




