Почему данные по России так непросто найти
Легче найти иголку в стогу сена если она там есть, чем стог сена в поле если его там нет.
К вопросу о доступности данных в России и о России, о сложностях, возможностях, ограничениях и общей специфики.
Я начну с того что Россия одна из нескольких стран, с одной стороны, с большим объёмом общедоступной информации, в первую очередь из-за больших расходов на цифровизацию в последние пару десятилетий, а с другой стороны с одна из стран с большим числом внутренних барьеров влияющих, как на доступность данных для граждан так и их качество.
Я про российскую специфику знаю больше чем, к примеру, про китайскую и регулярно пишу, а какие-то факты могу и повторить.
Итак, особенности российской ситуации с открытыми и общедоступными данными:
1. Почти полное отсутствие открытых научных данных. В институциональных репозиториях научных результатов почти во всех ВУЗах есть только публикации в виде статей. Это резко контрастирует со всеми странами где есть живая наука. В то же время многочисленные научные наборы данных из РФ есть в иностранных репозиториях, как правило созданы эти данные в соавторстве с исследователями других стран.
2. Высокая степень закрытости всего что касается геоданных и это также отличает от всего мира, где повсеместно используются, либо ArcGIS, либо набор ПО открытого кода такие как GeoNode, Geonetwork, Geoserver. В России они тоже есть, но масштаб проникновения куда ниже чем мог бы быть и много продуктов представленных только в России и нигде более. Тут есть большое сходство с Китаем, кстати.
3. Всё что касается открытых государственных данных оказалось в кризисе ещё с момента первых инициатив в 2012-2015 годах. Обязательные требования к раскрытию никому не нужных административных данных привело к тому что 99% госорганов стали воспринимать публикацию данных как часть бессмысленной бюрократической нагрузки, а портал данных data.gov.ru выродился в бесконечную помойку. Но сейчас даже этой помойки нет, а оставшийся 1% госорганов - это ФНС РФ, Казначейство России, отчасти Минкультуры и несколько регионов. И всё. У большинства остальных госорганов публикация данных, либо имитационна, либо не производится уже лет 8. Данные просто не обновляют, удаляют и тд.
При этом, к примеру, в Dateno, формально, 244 тысячи наборов данных относятся к Russian Federation, но из них 195 тысяч - это датасеты ГИС-портала Спутникового Центра ДВО РАН. А там данные не российские данные, а клон метаданных датасетов NOAA (Метеорологическая служба США). По хорошему надо этот источник данных полностью исключить из-за его полной вторичности, тем более что он сейчас недоступен и при следующем обновлении индекса, с высокой вероятностью, мы его отключим.
Итого остаётся чуть менее 50 тысяч наборов данных из которых около 9 тысяч наборов данных - это созданные Инфокультурой порталы hubofdata.ru и ngodata.ru, ещё около 28 тысяч - это данные о России на международных статистических порталах и остальное - это геоданные из инсталляций ArcGIS и Geoserver органов власти. Совсем чуть-чуть научных данных из Репозитория открытых данных по русской литературе и фольклору Пушкинского дома в СПб.
Означает ли это что данных нет? Совсем не так. Это означает что большая часть российских данных не публикуются по принятым в мире стандартам и поэтому не индексируются в Dateno. Это означает что многие банки документов так и не были превращены в открытые данные. Для открытых государственных данных методрекомендации Минэкономразвития были бессмысленны с самого начала именно по этой причине, в мире для агрегации датасетов используют стандарт DCAT, а в РФ решили изобрести свой, плохо смоделированный, велосипед.
По этой теме я могу продолжать ещё долго, но в целом хочу зафиксировать что доступность данных - это не только их публикация, но и соблюдение стандартов за счёт чего повышается находимость данных. В поиске Google по датасетам на русском выпадают результаты со ссылками на hubofdata.ru и ngodata.ru не по той причине что они самые точные и релевантные, а просто потому что поддерживают стандарт schema.org.
В Dateno всё ещё мало российских датасетов не по той причине что не хочется их добавить, а потому что их владельцы не то чтобы сильно заинтересованы чтобы их хоть кто-то использовал.
К примеру данные с data.mos.ru портала открытых данных города Москвы отсутствуют в Google Dataset Search
и отсутствуют в поиске Dateno
не считая слепка сайта размещённого на hubofdata.ru. Почему так? Потому что data.mos.ru хоть и неплохой портал, но ни стандарта Schema.org, ни DCAT он не поддерживает. По мировым меркам он нестандартный.
И, наконец, я уже неоднократно говорил что вот это огораживание РФ от мира и мира от РФ приводит к тому что большая часть российских госсайтов недоступны за пределами российских подсетей. Они выпадают из под архивации Archive.org, выпадают из поиска в Google и тд. Многие из них выпадают из индекса Dateno по той же причине.
В этой ситуации, почти наверняка, нам получится привязать к РФ ещё 20-30 тысяч датасетов в текущем индексе улучшив геокодирование имеющихся данных. Это не так просто, но и не фантастически сложно, в первичных данных часто такие сведения есть, но закодированы по разному.
В будущем данных о России и из России будет в Dateno больше, но пока это происходит не от желания владельцев данных, а скорее вопреки их устремлениям.
#opendata #russia #datasets #datasearch #data #dateno