Где искать данные?
Данных много, но как их найти? Кроме классических поисковых систем в которые можно вбить поисковой запрос и надеяться что-то найти, есть много источников не столь хорошо известных и используемых.
Я приведу подборку наиболее значимых и крупных и добавлю несколько источников данных по России.
Поиск наборов данных
Google Dataset Search - поиск от Google по наборам данных, был анонсирован в 2018 году и вышел из беты в январе 2020 года. Миллионы наборов данных с одной стороны, но, поскольку источниками для поисковика являются данные Dataset из микроразметки Schema.org то он охватывает не все каталоги данных и наоборот, многие результаты являются скорее SEO оптимизацией страниц на которых реальных данных нет.
Каталоги каталогов данных
Open Data Inception - каталог из 2600+ каталогов открытых данных от Open Data Soft. Далеко не все каталоги там упомянуты, например, по России не указано около 200 каталогов, но пока он самый полный по миру.
Open Data Portals - каталог из 590 каталогов собранных Open Knowledge Foundation. Давно не обновлялся
Re3Data - каталог репозиториев научных данных, 2700+ репозиториев зарегистрировано, фокус на каталоги данных используемые научными учреждениями
Крупные каталоги данных
Harvard Dataverse - почти 115 тысяч наборов данных публикуемых исследователями Гарварда, является частью инициативы Dataverse с 69 инсталляциями научными учреждениями
Data.gov - крупнейший государственный портал открытых данных в США
Data.world - каталог данных и одноименный стартап, агрегирует данные из десятков госкаталогов и партнерствует со многими владельцами данных. В общей сложности, от сотен тысяч до миллиона наборов данных.
Dolthub - каталог данных построен по модели Git для данных. Много данных загруженных пользователями, многие данные выгружаются из порталов открытых данных
Qri - ещё один крупный каталог данных построенный по модели Git для данных. В данном случае акцент на агрегации данных из открытых источников.
Quilt - открытый каталог данных на базе Amazon AWS, всего 3.7 петабайта данных, очень много данных в виде файлов для последующей машинной обработки и данных научных исследований.
Archive.org - огромные коллекции наборов данных в интернет архиве Archive.org
Awesome public datasets - большая коллекция ссылок на наборы данных
Крупные корпоративные каталоги данных
Registry of open data on AWS - реестр открытых данных на Amazon AWS от Amazon. Очень большие наборы данных с уклоном в востребованность исследователями
Azure Open Datasets - небольшой каталог наборов данных от команды Azure (Microsoft) на их платформе.
Opendatsoft Data Network - агрегированный каталог данных от Opendatasoft. Более 23 тысяч наборов данных из открытых инсталляций их ПО каталогов данных.
Каталоги данных для машинного обучения
Kaggle Datasets - данные на сайте конкурсов для машинного обучения Kaggle, много данных нацеленных на data science
Каталоги данных в России
Open data resources in Russia - список каталогов данных в России пополняемый пользователями
Хаб открытых данных - каталог открытых данных на базе CKAN, поддерживается АНО Инфокультура
Data.gov.ru - официальный государственный портал открытых данных, не обновлялся несколько лет.
DataCrafter - специальный коммерческий каталог данных собранных из открытых источников и не только, с акцентом на данные о юр лицах, статистику и госфинансах.
Можно обратить внимание что до сих пор для наборов данных нет чего-то универсального позволяющего найти какие угодно данные. Возможно такой поисковик появится в будущем, а сейчас есть множество поисковиков и каталогов данных позволяющих находить нужное.