#5. Экономика открытых данных и коммерческие проекты на их основе
Можно ли зарабатывать на открытых данных и продолжать ими заниматься?
В этом выпуске пойдет речь о экономике открытых данных и монетизации проектов в работе над данными и не только.
Экономика открытых данных
Один из ключевых вызовов перед всеми движениями за открытость - это их экономическая обоснованность. При том что этих движений много: open knowledge, open source, open data, open hardware, в итоге оказывается что устойчивая экономически обоснованная модель существования пока существует только вокруг открытого кода (open source).
Про открытый код хорошо написано в книге Nadia Eghbal Working in Public: The Making and Maintenance of Open Source Software где она анализирует то как устроены сообщества открытого кода и то как удаётся создавать значимые продукты на энтузиазме и то как этот энтузиазм поддерживается, в том числе, корпорациями.
В отличие от открытого кода у других движений за открытость всё не так однозначно. Несмотря на большое число разнообразных проектов, тем не менее их экономика далеко не так чётко описана.
Например, открытость знаний, open knowledge, имеет огромное число сторонников в мире, знаковые проекты, такие как Wikipedia или Archive.org, но не имеет никакой экономики кроме пожертвований и грантов.
Открытые данные и открытость данные как явление также имеет огромное число проектов в мире, но там где возникает экономический эффект, он либо опосредованный, через большую доступность данных для широкой аудитории, или, на самом деле, он через снижение издержек бизнеса на доступ данным. Поэтому, во многом, в США и Европе тема открытых данных переходит в раздел политической открытости, а экономический эффект считают и проектируют от практик обмена данными (data sharing).
Почему это так? В чём ключевые отличия открытых данных от открытого кода?
Главные отличия в том что открытый код - это создание инструментов, а открытые данные - это добыча ресурсов.
Открытые данные - это и есть один из видов ресурсов добываемых технологическими компаниями, значительно снижающими издержки на создание продуктов, но как и все ресурсы делиться ими никто не спешит.
И даже наоборот. Во многом взлёт интереса к открытому коду возник на переходе бизнес моделей от значительной стоимости инструментов (прикладного ПО) к максимальному снижению влияния именно компаний разработчиков и индустрии коммерческой разработки ПО и усилению data-корпораций, финансирующих открытый код для того чтобы им было удобнее, проще, дешевле обрабатывать огромные объёмы данных в их недрах.
Эта причина, конечно, не единственная почему открытый код получил хорошее развитие в мире, но достаточно веская.
В итоге на уровне крупнейших цифровых игроков движение за открытые данные поддерживает только Microsoft, но и это несравнимо с их поддержкой открытого кода. Почему не Google? Почему в России не Яндекс? Потому что для data-корпораций публичные проекты с открытыми данными приводят к неизбежным вопросам: А почему Вы не даёте доступа хотя бы к малой толике тех данных которые Вы создаете?
Итоговая ситуация такова что для открытых данных всё ещё нет экономической модели похожей на экономику открытого кода. Появится ли она?
Как финансируются и монетизируются проекты на/для открытых данных?
Одна из важных проблем вокруг проектов по открытым данным в поиске их финансирования и монетизации. Эту проблему можно описать вопросом: А можно ли вообще создавать проекты на открытых данных с сохранением их ценности?
Большую часть проектов на открытых данных можно разделить на 2 типа: коммерческие и некоммерческие.
Коммерческие проекты, чаще стартапы, создаются, как правило, не только на открытых данных, а на некой смеси открытых данных, данных полученных иным образом и технологиях и процессах вокруг них и с ними связанных.
Все системы проверки контрагентов - это такие коммерческие проекты. Чаще успешные, но, что называется, существующие в “красном океане“, огромной конкуренции и постоянном давлении от появления новых игроков и смен правил игры. Это проекты созданные изначально под монетизацию данных и, конечно, все данные создаваемые в их процессе доступны для пользователей только на коммерческой основе. Эти проекты только потребляют данные, их вложение в экосистему невелико и, обычно, на уровне лоббирования открытости. Их можно отнести к подгруппе коммерческих проектов: проекты основанные на данных
Другой тип коммерческих проектов - это инфраструктурно-сервисные проекты и продукты. Например, стартапы по визуализации данных или же попытки создать Github для данных, такие как, Qri, Data.world, Datahub и ещё несколько десятков других. Их модель иная, они не нарушают принципов открытости, но и не создают данных. Они лишь формируют собственные экосистемы куда привлекают органы власти, энтузиастов, исследователей и журналистов для публикации данных на их платформах и использовании данных в своих целях.
С другой стороны существует большое число общественных и некоммерческих проектов которые, чаще всего, имеют, либо государственную, либо грантовую, либо академическую/исследовательскую природу. Например, USASpending.gov портал созданный ещё администрацией Барака Обамы в США был создан на базе Fedspending.org, некоммерческого проекта по мониторингу госконтрактов федеральных органов власти в США. Или проект ResourceProjects созданный и поддерживаемый международной НКО Natural Resource Governance Institute.
Главная проблема всех общественных и некоммерческих проектов - это устойчивость финансирования. За редким исключением, когда эти проекты являются объектом кооперации нескольких стран и имеют долгосрочную стратегию, они появляются и умирают, часто не воскресая.
Иногда они пытаются возродиться как коммерческие. Например, Datahub, проект изначально Open Knowledge Foundation, а теперь компании Datopian, развивающеё CKAN продукт с открытым кодом для создание каталогов данных, так вот Datahub был реорганизован в создание аналога Github для данных и с коммерциализацией и некоторой бизнес моделью. В итоге он не стал полноценно востребованным коммерческим проектом и перестал быть полезным некоммерческим проектом.
Есть и другие проекты, такие как OpenOil, начинавшиеся с открытых данных по рынку нефтегазовых компаний и преобразовавшиеся в консалтинговый бизнес для них же в итоге.
Или проект и теперь уже и продукт Censys начинавшийся как академический проект по исследованию инфраструктуры Интернета и публиковавший десятки терабайт данных, сейчас эффективно монетизирующий эти данные и переставший их публиковать.
Очень часто видно что у создателей проектов на открытых данных нет чёткого понимания их будущего. Они хотели бы получать гранты и другую поддержку оставаясь некоммерческими проектами, и хотели бы зарабатывать деньги на том что они создают если это станет востребованным.
Отсюда возникает ситуация со многими технологическими проектам создаваемыми НКО на гранты. НКО хотят поддержки их проектов, но не хотят публиковать результаты рассчитывая, обычно необоснованно, на их дальнейшую монетизацию. Подобная ситуация часто порождает недоверие к таким проектам.
Это гораздо большая тема чем то что я смог бы написать в коротких заметках. Я ещё неоднократно к ней вернусь.
Заметки
практически в любой теме с которой я не сталкиваюсь: открытые данные, корпоративные данные, госданные, библиотеки, архивы, коллекции документов - везде одна и та же проблема в систематизации метаданных, поиске по ним, организации их заполнения и так далее. Не знаю есть ли здесь потенциал к появлению общих правил, принципов и продуктов, но то что это общая проблема в этом сомнений нет. Инструменты автоматизации заполнения метаданных, документирования, выявления пробелов и ошибок более чем актуальны.
Ссылки
Раскрытие информации о запросах (transparency report) компании Яндекс - лучше чем ничего, но очень далеко от идеала. Google, для сравнения, даёт возможность выкачать все эти сведения в машиночитаемой форме.
Emerging Architectures for Modern Data Infrastructure о современных архитектурах для инфрастуктур данных