Open Source полностью изменил процесс написания кода. Может ли открытие данные сделать то же самое с большими данными? Эксперты говорят «да».
Открытое ПО сопровождало компьютинг с первого дня, но именно проприетарное ПО правило бал в компаниях. Но и оно использовало открытый код и особенности его лицензирования для преобразования порядка написания наших программ. Сегодня даже Microsoft применяет открытый код. Теперь фонд Linux Foundation создал новую базовую открытую лицензию Community Data License Agreement (CDLA), которая может сыграть для данных такую же роль, какую сыграл открытый код для программирования.
На конференции Open Source Summit Europe в Праге Linux Foundation анонсировал новое семейство лицензий на открытые данные. Лицензии CDLA представляют собой попытку определить основы лицензирования «открытых» данных с целью поддержать базирующиеся на сотрудничестве сообщества, созданные для курирования и совместного использования таких данных.
В частности, лицензии CDLA позволяют частным лицам и организациям совместно использовать данные так же просто, как они используют открытый код. Эти модели лицензирования призваны помогать людям создавать сообщества для сбора, курирования и поддержки больших данных. Это придаст новую ценность созданным для использования данных сообществам и компаниям, а также мощь новым приложениям для работы с данными.
Благодаря программам с открытым кодом, таким как Hadoop, Spark и MongoDB, технологии больших данных позволили нам преобразовать неструктурированные данные в полезную информацию. Сегодня проблема заключается в том, чтобы собрать критическую массу данных для анализа с помощью этих инструментов. Лицензии CDLA предназначены для того, чтобы помочь правительствам, научным учреждениям, компаниям и другим организациям открыть и совместно использовать данные с целью создания сообществ, которые открыто курируют данные и обмениваются ими.
Например, фонд утверждает: «Если производители и поставщики автомашин, а также услуги гражданской инфраструктуры, будут совместно использовать данные, они, возможно, смогут повысить безопасность, сократить потребление энергии и усовершенствовать предсказательное обслуживание. В области навигации самоуправляемые машины сильно зависят от систем искусственного интеллекта и нуждаются в огромных объемах данных для нормального функционирования. Оказавшись на дороге, они могут генерировать почти гигабайт данных в секунду. Для среднестатистической машины это означает 2 Пб данных от датчиков, аудио, видео и прочих систем в год».
Но как совместно использовать ценные данные законным образом? До сих пор нет типового плана юридически оформленного управления совместным использованием данных. Каждое соглашение о совместном использовании данных уникально. Именно здесь в дело вступают лицензии CDLA.
«Данные — это нефть XXI века, — напомнил Марк Рэдклифф, партнер и глобальный председатель правления группы FOSS Practice Group одной из ведущих мировых юридических компаний DLA Piper. — Однако юридическая защита и лицензирование данных находятся на начальной стадии развития. Многие нынешние лицензии придерживаются непоследовательных (и часто несовершенных) подходов к использованию и лицензированию данных. CDLA предоставляет компаниям и юристам ценный инструмент управления использованием и лицензированием данных. В лучших традициях сообщества открытого кода Linux Foundation использовал процесс сотрудничества для достижения наилучшего из возможных соглашений. Я буду применять CDLA в интересах многих моих клиентов».
Имеются две лицензии CDLA. Лицензия на совместное использование побуждает предоставлять данные сообществу пользователей данных, но не требует этого. Она напоминает Linux Gnu General Public License version 2 (GPLv2). Другая лицензия носит разрешительный характер. Она не предъявляет дополнительных требований к получающим или предоставляющим открытые данные и несколько напоминает лицензию BSD.
Эбен Моглен, профессор права в Columbia Law School и директор-организатор Software Freedom Law Center (SFLC), пояснил: «Лицензирование совместно используемых данных сделает для машинного обучения и следующей фазы в эволюции информационной технологии то, что сделала GPL и воплощенная в ней этика свободного ПО для первичного производства ПО на протяжении жизни предыдущего поколения. Ясно выражаясь, хорошо сформулированные правила совместного использования коллективно созданных данных откроют возможности широкого сотрудничества и помогут нам сопротивляться слишком централизованному владению ресурсом, имеющим важнейшее значение для социального и экономического развития в XXI веке».
Лицензии CDLA разработаны с учетом потребностей компаний, организаций и сообществ, обладающих ценными активами в виде данных, которые можно коллективно использовать. По замыслу лицензий, предоставляющие и получающие наборы открытых данных должны активно использовать и поддерживать предоставление данных в единообразном виде, четко формулируя условия совместного использования и снижая риски.
На практике эти лицензии предоставят компаниям, правительствам и организациям следующие возможности:
-
производители данных могут внести большую ясность в вопрос, что получатели вправе с ними делать. Производители данных могут также выбирать между лицензиями на совместное использование и разрешительными лицензиями и определять модель, наиболее отвечающую их интересам. В любом случае, производители данных должны радоваться четкости признаваемых условий и оговорок по поводу обязательств и гарантий;
-
созданные ради данных сообщества могут стандартизировать лицензии или наборы лицензий, позволяющие совместно использовать данные на известных, равных условиях, удовлетворяющих требованиям как производителей, так и пользователей данных. Созданные ради данных сообщества обладают большой гибкостью при добавлении собственных механизмов управления и требований для курирования данных, особенно в таких областях, как идентифицирующая человека информация;
-
пользователи, которые ищут наборы данных для обучения систем искусственного интеллекта или для любых других целей, смогут находить данные, совместно используемые на основе определенной модели лицензирования и на условиях, четко определяющих их права и ответственность.
Конечно, CDLA — это только основа. Тем не менее, это больше, чем у нас было до сих пор. Кроме того, для CDLA не имеет значения конфиденциальность данных. Они предполагают, что публикаторы и кураторы данных создадут собственную структуру управления, определяющую, какие данные и как именно они курируют. Каждый производитель или куратор данных должен проработать различные юридические требования и правовые вопросы.
Почему? Потому что «CDLA задуманы в качестве соглашения, которое может использоваться по всему миру. Поскольку данные могут лицензироваться провайдерами, находящимися во многих странах, CDLA Working Group решила не определять правовую систему или юрисдикцию, чтобы способствовать всемирному распространению соглашения».
Даже не определяя порядок применения права, как заметил исполнительный директор Linux Foundation Джим Землин, «лицензия на открытые данные существенно важна для беспрепятственного совместного использования данных, которое питает критические технологии и идет на пользу обществу. Успех провайдеров ПО с открытым кодом служит ярким примером, чего можно достичь, когда люди вместе берутся за некий ресурс и совершенствуют его ради общего блага. Лицензии CDLA — это важнейший шаг в данном направлении. Они будут стимулировать непрерывный рост приложений и инфраструктуры».