Для тех кто мог пропустить, с 20 июля, вот уже совсем скоро Google окончательно заменит раздел с разрешениями приложения в Google Apps на блок Data safety.
В Arstechnica статья о важных отличиях [1].
Раздел "разрешения приложению" был гарантированно актуальным поскольку разрешения описывались автоматически по итогам сканирования приложений, а Data safety - это декларация разработчика приложения по итогам заполнения одноименной формы. Это называется honor system (система на доверии).
Иначе говоря Google заменяют блок описания приложения от "мы проверили роботом, они следят вот так" на "разработчик мамой поклялся что будет вот так честно делать всё".
Впрочем в Google свои планы ещё не анонсировали, возможно раздел с разрешениями приложения всё же вернут под давлением общественности и регуляторов.
А я напомню что приложения для Android'а можно проверять независимыми инструментами такими как Exodus Privacy и др., я регулярно делал их обзоры [2].
Ссылки:
[1] https://arstechnica.com/gadgets/2022/07/google-plays-new-privacy-section-actually-hides-app-permissions/
[2] https://t.me/begtin/3106
#google #android #privacy
В Arstechnica статья о важных отличиях [1].
Раздел "разрешения приложению" был гарантированно актуальным поскольку разрешения описывались автоматически по итогам сканирования приложений, а Data safety - это декларация разработчика приложения по итогам заполнения одноименной формы. Это называется honor system (система на доверии).
Иначе говоря Google заменяют блок описания приложения от "мы проверили роботом, они следят вот так" на "разработчик мамой поклялся что будет вот так честно делать всё".
Впрочем в Google свои планы ещё не анонсировали, возможно раздел с разрешениями приложения всё же вернут под давлением общественности и регуляторов.
А я напомню что приложения для Android'а можно проверять независимыми инструментами такими как Exodus Privacy и др., я регулярно делал их обзоры [2].
Ссылки:
[1] https://arstechnica.com/gadgets/2022/07/google-plays-new-privacy-section-actually-hides-app-permissions/
[2] https://t.me/begtin/3106
#google #android #privacy
Регулярный опргс, что бы Вы хотели читать в этом канале? Пишите также в чате если я чтото упустил
Final Results
52%
Международный опыт, лучшие практики
29%
Российские новости и события
51%
Больше про технические подробности и технологии работы с данными
25%
Больше про открытость
29%
Больше про приватность и инфобез
14%
Больше про архивацию
36%
Больше про бизнес на данных и технологиях
36%
Больше субъективного
10%
Больше объективного
21%
Новые форматы: подкасты, видео и инфографику
Написал большой текст в рассылку про наборы данных особой ценности (high-value datasets) [1].
Не забудьте подписаться [2] на рассылку. В отличие от телеграм канала я пишу туда не чаще чем раз в месяц в виде больших или очень больших текстов.
Ссылки:
[1] https://begtin.substack.com/p/27
[2] https://begtin.substack.com
#readings #opendata #datasets
Не забудьте подписаться [2] на рассылку. В отличие от телеграм канала я пишу туда не чаще чем раз в месяц в виде больших или очень больших текстов.
Ссылки:
[1] https://begtin.substack.com/p/27
[2] https://begtin.substack.com
#readings #opendata #datasets
В блоге статистического ведомства ООН о том как государства получают доступ к данным частных компаний [1] с акцентом на свежее регулирование Евросоюза The Data Act [2].
Краткие тезисы:
— некоторые данные есть только у крупных компаний и они не спешат делиться ими с госорганами
— попытки государств установить партнерства с компаниями в период пандемии сработали в 9 случаях из 41, из отчета Мирового Банка
— Евросоюз в The Data Act установил условия при которых компании обязаны предоставлять данные органам власти по запросу:
* реакция на чрезвычайную ситуацию, например, пандемию или природный катаклизм
* предупреждение чрезвычайной ситуации или восстановление
* ситуации предполагающие "исключительную необходимость" и отсутствие возможности или затруднение в приобретении данных.
Всё это к свежему российскому регулированию в котором российское гос-во также хочет получить доступ к данным коммерческих компаний.
Разница с Евросоюзом у российского регулирования, в недоверии способности органов власти сохранить эти данные, и в этическом дискомфорте поскольку не было даже видимости публичного обсуждения всех последствий этого законопроекта и в расплывчатости российского нормативного регулирования.
Тем не менее, я предскажу что рынок продажи данных государствам со стороны крупных цифровых монополий будет сжиматься. Неизбежно, либо ценовое регулирование, либо предоставление данных крупными компаниями на бесплатной основе.
Причём как раз модель регулирования ЕС, с высокой вероятностью, будут применять в других юрисдикциях.
—
Ссылки:
[1] https://unstats.un.org/unsd/undataforum/blog/the-eu-data-act-regulating-public-sector-access-to-privately-held-data/
[2] https://digital-strategy.ec.europa.eu/en/library/data-act-proposal-regulation-harmonised-rules-fair-access-and-use-data
#data #datasharing #legislation #laws #eu
Краткие тезисы:
— некоторые данные есть только у крупных компаний и они не спешат делиться ими с госорганами
— попытки государств установить партнерства с компаниями в период пандемии сработали в 9 случаях из 41, из отчета Мирового Банка
— Евросоюз в The Data Act установил условия при которых компании обязаны предоставлять данные органам власти по запросу:
* реакция на чрезвычайную ситуацию, например, пандемию или природный катаклизм
* предупреждение чрезвычайной ситуации или восстановление
* ситуации предполагающие "исключительную необходимость" и отсутствие возможности или затруднение в приобретении данных.
Всё это к свежему российскому регулированию в котором российское гос-во также хочет получить доступ к данным коммерческих компаний.
Разница с Евросоюзом у российского регулирования, в недоверии способности органов власти сохранить эти данные, и в этическом дискомфорте поскольку не было даже видимости публичного обсуждения всех последствий этого законопроекта и в расплывчатости российского нормативного регулирования.
Тем не менее, я предскажу что рынок продажи данных государствам со стороны крупных цифровых монополий будет сжиматься. Неизбежно, либо ценовое регулирование, либо предоставление данных крупными компаниями на бесплатной основе.
Причём как раз модель регулирования ЕС, с высокой вероятностью, будут применять в других юрисдикциях.
—
Ссылки:
[1] https://unstats.un.org/unsd/undataforum/blog/the-eu-data-act-regulating-public-sector-access-to-privately-held-data/
[2] https://digital-strategy.ec.europa.eu/en/library/data-act-proposal-regulation-harmonised-rules-fair-access-and-use-data
#data #datasharing #legislation #laws #eu
unstats.un.org
United Nations World Data Forum
Official Website of United Nations World Data Forum
Новости стандартизации, в W3C официально принят и опубликован стандарт Decentralized Identifiers (DIDs) v1.0 [1] в котором описана структура и логика присвоения постоянных идентификаторов объектов находящихся в децентрализованных реестрах.
Фактически - это стандарт для создания аналогов DOI, Handle и других подобных идентификаторов, но на основе Blockchain'а. Идея и область применения весьма интересные, одна из областей где децентрализованные технологии оправданы. Этот стандарт долгое время был черновиком и за этой время появилось более 100 идентификаторов/протоколов/спецификаций на его основе [2]․ Многие, но не все, из них относятся явно к крипте.
Из важных и интересных вопросов в том как будут эволюционировать существующие институции выдачи постоянных идентификаторов.
Ссылки:
[1] https://www.w3.org/TR/2022/REC-did-core-20220719/
[2] https://www.w3.org/TR/did-spec-registries/
#standards #blockchain #w3c #identifiers
Фактически - это стандарт для создания аналогов DOI, Handle и других подобных идентификаторов, но на основе Blockchain'а. Идея и область применения весьма интересные, одна из областей где децентрализованные технологии оправданы. Этот стандарт долгое время был черновиком и за этой время появилось более 100 идентификаторов/протоколов/спецификаций на его основе [2]․ Многие, но не все, из них относятся явно к крипте.
Из важных и интересных вопросов в том как будут эволюционировать существующие институции выдачи постоянных идентификаторов.
Ссылки:
[1] https://www.w3.org/TR/2022/REC-did-core-20220719/
[2] https://www.w3.org/TR/did-spec-registries/
#standards #blockchain #w3c #identifiers
www.w3.org
Decentralized Identifiers (DIDs) v1.0
Decentralized identifiers (DIDs) are a new type of identifier that
enables verifiable, decentralized digital identity. A DID refers to any
subject (e.g., a person, organization, thing, data model, abstract entity, etc.)
as determined by the controller of…
enables verifiable, decentralized digital identity. A DID refers to any
subject (e.g., a person, organization, thing, data model, abstract entity, etc.)
as determined by the controller of…
Вышел глобальный индекс мира (Global Peace Index), разработан Институтом экономики и мира (IEP).
Россия уверенно обгоняет Сирию, Йемен и Афганистан, но отстаёт в миролюбии от Северной Кореи и Сомали занимая почетное 4-е место с конца списка миролюбивых стран.
На постсоветском пространстве лидирует Эстония, далее Латвия и Литва.
Очень сильно просело миролюбие у Казахстана, на 29 позиций и Киргизстана на 21 позицию. У Казахстана самое большое падение миролюбия в мире.
Миру мир, а аналитикам данные!
Индекс публикуется с почти открытыми данными [1], в формате XLSX, не под свободной лицензией, но это хоть что-то пригодное к анализу.
Ссылки:
[1] https://www.visionofhumanity.org/public-release-data/
#data #ratings #peace #countries
Россия уверенно обгоняет Сирию, Йемен и Афганистан, но отстаёт в миролюбии от Северной Кореи и Сомали занимая почетное 4-е место с конца списка миролюбивых стран.
На постсоветском пространстве лидирует Эстония, далее Латвия и Литва.
Очень сильно просело миролюбие у Казахстана, на 29 позиций и Киргизстана на 21 позицию. У Казахстана самое большое падение миролюбия в мире.
Миру мир, а аналитикам данные!
Индекс публикуется с почти открытыми данными [1], в формате XLSX, не под свободной лицензией, но это хоть что-то пригодное к анализу.
Ссылки:
[1] https://www.visionofhumanity.org/public-release-data/
#data #ratings #peace #countries
Вышла версия 6.0 MongoDB, самой популярной документо-ориентированной NoSQL СУБД в мире. Если Вы никогда о ней не слышали и не читали, но работаете с JSON документами, то самое время узнать что это такое и как работает.
В новой версии анонсируют:
1. Улучшение работы с временными рядами
2. Улучшение работы с потоками изменений и возможности подписки на них
3. Улучшенная обработка сложных запросов
4. Больше операторов в языке запросов
5. Улучшенная синхронизация и новые операторы для этих задач
6. Улучшенная безопасность (запросы к зашифрованным данным)
7. Улучшения в поиске в виде фасетного поиска
Если посмотреть на всё это вместе, то кажется всё, в общем-то, очень даже неплохо. Продукт развивается, у него реально очень мало альтернатив, наиболее близкий по функциям продукт ArangoDB, но мигрировать на него требует переписать все запросы, поэтому основная конкуренция идет между MongoDB Cloud и MongoDB-совместимыми облачными базами данных.
Но я скажу честно, по личному опыту и практическому применению, MongoDB - это огромная находка и огромное разочарование.
Дело в том что для многих задач без высокой нагрузки, с иерархическими данными, созданием API с отдачей JSON и тд. у MongoDB очень много уникальных возможностей. Многое готово из коробки, язык запросов прост, привычен, удобства очень велики.
Но, как только дело доходит до высокой производительности то часто оказывается что использовать MongoDB как расширенное key-value хранилище - это норм, а много сложных запросов на больших данных оно не тянет. По многим причинам, рассказывать о них можно много и отдельно, но в целом high-load - это не про MongoDB.
Другая проблема MongoDB в неэффективном хранении данных, по сравнению с колоночными базами данных, к примеру. Это особенность архитектуры, у данных нет схем, нет возможности сжатия их по колонкам, что сжатие улучшает.
Но самая главная проблема в том что MongoDB нет в Modern data stack! Понятно что MDS - это концепция, а не четкий стек инструментов, но MongoDB попадает туда только как унаследованное хранилище данных.
Ключевые продукты популярные в MDS основаны на SQL и плоских структурах данных с чёткими спецификациями. Инструменты вроде dbt не поддерживают MongoDB, не поддерживают его и большая часть ETL инструментов и так далее.
Фактически MongoDB и другие документо-ориентированные NoSQL СУБД - это продукты в себе. Чтобы реализовать для них полноценный инструмент по контролю качества данных или их преобразованию придётся делать его узкозаточенным и, как следствие, плохо переносимым на другие продукты.
И эти проблемы, увы, не решаются релизом 6.0, но, в остальном, конечно, это полезный продукт пригодный для многих задач когда данных много, они иерархичны (JSON) и проектировать таблицы не хочется.
Ссылки:
[1] https://www.mongodb.com/blog/post/big-reasons-upgrade-mongodb-6-0
#mongodb #data #datatools #rdbms
В новой версии анонсируют:
1. Улучшение работы с временными рядами
2. Улучшение работы с потоками изменений и возможности подписки на них
3. Улучшенная обработка сложных запросов
4. Больше операторов в языке запросов
5. Улучшенная синхронизация и новые операторы для этих задач
6. Улучшенная безопасность (запросы к зашифрованным данным)
7. Улучшения в поиске в виде фасетного поиска
Если посмотреть на всё это вместе, то кажется всё, в общем-то, очень даже неплохо. Продукт развивается, у него реально очень мало альтернатив, наиболее близкий по функциям продукт ArangoDB, но мигрировать на него требует переписать все запросы, поэтому основная конкуренция идет между MongoDB Cloud и MongoDB-совместимыми облачными базами данных.
Но я скажу честно, по личному опыту и практическому применению, MongoDB - это огромная находка и огромное разочарование.
Дело в том что для многих задач без высокой нагрузки, с иерархическими данными, созданием API с отдачей JSON и тд. у MongoDB очень много уникальных возможностей. Многое готово из коробки, язык запросов прост, привычен, удобства очень велики.
Но, как только дело доходит до высокой производительности то часто оказывается что использовать MongoDB как расширенное key-value хранилище - это норм, а много сложных запросов на больших данных оно не тянет. По многим причинам, рассказывать о них можно много и отдельно, но в целом high-load - это не про MongoDB.
Другая проблема MongoDB в неэффективном хранении данных, по сравнению с колоночными базами данных, к примеру. Это особенность архитектуры, у данных нет схем, нет возможности сжатия их по колонкам, что сжатие улучшает.
Но самая главная проблема в том что MongoDB нет в Modern data stack! Понятно что MDS - это концепция, а не четкий стек инструментов, но MongoDB попадает туда только как унаследованное хранилище данных.
Ключевые продукты популярные в MDS основаны на SQL и плоских структурах данных с чёткими спецификациями. Инструменты вроде dbt не поддерживают MongoDB, не поддерживают его и большая часть ETL инструментов и так далее.
Фактически MongoDB и другие документо-ориентированные NoSQL СУБД - это продукты в себе. Чтобы реализовать для них полноценный инструмент по контролю качества данных или их преобразованию придётся делать его узкозаточенным и, как следствие, плохо переносимым на другие продукты.
И эти проблемы, увы, не решаются релизом 6.0, но, в остальном, конечно, это полезный продукт пригодный для многих задач когда данных много, они иерархичны (JSON) и проектировать таблицы не хочется.
Ссылки:
[1] https://www.mongodb.com/blog/post/big-reasons-upgrade-mongodb-6-0
#mongodb #data #datatools #rdbms
MongoDB
7 Big Reasons to Upgrade to MongoDB 6.0 | MongoDB Blog
First announced at MongoDB World 2022, MongoDB 6.0 is now generally available and ready for download now. Learn more.
Полезное чтение про данные и технологии
- подкаст о том как устроен StackOverflow внутри [1] особенность в том что там монолитное приложение на дотнет и SQL сервере с объёмом хранения в 1.5ТБ и всё это на серверах on-Premise и никаких облаков.
- о социотехническом подходе к данным [2] в интервью с Juan Sequeda, старшим исследователем в data.world. О том что технологий уже достаточно, а грамотности в работе с данными (data literacy) всё ещё мало
- о том как развернуть стек с открытым кодом по работе с данными на базе Kubernetes [3], не очень глубоко, но практично.
- в Великобритании комиссия по цифровому будущему изучает то как собираются данные в EdTech проектах и насколько это оправдано [4]
- в Индии общественность обвинила владельцев сервиса платежей RazorPay в передаче данных о платежах без разрешения плательщиков [5]. Было это сделано в рамках уголовного дела против Mohammed Zubair сооснователя новостного сайта Alt News. Его обвинили и арестовали за нанесение оскорбление верующим и полиция запросила сведения о том кто жертвовал этому СМИ деньги, в том числе в поиске зарубежных жертвователей.
- на государственном портале открытых данных Испании разбор позиции Испании в рейтинге Global Data Barometer [6] со множеством ссылок, объяснений.
Ссылки:
[1] https://hanselminutes.com/847/engineering-stack-overflow-with-roberta-arcoverde
[2] https://www.moderndatastack.xyz/people/the-scoio-technical-approach-to-data-klfa
[3] https://www.plural.sh/blog/how-to-build-and-operate-an-open-source-data-stack-on-kubernetes/
[4] https://digitalfuturescommission.org.uk/blog/reality-check-on-technology-uses-in-uk-state-schools/
[5] https://restofworld.org/2022/newsletter-south-asia-india-data-evidence-of-dissent/
[6] https://datos.gob.es/en/blog/open-data-spain-according-global-data-barometer-study
#data #opendata #privacy #readings
- подкаст о том как устроен StackOverflow внутри [1] особенность в том что там монолитное приложение на дотнет и SQL сервере с объёмом хранения в 1.5ТБ и всё это на серверах on-Premise и никаких облаков.
- о социотехническом подходе к данным [2] в интервью с Juan Sequeda, старшим исследователем в data.world. О том что технологий уже достаточно, а грамотности в работе с данными (data literacy) всё ещё мало
- о том как развернуть стек с открытым кодом по работе с данными на базе Kubernetes [3], не очень глубоко, но практично.
- в Великобритании комиссия по цифровому будущему изучает то как собираются данные в EdTech проектах и насколько это оправдано [4]
- в Индии общественность обвинила владельцев сервиса платежей RazorPay в передаче данных о платежах без разрешения плательщиков [5]. Было это сделано в рамках уголовного дела против Mohammed Zubair сооснователя новостного сайта Alt News. Его обвинили и арестовали за нанесение оскорбление верующим и полиция запросила сведения о том кто жертвовал этому СМИ деньги, в том числе в поиске зарубежных жертвователей.
- на государственном портале открытых данных Испании разбор позиции Испании в рейтинге Global Data Barometer [6] со множеством ссылок, объяснений.
Ссылки:
[1] https://hanselminutes.com/847/engineering-stack-overflow-with-roberta-arcoverde
[2] https://www.moderndatastack.xyz/people/the-scoio-technical-approach-to-data-klfa
[3] https://www.plural.sh/blog/how-to-build-and-operate-an-open-source-data-stack-on-kubernetes/
[4] https://digitalfuturescommission.org.uk/blog/reality-check-on-technology-uses-in-uk-state-schools/
[5] https://restofworld.org/2022/newsletter-south-asia-india-data-evidence-of-dissent/
[6] https://datos.gob.es/en/blog/open-data-spain-according-global-data-barometer-study
#data #opendata #privacy #readings
Среди идей на которых не хватает времени, есть те на которые, в первую очередь, не хватает партнеров/компаньонов/команды.
Иначе говоря тех кто готов на них не просто работать за деньги, а совместно искать финансирование, доводить до продукта и вести разработку. Причем не важно в России или за её пределами, главное желание и навыки.
Я из таких идей особенно выделю:
- Data wrangling на больших данных. Система очистки данных с человеческим интерфейслом похожая на OpenRefine, но на базе ClickHouse или другой колоночной базы данных. OpenRefine удобная штука, расширяемая и тд, но устаревшая технологически лет 5 назад, если не больше. Альтернатива ему дорогие коммерческие продукты вроде Trifacta за коммерческие деньги и очень посредственные продукты между ними. Идея требует больших усилий по созданию пользовательского интерфейса удобного и быстрого и работающего с большими данными, но бизнес модель понятна, рынок измерим и он гарантированно существует в мире.
- Поисковик по наборам данных, как альтернатива Google Dataset Search. Задача амбициозная, но реалистичная. Кроме каталогов открытых данных она может покрывать каталоги коммерческих данных и научных репозиториев. Большая часть каталогов имеют стандартизованные интерфейсы и вполне поддаются индексации. Бизнес модель не до конца очевидна и требует проработки, но вполне возможна.
- Безголовая система управления данными. Это каталог данных включающий их каталогизацию, документирование, описание, навигацию и тд. Безголовость в том что фронтэнд отделяется от серверной части, а серверная часть делается под управление через API и командную строку. В первую очередь под каталогизацию корпоративных хранилищ данных с фичами вроде автодокументирования, поиска по семантическим типам данных и тд.
Всё это технологические проекты с интеграцией в современную инфраструктуру данных. Если Вы думаете в тех же направлениях и готовы помогать искать инвесторов, вести разработку, проектировать, доводить до состояния продукта - пишите мне тут или на ivan@begtin.tech, буду готов обсудить.
#offers #data #dataproducts
Иначе говоря тех кто готов на них не просто работать за деньги, а совместно искать финансирование, доводить до продукта и вести разработку. Причем не важно в России или за её пределами, главное желание и навыки.
Я из таких идей особенно выделю:
- Data wrangling на больших данных. Система очистки данных с человеческим интерфейслом похожая на OpenRefine, но на базе ClickHouse или другой колоночной базы данных. OpenRefine удобная штука, расширяемая и тд, но устаревшая технологически лет 5 назад, если не больше. Альтернатива ему дорогие коммерческие продукты вроде Trifacta за коммерческие деньги и очень посредственные продукты между ними. Идея требует больших усилий по созданию пользовательского интерфейса удобного и быстрого и работающего с большими данными, но бизнес модель понятна, рынок измерим и он гарантированно существует в мире.
- Поисковик по наборам данных, как альтернатива Google Dataset Search. Задача амбициозная, но реалистичная. Кроме каталогов открытых данных она может покрывать каталоги коммерческих данных и научных репозиториев. Большая часть каталогов имеют стандартизованные интерфейсы и вполне поддаются индексации. Бизнес модель не до конца очевидна и требует проработки, но вполне возможна.
- Безголовая система управления данными. Это каталог данных включающий их каталогизацию, документирование, описание, навигацию и тд. Безголовость в том что фронтэнд отделяется от серверной части, а серверная часть делается под управление через API и командную строку. В первую очередь под каталогизацию корпоративных хранилищ данных с фичами вроде автодокументирования, поиска по семантическим типам данных и тд.
Всё это технологические проекты с интеграцией в современную инфраструктуру данных. Если Вы думаете в тех же направлениях и готовы помогать искать инвесторов, вести разработку, проектировать, доводить до состояния продукта - пишите мне тут или на ivan@begtin.tech, буду готов обсудить.
#offers #data #dataproducts
Ivan Begtin pinned «Среди идей на которых не хватает времени, есть те на которые, в первую очередь, не хватает партнеров/компаньонов/команды. Иначе говоря тех кто готов на них не просто работать за деньги, а совместно искать финансирование, доводить до продукта и вести разработку.…»
Для тех кто мог упустить, в прошлом году, в октябре вышла записка The future of open data [1] за авторством Карлоса Иглесиаса о том в какую сторону развиваются тренды в открытости данных в мире. Записка там вышла довольно короткая, ключевое в ней 7 пунктов большая часть которых вообще не про технологии, а про людей. И даже конкретно про сообщества, обучение, организацию процессов и так далее.
Я хотел написать об этом тексте ещё в конце 2021 года, но в начале 2022 вышел другой текст с идентичным (!) названием, также The Future of Open Data [2], но с авторством двух канадок
и с очень чётким фокусом на геоданные.
Чего не хватает в этих документах, так это понимания того кто аудитория порталов открытых данных и инициатив по открытости. А ещё точнее кто уже является аудиторией и кто должен быть аудиторией. Часто это разные группы: программисты, создатели стартапов, корпорации, журналисты, ученые, госслужащие, активисты и студенты. Есть много пользовательских сценариев, и не только для порталов открытых данных, но и для открытых данных в принципе.
Пока я не видел ни одного полномасштабного исследования в этой теме, даже от крупных институций, но, всё это, проделанные работы в вроде той что сделал Карлос Иглесиас, не обесценивает.
Важное отличие развитие открытых данных в демократических странах в том что остальные инициативы по работе с данными в госсекторе связаны с ними и так или иначе их дополняют.
В России государственный портал открытых данных и иные дата-продукты государства существуют почти не пересекаясь. Это не хотят понимать, ни те кто должны обеспечивать открытость гос-ва, ни те кто оценивают эту открытость.
Открытые и общедоступные данные у нас окончательно рассинхронизуются уже давно. Данные которые мы собирали с порталов государственных информационных системы мы собирали, как минимум, на два порядка больше данных чем с официальных порталов открытых данных.
Ссылки:
[1] https://datos.gob.es/en/documentacion/future-open-data
[2] https://ruor.uottawa.ca/handle/10393/43648
#opendata #research
Я хотел написать об этом тексте ещё в конце 2021 года, но в начале 2022 вышел другой текст с идентичным (!) названием, также The Future of Open Data [2], но с авторством двух канадок
и с очень чётким фокусом на геоданные.
Чего не хватает в этих документах, так это понимания того кто аудитория порталов открытых данных и инициатив по открытости. А ещё точнее кто уже является аудиторией и кто должен быть аудиторией. Часто это разные группы: программисты, создатели стартапов, корпорации, журналисты, ученые, госслужащие, активисты и студенты. Есть много пользовательских сценариев, и не только для порталов открытых данных, но и для открытых данных в принципе.
Пока я не видел ни одного полномасштабного исследования в этой теме, даже от крупных институций, но, всё это, проделанные работы в вроде той что сделал Карлос Иглесиас, не обесценивает.
Важное отличие развитие открытых данных в демократических странах в том что остальные инициативы по работе с данными в госсекторе связаны с ними и так или иначе их дополняют.
В России государственный портал открытых данных и иные дата-продукты государства существуют почти не пересекаясь. Это не хотят понимать, ни те кто должны обеспечивать открытость гос-ва, ни те кто оценивают эту открытость.
Открытые и общедоступные данные у нас окончательно рассинхронизуются уже давно. Данные которые мы собирали с порталов государственных информационных системы мы собирали, как минимум, на два порядка больше данных чем с официальных порталов открытых данных.
Ссылки:
[1] https://datos.gob.es/en/documentacion/future-open-data
[2] https://ruor.uottawa.ca/handle/10393/43648
#opendata #research
При всех недостатках Google Play в виде [почти] монопольной платформы для распространения приложений в экосистеме Андроид, лично я к инициативе обязательности установки RuStore на телефоны в России [1] отношусь крайне отрицательно.
Помимо нерыночности, того что у него нет инструментов для разработчиков сравнимых с другими сторами, самым главным является то что там нет никаких механизмов контроля приватности. Типичная страница в RuStore выглядит вот так [2].
Там нет ни списка разрешений приложения, ни ответственности разработчика, ни, даже, декларации разработчика о добровольных обязательствах вроде формы Data safety.
Хотя многое из этого можно было бы реализовать и не то чтобы с коллосальными усилиями. Расширенная информация о приложениях есть в магазине F-Droid [3], с указанием перечня разрешений.
И, наоборот, её нет в китайском Huawei AppGallery [4].
Видимо российские создатели национального магазина приложений решили пойти по китайскому пути.
Но суть даже не в этом. Устанавливая требования обязательства установки приложения уже не только разработчик, но и Минцифра РФ берет на себя ответственность за то как и в каком объёме оно за Вами следит, берёт ответственность за утечки данных из него и вред наносимый нарушением приватности.
А в случае RuStore он, де-факто, превращается в государственный магазин приложений (да и VK уже почти госкорпораций, чего-уж тут) и тем самым Минцифра вместе с VK будет нести ответственность за все те приложения которые будут там одобрены и осуществляют слежку за гражданами.
Кстати, если Вы думаете что с уходом госкорпораций из России следящих трекеров зарубежных сервисов в российских приложениях стало меньше, то нет, не стало. Откройте какое-нибудь приложение Сбербанка и условия использования метрических программ, где явно указана трансграничная передача данных в Google и AppsFlyer.
А что будет если проверить все приложения в RuStore? А будет хороший расследовательский материал о том как будущая российская госкорпорация VK помогает международным big tech компаниям (читай спецслужбам) следить за россиянами не проверяя приложения на трекеры. Я тут сознательно утрирую, но, смысл от этого не меняется, протаскивать под маркой импортозамещения инструменты слежки - это очень хреновая история.
Так что кто-то явно живёт по принципу: война-войной, а слежка по расписанию (c)
Ссылки:
[1] https://www.vedomosti.ru/technology/articles/2022/07/21/932444-rustore-predlozhili-sdelat-obyazatelnim-dlya-predustanovki
[2] https://apps.rustore.ru/app/ru.rostel
[3] https://f-droid.org/ru/packages/org.tasks/
[4] https://appgallery.huawei.com/app/C101280309
#privacy #digital #android #sberbank #mobileapps
Помимо нерыночности, того что у него нет инструментов для разработчиков сравнимых с другими сторами, самым главным является то что там нет никаких механизмов контроля приватности. Типичная страница в RuStore выглядит вот так [2].
Там нет ни списка разрешений приложения, ни ответственности разработчика, ни, даже, декларации разработчика о добровольных обязательствах вроде формы Data safety.
Хотя многое из этого можно было бы реализовать и не то чтобы с коллосальными усилиями. Расширенная информация о приложениях есть в магазине F-Droid [3], с указанием перечня разрешений.
И, наоборот, её нет в китайском Huawei AppGallery [4].
Видимо российские создатели национального магазина приложений решили пойти по китайскому пути.
Но суть даже не в этом. Устанавливая требования обязательства установки приложения уже не только разработчик, но и Минцифра РФ берет на себя ответственность за то как и в каком объёме оно за Вами следит, берёт ответственность за утечки данных из него и вред наносимый нарушением приватности.
А в случае RuStore он, де-факто, превращается в государственный магазин приложений (да и VK уже почти госкорпораций, чего-уж тут) и тем самым Минцифра вместе с VK будет нести ответственность за все те приложения которые будут там одобрены и осуществляют слежку за гражданами.
Кстати, если Вы думаете что с уходом госкорпораций из России следящих трекеров зарубежных сервисов в российских приложениях стало меньше, то нет, не стало. Откройте какое-нибудь приложение Сбербанка и условия использования метрических программ, где явно указана трансграничная передача данных в Google и AppsFlyer.
А что будет если проверить все приложения в RuStore? А будет хороший расследовательский материал о том как будущая российская госкорпорация VK помогает международным big tech компаниям (читай спецслужбам) следить за россиянами не проверяя приложения на трекеры. Я тут сознательно утрирую, но, смысл от этого не меняется, протаскивать под маркой импортозамещения инструменты слежки - это очень хреновая история.
Так что кто-то явно живёт по принципу: война-войной, а слежка по расписанию (c)
Ссылки:
[1] https://www.vedomosti.ru/technology/articles/2022/07/21/932444-rustore-predlozhili-sdelat-obyazatelnim-dlya-predustanovki
[2] https://apps.rustore.ru/app/ru.rostel
[3] https://f-droid.org/ru/packages/org.tasks/
[4] https://appgallery.huawei.com/app/C101280309
#privacy #digital #android #sberbank #mobileapps
В рубрике интересных наборов данных проекты по теме машинного обучения для кода, Machine Learning for Code [1] из Secure, Reliable and Intelligent Systems Lab, ETH Zurich.
Их команда исследователей-разработчиков применяет искусственный интеллект к задачам разработки и анализа кода. Для чего они уже опубликовали множество проектов с открытым кодом, 5 больших датасетов и моделями с разобранным кодом и десятки научных статей.
Из интересного:
- Nice2Predict - модель структурных предсказаний, используется для предсказаний названий функций
- JSNice - деобфускатор Javascript, активно используется теми кто про него знает
- DeGuard - деобфускатор мобильных приложений для Андроид (.APK файлов), основан на Nice2Predict
А также стартап DeepCode (переименовался в Snyk Code) [2] предлагающий возможность ревизии кода с помощью ИИ и... автоматического исправления ошибок и уязвимостей.
Не стоит недооценивать развитие технологий автоматизации, они могут не заменить опытного разработчика, но может наступить тот момент когда смогут заменить начинающих. И как тогда начинающим приобретать опыт?
Ссылки:
[1] https://www.sri.inf.ethz.ch/research/plml
[2] https://www.deepcode.ai
#ai #programming #datasets #coding
Их команда исследователей-разработчиков применяет искусственный интеллект к задачам разработки и анализа кода. Для чего они уже опубликовали множество проектов с открытым кодом, 5 больших датасетов и моделями с разобранным кодом и десятки научных статей.
Из интересного:
- Nice2Predict - модель структурных предсказаний, используется для предсказаний названий функций
- JSNice - деобфускатор Javascript, активно используется теми кто про него знает
- DeGuard - деобфускатор мобильных приложений для Андроид (.APK файлов), основан на Nice2Predict
А также стартап DeepCode (переименовался в Snyk Code) [2] предлагающий возможность ревизии кода с помощью ИИ и... автоматического исправления ошибок и уязвимостей.
Не стоит недооценивать развитие технологий автоматизации, они могут не заменить опытного разработчика, но может наступить тот момент когда смогут заменить начинающих. И как тогда начинающим приобретать опыт?
Ссылки:
[1] https://www.sri.inf.ethz.ch/research/plml
[2] https://www.deepcode.ai
#ai #programming #datasets #coding
SRI Lab
Machine Learning for Code
This project combines programming languages and machine learning for building statistical programming engines – systems built on top of machine learning models of large codebases. These are new kinds of engines which can provide statistically likely solutions…
В рубрике интересных стартапов в рынке данных компания Dgraph [1] создатели одноимённой графовой NoSQL системы управления базами данных с открытым кодом. Буквально только что они подняли раунд инвестиций на $6M [2] под их продукт Dgraph Cloud.
Фаундеры обещают обновить команду проекта, уже наняли нового CTO [3] и новый релиз этим летом.
В основе Dgraph собственной движок СУБД с родной поддержкой GraphQL и языком запросов DQL (Dgraph query language) на основе всё того же GraphQL и расширяющий его возможности.
В сравнениях они приводят другие NoSQL продукты, например, Neo4J и MongoDB [4], в свою пользу, конечно.
Я бы сказал так, GraphQL - это интересная концепция, язык запросов и альтернатива SQL, но "серебряной пулей" не является до сих пор.
Из достоинств Dgraph - это зрелость как продукта с открытым кодом и, на удивление, хорошо и подробно написанная документация.
Сама бизнес модель уже привычная. Берем зрелый продукт с открытым кодом и делаем облачный сервис. Причем они продают не собственное облако, а обслуживание dedicated servers на облаках других провайдеров.
Ссылки:
[1] https://dgraph.io
[2] https://dgraph.io/blog/post/funding-20220720/
[3] https://discuss.dgraph.io/t/new-funding-announcement/17377
[4] https://dgraph.io/comparison/
#opensource #clouds #nosql #dbms #data #datatools
Фаундеры обещают обновить команду проекта, уже наняли нового CTO [3] и новый релиз этим летом.
В основе Dgraph собственной движок СУБД с родной поддержкой GraphQL и языком запросов DQL (Dgraph query language) на основе всё того же GraphQL и расширяющий его возможности.
В сравнениях они приводят другие NoSQL продукты, например, Neo4J и MongoDB [4], в свою пользу, конечно.
Я бы сказал так, GraphQL - это интересная концепция, язык запросов и альтернатива SQL, но "серебряной пулей" не является до сих пор.
Из достоинств Dgraph - это зрелость как продукта с открытым кодом и, на удивление, хорошо и подробно написанная документация.
Сама бизнес модель уже привычная. Берем зрелый продукт с открытым кодом и делаем облачный сервис. Причем они продают не собственное облако, а обслуживание dedicated servers на облаках других провайдеров.
Ссылки:
[1] https://dgraph.io
[2] https://dgraph.io/blog/post/funding-20220720/
[3] https://discuss.dgraph.io/t/new-funding-announcement/17377
[4] https://dgraph.io/comparison/
#opensource #clouds #nosql #dbms #data #datatools
dgraph.io
Dgraph | Open Source, AI-Ready Graph Database
The only open source, AI-ready graph database that gives developers the tools to quickly build distributed applications at scale.
Коммерсант пишет [1] о новом проекте приказа Минфина РФ о закрытии данных о примерно 1.5 тысячах компаний в ЕГРЮЛ и других базах данных. Это не открытые данные, но это общедоступные данные. Теперь их не будет и список этих компаний также будет непубличным.
Это, в принципе, плохая практика, которая всего лишь усложнит, но не ограничит возможности введения прямых и вторичных санкций, но приведет к тому что эти компании не смогут работать на зарубежных рынках поскольку не смогут пройти процедуры due diligence.
Невозможно относится к этому иначе кроме как с осуждением.
Ссылки:
[1] https://www.kommersant.ru/doc/5479873
#data #opendata #russia
Это, в принципе, плохая практика, которая всего лишь усложнит, но не ограничит возможности введения прямых и вторичных санкций, но приведет к тому что эти компании не смогут работать на зарубежных рынках поскольку не смогут пройти процедуры due diligence.
Невозможно относится к этому иначе кроме как с осуждением.
Ссылки:
[1] https://www.kommersant.ru/doc/5479873
#data #opendata #russia
Коммерсантъ
Невидимая сторона рынка
Правительство конкретизирует санкционные затемнения в экономике
Forwarded from Национальный цифровой архив
Как сохранить журналистику данных
Зачем медиа и новостным СМИ позаботиться об цифровом сохранении собственных материалов? Профессор Бахарех Херави (Bahareh Heravi) изучает возможности цифрового архивирования и сохранения динамического контента, созданного в дата-журналистских материалах. В основном это интерактив и визуализации данных. Самые частые проблемы:
1. Динамические визуализации данных являются «сложными цифровыми объектами», что значит — такой контент не может быть охвачен существующими инструментами и методами архивирования.
2. Сервисы визуализации данных могут внезапно закрываться, а доступ к контенту, созданному с помощью них, затем теряется.
3. Существуют зависимости, лежащие в основе визуализации, такие как конкретные языки программирования, библиотеки, базы данных, хостинговые платформы и разные сервисы (Flash Player), которые со временем устаревают и не поддерживаются создателями.
Все это затрудняет использование материалов дата-журналистики в исторической ретроспективе. Подробнее о том, какие решения предлагает Бахарех Херави для сохранения сложного динамического контента, узнайте в этой статье: https://datajournalism.com/read/longreads/how-to-save-data-journalism
Дополнительно научная статья «Preserving Data Journalism: A Systematic Literature Review»: https://www.tandfonline.com/doi/full/10.1080/17512786.2021.1903972
#datajournalism #digitalpreservation #digitalarchive
Зачем медиа и новостным СМИ позаботиться об цифровом сохранении собственных материалов? Профессор Бахарех Херави (Bahareh Heravi) изучает возможности цифрового архивирования и сохранения динамического контента, созданного в дата-журналистских материалах. В основном это интерактив и визуализации данных. Самые частые проблемы:
1. Динамические визуализации данных являются «сложными цифровыми объектами», что значит — такой контент не может быть охвачен существующими инструментами и методами архивирования.
2. Сервисы визуализации данных могут внезапно закрываться, а доступ к контенту, созданному с помощью них, затем теряется.
3. Существуют зависимости, лежащие в основе визуализации, такие как конкретные языки программирования, библиотеки, базы данных, хостинговые платформы и разные сервисы (Flash Player), которые со временем устаревают и не поддерживаются создателями.
Все это затрудняет использование материалов дата-журналистики в исторической ретроспективе. Подробнее о том, какие решения предлагает Бахарех Херави для сохранения сложного динамического контента, узнайте в этой статье: https://datajournalism.com/read/longreads/how-to-save-data-journalism
Дополнительно научная статья «Preserving Data Journalism: A Systematic Literature Review»: https://www.tandfonline.com/doi/full/10.1080/17512786.2021.1903972
#datajournalism #digitalpreservation #digitalarchive
DataJournalism.com
How to save data journalism: A guide to… | DataJournalism.com
How can journalists preserve their interactive data journalism pieces? Professor Bahareh Heravi analyses the problem and provides solutions for ensuring…
В рубрике глобальных проектов предоставляющих открытые данные Global Fishing Watch [1] проект по мониторингу рыбной ловли, судов ловящих рыбу, связанных с рыбной ловлей событий и так далее.
Данные предоставляются в виде API [2] с предварительной регистрацией и лицензией CC-BY NC, только для некоммерческого использования.
Данные по российским судам и судам в российских водах там тоже есть.
Ссылки:
[1] https://globalfishingwatch.org
[2] https://globalfishingwatch.org/our-apis/
#opendata
Данные предоставляются в виде API [2] с предварительной регистрацией и лицензией CC-BY NC, только для некоммерческого использования.
Данные по российским судам и судам в российских водах там тоже есть.
Ссылки:
[1] https://globalfishingwatch.org
[2] https://globalfishingwatch.org/our-apis/
#opendata
Global Fishing Watch
Home
Sustainable ocean through increased transparency: we create map visualizations, data and analysis to enable scientific research and transform ocean management
Сегодня с утра Счетная палата РФ выпустила 4-й доклад об открытости государства в России [1]. Несмотря на то что Коммерсант пишет что доклад готовился с Инфокультурой [2], это не так, к этому докладу Инфокультура отношения не имеет и сделан он целиком и полностью внутри Счетной палаты.
Прежде чем продолжить я должен упомянуть что я имел непосредственное отношение к первым 3-м докладам и ушёл от работы над проектами Счетной палаты год назад, в июне 2021 года. Уже тогда моё существенное несогласие с докладом было в том что использованная нами изначально методика стала оказалась неустойчивой к манипуляциям со стороны оцениваемых ФОИВов, а в итоге, моей позицией было полностью от неё отказаться. Но этот доклад стал продуктом Счетной палаты, соответственно рассматривать его необходимо и возможно только в контексте общей политической ситуации.
При этом, несмотря на все наши споры, я, по прежнему, отношусь с большим уважением к коллегам в Счетной палате которые продолжают делать, то многое в части открытости что не делают другие органы власти.
Относительно содержания доклада:
1. Необходимо понимать что любая внутригосударственная критика сейчас жестко ограничена вводными от Аппарата Пр-ва и Администрации Пр-та, какой бы ни была реальная ситуация в открытости гос-ва, этот доклад, как и любые подобные документы выпускаемые органами власти не могли не проходить их жесткую цензуру. Поэтому никакой серьёзной критики там нет и не может быть в принципе, как явления.
2. Сравнивать органы власти можно всем критериям кроме открытости данных потому что открытость данных напрямую зависит от владения ФОИВом государственными и ведомственными информационными системами, а здесь разброс огромен. От Минздрава у которого во владении огромное число датасетов, ГИСов, баз данных и т.д., до фельдъегерской службы которая ничем кроме сайта не владеет. Мне это стало окончательно понятно ещё в 2021 году,
3. Важное системное изменение в том что в начале этого года вышел Global Data Barometer [3], перезапуск глобальной оценки Open Data Barometer, по измерению открытости данных в мире по странам. Эта оценка - оценка деятельности власти (правительства) в целом. Были ли какие-то действия российского Пр-ва по итогам представления результатов этой оценки? Нет, никаких действий и даже оценки возможности действий не последовало.
4. Ключевой момент в оценке и разнице между открытыми и общедоступными данными. Открытые данные в мире определяются через принципы в которые входят открытости и машиночитаемость [4], но в Global Data Barometer измеряется ещё и факт наличия данных и их переход в открытость. Многие важнейшие данные в России формально открытыми не считаются, но общедоступны. Они учитывались в оценках Global Data Barometer, но никак не учитывались в этом и в предыдущих докладах СП РФ.
5. Говорить сейчас даже о "стабильности открытости" в части открытых данных крайне сложно. Если бы оценки были не по устаревшей методике, а, например, опросом ожиданий основных потребителей данных, то результаты опроса были бы про негативные ожидания и, в целом, сильный пессимизм у сообщества, ключевых потребителей и пользователей открытых данных.
В качестве итога, лично я смотрю на этот доклад в текущей форме как глубоко цензурированный политический продукт не для пользователей и потребителей открытых данных, а скорее очередная констатация что "у нас не всё так плохо". Его аудитория, скорее, представители ФОИВов чем мы с Вами. Я не вижу в этом докладе практической пользы и последующих практических действий, если только не интерпретировать его как "да, всё стабильно, стабильно закрывается".
Есть ли возможность сделать объективную оценку? У неё сейчас нет заказчика. Российские власти сейчас ждут любых оценок подчеркивающих что "ничего не случилось", а зарубежные фонды, интересанты кто мог бы это профинансировать ждут оценок что "всё плохо".
Прежде чем продолжить я должен упомянуть что я имел непосредственное отношение к первым 3-м докладам и ушёл от работы над проектами Счетной палаты год назад, в июне 2021 года. Уже тогда моё существенное несогласие с докладом было в том что использованная нами изначально методика стала оказалась неустойчивой к манипуляциям со стороны оцениваемых ФОИВов, а в итоге, моей позицией было полностью от неё отказаться. Но этот доклад стал продуктом Счетной палаты, соответственно рассматривать его необходимо и возможно только в контексте общей политической ситуации.
При этом, несмотря на все наши споры, я, по прежнему, отношусь с большим уважением к коллегам в Счетной палате которые продолжают делать, то многое в части открытости что не делают другие органы власти.
Относительно содержания доклада:
1. Необходимо понимать что любая внутригосударственная критика сейчас жестко ограничена вводными от Аппарата Пр-ва и Администрации Пр-та, какой бы ни была реальная ситуация в открытости гос-ва, этот доклад, как и любые подобные документы выпускаемые органами власти не могли не проходить их жесткую цензуру. Поэтому никакой серьёзной критики там нет и не может быть в принципе, как явления.
2. Сравнивать органы власти можно всем критериям кроме открытости данных потому что открытость данных напрямую зависит от владения ФОИВом государственными и ведомственными информационными системами, а здесь разброс огромен. От Минздрава у которого во владении огромное число датасетов, ГИСов, баз данных и т.д., до фельдъегерской службы которая ничем кроме сайта не владеет. Мне это стало окончательно понятно ещё в 2021 году,
3. Важное системное изменение в том что в начале этого года вышел Global Data Barometer [3], перезапуск глобальной оценки Open Data Barometer, по измерению открытости данных в мире по странам. Эта оценка - оценка деятельности власти (правительства) в целом. Были ли какие-то действия российского Пр-ва по итогам представления результатов этой оценки? Нет, никаких действий и даже оценки возможности действий не последовало.
4. Ключевой момент в оценке и разнице между открытыми и общедоступными данными. Открытые данные в мире определяются через принципы в которые входят открытости и машиночитаемость [4], но в Global Data Barometer измеряется ещё и факт наличия данных и их переход в открытость. Многие важнейшие данные в России формально открытыми не считаются, но общедоступны. Они учитывались в оценках Global Data Barometer, но никак не учитывались в этом и в предыдущих докладах СП РФ.
5. Говорить сейчас даже о "стабильности открытости" в части открытых данных крайне сложно. Если бы оценки были не по устаревшей методике, а, например, опросом ожиданий основных потребителей данных, то результаты опроса были бы про негативные ожидания и, в целом, сильный пессимизм у сообщества, ключевых потребителей и пользователей открытых данных.
В качестве итога, лично я смотрю на этот доклад в текущей форме как глубоко цензурированный политический продукт не для пользователей и потребителей открытых данных, а скорее очередная констатация что "у нас не всё так плохо". Его аудитория, скорее, представители ФОИВов чем мы с Вами. Я не вижу в этом докладе практической пользы и последующих практических действий, если только не интерпретировать его как "да, всё стабильно, стабильно закрывается".
Есть ли возможность сделать объективную оценку? У неё сейчас нет заказчика. Российские власти сейчас ждут любых оценок подчеркивающих что "ничего не случилось", а зарубежные фонды, интересанты кто мог бы это профинансировать ждут оценок что "всё плохо".
В любом случае я хочу закончить тем же с чего начал, ребята молодцы что делают хоть что-то. Делают как могут. А от себя добавлю что Счетная палата могла бы сделать немало для собственной открытости просто опубликовав таблицу планов проверок и их результатов. В таком, знаете формате: запланировано, проведено, опубликовано (ссылка). А не просто план, без публичного перечня результатов. Открытость, она, всегда, не в том чтобы публиковать что ты можешь, а в том чтобы публиковать то что "вызывает боль".
Ссылки:
[1] https://ach.gov.ru/news/otkrytost-2022
[2] https://www.kommersant.ru/doc/5480518
[3] https://globaldatabarometer.org/country/russian-federation/
[4] https://opendatacharter.net/principles/
#opendata #ratings
Ссылки:
[1] https://ach.gov.ru/news/otkrytost-2022
[2] https://www.kommersant.ru/doc/5480518
[3] https://globaldatabarometer.org/country/russian-federation/
[4] https://opendatacharter.net/principles/
#opendata #ratings