Ivan Begtin
8.08K subscribers
1.52K photos
3 videos
100 files
4.27K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Вышел свежий доклад The State of Open Data 2022 [1] от Figshare посвящённый открытости данных в науке. Как и все доклады типа "The state of ..." это построен на опросе, в данном случае опросе исследователей работающих с данными. Там много любопытного о том как учёные используют данные и обмениваются ими, но интересно и то что открытость науки сейчас это характеристика живой науки. Уж насколько можно считать закрытым Китай, но в докладе есть статья The role of policy makers in China: facilitating the move to open data for researchers and journals о том как в Китае разработали и применяют принципы управления данными Measures for the Management of Scientific Data (MMDS) и открытый обмен данными часть их стратегии.

Ссылки։
[1] https://digitalscience.figshare.com/articles/report/The_State_of_Open_Data_2022/21276984

#opendata #openaccess #openscience #datasharing
Полезная заметка Казахстанские власти хотят закрыть неугодные данные [1] со сравнением прошлого и нового перечней данных подлежащих обязательному раскрытию в Республике Казахстан. Вполне ожидаемо перестанут публиковать некоторые чувствительные данные с одной стороны, а с другой стороны в списке появилась конкретика по содержанию.

Напомню что я ранее писал [2] о новом проекте постановления Пр-ва Казахстана по открытости данных и о том что в нём отсутствуют принципы открытости данных по умолчанию и недискриминационный доступ к данным, сейчас они доступны только гражданам страны. Граждане Казахстана могут оставить свои комментарии к проекту постановления на сайте Открытые НПА [3]. Прошу, не поленитесь, напишите там Ваши комментарии и мнение.

Ссылки։
[1] https://exclusive.kz/kazahstanskie-vlasti-hotyat-zakryt-neugodnye-dannye/
[2] https://t.me/begtin/4440
[3] https://legalacts.egov.kz/npa/view?id=14317392

#opendata #opengov #kazakhstan #policies
Тем временем в Германии Министерство внутренних дел и общества и другие организации создают Институт данных, Dateninstitut [1] для повышения доступности данных для бизнеса и общества. Ещё в начале года на его создание было выделено 1,7 миллиона евро и к концу года он появится. Его создание должны обсуждать сегодня на секции Das Dateninstitut – neue Impulse für die Datenökonomie (Институт данных - новый импульс для экономики данных) [2] конференции Digital-Gipfel 2022 по берлинскому времени сегодня в 10։10 (это 12։10 по Москве, 13։10 по Еревану и 15։10 по Астане). Живая трансляция должна быть доступна на сайте, на немецком языке.

Почему это важно? По сути в Германии создают аналог The Open Data Institute существующего (ODI) в Великобритании. Однако ODI всегда строился и существует как глобальная институция, с претензией на воспроизводство лучших практик в развитых и развивающихся странах. Относительно Dateninstitute пока неизвестно будет ли он действовать локально про Германию, на весь Евросоюз или глобально как ODI.

Ссылки։
[1] https://www.bmi.bund.de/SharedDocs/pressemitteilungen/DE/2022/10/dateninstitut-startschuss.html
[2] https://www.de.digital/DIGITAL/Navigation/DE/Konferenzen/konferenzen.html

#opendata #data #policy #germany #dataeconomy #datapolicy
Top400 A top-down crime prevention strategy in Amsterdam, система предупреждения преступлений в Нидерландах, впервые начатая в 2011 году под названием Top600 и переименованная в Top400 в 2016 году. Основная идея в том чтобы снижать число преступлений через вмешательство в жизнь тех кто наиболее вероятно совершит преступление. Иначе говоря, это обычно то что называется профилактикой преступлений среди лиц ведущих антиобщественный образ жизни.

В ноябре вышел подробный доклад за авторством Fieke Jansen [1] для которого автор запросила множество документов через FOI запросы и исследовала более 4 тысяч страниц текста.

Этот проект создан создан для создания списка, примерно, 400 изначально, а сейчас уже под 1000 человек которые находятся под особым наблюдением полиции.

Для попадания туда есть два пути.

Первый набор критериев это комбинация взаимодействия с полицией и местным сообществом и включает։
• имеет (имели) меры по реабилитации молодежи (признак удваивается)
• находится или находился под наблюдением
• например, часто отсутствовал в школе или не закончил школу
• сменил начальную школу не менее 3 раз
• участвовал в инциденте с домашним насилием (в качестве потерпевшего, свидетеля или подозреваемого)
• был арестован как подозреваемый в возрасте от 12 до 14 лет
• был арестован за торговлю поддельным наркотиком в течение последних 2 лет

Второй набор критериев, это взаимодействие с полицией։
• хотя бы раз за последние 5 лет подозревался с полицией
• имел другие контакты с полицией
• и/или люди из их непосредственного окружения контактировали с полицией

К этому добавляется что полиция Амстердама сотрудничает с программой уличных тренеров (Street coaches) в рамках которой тренеры сообщают об антиобщественном поведении об отдельных лицах и это учитывается как один из критериев попадания в Top400.

Там же в докладе весьма подробно рассказывается про систему Prokid+ в которой регистрируются сведения о детях которые совершают нарушения или ведут антиобщественный образ жизни и о том что школы также сотрудничают с полицией.

Сам доклад всячески рекомендую почитать чтобы понимать в каком направлении сейчас движутся практики профилактики преступлений.

Ссылки։
[1] https://pilpnjcm.nl/wp-content/uploads/2022/11/Top400_topdown-crime-prevention-Amsterdam.pdf

#predictivepolicing #netherlands #privacy #eu
Полезное чтение про данные, технологии и не только։
- GPT-4 Rumors From Silicon Valley [1] коллекция слухов про дату выхода GPT-4, языковой модели которая должна многократно превосходить по возможностям GPT-3 и, соответственно, основанные на GPT-3 инструменты такие как ChatGPT.
- Why Google Missed ChatGPT [2] о том почему не Google сделали ChatGPT и о том как этот продукт разрушает ценность их продукта поиска, ключевым достоинством которого остаётся только быстрая доступность наиболее актуальной информации.
- How analysis dies [3] у Бен Стэнцила опять хороший текст, сейчас о том как умирает анализ тоже в контексте ChatGPT. Главное в рассуждениях о ChatGPT - это резкое ощущение неопределённости будущего у многих кто работает в областях связанных со смыслом и аналитикой.

Ссылки։
[1] https://thealgorithmicbridge.substack.com/p/gpt-4-rumors-from-silicon-valley
[2] https://bigtechnology.substack.com/p/why-google-missed-chatgpt
[3] https://benn.substack.com/p/how-analysis-dies

#ai #future #languagemodels
В рубрике как это работает у них, портал открытых данных Новой Зеландии data.govt.nz [1]. На портале размещено почти 32 тысячи наборов данных от 182 организаций. Более половины опубликованных данных - это геоданные в форматах KML, SHP, DWG, GPKG и геоAPI, ввиде метаданных и ссылок на данные опубликованные в системе ведения геоданных Linz Data Service [2] и на порталах открытых данных на платформе ArcGIS [3].

Кроме органов власти данные на государственном портале публикуют 4 университета [4]. Например, университет Окленда опубликовал 665 наборов данных [5] большая часть из которых это данные которые были размещены вместе с научными статьями на сайте Figshare.
Почти все данные опубликованы под лицензией Creative Commons.

Для наполнения портала и развития темы открытых данных в Новой Зеландии есть государственная стратегия и дорожная карта [6], включающая такие пункты как публикацию плана инвестиций в создание данных, публикацию фреймворка обеспечения качества данных, введение новых обязательных стандартов работы с данными и многое другое.

Портал data.govt.nz работает на базе CKAN, а геоданные, в основном, публикуются в системе ArcGIS и с помощью сервиса Koordinates [7], реже на базе Geonode [8].

Ссылки։
[1] https://data.govt.nz
[2] https://data.linz.govt.nz/
[3] https://doc-deptconservation.opendata.arcgis.com/maps/c417dcd7c9fb47b489df1f9f0a673190_0
[4] https://catalogue.data.govt.nz/organization/?q=University&sort=title+asc
[5] https://catalogue.data.govt.nz/organization/the-university-of-auckland
[6] https://www.data.govt.nz/leadership/strategy-and-roadmap/
[7] https://koordinates.com
[8] https://data.otodc.govt.nz/

#opendata #newzealand
В рубрике интересных продуктов по работе с данными с открытым кодом Monoid [1].

Основная идея в том чтобы дать возможность сканировать базы данных и вручную (!) размечать их на предмет наличия персональных данных. При этом для разметки можно указать свои типы данных (идентификаторы).

Поддерживает из коробки Redshift, Snowflake, Bigquery, MySQL и Postgres. Исходный код на Go и Typescript доступен [2] под лицензией MIT.

Также на сайте есть возможность использовать его как облачный продукт с оплатой начиная от $399 в месяц.

У меня лично смешанные ощущения от этого проекта. С одной стороны он выглядит проработанным, с интерфейсом, открытым кодом, некой простой завершённой функциональностью. С другой стороны, есть множество более сложных и комплексных продуктов которые обеспечивают автоматическую, а не ручную, разметку полей и не только для идентификации персональных данных. Тот же Datahub как каталог данных или утилита Metacrafter которую я лично разработал и которая позволяет автоматически идентифицировать типы данных почти из любого источника.

Впрочем у того же Monoid до сих пор нет инвестиций и нет подтверждения что их бизнес модель хоть как-то выгорит. Так что посмотрим.

Ссылки։
[1] https://monoid.co
[2] https://github.com/monoid-privacy/monoid

#startups #datatools #opensource #data #privacy
В продолжение темы открытости данных в Казахстане о которой я уже писал [1], не могу не добавить ложку дёгтя. Важно то что из-за того что на портале данных data.egov.kz Казахстана данные доступны только после авторизации и только для граждан или лиц получивших местный налоговый код ИИН, то по факту, добавление туда данных из других официальных источников страны, не увеличивает, а снижает уровень доступности и открытости этих данных.

К примеру, есть в Казахстане Единая информационная система охраны окружающей среды [3] где публикуются обобщённые показатели такие как։ Объемы опасных отходов, Объем образованных неопасных отходов и другие. Эти данные общедоступны и их, при небольшом желании, можно скачать с сайта в JSON формате. Экспорта на странице нет, но в коде страницы всё довольно очевидно.

Данные из этой системы упомянуты в постановлении Правительства РК как "Объем опасных отходов по показателям (общие показатели по республике) (отчетный период; вид операции; объем отходов)"․ То есть они должны публиковаться и публикуются на портале [3], но не гражданам и не имеющим ВНЖ недоступны.

Но дело не только в недоступности, но и в том что доступ граждан отслеживается, что довольно странно и, в принципе, в мире практикуется крайне редко.

В целом почти неизбежно при следующих рейтингах и оценках открытости данных в Казахстане уровень открытости там может оцениваться скорее как снижающийся чем иначе.

Ссылки։
[1] https://t.me/begtin/4440
[2] https://oos.ecogeo.gov.kz/
[3] https://data.egov.kz/datasets/view?index=785_megpr

#opendata #kazakhstan #datasets
Я, кстати, вот уже несколько месяцев думаю о том что до конца не могу сформулировать, но что укладывается в идею "критической массы изменений".

В тех областях за которыми я внимательно наблюдаю, массовая слежка и ИИ, всё довольно быстро идёт к накоплению технологий, их внедрения и социальных изменений которые неизбежно, не могут не привести к системным изменениям в обществе, государстве, рынках труда и т.д.

Например, уже выросло несколько поколений о которых с детства собиралась и собирается практически вся информация. Через сотовых операторов, соцсети, государственные системы учёта, финансовые организации и так далее. Ничего о них кроме как в цифре не существует. Включая биометрию, в том числе собираемую пассивными способами. Что будет когда реально не останется людей кроме тех кому 60+ на которых не будет цифрового профиля? Когда в национальных и международных базах будет вся биометрия։ лицо, отпечатки пальцев, геном и т.д. ?

Или вот с ИИ, прогнозы были весьма пессимистичными по скорости появления AGI и даже приближения к нему. Сейчас есть активная демонстрация что это не так, даже текущие результаты в виде продуктов способных на эффективный синтез накопленного, неважного плохого или хорошего человеческого знания, показывают что всё ближе ситуация когда внедрение даже ИИ/алгоритмов на практике может очень существенно изменить существующий рынок труда.

Про сочетание этих двух трендов несущих критическую массу изменений можно ещё говорить отдельно. Тут много фантастических произведений можно придумать про безумных правителей сочетающих ИИ помощников и массовую слежку с дронами, и про террористов способных с помощью роботизированных инструментов совершить много больше вреда. Но смысл в том что развитие некоторых технологий приводят ещё и к той форме критической массы когда оснащённое и агрессивное меньшинство может диктовать свои требования большинству.

Диктаторы 20-го века прятались за огромными стенами и вооружёнными последователями и наёмниками, диктаторов 21-го века можно физически не находить, при этом они могут не терять власти, а штурм их дворцов не лишит их возможности править.

Что-то из этого может быть прекрасным сюжетом новых хорошо иллюстрированных антиутопий, а что-то будет самой что ни на есть реальностью до которой мы ещё можем успеть дожить.

#thoughts
Forwarded from Инфокультура
В каталог каталогов данных Datacatalogs.ru добавлено 18 каталогов данных в форме геопорталов, в большинстве случаев это геопорталы органов власти на базе ArcGIS, но не только.

Особенность геопорталов в том что часто разработчики не предусматривают отдельных разделов выгрузки данных, но данные доступны через документированное или недокументированное API. Часто геопорталы создаются региональными органами власти, например, в форме единых геопорталов региона или города. Существуют геопорталы коммерческих компаний и научных организаций.

Ссылки на добавленные геопорталы։
- https://lgtgis.aari.ru/arcgis/rest/
- https://geoportal.gcras.ru/arcgis/rest/services
- http://gis.gov-murman.ru/
- https://meteo-dv.ru/
- https://gisnao.ru/
- https://gis.rkomi.ru/
- https://agoracle.asutk.ru/arcgis/rest/services
- https://gis.toris.gov.spb.ru/
- https://karta.yanao.ru
- http://map.govvrn.ru
- https://gis.sgm.ru/server/rest/services
- https://maps29.ru/
- https://www.tver.ru/ArcGIS/rest/services
- https://map.novo-sibirsk.ru
- http://geo.govrb.ru
- https://map.samadm.ru
- https://geoportal.egov66.ru
- https://maps.crru.ru/smaps/cmViewer.php

Каталог каталогов данных создан как проект по обнаружению данных, data discovery, с целью упрощения поиска данных по нужным темам и территориям. На сегодняшний день в него включено 280 порталов открытых данных, систем научных репозиториев, геопорталов, реестров открытых данных и порталов открытости бюджетной системы всех регионов России, а также порталы данных о России или связанные с Россией в мире.

Дополнительная цель проекта в архивации порталов данных на случай их возможного исчезновения в будущем.

Мы продолжаем работать над наполнением и визуальным представлением данных в каталоге. В ближайшее время запланирована модернизация веб-интерфейса и публикация самого каталога в форме набора данных и/или API.

Если Вы знаете какие-либо порталы данных, геопорталы и другие каталоги данных не учтённые в datacatalogs.ru - присылайте нам через форму на сайте.

#opendata #datacatalogs #datasets #datadiscovery
То что утекли данные о покупках во Вкусвилл - это, конечно, очень плохо. Как и любые иные максимально персонифицированные данные позволяющие локализовать потребителей. Но что хорошо и правильно - это то что команда Вкусвилла не спрятала голову в песок, а пишут о своей реакции на утечку и принимаемых мерах [1] несмотря на негатив, которого они по любому избежать не смогут.

Всё это, конечно, никак не отменяет того что каждая такая утечка - это необратимый процесс. Посмотрим на реакцию регулятора и коллективные иски и будет ли Вкусвилл публиковать результаты расследования, организует ли внешний аудит безопасности и тд.

Ссылки։
[1] https://vkusvill.ru/media/journal/baza-dannykh-chto-proizoshlo.html

#privacy #dataleaks #leaks
В рубрике интересных стартапов на рынке данных։
- Pathway [1] сервис потоковой реалтаймовой обработки данных включая инструменты подготовки данных для машинного обучения. Полностью женский состав основателей из Франции и Польши. Получили $4.5 миллиона инвестиций на стадии pre-seed (!). Очень много для такой стадии
- Husprey [3] продукт по замене дашбордов и BI на тетрадки с данными (Data Notebooks). Французский стартап и все клиенты у них также из Франции. Только что получили $3 миллиона на сид стадии продукта.

Ссылки։
[1] https://pathway.com/
[2] https://sifted.eu/articles/female-led-deeptech-pathway-ai/
[3] https://www.husprey.com
[4] https://www.husprey.com/blog/seed

#data #datatools #startups #france
В рубрике "как это работает у них" два китайских портала открытых данных

Портал открытых данных города Чанчжоу, Китай opendata.changzhou.gov.cn [1]

580 наборов данных опубликовано 66 департаментами города. Из них 563 набора данных в виде файлов и 78 API, некоторые наборы данных одновременно файлы и API.

Для доступа к API требуют авторизации через Jiangsu Unified Identity Authentication System [2], для выгрузки в данных в машиночитаемом виде авторизация не нужна, можно просто скачать.

Наиболее востребованные данные по разрешениям на строительство, часто данные публикуются в виде большой коллекции Excel файлов.

Население Чанчжоу около 5.3 миллионов человек.

Портал открытых данных Пекинского государственного университета, Китай opendata.pku.edu.cn [3]

Создан на базе платформы Dataverse и включает 103 пространства с 355 наборами исследовательских данных по направлениям научных публикаций университета.

Не все данные общедоступны, некоторые доступные под эмбарго, только в момент публикации научной статьи или по запросу.

В Китае сотни существуют сотни порталов данных и открытых данных. А также существуют большие общедоступные наборы из государственных информационных систем. В скором будущем я отдельно напишу про другие их порталы.

Ссылки։
[1] http://opendata.changzhou.gov.cn/
[2] https://www.jszwfw.gov.cn
[3] https://opendata.pku.edu.cn/

#opendata #china #datasets #datacatalogs
В рубрике полезного чтения про данные, технологии и не только։
1. The state of AI in 2022—and a half decade in review [1]

Свежий обзор от McKinsey в виде аналитики по результатам опроса компаний из разных секторов экономики по поводу использования ИИ в их работе. Конечно, это не ИИ по большей части, а разного рода системы принимающие решения автоматически (ADM systems), но у консультантов они все проходят сейчас как "ИИ".

Я, честно говоря, не особенно доверяю обзорам от топовых международных консультантов, они чаще показывают то что эти консультанты продают или собираются продавать, а не реальные тренды. Особенно после появления ChatGPT все эти обзоры кажутся слегка... устаревшими. Тем не менее, для кого-то будет полезно узнать что проблема найма дата-сайентистов и дата-инженеров для крупнейших компаний никуда не исчезла, может что-то ещё полезное найдется.

2. Types of data products [2]

Автор блога Product Management for Data рассуждает о том какие типы продуктов на данных бывает. Для меня всё кажется очевидным, но для кого-то эта систематизация может быть полезной. Вкратце он классифицирует продукты как։ Platform, Insights и Activation. Все этому не хватает примеров, и понимания что часто бизнес модели и продуктовые модели на данных являются гибридными и сложными.

3. NormConf [3]

Онлайн конференция про данные и машинное обучение с кучей явно очень интересных тем, спикеров оттуда знаю немногих, а вот темы выглядят как актуальные. Платить за участие не нужно, регистрация бесплатная. Будет 15 декабря, но надо учитывать разницу во времени с США. Лично я скорее всего посмотреть смогу немного в трансляции, много дел в эти дни( Буду смотреть в записи довольно многое оттуда


Ссылки։
[1] https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai-in-2022-and-a-half-decade-in-review
[2] https://pmdata.substack.com/p/types-of-data-products
[3] https://normconf.com

#data #readings #ai
Была или не была утечка данных из school.mos.ru - это мы достоверно узнаем когда на их основе выйдет очередное расследование коррупции (или не выйдет, и мы тогда узнаем что утечки небыло). Скорее всего это прояснится очень скоро. Я бы словам ДИТа Москвы, чисто для профилактики, не верил, особенно после мутной истории с утечкой данных о заболевших ковидом в Москве.

Но давайте предположим что была или будет и вообще после начала мобилизации я на рынке инфобеза в России немало слышал о проблемах того что многие специалисты уехали из страны на фоне мобилизации назад не спешат. И что специалистов среднего уровня большой дефицит, так что сложно поверить что утечек не будет в каком-то разумном будущем.

Так вот предположим происходит утечка с данными из крупной государственной информационной системы. Что делать в этом случае? А далее этот вопрос опросом https://t.me/begtin/4474

#privacy #dataleaks
В Ведомостях заметка о том что " «Сбер» предложил банкам, маркетплейсам и операторам открыть друг другу данные " [1]. Она под пэйволом, но смысл понятен даже из анонса. Если кратко, то Сбер в лице первого зампреда Александра Ведяхина говорит об обмене данными между банками и маркетплейсами и называет это open data в сравнении с open banking.

Как бы прокомментировать это помягче. Ведяхин плохо знает матчасть иначе он бы знал что open data - это не обмен данными между участниками рынка, а предоставление их неограниченному числу лиц под свободными лицензиями и в машиночитаемых форматах. А то что он описывает - это называется data sharing, практики обмена данными между участниками рынков. Причём эти практики в основном инициируются регуляторами для того чтобы монополисты делились данными с другими компаниями. Такие инициативы и многие проекты есть в Европейском союзе, например, в автомобильной отрасли или в фармацевтике. В ЕС есть целое руководство по этой теме Guidance on private sector data sharing [2].

Основная идея в таком обмене данных в том что есть отрасли в которых гражданин/пользователь/налогоплательщик выигрывает от обмена данными. Например, от обмена данными между фарм компании при разработке лекарств и ещё много где. Опять же, гражданин на первом месте во всех таких инициативах.

Выиграет ли что-то гражданин от того что банки и маркетплейсы будут обмениваться о нём информацией? Скорее проиграет, а то и потеряет когда о нём данные утекут в очередной раз.

Поэтому, я был о Ведяхине лучшего мнения, он мало того что путается в терминах, но и предлагает нечто прямо против интересов пользователей. Очень хочется надеяться что регулятор в лице ЦБ даст Сбербанку ․․․․․ (строгий ответ) за такие идейки.

И, повторюсь, что если в Сбербанке реально хотят раскрывать данные, то могут давно начать это делать публикуя их в открытым доступе, под свободными лицензиями в машиночитаемых форматах.

Ссылки։
[1] https://www.vedomosti.ru/technology/articles/2022/12/15/955362-sber-predlozhil-otkrit-drug-drugu-dannie
[2] https://digital-strategy.ec.europa.eu/en/policies/private-sector-data-sharing

#opendata #sberbank #idiotseverythere
Я всё забыл написать, ещё пару месяцев начал и почти доделал небольшую программную библиотеку для Python для чтения данных из файлов в любых форматах с данными։ csv, json, json lines, xml, parquet, orc, xls, xlsx и в перспективе других. Называется pyiterable [1] и воспроизводит и улучшает код который был в утилите командной строки undatum [2] и в ETL движке datacrafter [3].

По сути библиотека позволяет одинаковым образом читать любые табличные и не-табличные данные и возвращать их в виде словарей для Python (python dict). Причём файлы могут быть, например, сжатыми разными архиваторами и это тоже поддерживается.

Аналогично, для ряда форматов, поддерживается не только чтение, но и запись, опять же в виде записей в виде python dict.

Мне эта библиотека нужна была чтобы в итоге заменить код внутри Undatum и сделать универсальную утилиту преобразования данных из любого в любой формат которые могут быть контейнерами для данных.

На картинке изначальная модель библиотеки, сейчас реализовано около 70% возможностей. Ошибки, предложения можно отправлять в issues, исправления в код в pull request

Ссылки։
[1] https://github.com/apicrafter/pyiterable
[2] https://github.com/datacoon/undatum
[3] https://github.com/apicrafter/datacrafter

#datatools #opensource #apicrafter #data