Ivan Begtin
8.09K subscribers
1.63K photos
3 videos
100 files
4.34K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
7 Best Practices for Data Ingestion

Полезная заметка для тех кто занимается сбором и обработкой данных [1]. Автор собрал несколько практик используемых при загрузке данных.

Если кратко их пересказать:
1. Отслеживайте ошибки в первоисточнике (настраивайте предупреждения).
2. Сохраняйте копию первичных данных до преобразования.
3. Заранее устанавливайте сроки и ожидания пользователей. Загрузка данных не так уж проста.
4. Автоматизируйте трубы данных, устанавливайте SLA используйте системы оркестрации.
5. Трубы загрузки данных должны быть идемпотентны (результат их работы должен повторяться)
6. Создавайте шаблоны, используйте их повторно
7. Документируйте Ваши трубы данных.

Всё кажется очень очевидным и ни с чем не поспоришь. Я бы только добавил что 7-й пункт документируйте Ваши трубы данных должен быть 1-м пунктом. Сколько я не сталкиваюсь с продуктами на данных, вокруг данных, связанных с работой с данными и др. все формы data product недостаток документации есть у всех.

Кто-то скажет, что писать документацию работа не творческая, это так, потому что она производственная. Один из важнейших профессиональных навыков который повсеместно недооценивается.

Ссылки:
[1] https://medium.com/codex/7-best-practices-for-data-ingestion-f336c6b5128c

#data #datapipelines
Может ли ИИ лишить работы журналистов и писателей? Может быть, когда-нибудь. А вот что он может уже сейчас - это выступить соавтором текста.

ИИ мой соавтор [1] в рассылке Stories by AI о сервисе Sudowrite использующем языковую модель GPT-3 для сонаписания текстов.

ИИ выступает в ролях:
- Помощника в мозговых штурмах
- Читателя, предоставляя автоматическую обратную связь на тексты
а также писателя и редактора.

Страшная штука, если задуматься, но, пока ещё, поддерживает только английский язык.

Сейчас это художественные тексты, а, если подумать, то можно ведь сделать сервисы написания текстов публицистических. Сонаписания научных статей, работ журналистов и так далее. Про всяческие пресс-релизы даже не говорю, для этого и ИИ не нужен.

Если подумать об этом чуть дальше, то такие усилители могут быть в разных профессиях. Например, может ли ИИ писать законы или распоряжения, переписывать ранее написанные? И нужны ли будут после этого профессии юристов и нормотворцев?

Но это вопрос, относительно, далекого будущего. А в нашем настоящем творческие профессии могут меняться уже в самом ближайшем будущем.

Ссылки:
[1] https://storiesby.ai/p/ai-is-my-co-writer
[2] https://www.sudowrite.com

#ai #tools #writing
The Open Data Canvas–Analyzing Value Creation from Open Data [1] научная статья за авторством Yingyng Gao и Marijn Janssen посвящённая созданию аналога канвы для бизнес модели, но для проектов на открытых данных. Авторы неплохо поработали над структурой канвы, с научной точки зрения интересны полезна их логика рассуждения, с практической - это структура запуска проекта на открытых данных. Составление таких канв проектов полезно когда ты проектируешь новый проект, или в процессе обучения, или, не в меньшей степени, на хакатонах и конкурсах, когда участники вначале проектируют то что они хотят сделать.

В статье примеры канвы по COVID-19 Dashboard, в целом отражающей действительности.

Со своей колокольни я вижу то чего в такой канве не хватает - это устойчивости (sustainability). В канве бизнес-модели этого нет потому что предполагается что бизнес приносит деньги, а если он не приносит, то это не бизнес. Иначе говоря, бизнес модель всегда предполагает наличие кэш флоу если не от клиентов, то от инвесторов.

В случае с любыми некоммерческими проектами, такими как проекты на открытых данных, кэш флоу может не быть. То что указано в Costs может быть как постоянным, частью деятельности чего-то, как COVID-19 Dashboard часть деятельности института Джона Хопкинса, так и может быть и, чаще, является потребностью в поиске финансирования/смены структуры продукта и проекта.

Как бы то ни было этот шаблон канвы вполне пригоден и полезен в работе. Осталось его только красиво оформить, поместить во что-нибудь вроде Miro и похожие инструменты.

Ссылки:
[1] https://dl.acm.org/doi/pdf/10.1145/3511102

#opendata #canvas #businessmodel #research
This media is not supported in your browser
VIEW IN TELEGRAM
Свежий интересный проект с открытым кодом по мониторингу качества данных Elementary Data [1] изначально собранный через интеграцию с dbt и возможность мониторинга данных в хранилищах данных.

Формирует отчеты по наблюдению за данными (data observability report) на основе проведенных тестов.

Как я понимаю, собираются монетизироваться через облачный сервис, который сейчас готовится к бета тестированию.

Построить контроль качества данных на основе dbt - это актуальная задумка, будет актуальна для многих задач и сред. Главный минус - отсутствие поддержки NoSQL потому что NoSQL нет в dbt.

Впрочем инструмент интересный, надо пробовать.

Ссылки:
[1] https://www.elementary-data.com/

#opensource #datatools #dataquality
Полезное чтение про данные, технологии и не только:
- 6 простых шагов для дата-стартапа [1] - если коротко то всё так: цели и ключевые результаты, потоки пользователей, модель заработка, инструменты и каталог событий, каталог метрик, отчеты. С одной стороны разумно, а с другой, достаточно ли? Вот что для Вас важнейший шаг для дата-стартапа?
- О том как работает diffstatic [2] - это такой умный инструмент сравнения знающий 20 языков программирования и делающий сравнение с учётом их синтаксиса. Автор рассказывает как он его разрабатывал.
- Github Copilot делает разработчиков пушистее и шелковистее продуктивнее и счастливее [3] как показывает исследование самого Github'а. Кто бы сомневался что результат будет таким если исследование не независимое. Технология всё ещё имеет свои юридические и этические изъяны.
- Ducks: Поисковик по объектам в Python [4] довольное неожиданная реализация аналога NoSQL а ля MongoDB через словари для Python'а. С похожим языком запросов, но всё только в памяти. Когда надо много чего обрабатывать в памяти, а возможности включать СУБД нет может быть полезно.
- FAIR vs Open Data [5] научная статья в MIT Press Direct со сравнением инициативы FAIR по открытости научных исследований и движений за открытые данные. Это не синонимы и не антиподы, две близкие и пересекающиеся темы.
- Alexa TM 20B [6] научная статья про крупнейшую языковую модель по архитектуре seq2seq [7]. Как минимум полезно тем кто разрабатывает языковые модели.

Ссылки:
[1] https://thedatastrategist.medium.com/6-easy-steps-to-a-data-driven-startup-on-day-1-4e4f900c2667
[2] https://www.wilfred.me.uk/blog/2022/09/06/difftastic-the-fantastic-diff/
[3] https://github.blog/2022-09-07-research-quantifying-github-copilots-impact-on-developer-productivity-and-happiness/
[4] https://ducks.readthedocs.io/en/latest/index.html
[5] https://direct.mit.edu/dint/article/doi/10.1162/dint_a_00176/112737/FAIR-Versus-Open-Data-A-Comparison-of-Objectives
[6] https://www.amazon.science/publications/alexatm-20b-few-shot-learning-using-a-large-scale-multilingual-seq2seq-model
[7] https://en.wikipedia.org/wiki/Seq2seq

#opendata #data #github #ai #datatools #readings
Вчера зам. министра финансов Алексей Лавров озвучил предложение закрыть для широкой публики информацию о госзакупках [1] предоставив доступ только профессиональным участникам рынка. Озвучивание предложения - это ещё не закрытие, но сигнал о том что оно может произойти уже очень скоро и, скорее всего, обсуждается лишь его масштаб, а там есть вариации которые я не озвучиваю чтобы не упрощать тем кто планирует закрытие работу.

Но важно понимать все последствия этого закрытия и его логику. Логика в недоступности данных для блогосферы, того что ещё совсем недавно называлось гражданским обществом, а в законе о госзакупках был специальный блок посвящённый общественному контролю.

Так вот в России сотни тысяч поставщиков, доступ к данным можно получить и через них, да и просто пройдя аккредитацию на портале. Это означает что целевые расследования сохранятся, усложнится лишь анализ данных, усложнится аналитика и будет уничтожен почти на корню весь легальный бизнес проверки контрагентов. Почему? Потому без запрета и штрафов на использование этих данных сервисы проверки контрагентов будут искать возможность их получить. Они и так сильно пострадали от закрытия данных по контрактам госкомпаний по 223-ФЗ в 2018 году, а теперь станет ещё хуже.

Хорошо ли это для страны? Не думаю. Хорошо ли это для конкуренции ? Точно нет. Кто выиграет ? Конечно те кому было неудобно пилить бюджет.

Но дело не только в этом. Кроме госзакупок российское государство создает и раскрывает много артефактов своей деятельности. Торги по госимуществу, лицензии, данные о городской инфраструктуре и тд. Их тоже могут использовать в блогосфере для критических публикаций. Ждём уже их закрытия для профессиональных участников или ещё нет?

И, наконец, самое главное. Ключевой источник знаний о субсидиях, многих госконтрактах с ед. исполнителями и иных решениях - это нормативно-правовые документы. Ну что, когда ждём что их тоже закроют? Будет доступ к законам только за деньги и только для юристов. Чем отличается от госзакупок? Разве что только объёмами данных.

Тренд на закрытость государства есть уже давно, но сейчас он значительно усиливается. Лично я вижу по слишком многим темам деятельности государства подмену раскрытия данных продуктами жизнедеятельности пиарщиков. Вместо реальных показателей по нац. проектам, медийные государственные проекты. Вместо раскрытия данных, внедрение каптчей на доступ к сайтам. Вместо раскрытия данных для широкой публики, публикация их только для самих госорганов в режиме авторизации через ЕСИА и тд.

Какими бы не казалось выгодными эти решения для тех кто их принимает, в среднесрочном и дальнесрочным периодах они нанесут ущерб гораздо больший чем все декларируемые угрозы которые могли бы возникать от открытости государства.

Ссылки:
[1] https://www.kp.ru/online/news/4911844/

#opendata #opengov #transparency #government #procurement
Интересный стартап Hebba [1] привлекли $30M финансирования [2] на создание новой системы поиска с применением ИИ. Позиционируют они свой продукт как “neural” search engine. На сайте очень мало информации, в статьей на Techcrunch пишут что у них уже 20 платящих корпоративных клиентов. Известно о них ещё с 2020 года, стартап основала команда ИИ исследователей из Стенфорда [3].

Делают акцент на ответах на человеческий вопросы вроде такого: "Which are the largest acquisitions in the supply chain industry within the past five years?" (Какие крупнейшие поглощения в индустрии цепочки поставок были за последние пять лет?)

А также на работы с финансовыми данными и текущие клиенты - это компании из рынка финансовых услуг.

Всё вместе звучит как интересный продукт о котором, жаль, очень мало сведений.

В любом случае - это проект про данные. Я бы даже его относил скорее к системам умных помощников, а не поисковым системам. Понятно почему они подняли раунд $30М, быстро ответить на корпоративном совещании или совете директоров на финансовый вопрос дорогого стоит.

Ссылки:
[1] https://www.hebbia.ai/
[2] https://techcrunch.com/2022/09/07/hebbia-raises-30m-to-launch-an-ai-powered-document-search-tool/
[3] https://techcrunch.com/2020/10/28/hebbia-wants-to-make-ctrl-f-or-command-f-actually-useful-through-better-ai/

#data #search #startups #ai
Global Index on Responsible AI

Новый индекс/рейтинг стран, в этот раз по ответственному отношению к применению искусственного интеллекта [1]․ Сейчас он на стадии проектирования, но уже в 2022-2023 годах планируется сбор данных по 120 странам и публикация результатов. Текущие наработки по индексу авторы регулярно публикуют [2].

Я думаю что первые результаты появятся ближе к 2023 году. Что немаловажно, много гражданских активностей по открытости данных сдвигается в этом направлении. Те НКО которые ранее фокусировались на открытости, сейчас ищут новые цели в своей работе и защита прав граждан при эксплуатации ИИ - это одна из таких тем.

Например, создание этого индекса финансируется IDRC CRDI, канадским агентством развития финансировавшим многие технологические проекты по открытости данных.

Именно этот индекс, почти наверняка, будет основан на анализе законодательства и прав человека в контексте применения ИИ. Увы, я бы не ожидал у России там высокой позиции в оценках.

Ссылки:
[1] http://responsibleaiindex.org/
[2] https://www.d4d.net/news/designing-a-rights-based-global-index-on-responsible-ai/

#opendata #ai #ratings
Очень много разговоров продолжается про то сколько уехало ИТ специалистов и сколько уедет. В рассуждениях людей окологосударственных - это звучит исключительно как: "всё не так плохо", не объективизация картины происходящего, а эдакая успокаивающая мантра.

Я поделюсь наблюдениями происходящему процессу. Они будут исключительно субъективны:
1. Действительно многие из уехавших в марте-апреле поддались панике и кто-то вернулся. Не могу измерить количественно, но таких немало. Их возврат, на самом деле, не так важен для понимания состояния рынка труда.
2. Многие из уезжавших и кто-то из оставшихся были физически в России и работали на зарубежные компании. Многие уехавшие делали это для возможности сохранения этой работы.
3. Многие из тех кто возвращались делали это с полученными банковсками картами и счетами в других странах и пытаются работать дистанционно на компании в других странах.
4. Главные причины возвращения и не отъезда многих - это не меры Минцифры и Пр-ва РФ по удержанию ИТшников, а пока малая инфляция и пока малый уровень падения жизни. Меры Пр-ва и Минцифры - это, хоть и не мёртвому припарка, но, скажем так, то что надо было делать в сытые, а не в голодные времена. Эдак лет 10-15 назад, тогда они были бы идеально к месту. А удержало и многих удерживает до сих пор то что экономика не рухнула, рост цен не запредельный, курс рубля, также, не девальвирован и тд. В целом это скорее экономические меры.
5. Важно понимать что если экономическая ситуация ухудшится то не только ИТ специалисты, но и иные имеющие профессии востребованные в мире постараются уезжать. Просто будет это не одномоментными волнами, а постоянным потоком.
6. Конкуренция на рынке труда в России сейчас идёт только за миддлов и сеньоров. Она снижается потому что вакансий меньше, потому что многие проекты/заказы/заказчики сейчас в состоянии неопределенности. Но спрос будет превышать предложение ещё очень долго.
7. Меры которые российское Пр-во пытается предпринимать по насыщению рынка свежеобученными начинающими специалистами - это, как бы сказать мягче, меры которые дадут эффект через 2-3 года.
8. Главные отличия опытных специалистов от начинающих - это способности: работать в команде и самостоятельно одновременно, уметь документировать свою работу и доводить начатое до конца. А этому не научить, это приходит только в работе.
9. Мне сложно предсказывать что будет с рынком труда в будущем, потому что это зависит от экономики даже больше чем от всего остального. Можно описывать в модели "если-то, если-то" и тд., но важно оценивать ситуацию объективно и понимать что выбор чем и где заниматься большинство будет принимать из соображений личной выгоды и это нормально.
10. И, не могу не добавить, что вот такое вот выделение ИТ-шников в одну регулируемую группу предпринимаемая - это попытка создать ИТ-сословие. Реестр ИТ компаний и мои наезды на то кого в него включили он про это же. Я писал что туда навключали разных не ИТ компаний, а мне представители Минцифры говорили о том что "но там же тоже есть ИТ специалисты". Но это примерно как вести реестр казачьих сообществ и включать туда компании где казаки работают. В самом деле, чем ИТ-специалист теперь будет отличаться от казака? У ИТшников льгот больше!


#thoughts #itmarket
Регулярное полезное чтение про данные, технологии и не только:
- IKEA’s Knowledge Graph and Why It Has Three Layers [1] о том как устроен граф знаний в ИКЕА с точки зрения хранения данных. Актуально для всех кто работает с похожими системами и проектами
- Presto Parquet Column Encryption [2] о том как устроено колоночное шифрование в файлах Parquet в Presto, со ссылками на другие продукты, тексты, описания и тд. про это же.
- MLPerf Results Show Advances in Machine Learning Inference [3] обновление результатов MLPerf по сравнению моделей машинного обучения
- Unsung Saga of MLOps [4] про MLOps в Walmart, в основном про всякое организационное, и тем интереснее.
- In conversation with AI: building better language models [5] научная статья о том как могут развиваться способы коммуникации человека и ИИ, с оглядкой на языковые модели, но с рассмотрением других способов коммуникации также.

Ссылки:
[1] https://medium.com/flat-pack-tech/ikeas-knowledge-graph-and-why-it-has-three-layers-a38fca436349
[2] https://prestodb.io/blog/2022/07/10/presto-parquet-column-encryption
[3] https://mlcommons.org/en/news/mlperf-inference-v21/
[4] https://medium.com/walmartglobaltech/unsung-saga-of-mlops-1b494f587638
[5] https://www.deepmind.com/blog/in-conversation-with-ai-building-better-language-models

#data #machinelearning #readings
Самое поразительное на рынке труда для меня лично то что многие соискатели работы джуниоры приходят с совсем пустыми резюме. Понятно что составление резюме для многих - это стресс и относят его к soft skills, а не к реальным навыкам. Но, как бы, нет ничего сложного чтобы хотя бы пройти самостоятельно несколько курсов или записаться на один из имеющихся.

Аналогично со специалистами которые меняют специализацию. Сложно интервьюировать людей претендующих на позиции не совпадающие с их предыдущим опытом. Недостаточно просто перечислить 5-10-20 языков программирования, фреймворков и баз данных чтобы показать свои знания.

Поэтому учиться, учиться и ещё раз учиться необходимо непрерывно. Это можно делать для резюме, а можно для себя, потому что профессия обязывает.

Я собрал курсы и программы не на русском языке которые могу порекомендовать, которые прохожу сам и на которые обращаю внимание в резюме которые читаю․ Всё это с акцентом на данные и инженерию данных:
- DataCamp - интерактивная образовательная платформа с акцентом на data science, data engineering, data analytics и языки Python, R и Julia. Организовано очень грамотно, с постепенным повышением сложности и так что не пройти курсы просто невозможно. Стоит максимум $180 за годовую подписку, много бесплатных курсов.
- dbt courses - курсы по инструменту dbt по инженерии данных, бесплатные, дают погружение в то что такое ELT, Modern Data Stack, обработку данных и тд. Требуют базовых знаний программной инженерии, SQL и хотя бы одной SQL СУБД.
- Scylla University - бесплатные курсы по NoSQL СУБД Scylla. Для понимания что такое NoSQL, как устроена Scylla (аналог Apache Cassandra) и многие другие NoSQL связанные темы. Курсов много, все бесплатные.
- Pluralsight - большая платная платформа курсов, я рекомендуют там Core Python, но кому-то может быть интересно что-то другое. Платформа стоит небольших денег, $160 в год, многое бесплатно. Например, тестирование знания. Я раз в полгода тестирую там своё знание Python.
- Redis University - подборка бесплатных курсов от компании Redis по продуктам их Redis Stack включая NoSQL базу данных и другие продукты. Redis - это большая NoSQL экосистема, курсы там весьма полезны для тех кто хочет погружаться в эту тему. Но требует, базовых навыков программирования

Для более глубокого погружения в технологии есть много значительно более серьёзных курсов, сертификаций и тд., но это уже другой уровень специализации и понимания собственного карьерного пути.

#data #education #studies
Кстати, есть такой вопрос, а в какой момент Sber AI стал AI Forever, а ru-gpt переместился в Ереван?

Поясню, в 2020 году на Хабре была заметка в блоге Сбербанка о том что Сбер выложил русскоязычную модель GPT-3, она была выложена на Github'е в аккаунте sberbank-ai по ссылке sberbank-ai/ru-gpts. Сейчас эта ссылка редиректит на аккаунт ai-forever без какого-либо упоминания Сбера с указанием что это НКО (non-profit) в Армении.

Какой реальный статус этой модели, Сбербанк её реально передал какой-то НКО под развитие, тогда где анонс, или это мимикрия под то чтобы не заблокировали на Github'е, тогда почему не перенесено на какую-то другую платформу в России?

#opendata #datasets #sberbank #questions #ai #gpt3
В рубрике интересных стартапов Mem.ai [1], система для личной и персональной самоорганизации. Главное отличие от других подобных продуктов - это декларируемое подключение ИИ Mem X [2] через автоматическое понимание написанного текста и подсветку ресурсов, тем и участников. Хорошо для автоматического написания контекста, структуризации заметок о встречах, задач для команды и тд.

Существуют с 2019 года, подняли инвестиций на $5.6M [3].

Один из тех продуктов которому, мне лично, не хватает опенсорс альтернатив. Потому что хранить личные заметки в облаке не то чтобы совсем плохо, но чревато тем что потом можно всё потерять.

Ссылки:
[1] https://get.mem.ai
[2] https://get.mem.ai/mem-x
[3] https://www.crunchbase.com/organization/mem-labs/company_financials

#ai #startups #notes
К вопросу о том как исчезает официальный контент государственных инициатив приведу в пример сайт открытого пр-ва open.gov.ru [1]. Сайт перестали обновлять с 2018 года, после смены состава фед. правительства. Какое-то недолгое время он был онлайн, а с января 2021 года у него "протух" сертификат который ещё и был сделан с поддержкой только TLS 1.0 [2] поэтому сейчас рядовому пользователю его не открыть.

При этом он остался в проиндексированным в Гугле [3], а с помощью консольных и программных инструментов его можно сохранить и получить конкретную страницу, но это, видимо, тоже пока что временно.

Я напомню что государственные сайты, да и вообще сайты в Рунете, не подвергаются обязательной архивации как это происходит в других странах. Нет требований, стандартов, правил, процедур и обязанности к созданию архивов, например, уже закрытых проектов или ликвидируемых организаций. Их цифровой контент и другие цифровые артефакты их деятельности исчезают быстро и безвозвратно.

Это не самый яркий пример, были и похуже, но для меня он важен тем что много моей общественной работы было связано с открытостью гос-ва.

Ссылки:
[1] https://open.gov.ru
[2] https://www.ssllabs.com/ssltest/analyze.html?d=open.gov.ru
[3] https://www.google.com/search?q=site%3Aopen.gov.ru

#digitalpreservation #openness #opengov #archives
Сбербанк социально ориентированная НКО?

Я тут много ругался в адрес Минцифры что они в реестр ИТ компаний навключали всяких и они вроде как даже этот реестр начали чистить.

Но, конечно, есть примеры и похуже. В плане управления качеством данных есть органы власти для которых делать плохо или неправильно - это норма. 2 года назад я писал колонку в РБК [1] о том что Минэкономразвития отвратительно ведёт реестр социально ориентированных организаций. Они даже валидацию реквизитов ИНН/ОГРН не проводили. Прошло 2 года, валидацию они поправили, новое постановление Пр-ва N 1290 выпустили и, стало ли лучше ?

Короткий ответ - нет. Качество данных - это не только качество формы, но и содержания. В реестре социально ориентированных НКО всего 45+ тысяч организаций и там есть не только Сбербанк, но и:
- 288 НКО учрежденных федеральными органами власти и госорганизациями (госНКО)
- 336 НКО учрежденных региональными органами власти (госНКО)
- 314 НКО учрежденных муниципальными органами власти (почти госНКО, с некоторой натяжкой)
- 34 муниципальных учреждения
- Московское областное отделение КПРФ (а как же остальные отделения, не социально ориентированы?)
- 3 региональных министерства и 3 региональных бюджетных учреждения.

Мне есть что про это всё сказать, но скорее я напишу. Последний месяц работаю над книжкой по госНКО. Поднял свои старые записки и хочу привести текст к эпистолярному жанру. К сожалению, многие источники данных уже исчезли из открытого доступа, но и оставшихся достаточно для интересного рассказа.

А за Сбербанк, лично мне, конечно, очень тревожно. То ИТ компания, то СОНКО, неужели всё так плохо?


Ссылки:
[1] https://www.rbc.ru/newspaper/2020/06/19/5ee8ce139a79479edce77585
[2] https://data.economy.gov.ru/analytics/sonko

#registry #data #dataquality #ngo
В рубрике интересных наборов данных новость о том что DBLP, открытая база научных публикаций о компьютерных науках, интегрировали их данные с другой открытой научной базой OpenAlex и пишут об этом [1].

Для тех кто не знает, OpenAlex - это открытый продукт базы данных ссылок на научные публикации созданный НКО OutResearch на базе Microsoft Academic Knowledge Graph, большого набор данных опубликованного компанией Microsoft для помощи в развитии инструментов анализа библиографических данных.

DBLP - это проект университета Триера существующий с 1993 года и ведущий крупнейшую в мире систематизированную базу научных публикаций в области компьютерных наук.

Интеграция даёт возможность увидеть категории/концепты к которым относится данная публикация, а ранее уже DBLP интегрировали с базами Semantic Scholar, Crossref и OpenCitations.

Пока это всё происходит на уровне веб-интерфейсов, но, ничто не мешает использовать открытые данные DBLP [2] что автоматизации анализа в нужных областях.

Лично мне в DBLP всегда не хватало возможности подписаться на новые статьи по конкретной теме, исследователю, исследовательскому центру, ключевым словам, но это то что можно делать в других сервисах вроде Semantic Scholar.

Я читаю на регулярной основе ключевые научные работы по цифровой архивации, открытым данным и "пониманию данных" (семантическим типам данных, идентификации шаблонов и тд.). Удобные инструменты для поиска таких публикаций очень помогают.

Ссылки։
[1] https://blog.dblp.org/2022/08/31/openalex-integration-in-dblp/
[2] https://dblp.uni-trier.de/xml/

#opendata #research #openaccess #datasets
Если вам кажется что только в Вашей стране, где бы Вы ни были, всё делают через одно место и это не голова, то это не так. Например, Chaos Computer Club (CCC), старейшая хакерская команда в Германии, пишут о том что германская компания Gematik отвечающая за информатизацию здравоохранения плохо понимают в информационной безопасности того что они делают [1].

Текст на немецком языке, но легко переводится и смысл его в том что по номеру медицинской страховки сотрудник аптеки может получить о человеке всю информацию о его рецептах, без дополнительной авторизации и подтверждения самого человека. Учитывая что в Германии идёт цифровизация здравоохранения с переходом на электронные рецепты - то это становится актуально.

Я бы ещё обратил внимание на модель угроз которую они описывают. Сотрудник аптеки может продать таблоидам номера страховок знаменитостей и те могут узнать из рецептов от чего знаменитости лечатся.

Это не единственный "косяк" от Gematik, но достаточно яркий.

А если вернуться к российским реалиям, то для авторизации на российском портале ЕМИАС [2] достаточно номера карточки медицинского страхования и даты рождения. После этого доступны данные о записях к врачам, рецептам и направлениям (хорошо хоть не самой медкарты).

Это означает что любой врач в системе ОМС имеющий доступ к Вашему анамнезу может увидеть всю эту информацию на сайте ЕМИАС и Вы никогда об этом не узнаете. Но, всё интереснее. В медицинских полисах последние 6 цифр - это и есть дата рождения. Если у кого-то есть номер вашего мед полиса и даже если этот кто-то не знает даты Вашего рождения он/она может получить доступ к этому же личному кабинету.

Страны разные, проблемы похожие.

UPD: Речь, в первую очередь, про московский портал ЕМИАС. Как организовано в других регионах надо разбираться отдельно.

Ссылки:
[1] https://www.ccc.de/updates/2022/erezept-mangelhaft
[2] https://emias.info/

#security #privacy #germany #russia
Я достаточно давно не публиковал данные над которыми работаем мы сами, а не просто выложенные где-то ещё. Поэтому пора уже разместить такой набор данных - это данные по социально ориентированным НКО в репозитории datacrafter-sonko [1]

Это одновременно пример работы datacrafter'а [2] с кодом выгрузки данных в datacrafter.yml и сам набор данных в виде слепков первичных данных выкачанных с портала Минэка РФ data.economy.gov.ru и уже в обработанном виде в виде файла sonko_fin.bson.gz в котором данные Минэка обогащены частью данных с портала openngo.ru. Той частью что относится к классификации НКО.

Несколько лет назад мы в openngo.ru разметили все НКОшки по 320 классификационным категориям среди которых есть православные НКО, госНКО, НКО относящиеся к структурам ДОСААФ и ещё много каких. Все это время не доходили и не доходят руки загрузить это на сайт openngo.ru в основном потому что общественного заказчика на некоммерческую аналитику мы так и не нашли.

Поэтому эти классификационные признаки я сейчас перенес на эту малую базу СОНКО из 45+ тысяч организаций. Там получилось 213 категорий по которым размечены приtмрно 2/3 всех организаций.

Так что если хотите поработать с данными в формате MongoDB, про социально ориентированные НКО и проанализировать их, то в репозитории код, вот тут финальные дампы [3] в которые добавлены статус в ЕГРЮЛ, статус в Минюсте, классификационные группы (orglists) к которым относится организация.

Особенность по сравнению с первичными данными в том что в первичных данных по факту не реестр организаций, а реестр поддержки, а в этом наборе данных сведения о поддержке вложены в реестр организаций который на его основе сформирован и дообогащены данными о которых я пишу выше.

Вопросы лучше писать в issues репозитория или по контактам указанным в репозитории, предварительно представившись кто Вы и что делаете.

Я чуть позже также выложу некоторые метрики и аналитику.

Ссылки:
[1] https://github.com/datacoon/datacrafter-sonko
[2] https://github.com/apicrafter/datacrafter
[3] https://github.com/datacoon/datacrafter-sonko/tree/main/output/dump/openngo

#ngo #datasets #govngo #opendata