Ivan Begtin

Любопытный свежий документ Deloitte про открытые данные и открытый банкинг Digital transformation of financial services and moving from Open Banking to Open Data [1], подготовленный в продолжение отчёта ОЭСР Shifting from open banking to open finance [2] от февраля 2023. В документе Deloitte в большей степени и в документе ОЭСР в меньшей степени упоминаются открытые данные, но термин постоянно подменяется с "open data" на "Open Data Ecosystem" и то что там описывается, формально, конечно, никакими открытыми данными не являются. Это данные, в том числе персональные, доступные в рамках различных инициатив по data sharing и само регулирование и примеры в этих документах это практики корпоративного обмена данными и предоставление данных через стандартизованные интерфейсы.

С точки зрения интересных примеров регулирования работы с данными - почитать полезно, в остальном, довольно активная подмена понятий, особенно в тексте от Deloitte.

Ссылки:
[1] https://www.deloitte.com/global/en/Industries/financial-services/perspectives/ecosystem-imperative.html
[2] https://www.oecd.org/publications/shifting-from-open-banking-to-open-finance-9f881c0c-en.htm

#opendata #readings

Deloitte

The ecosystem imperative

Digital transformation of financial services and moving from Open Banking to Open Data

1.8K viewsIvan Begtin, 15:55

Ivan Begtin

Я тут недавно выступал на одной из конференций с презентацией на русском языке про текущее состояние открытых данных и очень хотел добавить к ней цифры по числу и объёму открытых данных в мире. Такие цифры никто не собирал и, в принципе, это трудоёмкая задача. Поэтому получилось измерить минимальное число каталогов с данными, их около 3000+, но число самих данных в Common Data Index пока только 3.3 миллиона, с оговорками что не всё индексируется, не всё индексируется хорошо и тд. Но есть ли хотя бы ориентиры?

Итак вот 2 цифры:
- 45 миллионов наборов данных - это то что заявляет команда Google dataset search [1] на февраль 2023 года и собранные из 13 тысяч сайтов с разметкой Schema.org Dataset
- 53 миллиона наборов данных - это число наборов данных содержащихся в 10 крупнейших репозиториях (содержащих от 100 тысяч наборов данных) и агрегаторах научных данных, OpenAIRE, Data Mendeley, DataCite, SciDb, Figshare, DataOn, Data One, Pangaea, Zenodo, IRDB. Подсчитано мной вручную, с оговоркой что научных репозиториев много, миллионников мало, но под 100 тысяч могут быть какие-то какие я не видел ещё. Так что 53 миллиона это минимальные оценки.

Измерить объёмы данных также можно, но это будет очень большим допущением потому что до 99.9% объёма всех данных будут результаты исследований CERN и аэрофотосъёмка. Там много-много-много десятков петабайт. Речь только про доступные данные, конечно.

Ссылки:
[1] https://ai.googleblog.com/2023/02/datasets-at-your-fingertips-in-google.html

#opendata #datasets

1.8K viewsIvan Begtin, edited 18:03

Ivan Begtin

В рубрике как это устроено у них, экспериментальный австралийский проект их департамента финансов (аналог Министерства финансов в РФ и постсоветских странах) по созданию так называемого финансового графа по органам власти Австралии. С атрибутами, свойствами и характеристиками органов власти с точки зрения их участия в бюджетном процессе. Можно посмотреть вживую на structure.gov.au [1]

В России похожий проект был в виде реестра участников и неучастников бюджетного процесса, но только связанных данных там не было, но информации значительно больше публиковалось и частично публикуется.

В мире такие проекты редкость, сложные формальные реестры - это одна из областей где применение связанных данных оправданно и логично, хотя и от конечного неквалицированного пользователяь оторвано.

Для тех кто любит оперировать смыслами понятий в госуправлении и управлении бюджетными процессами - это сложная и интересная штука.

Ссылки:
[1] https://structure.gov.au/body/department-finance

#opendata #linkedata #govfinances #government #australia

2.4K viewsIvan Begtin, 11:44

Ivan Begtin

Я уже несколько раз писал о том что государства по всему миру продолжают создавать каталоги API, по аналогии с сайтами для разработчиков предлагаемыми в коммерческом секторе. Новые каталоги API в тот же список:
- Каталог административных API Японии http://api-catalog.e-gov.go.jp/ открыт 31 марта 2023 г., 39 API
- Государственные API в Малайзии https://www.mygdx.gov.my/en/landing-page/architecture?theme=first-theme 130 API
- Портал API налоговой службы Австралии https://apiportal.ato.gov.au, 6 API
- Портал госAPI ОАЭ https://api.government.ae 29 API
- Портал API налоговой службы Новой Зеландии https://portal.api.business.govt.nz 30 API
- Каталог API Литвы https://api.gov.lt около 40 API

А также предыдущий список из 6 каталогов API.

Таких порталов становится всё больше и, надо отметить, что появляются они в странах где порталы открытых данных уже стали нормой и такие каталоги API их дополняют для задач где сложно или неудобно выгружать весь набор данных целиком или органы власти требуют авторизации.

#openapi #opendata #api #government

api.business.govt.nz

Home

Discover MBIE APIs, learn how to use them, try them out interactively, and sign up to acquire keys.

1.8K viewsIvan Begtin, 16:44

Ivan Begtin

Свежий текст в рассылку на Substack, текстов я туда не писал давно, поэтому перезапускаю с вопроса. О чём же написать в первую очередь? Опрос прямо там же, на Substack [1]

Ссылки:
[1] https://begtin.substack.com/p/fde

#blogging #data #substack

1.6K viewsIvan Begtin, 06:56

Ivan Begtin

Тут буквально недавно Миннауки РФ разродилось контрактом на 344 млн. руб. с на создание сервисов в рамках "домена наука" на базе ЕГИСУ НИОКР.
Контракт, ожидаемо, с ед. исполнителем, их подведом ЦИТИСом.

Отдельная история про смысл этой работы, о ней как-то в другой раз. А отдельно про "нюансы" с Гостехом. Так вот упоминание Гостеха там в документе щедро раскидано, но... как опытный чтец ТЗ на госсистемы отмечу следующее:
1. В документе акцент не на создание на базе Гостеха, а на "готовности перевода сервисов", а значит Минобрнауки сможет принять работы и без переноса.
2. Технические мероприятия не включают перевод в промышленную эксплуатацию (впрочем это касается всего что делает ЦИТИС, а не только ГосТех, можно сказать что это такая "особенность")
3. Гостех описывается исключительно как платформа для хостинга. Требования к оборудованию нет, всё что касается сервисной инфраструктуры отсутствует.
4. Про взаимодействие через витрины данных описывается в модели "если они будут".
5. Стоит обратить внимание что размещение гостайны на Гостехе не предусмотрено, поэтому ЕГИСУ НИОКТР разделяют на две части: на инфраструктуре ЦИТИСа и на инфраструктуре ГосТеха.

В итоге, что и требовалось доказать. Гостех ничем не отличается от того чтобы вместо него использовался бы ЦОД Госзнака или Ростелекома или ГЕОП и ещё много чего.

Учитывая насколько представители Сбера стали реже упоминать себя в контексте ГосТеха, в банке то понимают насколько они портят себе этим репутацию. Собственно и мне инсайдеры в Сбере периодически честно говорят, что из всего технологического что банк делает, именно Гостех - это самый неаппетитный результат жизнедеятельности.

Ссылки:
[1] https://zakupki.gov.ru/epz/contract/contractCard/document-info.html?reestrNumber=1971006293923000063&contractInfoId=83142106

#government #govtech #spending

1.7K viewsIvan Begtin, 08:58

Ivan Begtin

К вопросу о цифровой архивации данных, единственный известный мне портал открытых данных Афганистана Afghanistan Disaster Risk Information Portal [1] на базе Geonode, был доступен до декабря 2022 г. [2], а потом просто исчез. Особенность как его, так и очень многих других порталов с данными в том что поисковые системы и интернет-архив их почти не индексируют, потому что интерфейсы построены поверх вызовов API и сами данные доступны не всегда файлами, часто через точки подключения.

Один лишь пример из многих

Ссылки:
[1] https://disasterrisk.af
[2] https://web.archive.org/web/20221223165024/https://disasterrisk.af/

#opendata #digitalpreservation #afganistan #geodata

1.6K viewsIvan Begtin, 09:41

Ivan Begtin

В рубрике как это работает у них, портал открытых данных Абу Даби (ОАЭ) [1]

На портале 3329 наборов данных, внутри используется движок DKAN, поверх него работает фронтэнд который взаимодействует с этим движком через API.

Из плюсов: несколько API реального времени, симпатичный дизайн, регулярное обновление, данные доступны файлами и через API

Из минусов: не поддерживает стандарты экспорта метаданных вроде DCAT, лукавят с цифрами наборов данных потому что разрезали некоторые наборы данных помесячно.

Ссылки:
[1] https://data.abudhabi

#opendata #opengov #uae

1.6K viewsIvan Begtin, 11:32

Ivan Begtin

В рубрике как это работает у них, корейский негосударственный агрегатор поисковик по открытым данным Kimi Nine [1] 149 тысяч наборов данных, 11 тысяч API, 39 тысяч слоёв карт и 451 набор больших данных из 54 источников, большая часть источников - это государственные и научные каталоги данных.

Агрегатор заодно даёт картину того как устроена публикация данных в Южной Корее.

Ссылки:
[1] https://gimi9.com

#opendata #korea #datasets

1.8K viewsIvan Begtin, 18:49

Ivan Begtin

Свежий доклад ОЭСР по применению ИИ в науке [1], вернее это даже не доклад, а сборник статей объединённых одной темой. Много примеров того как ИИ уже сейчас применяется в научной работе и о том как может применяться в ближайшем будущем. В целом документ ИИ-оптимистичен, практически все тексты о том как ИИ хорош и полезен во всём: автоматизации лабораторий, поиске лекарств, удобных инструментах управления знаниями и так далее.

Важная часть текстов посвящена вопросу Is science getting harder? (Становится ли тяжелее заниматься наукой?) и ответ на этот вопрос - да, а ИИ рассматривается как важный усилитель работы учёных.

Почитать полезно, поскольку это та область которая как раз должна вызывать наименьшие опасения этики работы с ИИ. Возможно.

Ссылки:
[1] https://www.oecd.org/publications/artificial-intelligence-in-science-a8d820bd-en.htm

#openscience #ai #readings

www.oecd.org

Artificial Intelligence in Science: Challenges, Opportunities and the Future of Research | en | OECD

The rapid advances of artificial intelligence (AI) in recent years have led to numerous creative applications in science. Accelerating the productivity of science could be the most economically and socially valuable of all the uses of AI.

2.8K viewsIvan Begtin, 07:34

Ivan Begtin

Из любопытного, в Meilisearch, одном из самых быстрых опенсорсных движков для поиска структурированного контента, добавили векторный поиск [1], а их CTO интересно и с примерами рассказывает про применение Meilisearch для семантического поиска и построения чат-ботов [2]. Там есть технические подробности для интересующихся, лично я планирую посмотреть пристально на эту новую возможность.

А из другого бросившегося в глаза в их анонсе, это ссылка на бот дающего ответы на основе их же документации [3], чат боты для технической документации это хорошая идея, да и для любой другой документации больших текстов тоже.

Ссылки:
[1] https://blog.meilisearch.com/vector-search-announcement/
[2] https://github.com/meilisearch/meilisearch/issues/3838
[3] https://blazy-chat.vercel.app/

#opensource #search

Meilisearch Blog

Vector storage is coming to Meilisearch to empower search through AI

We're thrilled to release vector storage for Meilisearch to bring fast, relevant search to AI-powered applications.

1.6K viewsIvan Begtin, 10:45

Ivan Begtin

Forwarded from Ах, этот Минфин (Olya Parkhimovich)

В продолжение новости о возобновлении публикации отчетности банков: Стал доступен перечень сведений, которые компании-эмитенты вправе не раскрывать.

К таким сведениям относится информация:

– о лицах, входящих в состав органов управления и органов контроля за финансово-хозяйственной детяельность;

- о сделках эмитента, его контролирующих лиц, подконтрольных ему лиц;

- о банковских группах, банковских холдингах и ассоциациях;

- о лицах, являющихся или являвшихся акционерами эмитента и подконтрольной эмитенту организации;

- о дочерних организациях эмитента;

- о финансовых вложениях эмитента;

- об операциях и объеме средств в иностранной валюте;

- об остатках и обеме средств на счетах;

- о контрагентах;

- о реаорганизации эмитента и подконтрольных эмитенту организаций;

- и др.

Полный перечень можно найти в Постановлении Правительства РФ от 4 июля 2023 года (http://static.government.ru/media/files/LI99DyXKF4GmQRe0YAsF1wH5cgNEoKnN.pdf)

1.5K viewsIvan Begtin, 11:38

Ivan Begtin

Eusko Jaurlaritzaren datu irekiak

В рубрике как это устроено у них портал открытых данных Страны басков (провинция Испании) [1]. Можно сказать что является типичным европейским регионалом порталом открытых данных с акцентом на статистике и на геоданных, кроме двух интересных особенностей.

Во первых на нём размещено около 10 тысяч наборов данных, при том что население провинции составляет всего около 2 миллионов человек. Это довольно много, даже если предположить что они тоже дробят статистические показатели.

И, во вторых, портал построен на тематической классификации по 16 Objetivos de Desarrollo Sostenible (Целям устойчивого развития, ЦУР), что для порталов открытых данных довольно необычно, обычно темы используют другие, в Европе это или геотемы из ISO 19115 или Data Themes применяемые в Европейском портале открытых данных.

Плюс у портала есть множество API, поддержка SPARQL и тд.

Ссылки:
[1] https://opendata.euskadi.eus/hasiera/

#opendata #spain #basque #euskadi #datasets

1.6K viewsIvan Begtin, 19:03

Ivan Begtin

Тем временем в Великобритании вновь возвращаются принятию Online Safety Bill, проекта закона пережившего уже 3-х премьер министров и обязывающего платформы встраивать бэк-доры для служб Правительства UK для возможности поиска в мессенжерах на устройствах пользователей противоправного контента. Об этом многие специалисты в инфобезе бьют тревогу [1] и даже есть открытое письмо на эту тему [2]. Собственно представителей правозащитных организаций об этом и говорят что такое демонстративное пренебрежение правами людей со стороны либеральной демократии это очень плохой сигнал для всех стран [3].

Посмотрим чем закончится принятие это законопроекта. Я ставлю на то что если его примут, то компании предоставляющие услуги P2P коммуникаций скорее уйдут с рынка UK.

Ссылки:
[1] https://techcrunch.com/2023/07/05/uk-online-safety-bill-risks-e2ee/
[2] https://haddadi.github.io/UKOSBOpenletter.pdf
[3] https://twitter.com/OpenRightsGroup/status/1676860821857509376

#privacy #security #uk

TechCrunch

Security researchers latest to blast UK’s Online Safety Bill as encryption risk

Nearly 70 IT security and privacy academics have added to the clamour of alarm over the damage the U.K.’s Online Safety Bill could wreak to, er, online safety unless it’s amended to ensure it does not undermine strong encryption.

1.6K viewsIvan Begtin, 15:16

Ivan Begtin

Свежий инструмент Hashnode Rix [1] по модели компаньёна разработчика. Умеет отвечать на вопросы относительно написания кода, На сложные вопросы ответить не может, а на вот такие простые легко.

Уже просто таки даже интересно, когда от supportive AI придёт мода на proactive AI. Пишешь код, к примеру, а тут тебе AI помощник и пишет "Йоу, чувак, да у тебя веб приложение. А кинь мне список страниц что тебе нужны, я сейчас сгенерю" и тд.

Ссылки:
[1] https://hashnode.com/rix

#ai #tools

1.7K viewsIvan Begtin, 16:06

About

Blog

Apps

Platform