Ivan Begtin
8.03K subscribers
1.73K photos
3 videos
101 files
4.43K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Свежий доклад State of Data Engineering 2024 от команды LakeFS.

Подмечают три ключевых тренда:
1. Генеративный ИИ влияет на инструментарий в Modern Data Stack
2. Конкуренция дата продуктов растёт и, соответственно, моё дополнение, цена выхода на рынок с новым продуктом.
3. Открытые форматы создают закрытые заборы. В центре конфликт между Databricks и Snowflake.

Последнее утверждение спорное, скорее речь о том что есть такой конфликт на рынке, а уж каким образом и что используется при нем - не это в его основе.

Что характерно в таких обзорах State of ... так то что от 75 до 95 процентов инструментов, по разным категориям, это облачные продукты. К российским реалиям, к примеру, они не применимы. Как и ко многим особо закрытым не-российским стекам данных.

И, кстати, чтобы не забыть, составители таких State of продолжают путать открытые данные и каталоги открытых данных и корпоративные каталоги. А это очень разные продукты под очень разные задачи.

А если бы я выпускал свой State of data ... то делал бы два отдельных. Один для облака, а другой для корп оффлайна. А может быть даже и три. Ещё один для корп оффлайна открытого кода.

#datatools #opensource #stateof #dataengineering #moderndatastack #readings
В рубрике полезного чтения:
- Science in the age of AI [1] доклад британского королевского общества о трансформации и вызовах перед наукой в контексте AI. Много примеров и полезное чтение. Для тех кто давно изучает эту тему ничего нового, но авторитетный источник старого.
- Exploring the Impact of ChatGPT on Wikipedia Engagement [2] препринт статьи о влиянии ChatGPT на вовлечение в Википедию. Выводы пока что не влияет, но полезно почитать о том как измеряют.
- Vulnerabilities across keyboard apps reveal keystrokes to network eavesdroppers [3] большой лонгрид от CitizenLab о том как они анализировали перехват набираемых текстов в приложениях клавиатур, для Android и IoS, с акцентом на китайских вендоров и китайский язык. Детальное, хорошо проработанное техническое расследование
- The Simple Macroeconomics of AI [4] работа по влиянию ИИ на макроэкономику. Текст полезный всем кто считает AI impact в конкретных отраслях. Я его ещё не дочитал, но отложил до ближайшего свободного времени.
- A New National Purpose: Harnessing Data for Health [5] доклад института Тони Блэра про создание National Data Trust по управлению данными в сфере здравоохранения в Великобритании. Открытые данные не упоминается и предполагается научное примененеи и коммерциализация в среднесрочной перспективе и то что данные могут быть персональными. Если говорить про экономику данных настоящую, то это вот так, и очень непросто в реализации.


Ссылки:
[1] https://royalsociety.org/news-resources/projects/science-in-the-age-of-ai/
[2] https://www.arxiv.org/abs/2405.10205
[3] https://citizenlab.ca/2024/04/vulnerabilities-across-keyboard-apps-reveal-keystrokes-to-network-eavesdroppers/
[4] https://www.nber.org/papers/w32487
[5] https://www.institute.global/insights/politics-and-governance/a-new-national-purpose-harnessing-data-for-health

#readings #ai #data #privacy
Нашёл презентацию Paul Bradshaw о недокументированных API веб-сайтов и как их искать [1]. Рецепты у него довольно простые:
- используйте Chrome Developers Tools и аналог в Firefox
- изучайте структуру ссылок и XHR типы запросов
- учитесь декодировать параметры

Ну и примеры недокументированных API тоже. Презентация должна быть доходчивой для журналистов, для которых собственно он и пишет как автор The Online Journalism Handbook.

У меня на эту же тему было несколько презентаций в контексте проблем с архивацией сайтов и в контексте поиска недокументированных API.

Так вот ключевой инструмент в работе с ними - это поисковые системы, возможность найти точки подключения проиндексированные ими.

Второй значимый инструмент - это "типовые", но недокументированные API многих программных продуктов. В первую очередь типовые API CMS.

И третий - это мобильные приложения, декодирование байткода которых или перехват их обращений к сайту также может дать много чего интересного.

Но, опять же, это всё полезно, в первую очередь журналистам, OSINT'щикам и хакерам. Для других задач нужно куда реже.

Ссылки:
[1] https://github.com/paulbradshaw/undocumentedapis/blob/main/Undocumented%20APIs.pdf

#api #readings #datajournalism
Свежий гайд от Всемирного банка про Beneficial Ownership Registers: Implementation Insights and Emerging Frontiers [1] в виде пояснений о том как реализовывать реестры конечных бенефициаров компаний и с весьма конкретными рекомендациями. На сегодняшний день таких реестров немного, самый известный это реестр компаний в Великобритании и чуть меньше в других странах, но тренд в этом направлении точно есть и общедоступные и открытые данные тоже. Конкретно в этом документе разобраны такие проекты в Нигерии, Кении, Северной Македонии и Великобритании.

Кроме того напомню что в реестрах Open Ownership есть данные из Дании, Словакии и чуть-чуть Армении. [2]

Про Армению разговор отдельный, там всего несколько компаний и сами данные довольно плохого качества, можно сказать что инициативы де-факто работающей нет.

Важно отличать реестры компаний от реестров конечных бенефициаров компаний потому что реестры компаний не дают глубокой прослеживаемости фактического владения юр. лицом.

Ссылки:
[1] https://openknowledge.worldbank.org/server/api/core/bitstreams/fea074cb-e6a4-4ebe-8348-6cd151d2f424/content
[2] https://register.openownership.org/data_sources

#opendata #readings #transparency
Читаю статью The Public Interest Internet [1] за авторством Robin Berjon и нахожу это весьма познавательным чтением, достойным быть как примером для эволюции интернета, так и прототипом сценария научной фантастики.

Если кратко, то автор задаётся вопросом как же так получилось что мы оказались в ситуации когда биг техи, де факто, управляют всеми основными интернет процессами, то что де-факто цифровая дипломатия США основана именно на них и какой момент человечество свернула не туда и как это можно было бы исправить через создание Интернета как общей цифровой инфраструктуры, общественного блага или общественного интереса?

Там же в статье весьма показательный блок про Captured Infrastructure когда крупные частные компании контролируют ключевую инфраструктуру и обогащаются за счёт того что они знают о всех остальных гораздо больше чем кто-то ещё на рынке.

Рассуждения очень интересные, не очень реалистичные, но про подумать. А также попробовать представить себе в формате "А что если?"

- А что если... развитие технологий было бы на порядок медленнее, а международного регулирования на порядок оперативнее?
- А что если... крупнейшие операторы цифровой инфраструктуры были бы не из США?
- А что если... цифровые границы были бы гораздо более похожими на реальные, со всеми требованиями и ограничениями по экспорту/импорту и тд. ?

И ещё многое другое.

Ссылки:
[1] https://berjon.com/public-interest-internet/


#readings #internet #publicgood #digitalinfrastructure
Полезное чтение про данные технологии и не только:
- AI Doesn’t Kill Jobs? Tell That to Freelancers [1] статья в WSJ о том что рынок фрилансеров резко проседает с 2022 года (появления ChatGPT) и у людей делавших рутинную цифровую работу теперь задача найти себе новый заработок.
- AI Is Already Wreaking Havoc on Global Power Systems [2] лонгрид в Блумберг о том как AI влияет на энергопотребление. Большой интерактивный продукт, приятно смотреть. И тема актуальная
- The Rise of Medium Code[3] в блоге Dagster про восхождение среднего кода (medium code). О том что с разработкой ПО не всё так плохо, просто по другому.
- Governing with Artificial Intelligence [4] свежая статья от ОЭСР про госуправление с помощью ИИ. Как раз актуально, много разговоров на эту тему и больше хайпа чем смысла, а тут сжато и с примерами
- How to optimize the systematic review process using AI tools [5] об использовании ИИ для систематического обзора тематических статей/публикаций. Полезно учёным и исследователям в самых разных областях.

Ссылки:
[1] https://www.wsj.com/tech/ai/ai-replace-freelance-jobs-51807bc7
[2] https://www.bloomberg.com/graphics/2024-ai-data-centers-power-grids/
[3] https://dagster.io/blog/the-rise-of-medium-code
[4] https://www.oecd-ilibrary.org/science-and-technology/governing-with-artificial-intelligence_26324bc2-en
[5] https://acamh.onlinelibrary.wiley.com/doi/full/10.1002/jcv2.12234

#readings #software #ai
Оказывается НИУ ВШЭ опубликовали Декларацию этических принципов использования ИИ [1]. Я бы сказал что полезный документ и всё такое, но у этого удивительного документа нет вообще никаких ссылок на то что могло бы быть его основой. Ни на глобальные принципы ООН, ни на принципы ОЭСР, ни на даже на российский кодекс этики в сфере ИИ [2]. Не говоря уже про принципы научной этики.

Удивительная вещь в себе, зато со ссылкой на указ президента.

Кто ещё его читал? Какие ещё косяки там есть?

Ссылки:
[1] https://www.hse.ru/news/expertise/937054242.html
[2] https://ethics.a-ai.ru/

#ai #russia #readings
Интересные ссылки про данные, технологии и не только:
- OmniParse [1] очень интересный open source движок по применению ИИ к парсингу документов. В примерах приводят разбор PDF на картинки и таблицы. Для задач разбора PDF'ок может быть бесценен, и как идея, и как код. Лицензия GPL3, часть облачного продукта стартапа CognitiveLab

- Meta 3D Gen [2] в Meta создали модель ИИ для генерации 3D моделей. Выглядит интересно и очень много прикладного применения у такого есть. Можно начинать гадать сколько 3D дизайнеров и гейм дизайнеров лишаться работы или... сильно повысят свою продуктивность

- Google AI и Pixel 9 [3] похоже что новая версия телефонов Pixel от Google будет иметь на борту мини языковую модель и несколько продуктов на базе ИИ. Даже не знаю что сказать на это. Неужели это начало тренда когда во всех телефонах будут ИИ приложения всегда?

- Google Mesop [4] open-source движок от Гугла по быстрой разработке веб интерфейсов. Ещё бы к нему хороший автогенератор кода из ТЗ в интерфейс и было бы бесценно, как минимум, для создания быстрых демок.

- The 4M Roadmap: A Higher Road to Profitability by Using Big Data for Social Good, by Brennan Lake [5] доклад о применении корпоративных данных для общественного блага. Подробный разбор нескольких глобальных инициатив в этой области

Ссылки:
[1] https://github.com/adithya-s-k/omniparse
[2] https://venturebeat.com/ai/meta-drops-3d-gen-bomb-ai-powered-3d-asset-creation-at-lightning-speed/
[3] https://www.androidauthority.com/google-ai-recall-pixel-9-3456399/
[4] https://google.github.io/mesop/
[5] https://www.sharedvalue.org/resource/the-4m-roadmap/

#opendata #opensource #readings
Симпатичная open source книжка DevOps for Data Science полезная для всех кто сисадминит и хочет развиваться в сторону дата инфраструктуры. Не охватывает платформы, охватывает большую часть фундаментальных вопросов. Полезное и для дата инженеров тоже.

#readings #data #datascience #devops
Полезное чтение про данные, технологии и не только:
- Everyone Has A Price — And Corporations Know Yours [1] о нарастающем тренде персонализированных цен в примерах. О том что накоплений данных корпорациями приводит к тому что они рано или поздно научатся контролировать то сколько денег остаётся у тебя в карманах. Статья не за пэйволом, но требует регистрации.
- Mapping the Landscape of AI-Powered Nonprofits [2] об отношении НКО и AI, примеры некоммерческого применения и НКОшек работающих с AI, а также областях применения в некоммерческом секторе
- Digital Ethology [3] книга о человеческом поведении в геопространственном контексте. Ещё не читал, но планирую. Судя по содержанию там немало про цифровые следы в пространстве что мы оставляем.
- Diversity in Artificial Intelligence Conferences [4] статья о том что в конференциях по ИИ низкий уровень diversity (разнообразия), например, мало женщин. И низкое разнообразие по странам: все из США, Европы и Китая. Почти все. Казалось бы на эти вопросы есть очевидные ответы, но тут целая научная работа.
- The Great Scrape: The Clash Between Scraping and Privacy [5] нарастающий конфликт между теми кто "обдирает" (scrape) сайты и теми кто заботится о приватности. И ранее было спорной темой, а сейчас становится особенно актуально в контексте обучения ИИ.
- Automated warfare: irresponsible even without killer robots [6] о том как Израиль применяет ИИ для идентификации зданий объектов для атаки и "социальный скоринг" палестинцев на вероятность что они боевики Хамас. Упоминаются две системы Gospel [7] и Lavander [8]

Ссылки:
[1] https://www.levernews.com/everyone-has-a-price-and-corporations-know-yours/
[2] https://ssir.org/articles/entry/ai-powered-nonprofits-landscape
[3] https://mitpress.mit.edu/9780262548137/digital-ethology/
[4] https://publications.jrc.ec.europa.eu/repository/handle/JRC137550
[5] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4884485
[6] https://r.algorithmwatch.org/nl3/lm8uSbreEO9yUU55aO0flA
[7] https://www.972mag.com/mass-assassination-factory-israel-calculated-bombing-gaza/
[8] https://www.972mag.com/lavender-ai-israeli-army-gaza/

#data #readings #ai