Ivan Begtin
7.99K subscribers
1.76K photos
3 videos
101 files
4.47K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Нашёл презентацию Paul Bradshaw о недокументированных API веб-сайтов и как их искать [1]. Рецепты у него довольно простые:
- используйте Chrome Developers Tools и аналог в Firefox
- изучайте структуру ссылок и XHR типы запросов
- учитесь декодировать параметры

Ну и примеры недокументированных API тоже. Презентация должна быть доходчивой для журналистов, для которых собственно он и пишет как автор The Online Journalism Handbook.

У меня на эту же тему было несколько презентаций в контексте проблем с архивацией сайтов и в контексте поиска недокументированных API.

Так вот ключевой инструмент в работе с ними - это поисковые системы, возможность найти точки подключения проиндексированные ими.

Второй значимый инструмент - это "типовые", но недокументированные API многих программных продуктов. В первую очередь типовые API CMS.

И третий - это мобильные приложения, декодирование байткода которых или перехват их обращений к сайту также может дать много чего интересного.

Но, опять же, это всё полезно, в первую очередь журналистам, OSINT'щикам и хакерам. Для других задач нужно куда реже.

Ссылки:
[1] https://github.com/paulbradshaw/undocumentedapis/blob/main/Undocumented%20APIs.pdf

#api #readings #datajournalism
Свежий гайд от Всемирного банка про Beneficial Ownership Registers: Implementation Insights and Emerging Frontiers [1] в виде пояснений о том как реализовывать реестры конечных бенефициаров компаний и с весьма конкретными рекомендациями. На сегодняшний день таких реестров немного, самый известный это реестр компаний в Великобритании и чуть меньше в других странах, но тренд в этом направлении точно есть и общедоступные и открытые данные тоже. Конкретно в этом документе разобраны такие проекты в Нигерии, Кении, Северной Македонии и Великобритании.

Кроме того напомню что в реестрах Open Ownership есть данные из Дании, Словакии и чуть-чуть Армении. [2]

Про Армению разговор отдельный, там всего несколько компаний и сами данные довольно плохого качества, можно сказать что инициативы де-факто работающей нет.

Важно отличать реестры компаний от реестров конечных бенефициаров компаний потому что реестры компаний не дают глубокой прослеживаемости фактического владения юр. лицом.

Ссылки:
[1] https://openknowledge.worldbank.org/server/api/core/bitstreams/fea074cb-e6a4-4ebe-8348-6cd151d2f424/content
[2] https://register.openownership.org/data_sources

#opendata #readings #transparency
Читаю статью The Public Interest Internet [1] за авторством Robin Berjon и нахожу это весьма познавательным чтением, достойным быть как примером для эволюции интернета, так и прототипом сценария научной фантастики.

Если кратко, то автор задаётся вопросом как же так получилось что мы оказались в ситуации когда биг техи, де факто, управляют всеми основными интернет процессами, то что де-факто цифровая дипломатия США основана именно на них и какой момент человечество свернула не туда и как это можно было бы исправить через создание Интернета как общей цифровой инфраструктуры, общественного блага или общественного интереса?

Там же в статье весьма показательный блок про Captured Infrastructure когда крупные частные компании контролируют ключевую инфраструктуру и обогащаются за счёт того что они знают о всех остальных гораздо больше чем кто-то ещё на рынке.

Рассуждения очень интересные, не очень реалистичные, но про подумать. А также попробовать представить себе в формате "А что если?"

- А что если... развитие технологий было бы на порядок медленнее, а международного регулирования на порядок оперативнее?
- А что если... крупнейшие операторы цифровой инфраструктуры были бы не из США?
- А что если... цифровые границы были бы гораздо более похожими на реальные, со всеми требованиями и ограничениями по экспорту/импорту и тд. ?

И ещё многое другое.

Ссылки:
[1] https://berjon.com/public-interest-internet/


#readings #internet #publicgood #digitalinfrastructure
Полезное чтение про данные технологии и не только:
- AI Doesn’t Kill Jobs? Tell That to Freelancers [1] статья в WSJ о том что рынок фрилансеров резко проседает с 2022 года (появления ChatGPT) и у людей делавших рутинную цифровую работу теперь задача найти себе новый заработок.
- AI Is Already Wreaking Havoc on Global Power Systems [2] лонгрид в Блумберг о том как AI влияет на энергопотребление. Большой интерактивный продукт, приятно смотреть. И тема актуальная
- The Rise of Medium Code[3] в блоге Dagster про восхождение среднего кода (medium code). О том что с разработкой ПО не всё так плохо, просто по другому.
- Governing with Artificial Intelligence [4] свежая статья от ОЭСР про госуправление с помощью ИИ. Как раз актуально, много разговоров на эту тему и больше хайпа чем смысла, а тут сжато и с примерами
- How to optimize the systematic review process using AI tools [5] об использовании ИИ для систематического обзора тематических статей/публикаций. Полезно учёным и исследователям в самых разных областях.

Ссылки:
[1] https://www.wsj.com/tech/ai/ai-replace-freelance-jobs-51807bc7
[2] https://www.bloomberg.com/graphics/2024-ai-data-centers-power-grids/
[3] https://dagster.io/blog/the-rise-of-medium-code
[4] https://www.oecd-ilibrary.org/science-and-technology/governing-with-artificial-intelligence_26324bc2-en
[5] https://acamh.onlinelibrary.wiley.com/doi/full/10.1002/jcv2.12234

#readings #software #ai
Оказывается НИУ ВШЭ опубликовали Декларацию этических принципов использования ИИ [1]. Я бы сказал что полезный документ и всё такое, но у этого удивительного документа нет вообще никаких ссылок на то что могло бы быть его основой. Ни на глобальные принципы ООН, ни на принципы ОЭСР, ни на даже на российский кодекс этики в сфере ИИ [2]. Не говоря уже про принципы научной этики.

Удивительная вещь в себе, зато со ссылкой на указ президента.

Кто ещё его читал? Какие ещё косяки там есть?

Ссылки:
[1] https://www.hse.ru/news/expertise/937054242.html
[2] https://ethics.a-ai.ru/

#ai #russia #readings
Интересные ссылки про данные, технологии и не только:
- OmniParse [1] очень интересный open source движок по применению ИИ к парсингу документов. В примерах приводят разбор PDF на картинки и таблицы. Для задач разбора PDF'ок может быть бесценен, и как идея, и как код. Лицензия GPL3, часть облачного продукта стартапа CognitiveLab

- Meta 3D Gen [2] в Meta создали модель ИИ для генерации 3D моделей. Выглядит интересно и очень много прикладного применения у такого есть. Можно начинать гадать сколько 3D дизайнеров и гейм дизайнеров лишаться работы или... сильно повысят свою продуктивность

- Google AI и Pixel 9 [3] похоже что новая версия телефонов Pixel от Google будет иметь на борту мини языковую модель и несколько продуктов на базе ИИ. Даже не знаю что сказать на это. Неужели это начало тренда когда во всех телефонах будут ИИ приложения всегда?

- Google Mesop [4] open-source движок от Гугла по быстрой разработке веб интерфейсов. Ещё бы к нему хороший автогенератор кода из ТЗ в интерфейс и было бы бесценно, как минимум, для создания быстрых демок.

- The 4M Roadmap: A Higher Road to Profitability by Using Big Data for Social Good, by Brennan Lake [5] доклад о применении корпоративных данных для общественного блага. Подробный разбор нескольких глобальных инициатив в этой области

Ссылки:
[1] https://github.com/adithya-s-k/omniparse
[2] https://venturebeat.com/ai/meta-drops-3d-gen-bomb-ai-powered-3d-asset-creation-at-lightning-speed/
[3] https://www.androidauthority.com/google-ai-recall-pixel-9-3456399/
[4] https://google.github.io/mesop/
[5] https://www.sharedvalue.org/resource/the-4m-roadmap/

#opendata #opensource #readings
Симпатичная open source книжка DevOps for Data Science полезная для всех кто сисадминит и хочет развиваться в сторону дата инфраструктуры. Не охватывает платформы, охватывает большую часть фундаментальных вопросов. Полезное и для дата инженеров тоже.

#readings #data #datascience #devops
Полезное чтение про данные, технологии и не только:
- Everyone Has A Price — And Corporations Know Yours [1] о нарастающем тренде персонализированных цен в примерах. О том что накоплений данных корпорациями приводит к тому что они рано или поздно научатся контролировать то сколько денег остаётся у тебя в карманах. Статья не за пэйволом, но требует регистрации.
- Mapping the Landscape of AI-Powered Nonprofits [2] об отношении НКО и AI, примеры некоммерческого применения и НКОшек работающих с AI, а также областях применения в некоммерческом секторе
- Digital Ethology [3] книга о человеческом поведении в геопространственном контексте. Ещё не читал, но планирую. Судя по содержанию там немало про цифровые следы в пространстве что мы оставляем.
- Diversity in Artificial Intelligence Conferences [4] статья о том что в конференциях по ИИ низкий уровень diversity (разнообразия), например, мало женщин. И низкое разнообразие по странам: все из США, Европы и Китая. Почти все. Казалось бы на эти вопросы есть очевидные ответы, но тут целая научная работа.
- The Great Scrape: The Clash Between Scraping and Privacy [5] нарастающий конфликт между теми кто "обдирает" (scrape) сайты и теми кто заботится о приватности. И ранее было спорной темой, а сейчас становится особенно актуально в контексте обучения ИИ.
- Automated warfare: irresponsible even without killer robots [6] о том как Израиль применяет ИИ для идентификации зданий объектов для атаки и "социальный скоринг" палестинцев на вероятность что они боевики Хамас. Упоминаются две системы Gospel [7] и Lavander [8]

Ссылки:
[1] https://www.levernews.com/everyone-has-a-price-and-corporations-know-yours/
[2] https://ssir.org/articles/entry/ai-powered-nonprofits-landscape
[3] https://mitpress.mit.edu/9780262548137/digital-ethology/
[4] https://publications.jrc.ec.europa.eu/repository/handle/JRC137550
[5] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4884485
[6] https://r.algorithmwatch.org/nl3/lm8uSbreEO9yUU55aO0flA
[7] https://www.972mag.com/mass-assassination-factory-israel-calculated-bombing-gaza/
[8] https://www.972mag.com/lavender-ai-israeli-army-gaza/

#data #readings #ai
Зима близко, "зима данных" статья
Are we entering a Data Winter? On the urgent need to preserve data access for the public interest [1] от Stefaan Verhulst
и исследование Consent in Crisis: The Rapid Decline of the AI Data Commons [2] от учёных из MIT.

И там, и там на тему того что данные которые используются для обучения ИИ стремительно исчезают из открытого доступа.

В том числе
5% всех данных и 25% данных высокого качества для обучения ИИ (C4, RefinedWeb, Dolma) теперь ограничены в доступе
45% данных в наборе C4 ограничены условиями сервиса
Многие контентные сайты теперь устанавливают пэйволы или меняют условия использования.
Массово блокируются краулеры от таких компаний как OpenAI, Anthropic, и Google.
Ряд компаний начинают требовать плату за доступ к данным (напр. Reddit, Inc., StackOverflow).
Активно предпринимаются юридические действия такие как иск The New York Times’ против OpenAI и Microsoft.

Список можно продолжать, фрагментация Интернета может стремительно нарастать уже в ближайшие месяцы. Как минимум многие владельцы крупных сайтов могут пойти на дальнейшее исключение их из поисковых систем, только чтобы их контент не был бы заменён ИИ который вообще трафика на их сайты не принесёт.

Отдельная история в этом всём в том что будет с открытостью данных. Пока ещё базовая концепция открытости не меняется, данные созданные на общественные средства должны быть общедоступны. Но соблазн у многих правительств по ограничению "чужих" ИИ к доступу к чувствительным данным может только нарастать.

Ссылки:
[1] https://policylabs.frontiersin.org/content/commentary-are-we-entering-a-data-winter
[2] https://www.dataprovenance.org/consent-in-crisis-paper

#opendata #data #ai #readings
Полезное чтение про данные, технологии и не только:
- A Quick Introduction to JavaScript Stored Programs in MySQL [1] в блоге Oracle MySQL о том чтобы использовать программы на Javascript внутри СУБД. Признаться честно я к этой практике отношусь с глубоким осуждением, особенно в части аргументации что миллионы разработчиков используют Javascript так давайте запихнём его ещё куда-нибудь. Тем не менее тоже тренд и тоже понятный, хотя и запоздавший лет на 10-15.
- ColPali: Efficient Document Retrieval with Vision Language Models [2] про распознавание текстов и Vision LLMs. Вот это перспективная тема которая может подвинуть текущих лидеров OCR.
- A Crash Course on Relational Database Design [3] хорошая инфографика для совсем начинающих работающих с базами данных. Как и вся наглядная инфографика от ByteByteGo
- Assisting in Writing Wikipedia-like Articles From Scratch with Large Language Models [4] проект STORM родом из Stanford который позволяет писать длинные вики статьи с помощью LLM на произвольные неизвестные темы. Выглядит как инструмент который может, как сильно дополнить Википедию, так и создать реального её конкурента с нуля, так и ещё много для чего. Когда уже сделают LLM для быстрой генерации корпоративной документации на ИТ продукты или доков для open source?

Ссылки:
[1] https://blogs.oracle.com/mysql/post/a-quick-introduction-to-javascript-stored-programs-in-mysql
[2] https://huggingface.co/blog/manu/colpali
[3] https://blog.bytebytego.com/p/a-crash-course-on-relational-database
[4] https://storm-project.stanford.edu/research/storm/

#ai #readings #sql #databases #ocr #data
Полезное чтение про данные технологии и не только:
- Querying 1TB on a laptop with Python dataframes [1] статья от разработчиков обёртки для систем управления запросами к базам данных Ibis про обработку 1TB данных в виде адаптированного бенчмарка TPC-H на ноутбуке с помощью разных движков для датафреймов. Надо правда оговорится что ноутбук там не абы какой а MacBook Pro с 96GB RAM, но это не отменяет того факта что RAM в 10 раз меньше чем обрабатываемых данных. Главный вывод - duckdb выше всяких похвал, единственный движок который отработал все запросы до конца.
- Whenever [2] свежая библиотека для работы с датами и временем в Python, изначально написана на Rust. Помимо того что очень быстро работает и это очень актуально при обработке больших объёмов данных, она ещё и всегда учитывает переход на летнее время.
- datawizard: Easy Data Wrangling and Statistical Transformations [3] пакет для R для манипуляции данными. Казалось бы вопрос, кто сейчас пользуется R для таких задач? Но точно пользуются и для тех кто это делает такой пакет может оказаться очень полезным.
- Confronting Impossible Futures [4] полезное чтение о том что развитие, в том числе любой сценарий развития ИИ, необходимо учитывать в корпоративных стратегиях. Несмотря на то что всё ещё идёт продолжающийся взлёт хайпа вокруг этой темы, будет ещё много событий которые могут создать новые бизнес модели, сломать имеющиеся и тд.
- Applied forecasting [5] открытый курс по прикладному прогнозированию. Видео, слайды, примеры на R, выглядит достаточно просто чтобы садиться за изучение и достаточно сложно чтобы курс был интересным.
- Questionable practices in machine learning [6] а теперь дети запомните слова которые нельзя говорить (с) статья про спорные практики в машинном обучении. Большая их часть возникает от того что где-то не подумали, где-то ошиблись, где-то нехватает практического/теоретического знания у ML разработчиков, но есть и те которые нельзя сотворить случайно. Статья полезная, больше про технологии чем про этику и про автоматизацию контроля качества ML моделей.
- The biggest-ever global outage: lessons for software engineers [7] подробный разбор ситуации с недоступностью миллионов компьютеров на базе Windows из-за антивируса CrowdStrike и того какие выводы из неё можно извлечь. Многое не только про эту историю с CrowdStrike, но и предыдущие проблемы с их антивирусом и другие примеры больших сбоев других софтверных вендоров.
- TabularFM: An Open Framework For Tabular Foundational Models [8] открытый код, научная статья и модели на HuggingFace по извлечению смысла из табличных данных. Это, конечно, упрощённое описание того что такое Tabular Foundation Model, но можно сказать что это применение нейросетей к табличным данным.

Ссылки:
[1] https://ibis-project.org/posts/1tbc/
[2] https://github.com/ariebovenberg/whenever
[3] https://easystats.github.io/datawizard/index.html
[4] https://www.oneusefulthing.org/p/confronting-impossible-futures
[5] https://af.numbat.space/
[6] https://arxiv.org/abs/2407.12220
[7] https://newsletter.pragmaticengineer.com/p/the-biggest-ever-global-outage-lessons
[8] https://www.semanticscholar.org/paper/TabularFM%3A-An-Open-Framework-For-Tabular-Models-Tran-Hoang/977fec09a458fe326e5059774e3f05ab695acf2a

#readings #ai #data #opensource
Полезное чтение про данные технологии и не только:
- DuckDB Spatial: Supercharged Geospatial SQL (GeoPython 2024) [1] не для чтения, а для просмотра. Супер лекция про то как работать с геоданными с помощью DuckDB. Очень хочется применить к следующему геопроекту.
- Europe PMC [2] европейский поисковик по статьям в области наук о жизни. Помимо ссылок на статьи, собирают их тексты, анализируют, выдают в результатах много дополнительной извлечённой информации о финансировании, данных на которые есть ссылки в статьях, цитировании и так далее.
- Why CSV is still king [3] автор нахваливает CSV формат за простоту и переносимость, и утверждает что он ещё долгое время будет популярен. Лично я считаю что он ошибается, скорее поддержка parquet или arrow появится в стандартных инструментах. Например, в сохранении из Excel или Google Spreadsheets или OpenOffice. В командной строке и так далее.
- A.I. May Save Us or May Construct Viruses to Kill Us [4] уже не столько про технологии сколько про видение будущего. ИИ может как спасать от пандемии, так и конструировать новые вирусы.
- BENEFICIAL OWNERSHIP TRANSPARENCY ACT, 2023 [5] 31 июля 2024 года, несколько дней назад вступил в силу закон об обязательном раскрытии конечных бенефициаров компаний на Каймановых островах. Видимо стоит вскоре ожидать что эти данные будут открыты и новых расследований?
- Inside Crowdstrike's Deployment Process [6] о том как был устроен процесс деплоймента обновлений у Crowdstrike. Очень поучительно и познавательно, особенно узнать о том что это было не обновление кода, а обновление конфигурации ПО и поэтому не проходило правильный и отработанный процесс тестирования. В общем, в компании забыли что configuration = code.

Ссылки:
[1] https://www.youtube.com/watch?v=hoyQnP8CiXE
[2] https://europepmc.org/
[3] https://konbert.com/blog/why-csv-is-still-king
[4] https://www.nytimes.com/2024/07/27/opinion/ai-advances-risks.html
[5] https://legislation.gov.ky/cms/images/LEGISLATION/PRINCIPAL/2023/2023-0013/BeneficialOwnershipTransparencyAct2023_Act%2013%20of%202023.pdf
[6] https://overmind.tech/blog/inside-crowdstrikes-deployment-process

#opendata #opensource #ai #tech #readings