Ivan Begtin
8.09K subscribers
1.63K photos
3 videos
100 files
4.34K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В рубрике полезного чтения:
- Science in the age of AI [1] доклад британского королевского общества о трансформации и вызовах перед наукой в контексте AI. Много примеров и полезное чтение. Для тех кто давно изучает эту тему ничего нового, но авторитетный источник старого.
- Exploring the Impact of ChatGPT on Wikipedia Engagement [2] препринт статьи о влиянии ChatGPT на вовлечение в Википедию. Выводы пока что не влияет, но полезно почитать о том как измеряют.
- Vulnerabilities across keyboard apps reveal keystrokes to network eavesdroppers [3] большой лонгрид от CitizenLab о том как они анализировали перехват набираемых текстов в приложениях клавиатур, для Android и IoS, с акцентом на китайских вендоров и китайский язык. Детальное, хорошо проработанное техническое расследование
- The Simple Macroeconomics of AI [4] работа по влиянию ИИ на макроэкономику. Текст полезный всем кто считает AI impact в конкретных отраслях. Я его ещё не дочитал, но отложил до ближайшего свободного времени.
- A New National Purpose: Harnessing Data for Health [5] доклад института Тони Блэра про создание National Data Trust по управлению данными в сфере здравоохранения в Великобритании. Открытые данные не упоминается и предполагается научное примененеи и коммерциализация в среднесрочной перспективе и то что данные могут быть персональными. Если говорить про экономику данных настоящую, то это вот так, и очень непросто в реализации.


Ссылки:
[1] https://royalsociety.org/news-resources/projects/science-in-the-age-of-ai/
[2] https://www.arxiv.org/abs/2405.10205
[3] https://citizenlab.ca/2024/04/vulnerabilities-across-keyboard-apps-reveal-keystrokes-to-network-eavesdroppers/
[4] https://www.nber.org/papers/w32487
[5] https://www.institute.global/insights/politics-and-governance/a-new-national-purpose-harnessing-data-for-health

#readings #ai #data #privacy
Полезное чтение про данные технологии и не только:
- AI Doesn’t Kill Jobs? Tell That to Freelancers [1] статья в WSJ о том что рынок фрилансеров резко проседает с 2022 года (появления ChatGPT) и у людей делавших рутинную цифровую работу теперь задача найти себе новый заработок.
- AI Is Already Wreaking Havoc on Global Power Systems [2] лонгрид в Блумберг о том как AI влияет на энергопотребление. Большой интерактивный продукт, приятно смотреть. И тема актуальная
- The Rise of Medium Code[3] в блоге Dagster про восхождение среднего кода (medium code). О том что с разработкой ПО не всё так плохо, просто по другому.
- Governing with Artificial Intelligence [4] свежая статья от ОЭСР про госуправление с помощью ИИ. Как раз актуально, много разговоров на эту тему и больше хайпа чем смысла, а тут сжато и с примерами
- How to optimize the systematic review process using AI tools [5] об использовании ИИ для систематического обзора тематических статей/публикаций. Полезно учёным и исследователям в самых разных областях.

Ссылки:
[1] https://www.wsj.com/tech/ai/ai-replace-freelance-jobs-51807bc7
[2] https://www.bloomberg.com/graphics/2024-ai-data-centers-power-grids/
[3] https://dagster.io/blog/the-rise-of-medium-code
[4] https://www.oecd-ilibrary.org/science-and-technology/governing-with-artificial-intelligence_26324bc2-en
[5] https://acamh.onlinelibrary.wiley.com/doi/full/10.1002/jcv2.12234

#readings #software #ai
This media is not supported in your browser
VIEW IN TELEGRAM
Свежий любопытный инструмент для автоматизации работы аналитика: Thread [1], автоматизирует Jupyter Notebook с помощью API OpenAI, позволяет автозаполнять таблицы, генерировать код и визуализацию.

Выглядит симпатично, для многих задач это просто полезно. Как минимум хорошо ускоряет работу опытных аналитиков.

Автор явно создал движок под облачный стартап где такое будет из коробки.

И да, открытый код под лицензией AGPL3. Кстати явный видный тренд применения GPL/AGPL в современном исходном коде, но не от идеалов FSF, а именно для того чтобы не ограничивать себя в создании стартапа и бизнеса, но ограничивать в этом всех остальных.

Ссылки:
[1] https://github.com/squaredtechnologies/thread

#opensource #ai #analytics #dataviz #jupyter
Оказывается НИУ ВШЭ опубликовали Декларацию этических принципов использования ИИ [1]. Я бы сказал что полезный документ и всё такое, но у этого удивительного документа нет вообще никаких ссылок на то что могло бы быть его основой. Ни на глобальные принципы ООН, ни на принципы ОЭСР, ни на даже на российский кодекс этики в сфере ИИ [2]. Не говоря уже про принципы научной этики.

Удивительная вещь в себе, зато со ссылкой на указ президента.

Кто ещё его читал? Какие ещё косяки там есть?

Ссылки:
[1] https://www.hse.ru/news/expertise/937054242.html
[2] https://ethics.a-ai.ru/

#ai #russia #readings
Вышел Global Index of Responsible AI (GIRAI) [1] оценка способности и действий основных акторов регулирования ИИ по странам. Индекс сложный, составлялся и проводился долго и по РФ там также были оценки. Они в итоговый результат не вошли, но там есть оценки по Беларуси в группе стран Европы [2], Армении и стран Средней Азии в группе азиатских стран [3]. К слову у Армении оценки очень низкие. Но хуже всего конечно, ... в Афганистане.

Всего в доклад вошло 138 стран, какие-то не успели проверить, какие-то отложили, по каким-то не нашлись исследователи.

Я лично, также принимал участие в его составлении. Если будут вопросы - задавайте.

Ссылки:
[1] https://global-index.ai
[2] https://global-index.ai/Region-Europe
[3] https://global-index.ai/Region-Asia-and-Oceania

#ai #data #indexes
К вопросу об AI и больших языковых моделях, я на днях тестировал несколько LLM'ок вопросами в форме "дай мне расходы бюджета города N по по месяцам с января по май 2024 года". И пока ни один из них не дал такого расклада со ссылкой на первоисточник документа бюджета города. Только на новости на сайте мэрии и новостных агентств.

В этом важное ограничение всех этих инструментов - у них нет доступа к огромным базам данных на которых можно строить аналитику. Я вот сомневаюсь что Bloomberg или S&P Global откроют свои базы для OpenAI или чего-то подобного, если только это не будет какое-то стратегическое партнерство. А вот применение ИИ к макропрогнозированию и работе с экономическими данными - это будет реальный прорыв для одних и катастрофа для других.

Поэтому одно из самых интересных направлений которые я вижу - это связывание языковых моделей с очень специальными большими банками данных и создание новых продуктов в этих областях.

А от AI краулеров почти все СМИ и иные контентные сайты начнут стремительно закрываться. И требовать убирать их контент из индексов этих AI моделей. Потому что бизнес модель контентных сайтов через рекламу или подписку скоро начнет стремительно рушится.

#ai #data #thoughts
Удивительное дело насколько все не даёт покоя идея социального рейтинга/антирейтинга и в мире пытаются так или иначе сделать скоринговые системы массовыми. Например, во Франции тестируют рейтинг подозрительности в отношении безработных желающих получить пособия. В статье это называют одним из шагов к дегуманизации общества.

Другой пример с тем что выяснилось что алгоритм проверки заявок на выплату жилищных пособий в Великобритании оказался ошибочным и выдавал 2/3 ложных срабатываний. А это не просто много, это делало его работу, фактически, бесполезной. Сейчас журналисты задаются вопросом зачем же его применяли и то во сколько встало казне его ручная проверка.

До этого в Великобритании уже были сложности с применением алгоритмов по автоматической оценке кредитополучателей , опять же алгоритмом применяемом одним из правительственных департаментов. Тогда алгоритм проверки с помощью ИИ просто отключили.

#privacy #scoring #uk #france #ai
Свежий open source инструмент/код по осмысленной интерпретации данных для LLM называется GraphRAG [1] весь код опубликован на Github.

Пока не могу сказать подробнее, надо экспериментировать, но выглядит просто таки очень интересно.

Ссылки:
[1] https://www.microsoft.com/en-us/research/blog/graphrag-new-tool-for-complex-data-discovery-now-on-github/

#opensource #llm #ai
Полезное чтение про данные, технологии и не только:
- Everyone Has A Price — And Corporations Know Yours [1] о нарастающем тренде персонализированных цен в примерах. О том что накоплений данных корпорациями приводит к тому что они рано или поздно научатся контролировать то сколько денег остаётся у тебя в карманах. Статья не за пэйволом, но требует регистрации.
- Mapping the Landscape of AI-Powered Nonprofits [2] об отношении НКО и AI, примеры некоммерческого применения и НКОшек работающих с AI, а также областях применения в некоммерческом секторе
- Digital Ethology [3] книга о человеческом поведении в геопространственном контексте. Ещё не читал, но планирую. Судя по содержанию там немало про цифровые следы в пространстве что мы оставляем.
- Diversity in Artificial Intelligence Conferences [4] статья о том что в конференциях по ИИ низкий уровень diversity (разнообразия), например, мало женщин. И низкое разнообразие по странам: все из США, Европы и Китая. Почти все. Казалось бы на эти вопросы есть очевидные ответы, но тут целая научная работа.
- The Great Scrape: The Clash Between Scraping and Privacy [5] нарастающий конфликт между теми кто "обдирает" (scrape) сайты и теми кто заботится о приватности. И ранее было спорной темой, а сейчас становится особенно актуально в контексте обучения ИИ.
- Automated warfare: irresponsible even without killer robots [6] о том как Израиль применяет ИИ для идентификации зданий объектов для атаки и "социальный скоринг" палестинцев на вероятность что они боевики Хамас. Упоминаются две системы Gospel [7] и Lavander [8]

Ссылки:
[1] https://www.levernews.com/everyone-has-a-price-and-corporations-know-yours/
[2] https://ssir.org/articles/entry/ai-powered-nonprofits-landscape
[3] https://mitpress.mit.edu/9780262548137/digital-ethology/
[4] https://publications.jrc.ec.europa.eu/repository/handle/JRC137550
[5] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4884485
[6] https://r.algorithmwatch.org/nl3/lm8uSbreEO9yUU55aO0flA
[7] https://www.972mag.com/mass-assassination-factory-israel-calculated-bombing-gaza/
[8] https://www.972mag.com/lavender-ai-israeli-army-gaza/

#data #readings #ai
Забавная утилита для командной строки ai-renamer [1] переименует фотографии в зависимости от их содержимого. Бывает полезно, но... очень многие хранят десятки фотографий одного и того же места или объекта и потом выбирают лучшую фотографию из многих.

Очень полезным инструментом был бы такой локальный органайзер который сканировал фото по наличию того что на них есть и давал бы возможность фасетного поиска с новыми тегами и атрибутами. Кстати и для корпоративных банков документов такое было бы полезно.


Ссылки:
[1] https://github.com/ozgrozer/ai-renamer

#ai #commandline #tools