Ivan Begtin
7.98K subscribers
1.76K photos
3 videos
101 files
4.48K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Geoexplorer Berlin [1] сервис навигации по геоданным Берлина, интерфейс над их каталогом данных на базе Geonetwork.

Отличительная особенность в интеграции ChatGPT в интерфейс и это выражается в генерации описания того зачем нужен конкретный датасет, дословно: "На какие вопросы отвечает этот датасет?" и в автодокументировании данных. А также в поиске по данным на естественном языке. Немецком языке, конечно же.

Данных там немного, но функции любопытные. Есть что изучить и применить.

Разработано в Technologie Stiftung Berlin [2], открытый код под лицензией MIT [3]

Ссылки:
[1] https://geoexplorer.odis-berlin.de/
[2] https://www.technologiestiftung-berlin.de/
[3] https://github.com/technologiestiftung/odis-geoexplorer

#opendata #geodata #datasets #ai #opensource #germany #berlin
Полезное чтение про данные технологии и не только:
- Querying 1TB on a laptop with Python dataframes [1] статья от разработчиков обёртки для систем управления запросами к базам данных Ibis про обработку 1TB данных в виде адаптированного бенчмарка TPC-H на ноутбуке с помощью разных движков для датафреймов. Надо правда оговорится что ноутбук там не абы какой а MacBook Pro с 96GB RAM, но это не отменяет того факта что RAM в 10 раз меньше чем обрабатываемых данных. Главный вывод - duckdb выше всяких похвал, единственный движок который отработал все запросы до конца.
- Whenever [2] свежая библиотека для работы с датами и временем в Python, изначально написана на Rust. Помимо того что очень быстро работает и это очень актуально при обработке больших объёмов данных, она ещё и всегда учитывает переход на летнее время.
- datawizard: Easy Data Wrangling and Statistical Transformations [3] пакет для R для манипуляции данными. Казалось бы вопрос, кто сейчас пользуется R для таких задач? Но точно пользуются и для тех кто это делает такой пакет может оказаться очень полезным.
- Confronting Impossible Futures [4] полезное чтение о том что развитие, в том числе любой сценарий развития ИИ, необходимо учитывать в корпоративных стратегиях. Несмотря на то что всё ещё идёт продолжающийся взлёт хайпа вокруг этой темы, будет ещё много событий которые могут создать новые бизнес модели, сломать имеющиеся и тд.
- Applied forecasting [5] открытый курс по прикладному прогнозированию. Видео, слайды, примеры на R, выглядит достаточно просто чтобы садиться за изучение и достаточно сложно чтобы курс был интересным.
- Questionable practices in machine learning [6] а теперь дети запомните слова которые нельзя говорить (с) статья про спорные практики в машинном обучении. Большая их часть возникает от того что где-то не подумали, где-то ошиблись, где-то нехватает практического/теоретического знания у ML разработчиков, но есть и те которые нельзя сотворить случайно. Статья полезная, больше про технологии чем про этику и про автоматизацию контроля качества ML моделей.
- The biggest-ever global outage: lessons for software engineers [7] подробный разбор ситуации с недоступностью миллионов компьютеров на базе Windows из-за антивируса CrowdStrike и того какие выводы из неё можно извлечь. Многое не только про эту историю с CrowdStrike, но и предыдущие проблемы с их антивирусом и другие примеры больших сбоев других софтверных вендоров.
- TabularFM: An Open Framework For Tabular Foundational Models [8] открытый код, научная статья и модели на HuggingFace по извлечению смысла из табличных данных. Это, конечно, упрощённое описание того что такое Tabular Foundation Model, но можно сказать что это применение нейросетей к табличным данным.

Ссылки:
[1] https://ibis-project.org/posts/1tbc/
[2] https://github.com/ariebovenberg/whenever
[3] https://easystats.github.io/datawizard/index.html
[4] https://www.oneusefulthing.org/p/confronting-impossible-futures
[5] https://af.numbat.space/
[6] https://arxiv.org/abs/2407.12220
[7] https://newsletter.pragmaticengineer.com/p/the-biggest-ever-global-outage-lessons
[8] https://www.semanticscholar.org/paper/TabularFM%3A-An-Open-Framework-For-Tabular-Models-Tran-Hoang/977fec09a458fe326e5059774e3f05ab695acf2a

#readings #ai #data #opensource
По моему уже все написали про новую языковую модель Llama 3.1 [1] от Meta которая больше и лучше всех остальных моделей с открытым кодом. Как минимум полезно как альтернатива сервисам OpenAI, и, в принципе, для обучения локально на собственных данных.

Ссылки:
[1] https://www.theverge.com/2024/7/23/24204055/meta-ai-llama-3-1-open-source-assistant-openai-chatgpt

#ai #opensource #llama #meta
Статистическая служба Малайзии внедряет AI Helper [1] в сайт для разработчиков прилагаемый к их порталу статистических данных. На простые вопросы вполне эффективно отвечает и даже умеет генерировать код для языков разработки которых нет в примерах на сайте. На сайте сейчас все примеры на Python и R, но можно получить код для Java сделав такой запрос к AI Helper'у.

В данном случае применение ИИ гос-вом самое что ни на есть безобидное.

Ссылки:
[1] https://developer.data.gov.my/#using-the-ai-helper

#opendata #ai #statistics #malaysia
Reddit выпилился из всех поисковых систем кроме Google [1], а в гугле он до сих пор только из-за AI сделки которую они заключили. Правда мне не удалось воспроизвести это с Bing, но получилось с Яндексом. Такое ощущение что в индексе Яндекса остались только ссылки на сообщества и без описаний.

Это всё про будущее контентных проектов наглядно. Крупные контентные проекты будут банить не только AI краулеры, а все поисковые краулеры которые им не платят. В какой-то момент рекламная модель существования поисковиков может начать ломаться (а может уже ломается?)

Ссылки:
[1] https://9to5google.com/2024/07/24/reddit-search-engine-block-google-deal/

#search #ai #reddit
А вот и появился настоящий, а не выдуманный "убийца Google", а заодно и других поисковых систем и, возможно, Perplexity - это SearchGPT [1], продукт который OpenAI тестирует пока на 10 тысячах пользователей.

Поломает это, правда, не только бизнес модель поиска Гугла, но и Яндекса, и потенциально столкнётся с сильным раздражением владельцев контента.

Впрочем застать при этой жизни падение монополии Google на поиск - это было бы любопытно.

Ссылки:
[1] https://www.theverge.com/2024/7/25/24205701/openai-searchgpt-ai-search-engine-google-perplexity-rival

#ai #openai #searchgpt #google #search
На HuggingFace смешное приложение по генерации "бесконечных датасетов" [1]. Нет, сами датасеты оно не создаёт, пока что, только описания и разметку как будто они созданы.

Ссылки:
[1] https://huggingface.co/spaces/infinite-dataset-hub/infinite-dataset-hub

#ai #funny #humor #datasets
Ещё одна история которую бы отнести к теме юмора, но тут одновременно смешно и не смешно.

Deaddit [1] аналог Reddit'а для ИИ. Вопросы задают, на вопросы отвечают и комментируют ответы боты симулирующие людей разного социального профиля.

Для полноты эффекта нехватает только токсичности в коммуникациях которой так много в некоторых культурных средах, но и без неё разговоры выглядят достоверными. Слишком достоверными. Сколько уже таких ботов заполонило классические соцсети и насколько их станет больше в самое ближайшее время?

Ссылки:
[1] https://www.deaddit.xyz

#ai #reddit #humour
Свежий симпатичный поисковик по смыслам слов semantic grep [1] использует Word2Vec для выборки связанных по смыслу слов и уже их ищет по тексту.

Выглядит просто, симпатично, удобно для простого использования и под лицензией MIT. Опубликовано совсем недавно и аналогов такого я нигде не видел.

Если подумать то такую штуку можно было бы сделать с языковой моделью внутри или более сложными алгоритмами чем просто модель Word2Vec.

Лично я большой любитель командной строки и инструментов работы в ней, хороших поисковиков по текстовым файлам всегда нехватает (и всегда много!)

Ссылки:
[1] https://github.com/arunsupe/semantic-grep

#opensource #ai #commandline #tools #data
Свежий полезный ресурс про открытые данные о том как открытые данные пересекаются с генеративным ИИ, Observatory of Examples of How Open Data and Generative AI Intersect [1]

Много примеров применения ИИ в разных сферах, обученных на общедоступных и открытых данных. Например, меня заинтересовали исследования по применению ИИ в работе с судебными данными и текстами законов. Таких проектов 5 штук только в этой базе, а реально даже больше.

Большая тема, давно нехватает хорошего ассистента который бы вместо юриста мог бы дать простое и понятное объяснение той или иной нормы закона. Задача это, возможно, простая в некоторых кейса и сложная в
большинстве случаев. Например, обсуждается законопроект и хочется иметь чёткое структурированное описание его последствий.

По другим темам тоже немало примеров. Есть на что сослаться и о чём почитать.

Ссылки:
[1] https://repository.opendatapolicylab.org/genai

#opendata #generativeai #genai #ai