Ivan Begtin
7.99K subscribers
1.76K photos
3 videos
101 files
4.47K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Наглядная визуализация с открытым кодом того что происходит внутри LLM моделей [1]. Исходный код доступен [2] как и научная статья от авторов Transformer Explainer: Interactive Learning of Text-Generative Models [3]

Ссылки:
[1] https://poloclub.github.io/transformer-explainer/
[2] https://github.com/poloclub/transformer-explainer
[3] https://arxiv.org/abs/2408.04619

#opensource #llm #ai #datatools
Полезные ссылки про данные, технологии и не только:
- FOR-species20K dataset [1] датасет результатов лазерного сканирования более 20 тысяч деревьев и идентификация их видов на основе этих данных
- DuckDB Tricks – Part 1 [2] полезные трюки по работе с данными с помощью DuckDB.
- ncWMS Guide [3] руководство по серверу WMS ncWMS, активно используется вместе с серверами Thredds в метеорологии. Начал их активно добавлять в реестр каталогов данных, скоро проиндексируются в Dateno
- Mapbender 4.0 [4] вышла 4-я версия Mapbender, популярного open source геопортала используемого в ЕС во многих странах.
- SuperMap [5] популярный в Китае геосервер, альтернатива ArcGIS. Используется во многих китайских госорганах, компаниях и активно распространяется в южной, восточной и юго-восточной азии. Имеет частичную совместимость с ArcGIS
- Mealie [6] сервер для ведения рецептов, открытый код и импорт из разных источников. Локализован на многие языки включая русский.
- Slackdump [7] архиватор публичных и личных сообщений из Slack'а. Не требует админских привилегий, открытый код.

Ссылки:
[1] https://zenodo.org/records/13255198
[2] https://duckdb.org/2024/08/19/duckdb-tricks-part-1
[3] https://reading-escience-centre.gitbooks.io/ncwms-user-guide/content/
[4] https://mapbender.org/aktuelles/details/mapbender-version-400-released/
[5] https://www.supermap.com/en-us/
[6] https://github.com/mealie-recipes/mealie
[7] https://github.com/rusq/slackdump

#opensource #data #datatools #geodata #geoportals #tools #datasets
Для тех кто любит заниматься дата сторителлингом (журналисты, аналитики) новый полезный инструмент Closeread [1] позволяющий рассказывать истории внутри HTML документов open source системы документирования Quarto [2].

Quarto сама по себе удобная система и я лично давно смотрю на неё с разных сторон и хочу применить в деле. А Closeread ещё и приближает её к задачам рассказывания историй.

И всё это в Markdown, расширяемо, и тд.

А ещё интересно для публикации научных статей, уже есть примеры их подготовки в Quarto и множество шаблонов [3].

Куда ни посмотри, отличный инструмент.

Ссылки:
[1] https://closeread.netlify.app
[2] https://quarto.org
[3] https://github.com/quarto-journals

#opensource #datajournalism #analytics #datadocs #tools
В рубрике интересных продуктов для публикации данных малоизвестный pycsw [1] движок с открытым кодом для публикации метаданных для геоданных. Поддерживает стандарты STAC API, CSW, OpenAPI, OGC Collections, OpenSearch, OAI-PMH и даже SRU, который, скорее, для библиотечных систем.

Имеет немного внедрений, около 50 по всему миру [2] во всяком случае тех что известны самим разработчикам.

Сильно менялся от версии к версии. До версии 3.0 был просто движком для публикации CSW каталогов, а с версии 3.0 чем-то стал конкурировать с геосервером или дополнять, тут уж как посмотреть.

С точки зрения архитектуры штука не то чтобы сильно современная, но открытый код, но расширяется плагинами и, в целом, функции индексации геоданных может выполнять неплохо если прикрутить к нему интерфейс, API для управления и тд.

Ссылки:
[1] https://pycsw.org
[2] https://raw.githubusercontent.com/geopython/pycsw.org/gh-pages/live-deployments.geojson

#opendata #geodata #datacatalogs #opensource
Подборка полезных ссылок по данным, технологиям и не только:
- Sparrow [1] движок для извлечения данных из документов и изображений, использует LLM, открытый код под GPL
- Genealogy of Relational Database Management Systems [2] хорошо нарисованная история создания баз данных, полезно для преподавания этой дисциплины. Минус только в том что она 2018 года и последние разработки не охватывает, плюс в том что большая часть фундаментальных трендов охвачена c 70х годов.
- Hamilton [3] ещё один движок с открытым кодом для преобразования данных. Выглядит неплохо, распространяется под BSD лицензией.
- Meaningful metrics: How data sharpened the focus of product teams [4] о том как устроены метрики в Duolingo. Полезное про то как устроены метрики в массовых технологических продуктах, а заодно является ответом на вопросы о том почему Duolingo устроено именно так как оно устроено.
- Bigtable transforms the developer experience with SQL support [5] анонс поддержки SQL в Bigtable. Кажется "а что тут такого?", а как сильно помогает в пользовательском опыте работы с данными там.

Ссылки:
[1] https://github.com/katanaml/sparrow
[2] https://hpi.de/fileadmin/user_upload/fachgebiete/naumann/projekte/RDBMSGenealogy/RDBMS_Genealogy_V6.pdf
[3] https://github.com/dagworks-inc/hamilton
[4] https://blog.duolingo.com/growth-model-duolingo/
[5] https://cloud.google.com/blog/products/databases/announcing-sql-support-for-bigtable

#opensource #dataengineering #dataproducts #metrics #readings
Про уход Notion из России, это, увы, неизбежное и в большинстве уходов хуже всего то по каким критериям большая часть сервисов определяют российскую аффиляцию. Какое-то время назад я переписывался с JetBrains по поводу использования их продукта и задавал им вопросы по поводу использования их продукта не в РФ и может ли компания использовать продукт если кто-то из команды будет иметь доступ к нему из РФ. Ответ был - нет, не может.

То есть даже если компания зарегистрирована в Казахстане или Армении, если даже там работает большая часть команды, в команде есть кто-то кто даже если изредка, но работает из РФ, например, приезжая к родственникам, это может рассматриваться как нарушение условий использования сервиса. Потому что дословно "ни один сотрудник не имеет права использовать продукт из России".

В этом проблема и с Notion, в этом могут быть будущие проблемы с использованием Google Workspace и других популярных сервисов, хостинга и тд, просто по критериям блокировки использования по подключению из сетей аффилированных с РФ.

У практически всех популярных онлайн сервисов много альтернатив, лично я надеюсь что больше развития получат open source продукты по модели local-first.

#tools #sanctions #opensource
Полезные ссылки про данные, технологии и не только:
- Classifying all of the pdfs on the internet [1] автор проанализировал 8TB PDF файлов собранных через Common Crawl и использовал Llama-3-70B для их классификации.
- Loss Rider [2] библиотека для визуализации Line Rider диаграм. Наглядный импакт!
- quarto-live [3] расширение для Quarto добавляющее интерактивности для R и Python примеров. Хорошо подойдёт для любых онлайн учебных курсов.
- A Gentle Introduction to GDAL Part 8: Reading Scientific Data Formats [4] лонгрид про обработку научных геоданных HDF и NetCDF с помощью GDAL. Выглядит полезным
- LOTUS [5] движок для запросов к запросов к Pandas с LLM

Ссылки:
[1] https://snats.xyz/pages/articles/classifying_a_bunch_of_pdfs.html
[2] https://github.com/jndean/LossRider
[3] https://r-wasm.github.io/quarto-live/
[4] https://medium.com/@robsimmon/a-gentle-introduction-to-gdal-part-8-reading-scientific-data-formats-1a1f70d5388c
[5] https://github.com/stanford-futuredata/lotus

#opensource #readings #llm #ai
Ещё один полезный/любопытный инструмент ChartDB по проектированию баз данных [1]. Умеет быстро делать структуру из нескольких SQL СУБД, выглядит простым и удобным. Открытый код AGPL-3.0 [2].

Ссылки:
[1] https://chartdb.io
[2] https://github.com/chartdb/chartdb

#opensource #tools #databases
Elasticsearch снова open source, они добавили лицензию AGPL 3.0 к SSPL [1]. Хочется немного позлорадствовать, а стоило ли им идти тем путём что они пошли, но реально это хороший продукт и все эти события добавили ему конкуренции, а конкуренция тоже хорошо.

P.S. Но для поиска Meilisearch лучше [2] и лицензия там MIT.

Ссылки:
[1] https://www.elastic.co/blog/elasticsearch-is-open-source-again
[2] https://github.com/meilisearch/meilisearch

#opensource #elastic #search
Кстати, я пропустил точный момент когда это произошло, но явно не так давно. OpenCorporates, проект по сбору и предоставлению открытых данных о компаниях более не открытые данные [1]. Где-то в 2023 году, скорее всего в августе, но может и чуть раньше.

В этом смысле во всём что касается открытых данных есть давняя не нерешённая проблема про отсутствие устойчивых механизмов существования у open data проектов претендующих на создание качественных данных.

Из всех известных мне проектов только OSM и Wikidata имеют более менее устойчивую модель жизни. И то, Wikidata не претендует на полноту, а OSM находится под нарастающим давлением бигтехов.

Для сравнения, в случае открытого исходного кода ситуация лучше. Моделей существования устойчивых сообществ создающих open source продукт много:
- open source по умолчанию, коммерческий сервис в облаке
- заработок на услугах поддержки ПО
- работа изнутри бигтехов

и тд. не все варианты простые, но они хотя бы есть.

А в случае открытых данных, развилка в в одном из или:
- постоянное грантовое
- госфинансирование
- финансирование как часть научной инфраструктуры (госфинасирование и частное грантовое)

или не открытые данные. Я это наблюдаю не только в случае Open Corporates, но и в проектах Open Sanctions, AIDA и многих других. У всех их создателей есть дилемма. Или делаешь полностью открытое и получаешь поддержку сообщества, но в любой момент финансирование прекращается и проект стухает. Или не делаешь полноценно открытый проект и сообщество или игнорирует его или воспринимает с агрессией.

Гибридные на данных проекты делать сложно, если они удаются, то быстро уходят в коммерческий рынок данных, теряя полностью атрибуты открытости.


Ссылки:
[1] https://github.com/orgs/datasets/discussions/386

#opendata #opensource #business #dataproducts