Ivan Begtin
8.03K subscribers
1.73K photos
3 videos
101 files
4.43K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Свежий любопытный инструмент Chartbrew [1], частичная замена Superset и ряду других BI инструментам. Одновременно существует как open source и как сервис.

Из плюсов:
- MIT лицензия
- поддержка MongoDB сразу и из коробки
- выглядит достаточно быстрым, судя по их живому демо

Минусы:
- никаких корпоративных СУБД, скорее акцент на онлайн сервисы
- есть сомнения в высокой настраиваемости, то что более продвинутые BI умеют хорошо
- непонятно что с локализацией, нет примеров

В итоге и судя по позиционированию выглядит как low-code BI для веб студий для их клиентов, там даже предусмотрена возможность создания аккаунтов клиентов.

Выглядит не очень продвинуто пока, но свою нишу может найти.

Ссылки:
[1] https://github.com/chartbrew/chartbrew
[2] https://app.chartbrew.com/live-demo

#opensource #bi #datatools
В рубрике интересных инструментов SeekTune [1] реализация алгоритма идентификации музыки, по сути аналогичный Shazam, но с открытым кодом и реализующий технологию audio fingerprinting. Причём, если посмотреть на код, то там всё просто до безобразия, алгоритм фиксирует задержки между пиками звука, но, судя по демо, это как-то работает. Хотя и надо протестировать, конечно.

Что любопытно:
- автор сам никакой исследовательской/научной работы не проводил, но собрал ссылки на научные работы и примеры кода, например на Java [2]
- автор студент из Нигерии

Для студенческого проекта очень неплохо, для тех кто работает над алгоритмами audio fingerprinting может быть полезно.

Ссылки:
[1] https://github.com/cgzirim/seek-tune
[2] https://www.royvanrijn.com/blog/2010/06/creating-shazam-in-java/

#opensource #audio #audiofingerprinting
Наконец-то инициатива отделяющая Open Source от бизнес моделей с ограничениями, но то же с раскрытием кода. Называется Fair Source [1] или, по-русски, Программное обеспечение с честным исходным кодом (FSS).

Его основные принципы:
1. Общедоступно для чтения;
2. Допускает использование, модификацию и распространение с минимальными ограничениями для защиты бизнес-модели производителя; 3. Проходит процедуру отложенной публикации с открытым исходным кодом (DOSP).

У них есть две лицензии [2]
- Fair Core License (FCL)
- Business Source License (BUSL or BSL)

С обещаниями раскрытия исходного кода через 2 и 4 года соответственно.

Хорошая новость - этому явлению теперь есть более точное название чем часть Open Source

Плохая новость - пока не придумал;)

Что думаете про инициативу?

Ссылки:
[1] https://fair.io
[2] https://fair.io/licenses/

#opensource #fairsource #code #licenses
К предыдущей теме про лицензии Fair Source полезный текст по той же теме Why We Picked AGPL от команды ParadeDB. Для тех кто не знает, ParadeDB - это замена поиск Elastic с помощью Postgres, довольно популярная замена. Они хорошо и структурированно рассказали как выбирали лицензию и по каким критериям.

Если кратко, их резоны просты:
1. Лицензия должна быть понятной и знакомой
2. Лицензия должна быть открытой/свободной
3. Лицензия должна защитить их бизнес от cloud vendors

В итоге, выбрали AGPL и объяснили почему так.

#opensource #openlicenses
Довольно странный и смешной проект с открытым кодом whenfs [1] по превращению Google календаря в файловую систему. Я даже не представляю себе как автор до такого додумался, но тем не менее в примерах сохранение небольших картинок в виде огромного числа записей об эвентах в календаре. Что-то невероятное, там выходит 3 килобайта за 7 секунд!

Впрочем это специфика взгляда, я вот смотрю на всё как на таблицы и данные, а есть люди которые смотрят на всё как графовые структуры или как правила для бизнес логики, или как на код. А в данном случае автор посмотрел на гугл календарь как на файловую систему.

А если про серьёзное, то конечно, гораздо интереснее было бы посмотреть на Google календарь, контакты или почту как на базы данных. Вот мне лично очень нехватает SQL интерфейса или чего-то очень похожего к почте и к контактам.

#google #calendar #funny #filesystem #opensource
В Нидерландах Министерство внутренних дел и по делам королевства опубликовало Handleiding Herziene Who nav de Wet implementatie open data richtlijn [1], Пересмотренное руководство для тех следует за Законом о реализации Директивы по открытым данным [2]

Руководство на голландском языке, но ничего сложного там нет и для тех кому будет сложно читать можно воспользоваться одним из онлайн переводчиков.

Если вкратце то руководство определяет политику обязательной открытости данных и кода всех государственных структур таких как:
- органы и организации федеральной власти (de staat);
- органы и организации региональной власти (zijn territoriale lichamen);
- организации учреждённые по закону (publiekrechtelijke instellingen)
- ассоциации учреждённые одним или более органов/организаций власти или организаций учрежденных по закону (verenigingen gevormd door een of meer van deze lichamen of een of meer van deze publiekrechtelijke instellingen)

Сюда попадают все органы власти, бюджетные учреждения, государственные исследовательские центры, любые организации которые они учреждали.

В руководстве определены приоритеты открытости по таким направлениям как:
- исследовательские данные
- динамические данные, такие как трафик, движение общественного транспорта и тд.
- особо ценные наборы данных (как это определено в директиве Евросоюза)
- программное обеспечение и открытый код

Из интересного:
- соблюдение принципов FAIR для открытых научных данных
- требование по использованию Metagegevens Duurzaam Toegankelijke Overheidsinformatie (MDTO) стандарта по устойчивой доступности государственной информации [2]. Разработано Национальным Архивом Нидерландов
- требование Archivering by design по предусматриванию обязательной архивации всего публикуемого и для этого использование стандарта DUTO [4], также от Национального Архива

И там ещё много всего.

В итоге можно обратить внимание на два фактора:
1. Сильный акцент на обязательное раскрытие научных данных. Это не удивительно зная сколько их создаётся и раскрывается в Нидерландах.
2. Переход к обязательности раскрытие ПО и открытого кода
3. Стандартизация с акцентом на архивацию. Роль национального архива в этом процессе.

И, чтобы два раза не вставать, нидерландский веб-архив всех государственных сайтов [5], несколько тысяч, может быть, десяток тысяч сайтов и госучреждений.

Ссылки:
[1] https://openrijk.nl/artikel/5c0e86d8-bc47-48c0-99f5-4306dea73b6d/nieuwe-wet-voor-open-data-in-nederland
[2] https://minbzk.github.io/publicatie/hl/hwho/#wat-is-de-status-van-deze-handleiding
[3] https://www.nationaalarchief.nl/archiveren/mdto/stappenplan-toepassen-mdto
[4] https://www.nationaalarchief.nl/archiveren/kennisbank/duto-raamwerk
[5] https://www.archiefweb.eu/


#opendata #netherlands #eu #policy #opensource #digitalpreservation #webarchives
This media is not supported in your browser
VIEW IN TELEGRAM
Наглядная визуализация с открытым кодом того что происходит внутри LLM моделей [1]. Исходный код доступен [2] как и научная статья от авторов Transformer Explainer: Interactive Learning of Text-Generative Models [3]

Ссылки:
[1] https://poloclub.github.io/transformer-explainer/
[2] https://github.com/poloclub/transformer-explainer
[3] https://arxiv.org/abs/2408.04619

#opensource #llm #ai #datatools
Полезные ссылки про данные, технологии и не только:
- FOR-species20K dataset [1] датасет результатов лазерного сканирования более 20 тысяч деревьев и идентификация их видов на основе этих данных
- DuckDB Tricks – Part 1 [2] полезные трюки по работе с данными с помощью DuckDB.
- ncWMS Guide [3] руководство по серверу WMS ncWMS, активно используется вместе с серверами Thredds в метеорологии. Начал их активно добавлять в реестр каталогов данных, скоро проиндексируются в Dateno
- Mapbender 4.0 [4] вышла 4-я версия Mapbender, популярного open source геопортала используемого в ЕС во многих странах.
- SuperMap [5] популярный в Китае геосервер, альтернатива ArcGIS. Используется во многих китайских госорганах, компаниях и активно распространяется в южной, восточной и юго-восточной азии. Имеет частичную совместимость с ArcGIS
- Mealie [6] сервер для ведения рецептов, открытый код и импорт из разных источников. Локализован на многие языки включая русский.
- Slackdump [7] архиватор публичных и личных сообщений из Slack'а. Не требует админских привилегий, открытый код.

Ссылки:
[1] https://zenodo.org/records/13255198
[2] https://duckdb.org/2024/08/19/duckdb-tricks-part-1
[3] https://reading-escience-centre.gitbooks.io/ncwms-user-guide/content/
[4] https://mapbender.org/aktuelles/details/mapbender-version-400-released/
[5] https://www.supermap.com/en-us/
[6] https://github.com/mealie-recipes/mealie
[7] https://github.com/rusq/slackdump

#opensource #data #datatools #geodata #geoportals #tools #datasets
Для тех кто любит заниматься дата сторителлингом (журналисты, аналитики) новый полезный инструмент Closeread [1] позволяющий рассказывать истории внутри HTML документов open source системы документирования Quarto [2].

Quarto сама по себе удобная система и я лично давно смотрю на неё с разных сторон и хочу применить в деле. А Closeread ещё и приближает её к задачам рассказывания историй.

И всё это в Markdown, расширяемо, и тд.

А ещё интересно для публикации научных статей, уже есть примеры их подготовки в Quarto и множество шаблонов [3].

Куда ни посмотри, отличный инструмент.

Ссылки:
[1] https://closeread.netlify.app
[2] https://quarto.org
[3] https://github.com/quarto-journals

#opensource #datajournalism #analytics #datadocs #tools
В рубрике интересных продуктов для публикации данных малоизвестный pycsw [1] движок с открытым кодом для публикации метаданных для геоданных. Поддерживает стандарты STAC API, CSW, OpenAPI, OGC Collections, OpenSearch, OAI-PMH и даже SRU, который, скорее, для библиотечных систем.

Имеет немного внедрений, около 50 по всему миру [2] во всяком случае тех что известны самим разработчикам.

Сильно менялся от версии к версии. До версии 3.0 был просто движком для публикации CSW каталогов, а с версии 3.0 чем-то стал конкурировать с геосервером или дополнять, тут уж как посмотреть.

С точки зрения архитектуры штука не то чтобы сильно современная, но открытый код, но расширяется плагинами и, в целом, функции индексации геоданных может выполнять неплохо если прикрутить к нему интерфейс, API для управления и тд.

Ссылки:
[1] https://pycsw.org
[2] https://raw.githubusercontent.com/geopython/pycsw.org/gh-pages/live-deployments.geojson

#opendata #geodata #datacatalogs #opensource