Ivan Begtin
7.98K subscribers
1.83K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
MemSQL - стартап создающий одноимённую геораспределённую базу данных совместимую с MySQL, получили $50 миллионов инвестиций [1] что составляет $158.1 миллион инвестиций на сегодняшний день.

Главное достоинство MemSQL - это сохранение высокой скорости работы даже при очень большом объёме загруженных данных. При этом MemSQL умеет работать с JSON документами, хотя и, нельзя сказать что это естественная форма работы, что, впрочем, компенсируется высокой скоростью.

Несмотря на то что у себя на сайте они сравнивают себя, в первую очередь, с SAP HANA и Oracle [2], основной их конкурент - это CockroachDb о которой я писал ранее [4], базе данных совместимой с PostgresSQL.

Ссылки
[1] https://siliconangle.com/2020/05/11/distributed-database-startup-memsql-raises-50m-debt-financing/?utm_source=angellist
[2] https://www.memsql.com/comparisons/
[3] https://t.me/begtin/1893

#data #dataengines #db
В рубрике интересных продуктов на открытом коде по работе с данными и не только:
- Apache Baremaps - инструмент ETL и дополнительных функций по обработке геоданных, создан как развитие утилиты osmosis которую OSM перестали развивать в 2018 году. Кроме труб данных умеет ещё и геокодировать, публиковать карты, OGC сервер и многое другое. Интересно почему для геоданных нет, "чистого" ETL инструмента? Оно давно напрашивается. Потому что совмещение таких функций не логично, а полноценное ETL более чем.

- Gorilla инструмент и научная работа по подключению больших языковых моделей к 1.6 тысяче API. Как минимум интересная идея, хотя и немного пугающая, как и все продукты по усилению LLM. Впрочем главное в чём Gorilla может хорошо помочь - это в генерации документации и примеров по тому как с API работать, думаю что что-то похожее уже в разработке внутри инструментов вроде Postman.

- Jesth новый человеко-читаемый формат по сериализации данных, пока ещё на ранней стадии и он уж очень как-то безсхемный, но сам по себе любопытен совмещением синтаксиса TOML и Markdown. Возможно его можно применить для написания структурированной документации в коде, а может и ещё для чего-то

- All languages are NOT created (tokenized) equal - статья с примерами и кодом о том почему не все языки созданы равными, про стоимости токенизации для разных языков как стоимости тренировки и работы языковых моделей. Общий посыл в том что есть языки простые вроде английского и языки значительно более сложные по своей структуре, создание и поддержание языковых моделей для существенно дороже. Ничего радикального нового, но полезный взгляд на известное.

- Modding Age of Empires II with a Sprite-Diffuser фанат обновил стили и вид изображений зданий в Age of Empires II с помощью Sprite-diffuser. Выглядит очень неплохо и может дать толчок новому тренду, глубокой кастомизации игр с помощью ИИ, особенно старых игр которые могут получить второе/третье дыхание. Без программирования там пока не обойтись

- Writing design docs for data pipelines о том что надо и как надо писать архитектурные документы к трубам данных. Полезно, хотя и хочется больше примеров живых с конкретными шаблонами

- clickhouse-local vs DuckDB on Two Billion Rows of Costs сравнение clickhouse-local и DuckDB на 2-х миллиардах строк с ценами и выигрывает Clickhouse-local. Сравнение достаточно короткое чтобы не запутаться, и достаточно конкретное чтобы понять преимущества инструментов.

#opensource #db #ai #datatools