https://github.com/toon-format/toon
Если у вас есть какие-либо автоматизации с использованием LLM и вы в них кидаетесь данными, то вот тут ребята собрали небольшой оптимизатор структур, позволяющий экономить на токенах.
@ohmydataengineer
Если у вас есть какие-либо автоматизации с использованием LLM и вы в них кидаетесь данными, то вот тут ребята собрали небольшой оптимизатор структур, позволяющий экономить на токенах.
@ohmydataengineer
GitHub
GitHub - toon-format/toon: 🎒 Token-Oriented Object Notation (TOON) – Compact, human-readable, schema-aware JSON for LLM prompts.…
🎒 Token-Oriented Object Notation (TOON) – Compact, human-readable, schema-aware JSON for LLM prompts. Spec, benchmarks, TypeScript SDK. - toon-format/toon
💩8❤2🔥1
Российские ETL решения....
Я даж не знаю, смеяться или плакать..🙈
Специально оставлю вам ссылку с картинки https://russianbi.ru/ - чтобы вы сами посмотрели на это.
Я даж не знаю, смеяться или плакать..🙈
Специально оставлю вам ссылку с картинки https://russianbi.ru/ - чтобы вы сами посмотрели на это.
💩27😢5🥱3
https://bfcm.shopify.com
У Shopify в этом году на Βlack Friday было 45kk сообщений в Кафку в секунду...
(скриншот, конечно, сегодняшний, а не пятничный, но сам вебсайт оч классный с техническими метриками)
А сколько там пасхалок на этом сайте... 😃 (одна из них что он жрет гигабайт оперативки)
@ohmydataengineer
У Shopify в этом году на Βlack Friday было 45kk сообщений в Кафку в секунду...
(скриншот, конечно, сегодняшний, а не пятничный, но сам вебсайт оч классный с техническими метриками)
А сколько там пасхалок на этом сайте... 😃 (одна из них что он жрет гигабайт оперативки)
@ohmydataengineer
👍19💩1
MiniO все.
This project is currently under maintenance and is not accepting new changes.
• The codebase is in a maintenance-only state
• No new features, enhancements, or pull requests will be accepted
• Critical security fixes may be evaluated on a case-by-case basis
• Existing issues and pull requests will not be actively reviewed
• Community support continues on a best-effort basis through Slack
https://github.com/minio/minio
@ohmydataengineer
This project is currently under maintenance and is not accepting new changes.
• The codebase is in a maintenance-only state
• No new features, enhancements, or pull requests will be accepted
• Critical security fixes may be evaluated on a case-by-case basis
• Existing issues and pull requests will not be actively reviewed
• Community support continues on a best-effort basis through Slack
https://github.com/minio/minio
@ohmydataengineer
😢60👍4💩4🔥1
Показываем аудитории молодые open-source проекты. Мне не жалко, вдруг кому-то будет интересно.
🔐 Postgresus - self-hosted инструмент для резервного копирования и мониторинга PostgreSQL базы данных
🔥 Возможности:
- создание бекапов по расписанию для PostgreSQL 13-18;
- уведомления в Telegram, Slack, Discord, если бекап сломался или база недоступна;
- хранение бекапов локально, в S3 или Google Drive;
- health check базы данных раз в минуту;
- Apache 2.0 лицензия (полностью открытый);
Запуск через Docker:
docker run -d
--name postgresus
-p 4005:4005
-v ./postgresus-data:/postgresus-data
--restart unless-stopped
rostislavdugin/postgresus:latest
📌 GitHub
🔐 Postgresus - self-hosted инструмент для резервного копирования и мониторинга PostgreSQL базы данных
🔥 Возможности:
- создание бекапов по расписанию для PostgreSQL 13-18;
- уведомления в Telegram, Slack, Discord, если бекап сломался или база недоступна;
- хранение бекапов локально, в S3 или Google Drive;
- health check базы данных раз в минуту;
- Apache 2.0 лицензия (полностью открытый);
Запуск через Docker:
docker run -d
--name postgresus
-p 4005:4005
-v ./postgresus-data:/postgresus-data
--restart unless-stopped
rostislavdugin/postgresus:latest
📌 GitHub
❤16🔥12💩3👎1
Новые поглощения и покупки: IBM покупает Confluent (не путать с Confluence 😆, это которые Kafka)
https://www.reuters.com/technology/ibm-nears-roughly-11-billion-deal-confluent-wsj-reports-2025-12-08/
@ohmydataengineer
https://www.reuters.com/technology/ibm-nears-roughly-11-billion-deal-confluent-wsj-reports-2025-12-08/
@ohmydataengineer
Reuters
IBM nears $11 billion Confluent deal to boost cloud push, WSJ reports
IBM is in advanced talks to acquire data-infrastructure company Confluent for about $11 billion, the Wall Street Journal reported on Sunday, in a move aimed at boosting Big Blue's ability to capture growing demand for cloud services.
😢11👍3❤1
https://karpathy.bearblog.dev/year-in-review-2025
Andrej Karpathy (ну тот, который был главнюком за AI в Tesla и не только) подвел отличные и оч лаконичные итоги года.
Еще мне на прошлой неделе удалось посмотреть два интересных интервью и один докладик
- Andrej Karpathy — “We’re summoning ghosts, not building animals” - https://www.youtube.com/watch?v=lXUZvyajciY
- Ilya Sutskever – "We're moving from the age of scaling to the age of research"- https://www.youtube.com/watch?v=aR20FWCCjAs
- Andrej Karpathy: Software Is Changing (Again) - https://www.youtube.com/watch?v=LCEmiRjPEtQ
И нет, это не х2 скорость, это он так в реальности говорит 😃
@ohmydataengineer - канал "Труба данных" про всякое в мире работы с данным
Andrej Karpathy (ну тот, который был главнюком за AI в Tesla и не только) подвел отличные и оч лаконичные итоги года.
Еще мне на прошлой неделе удалось посмотреть два интересных интервью и один докладик
- Andrej Karpathy — “We’re summoning ghosts, not building animals” - https://www.youtube.com/watch?v=lXUZvyajciY
- Ilya Sutskever – "We're moving from the age of scaling to the age of research"- https://www.youtube.com/watch?v=aR20FWCCjAs
- Andrej Karpathy: Software Is Changing (Again) - https://www.youtube.com/watch?v=LCEmiRjPEtQ
И нет, это не х2 скорость, это он так в реальности говорит 😃
@ohmydataengineer - канал "Труба данных" про всякое в мире работы с данным
karpathy
2025 LLM Year in Review
2025 Year in Review of LLM paradigm changes
👍8
Forwarded from Клуб CDO
8e0ef293-a3c7-49ab-afbb-3f8cac35a88c_1600x954.jpg
192.3 KB
Хотя про AI-агентов сейчас пишут буквально из каждого утюга, в этой статье мне особенно зацепился один момент — визуализация зависимости качества ответов LLM от длины контекста. Интуитивно мы все чувствуем, что «чем больше — тем лучше», но на практике кривая выглядит иначе: после определённого порога контекст начинает не помогать, а мешать. Сигнал тонет в шуме, модель теряет фокус, а качество решений деградирует. Забрал эту картинку себе в копилку как хорошее напоминание.
Из этого логично вытекает важный тезис: формулировка задачи вторична, первична политика контекста. Не «как красиво спросить», а что именно и в каком объёме сейчас действительно нужно модели. Принцип «минимум, достаточный для текущего шага» оказывается куда более надёжным, чем попытка загрузить в контекст всё возможное «на всякий случай».
Отдельно понравилась мысль про инструменты. Да, туллинг расширяет возможности LLM, но каждый их вывод — это ещё один удар по контекстному бюджету. Если инструменты шумят, возвращают избыточные данные или нестабильный формат, агент быстро начинает деградировать. Поэтому критичны строгие контракты, малый, предсказуемый и структурированный вывод — иначе инструменты становятся источником энтропии, а не силы.
История сообщений — ещё одна зона инженерной ответственности. Хранить всё подряд — плохая стратегия. Актуальное должно быть доступно, «закрытые» куски — сжаты и зафиксированы в виде состояния, всё остальное — безжалостно отброшено. Контекст — не лог событий, а рабочая память, и к ней применимы те же принципы, что и к архитектуре систем.
Итог для меня простой: контекст-инжиниринг — это полноценная дисциплина проектирования. Каждая загрузка в окно контекста — осознанное решение с ограничениями. Надёжность агента обеспечивается не магией промпта, а управлением информационным бюджетом, продуманной retrieval-стратегией и регулярной компакцией состояния. Именно здесь сейчас проходит граница между «демо» и реально работающими агентными системами.
https://newsletter.systemdesign.one/p/what-is-context-engineering
Из этого логично вытекает важный тезис: формулировка задачи вторична, первична политика контекста. Не «как красиво спросить», а что именно и в каком объёме сейчас действительно нужно модели. Принцип «минимум, достаточный для текущего шага» оказывается куда более надёжным, чем попытка загрузить в контекст всё возможное «на всякий случай».
Отдельно понравилась мысль про инструменты. Да, туллинг расширяет возможности LLM, но каждый их вывод — это ещё один удар по контекстному бюджету. Если инструменты шумят, возвращают избыточные данные или нестабильный формат, агент быстро начинает деградировать. Поэтому критичны строгие контракты, малый, предсказуемый и структурированный вывод — иначе инструменты становятся источником энтропии, а не силы.
История сообщений — ещё одна зона инженерной ответственности. Хранить всё подряд — плохая стратегия. Актуальное должно быть доступно, «закрытые» куски — сжаты и зафиксированы в виде состояния, всё остальное — безжалостно отброшено. Контекст — не лог событий, а рабочая память, и к ней применимы те же принципы, что и к архитектуре систем.
Итог для меня простой: контекст-инжиниринг — это полноценная дисциплина проектирования. Каждая загрузка в окно контекста — осознанное решение с ограничениями. Надёжность агента обеспечивается не магией промпта, а управлением информационным бюджетом, продуманной retrieval-стратегией и регулярной компакцией состояния. Именно здесь сейчас проходит граница между «демо» и реально работающими агентными системами.
https://newsletter.systemdesign.one/p/what-is-context-engineering
👍17❤2💩2
https://www.youtube.com/watch?v=rmvDxxNubIg
В личку принесли еще один прекрасный, небольшой доклад про Context Engineering.
Из забавного - почти ко всем советам, про которые говорится в докладе, дошел и стал применять самостоятельно, видимо я не настолько туп 😁
@ohmydataengineer - канал "Труба данных" про всякое в мире работы с данным
В личку принесли еще один прекрасный, небольшой доклад про Context Engineering.
Из забавного - почти ко всем советам, про которые говорится в докладе, дошел и стал применять самостоятельно, видимо я не настолько туп 😁
@ohmydataengineer - канал "Труба данных" про всякое в мире работы с данным
YouTube
No Vibes Allowed: Solving Hard Problems in Complex Codebases – Dex Horthy, HumanLayer
It seems pretty well-accepted that AI coding tools struggle with real production codebases. At AI Engineer 2025 in June, The Stanford study on AI's impact on developer productivity found:
A lot of the ""extra code"" shipped by AI tools ends up just reworking…
A lot of the ""extra code"" shipped by AI tools ends up just reworking…
1🔥5🥱1
Forwarded from Denis Sexy IT 🤖
Если вы искали качественный туториал про то как использовать Claude Code лучше всего с лучшими настройками на данный момент, то вот, я прнс
sankalp's blog
A Guide to Claude Code 2.0 and getting better at using coding agents
A deep dive into Claude Code 2.0 features, Opus 4.5 workflows, and context engineering. Learn sub-agents, MCP servers, hooks, skills, and practical tips to boost your AI-assisted coding productivity.
1👍10
https://clickhouse.com/blog/clickhouse-kubernetes-operator
Кликхаус выкатил K8S Operator. Это чтобы было изи раскатить клик в кубере.
Да-да, давайте не будем базы данных держать в кубернетесе, только bare metal и весь остальной бубнеж.
Большинству компаний будет достаточно и клика в кубере. (хотя, если честно, таким компаниям, наверное, рано в кубер)
@ohmydataengineer
Кликхаус выкатил K8S Operator. Это чтобы было изи раскатить клик в кубере.
Да-да, давайте не будем базы данных держать в кубернетесе, только bare metal и весь остальной бубнеж.
Большинству компаний будет достаточно и клика в кубере. (хотя, если честно, таким компаниям, наверное, рано в кубер)
@ohmydataengineer
ClickHouse
Introducing the Official ClickHouse Kubernetes Operator: Seamless Analytics at Scale
Introducing the Official ClickHouse Kubernetes Operator, open source under Apache 2.0 and free. Deploy production ClickHouse clusters on Kubernetes with sharding, replication, and ClickHouse Keeper. Scale up or out, update configuration and versions safel
💩10👍4🔥4❤1👎1