397 subscribers
228 photos
47 videos
11 files
307 links
Data Engineering Technologies.
SQL, Python, Kafka, Spark, Pandas, Airflow, Clickhouse, Greenplum, Postgres, dbt

Буст канала тут - https://t.me/boost/data_engi
Download Telegram
17😁2❤‍🔥1
Forwarded from Хитрый Питон
Мигель Гринберг, известный своим мега-туториалом по Flask написал большой пост про обработку ошибок в python. Вопросы "когда и какие эксепшены обрабатывать" и "откуда мне узнать, какие эксепшены тут могут возникнуть" особенно актуальны у новичков, я даже у мидлов видел с этим затруднения. Статья довольно длинная, но я очень рекомендую потратить время и почитать https://blog.miguelgrinberg.com/post/the-ultimate-guide-to-error-handling-in-python

Оказывается, на хабре опубликовали перевод статьи https://habr.com/ru/articles/853056/
8
Блогпост про Apache Datafusion Comet.

🟣почему все так хотят ускорить Apache Spark на DWH-нагрузках
🟣что хорошо в Spark, а что хотелось бы видеть чуть иначе.
🟣обзор Databricks Photon и Apache Gluten (incubating), которые предлагают плагины для Spark для замены JVM-рантайм на нативный
🟣обзор Datafusion Comet, как оно работает под капотом, что уже умеет и в чём уникальные фишки, если сравнивать с Gluten или Photon
🟣история личного контрибьюта автора поста:
🟡как писать PhysicalExpr для Datafusion
🟡generic листы в Apache Arrow
🟡удобства rust-gdb

#datafusioncomet #datafusion #spark
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥8
Forwarded from Data is data
На 2025 год нам обещают волну компьютерных атак класса data poison. Отравление данных — это когда кто-то специально изменяет датасеты, которые используются для обучения систем искусственного интеллекта (ИИ), ML, чтобы заставить эти системы работать неправильно или выдавать неверные результаты.

Что может быть:
1. Неправильная маркировка. Атакующий может изменить метки данных.
2. Добавление вредоносных данных: В обучающие данные можно добавить специально созданные примеры, которые заставят систему принимать неверные решения.

Т.е. не DROP DATABASE, а добавляем в датасет несколько тысяч строчек, меняем чуток классы и опа, на наш паспорт бомжа выдают кредит в несколько миллионов рублей. Ну или прогнозные модели по погоде, транспорту начнут давать неверные результаты. Или ПО для автоматического выявления угроз в сети компании начнёт не замечать наш троянчик. Или копилот в IDE будет выдавать заведомо дырявый код. Чем дальше пойдёт внедрение AI/ML, тем больше будет таких атак.

Как защититься ? Хранить статистики, контрольные суммы, сличать, смотреть выбросы. Думать.
❤‍🔥10😁3
Как с помощью grep, cut, awk, sort сделать базу данных. Но зачем? 😂

Но я утащил эту статью в закладки, т.к. здесь собраны самые популярные комнды для работы с текстом. Надеюсь, никогда не понадобится 😰

https://habr.com/ru/articles/857756/ #linux
8❤‍🔥3😁1
📝 Данные и их разметка в 2024 году: развивающиеся тенденции и требования будущего

Интересная статья о разметке данных. Ключевые моменты:

🤔 Текущие тенденции:

👍 Увеличение сложности наборов данных
👍 Переход на разметку в реальном времени
👍 Масштабное развитие автоматизированных инструментов в дополнение к ручной обработке

🤔 Прогнозы рынка:

👍 Ожидается рост до 8,22$ млрд к 2028 году при CAGR 26,6%
👍 Требования к качеству и скорости разметки растут и будут расти по экспоненте

😎 Технологические тенденции:

👍 Адаптивный ИИ
👍 Метавселенная
👍 Индустриальные облачные платформы
👍 Усовершенствование беспроводных технологий

Автор указывает, что индустрия разделения данных будет стремительно развиваться из-за растущего спроса на точные и надёжные данные для ИИ и машинного обучения.

Автоматизация, адаптивный ИИ и новые технологические решения повысят качество и скорость разделения данных.

#data #de #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥6
GitHub Copilot is now available for free

Но есть нюанс, только VS Code и есть лимиты.

ref

👩‍💻

#github #copilot #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥5
9 законов (принципов) программирования — это база.

0⃣ Закон Брукса — если ты посадишь трёх разрабов за одну задачу, они не сделают её в три раза быстрее. Чем больше твоя команда, тем сложнее становится координация и планирование.

1️⃣ Закон Гудхарта — чем жёстче твои KPI и метрики для измерения эффективности, тем сильнее они отвлекают от выполнения самих задач. В самых запущенных случаях люди забивают на задачи и переключаются только на KPI.

2️⃣ Закон Хайрама — чем больше юзеров у API, тем сильнее они полагаются на незадокументированные особенности, превращая их в «обязательные» функции. Из-за этого любые изменения становятся сложными, ведь легко сломать что-то для тех, кто уже привык к старым фишкам.

3️⃣ Закон Конвея — структура программ часто повторяет организационную структуру команды, которая её создала. Если слепо следовать границам в команде, софт получится неоптимизированным.

4️⃣ Закон Линуса — база опенсора. Чем больше людей проверяют код, тем больше шансов найти ошибку.

5️⃣ Закон Хофтшадтера — дедлайн всегда нужно ставить с запасом. Мы склонны занижать количество времени, необходимое для выполнения задачи.

6️⃣ Закон Кернигана — код всегда должен быть простым и понятным. Сложный код всегда становится неподъёмным в отладке и сопровождении — это только вопрос времени.

7️⃣ Закон Питера — софт- и хард-скиллы, это разные навыки. Так, топовый разраб не обязательно обладает такими же способностями к управлению людьми, руководству командами или выполнению стратегических требований лидерства.

8️⃣ Закон Парето — усилия должны быть избирательными. Чтобы 20% усилий приносили 80% результатов, сначала нужно понять, куда прикладывать эти усилия. Качество всегда перевешивает количество, а результат важнее времени затраченного на задачу.


#dev #baza #pareto #laws #programming #engineering
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥10
Forwarded from partially unsupervised
Наткнулся на пост Top Python libraries of 2024, и набор библиотек в очередной раз затрагивает давно наболевшие топики:

1) несовершенство языка и пакетного менеджера (uv вместо pip, Whenever как лучший datetime, streamable как альтернатива встроенным коллекциям, очередной генератор/валидатор типов...);
2) все низкоуровневые штуки продолжают переписывать на rust;
3) главная проблема и в LLM-driven мире осталоась все той же - перегонять данные из формата в формат, только к привычным HTML/JSON/markdown/датаклассам добавляются попытки сделать LLM-native форматы (BAML), LLM-native датаклассы (PydanticAI) etc.

Правда, из всего списка сколько-то массовый адопшен случился пока только у uv.
❤‍🔥8
😮 Turso представили Limbo — переписанный на Rust вариант SQLite, обещают +20% к скорости, векторный поиск, асинхронность и сборку в WebAssembly.

1️⃣ Почему интересно: Rust даёт безопасность и асинхронность, векторные индексы полезны для ML/AI, а WASM-версия запускается прямо в браузере.

2️⃣ Главные фишки:
🟢+20% производительности
🟢Векторные индексы для поиска
🟢Асинхронная обработка запросов
🟢Сборка в WebAssembly

3️⃣ Где пригодится: Локальные проекты (edge computing, микросервисы), задачи ML (embeddings), лёгкие веб-приложения без серверов.

4️⃣ Итог: Limbo — свежий взгляд на SQLite с упором на скорость, лёгкость и современные сценарии (ML, браузеры, edge).

#turso #limbo #sqlite #dev #de #sql
Please open Telegram to view this post
VIEW IN TELEGRAM
6😁3❤‍🔥11
PGlite — это революционная WASM-сборка PostgreSQL, которая позволяет запускать базу данных прямо в браузере без необходимости использования виртуальной машины Linux.

Теперь PostgreSQL компилируется в WebAssembly, что открывает возможность работы с эфемерными БД в памяти или на диске через IndexedDB.

В сочетании с Electric, PGLite становится идеальным инструментом для создания реактивных local-first приложений, где основой служит Postgres.

#WASM #FrontendMagic #pg #pglite #db #postgres #databases
9❤‍🔥11
This media is not supported in your browser
VIEW IN TELEGRAM
🎄

С Новым годом!

Пусть 2025 принесёт тебе ещё больше вдохновения, неожиданных инсайтов и стабильных пайплайнов!

Спасибо за твою поддержку — продолжим прокачивать наш мир данных вместе!
Please open Telegram to view this post
VIEW IN TELEGRAM
317❤‍🔥1
🎄
Please open Telegram to view this post
VIEW IN TELEGRAM
19
😁94❤‍🔥2
Forwarded from Николай Ясинский | SHIFU (Nikolay Yasinskiy)
Я вот смотрю где и как используется Rust сейчас, и виден явный тренд, когда все чаще этот язык становится основным решением при переписывании тяжелых, требующих больших ресурсов сервисов или библиотек.

Это я к чему... возможно, это именно та ниша где раст будет постепенно захватывать мир.

Например Polars (вдруг в DE занимаетесь):
https://pola.rs
6😁2❤‍🔥11
😁16
Forwarded from 🔋 Труба данных (Simon Osipov)
https://arch.dev/blog/2025-the-dawn-of-the-ai-data-team/

Бла-бла-бла, AI всех заменит, подходы меняются, меняйся или умри.
Пожалуйста, не поддавайтесь этой истерике, в самой статье ж прям написано: The Foundation Remains Critical
Ничего ульра-прорывного именно в data engineering с появлением AI пока не произошло, вы ничего не пропустили.

Copilot и другие умные автокомплиты - это да. Вот это стоит взять на вооружение.

@ohmydataengineer - канал "🕯Труба Данных" на страже хайпожорства!
Please open Telegram to view this post
VIEW IN TELEGRAM
6👏22😁1