Forwarded from Хитрый Питон
Мигель Гринберг, известный своим мега-туториалом по Flask написал большой пост про обработку ошибок в python. Вопросы "когда и какие эксепшены обрабатывать" и "откуда мне узнать, какие эксепшены тут могут возникнуть" особенно актуальны у новичков, я даже у мидлов видел с этим затруднения. Статья довольно длинная, но я очень рекомендую потратить время и почитать https://blog.miguelgrinberg.com/post/the-ultimate-guide-to-error-handling-in-python
Оказывается, на хабре опубликовали перевод статьи https://habr.com/ru/articles/853056/
Оказывается, на хабре опубликовали перевод статьи https://habr.com/ru/articles/853056/
Miguelgrinberg
The Ultimate Guide to Error Handling in Python
I often come across developers who know the mechanics of Python error handling well, yet when I review their code I find it to be far from good. Exceptions in Python is one of those areas that have a…
Блогпост про Apache Datafusion Comet.
🟣 почему все так хотят ускорить Apache Spark на DWH-нагрузках
🟣 что хорошо в Spark, а что хотелось бы видеть чуть иначе.
🟣 обзор Databricks Photon и Apache Gluten (incubating), которые предлагают плагины для Spark для замены JVM-рантайм на нативный
🟣 обзор Datafusion Comet, как оно работает под капотом, что уже умеет и в чём уникальные фишки, если сравнивать с Gluten или Photon
🟣 история личного контрибьюта автора поста:
🟡 как писать PhysicalExpr для Datafusion
🟡 generic листы в Apache Arrow
🟡 удобства
#datafusioncomet #datafusion #spark
rust-gdb
#datafusioncomet #datafusion #spark
Please open Telegram to view this post
VIEW IN TELEGRAM
Sem Sinchenko
Apache Datafusion Comet and the story of my first contribution to it
In this blog post, I will provide a brief high-level overview of projects designed to accelerate Apache Spark by the native physical execution, including Databricks Photon, Apache Datafusion Comet, and Apache Gluten (incubating). I will explain the problems…
❤🔥8
Forwarded from Data is data
На 2025 год нам обещают волну компьютерных атак класса data poison. Отравление данных — это когда кто-то специально изменяет датасеты, которые используются для обучения систем искусственного интеллекта (ИИ), ML, чтобы заставить эти системы работать неправильно или выдавать неверные результаты.
Что может быть:
1. Неправильная маркировка. Атакующий может изменить метки данных.
2. Добавление вредоносных данных: В обучающие данные можно добавить специально созданные примеры, которые заставят систему принимать неверные решения.
Т.е. не DROP DATABASE, а добавляем в датасет несколько тысяч строчек, меняем чуток классы и опа, на наш паспорт бомжа выдают кредит в несколько миллионов рублей. Ну или прогнозные модели по погоде, транспорту начнут давать неверные результаты. Или ПО для автоматического выявления угроз в сети компании начнёт не замечать наш троянчик. Или копилот в IDE будет выдавать заведомо дырявый код. Чем дальше пойдёт внедрение AI/ML, тем больше будет таких атак.
Как защититься ? Хранить статистики, контрольные суммы, сличать, смотреть выбросы. Думать.
Что может быть:
1. Неправильная маркировка. Атакующий может изменить метки данных.
2. Добавление вредоносных данных: В обучающие данные можно добавить специально созданные примеры, которые заставят систему принимать неверные решения.
Т.е. не DROP DATABASE, а добавляем в датасет несколько тысяч строчек, меняем чуток классы и опа, на наш паспорт бомжа выдают кредит в несколько миллионов рублей. Ну или прогнозные модели по погоде, транспорту начнут давать неверные результаты. Или ПО для автоматического выявления угроз в сети компании начнёт не замечать наш троянчик. Или копилот в IDE будет выдавать заведомо дырявый код. Чем дальше пойдёт внедрение AI/ML, тем больше будет таких атак.
Как защититься ? Хранить статистики, контрольные суммы, сличать, смотреть выбросы. Думать.
❤🔥10😁3
Forwarded from О разработке и не только
Как с помощью grep, cut, awk, sort сделать базу данных. Но зачем? 😂
Но я утащил эту статью в закладки, т.к. здесь собраны самые популярные комнды для работы с текстом. Надеюсь, никогда не понадобится 😰
https://habr.com/ru/articles/857756/ #linux
Но я утащил эту статью в закладки, т.к. здесь собраны самые популярные комнды для работы с текстом. Надеюсь, никогда не понадобится 😰
https://habr.com/ru/articles/857756/ #linux
Хабр
Запросто собираем базу данных при помощи команд Linux
База данных — это сердце многих приложений, от полнофункциональных корпоративных сайтов до сравнительно простых инструментов, например, для ведения списков покупок и финансовых трекеров. Популярны...
Интересная статья о разметке данных. Ключевые моменты:
Автор указывает, что индустрия разделения данных будет стремительно развиваться из-за растущего спроса на точные и надёжные данные для ИИ и машинного обучения.
Автоматизация, адаптивный ИИ и новые технологические решения повысят качество и скорость разделения данных.
#data #de #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Medium
Data Labeling in 2024: Emerging Trends and Future Demands for Impactful Results
Data labeling and annotation play a crucial role in various machine learning and AI initiatives, and the need for accurate and reliable…
❤🔥6
Media is too big
VIEW IN TELEGRAM
7😁12❤🔥3 2
9 законов (принципов) программирования — это база.
0⃣ Закон Брукса — если ты посадишь трёх разрабов за одну задачу, они не сделают её в три раза быстрее. Чем больше твоя команда, тем сложнее становится координация и планирование.
1️⃣ Закон Гудхарта — чем жёстче твои KPI и метрики для измерения эффективности, тем сильнее они отвлекают от выполнения самих задач. В самых запущенных случаях люди забивают на задачи и переключаются только на KPI.
2️⃣ Закон Хайрама — чем больше юзеров у API, тем сильнее они полагаются на незадокументированные особенности, превращая их в «обязательные» функции. Из-за этого любые изменения становятся сложными, ведь легко сломать что-то для тех, кто уже привык к старым фишкам.
3️⃣ Закон Конвея — структура программ часто повторяет организационную структуру команды, которая её создала. Если слепо следовать границам в команде, софт получится неоптимизированным.
4️⃣ Закон Линуса — база опенсора. Чем больше людей проверяют код, тем больше шансов найти ошибку.
5️⃣ Закон Хофтшадтера — дедлайн всегда нужно ставить с запасом. Мы склонны занижать количество времени, необходимое для выполнения задачи.
6️⃣ Закон Кернигана — код всегда должен быть простым и понятным. Сложный код всегда становится неподъёмным в отладке и сопровождении — это только вопрос времени.
7️⃣ Закон Питера — софт- и хард-скиллы, это разные навыки. Так, топовый разраб не обязательно обладает такими же способностями к управлению людьми, руководству командами или выполнению стратегических требований лидерства.
8️⃣ Закон Парето — усилия должны быть избирательными. Чтобы 20% усилий приносили 80% результатов, сначала нужно понять, куда прикладывать эти усилия. Качество всегда перевешивает количество, а результат важнее времени затраченного на задачу.
#dev #baza #pareto #laws #programming #engineering
#dev #baza #pareto #laws #programming #engineering
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥10
Forwarded from partially unsupervised
Наткнулся на пост Top Python libraries of 2024, и набор библиотек в очередной раз затрагивает давно наболевшие топики:
1) несовершенство языка и пакетного менеджера (
2) все низкоуровневые штуки продолжают переписывать на rust;
3) главная проблема и в LLM-driven мире осталоась все той же - перегонять данные из формата в формат, только к привычным HTML/JSON/markdown/датаклассам добавляются попытки сделать LLM-native форматы (BAML), LLM-native датаклассы (PydanticAI) etc.
Правда, из всего списка сколько-то массовый адопшен случился пока только у uv.
1) несовершенство языка и пакетного менеджера (
uv
вместо pip
, Whenever
как лучший datetime
, streamable
как альтернатива встроенным коллекциям, очередной генератор/валидатор типов...);2) все низкоуровневые штуки продолжают переписывать на rust;
3) главная проблема и в LLM-driven мире осталоась все той же - перегонять данные из формата в формат, только к привычным HTML/JSON/markdown/датаклассам добавляются попытки сделать LLM-native форматы (BAML), LLM-native датаклассы (PydanticAI) etc.
Правда, из всего списка сколько-то массовый адопшен случился пока только у uv.
❤🔥8
#turso #limbo #sqlite #dev #de #sql
Please open Telegram to view this post
VIEW IN TELEGRAM
turso.tech
Introducing Limbo: A complete rewrite of SQLite in Rust
we forked SQLite with the libSQL project. What would it be like if we just rewrote it?
GitHub
GitHub - electric-sql/pglite: Embeddable Postgres with real-time, reactive bindings.
Embeddable Postgres with real-time, reactive bindings. - electric-sql/pglite
PGlite — это революционная WASM-сборка PostgreSQL, которая позволяет запускать базу данных прямо в браузере без необходимости использования виртуальной машины Linux.
Теперь PostgreSQL компилируется в WebAssembly, что открывает возможность работы с эфемерными БД в памяти или на диске через IndexedDB.
В сочетании с Electric, PGLite становится идеальным инструментом для создания реактивных local-first приложений, где основой служит Postgres.
#WASM #FrontendMagic #pg #pglite #db #postgres #databases
Теперь PostgreSQL компилируется в WebAssembly, что открывает возможность работы с эфемерными БД в памяти или на диске через IndexedDB.
В сочетании с Electric, PGLite становится идеальным инструментом для создания реактивных local-first приложений, где основой служит Postgres.
#WASM #FrontendMagic #pg #pglite #db #postgres #databases
This media is not supported in your browser
VIEW IN TELEGRAM
С Новым годом!
Пусть 2025 принесёт тебе ещё больше вдохновения, неожиданных инсайтов и стабильных пайплайнов!
Спасибо за твою поддержку — продолжим прокачивать наш мир данных вместе!
Please open Telegram to view this post
VIEW IN TELEGRAM
3 17❤🔥1
Forwarded from Николай Ясинский | SHIFU (Nikolay Yasinskiy)
Я вот смотрю где и как используется Rust сейчас, и виден явный тренд, когда все чаще этот язык становится основным решением при переписывании тяжелых, требующих больших ресурсов сервисов или библиотек.
Это я к чему... возможно, это именно та ниша где раст будет постепенно захватывать мир.
Например Polars (вдруг в DE занимаетесь):
https://pola.rs
Это я к чему... возможно, это именно та ниша где раст будет постепенно захватывать мир.
Например Polars (вдруг в DE занимаетесь):
https://pola.rs
pola.rs
Polars
DataFrames for the new era
Forwarded from 🔋 Труба данных (Simon Osipov)
https://arch.dev/blog/2025-the-dawn-of-the-ai-data-team/
Бла-бла-бла, AI всех заменит, подходы меняются, меняйся или умри.
Пожалуйста, не поддавайтесь этой истерике, в самой статье ж прям написано: The Foundation Remains Critical
Ничего ульра-прорывного именно в data engineering с появлением AI пока не произошло, вы ничего не пропустили.
Copilot и другие умные автокомплиты - это да. Вот это стоит взять на вооружение.
@ohmydataengineer - канал "🕯 Труба Данных" на страже хайпожорства!
Бла-бла-бла, AI всех заменит, подходы меняются, меняйся или умри.
Пожалуйста, не поддавайтесь этой истерике, в самой статье ж прям написано: The Foundation Remains Critical
Ничего ульра-прорывного именно в data engineering с появлением AI пока не произошло, вы ничего не пропустили.
Copilot и другие умные автокомплиты - это да. Вот это стоит взять на вооружение.
@ohmydataengineer - канал "
Please open Telegram to view this post
VIEW IN TELEGRAM
arch.dev
2025: The Dawn of the AI Data Team
<p>Introduction 2025 will fundamentally shift how organizations approach their data operations. When board members are advising their portfolio companies to skip hiring analysts in favor of AI tools, we’re at an inflection point that demands attention. Yet…