Вместе с коллегами мы накопали для вас крутые telegram-каналы про Data Engineering!
В нашей подборке вы найдете классные каналы про:
🔹 ETL/ELT - всё о том, как правильно готовить данные
🔹 Data pipeline - собираем потоки данных как конструктор
🔹 Big Data - работаем с огромными массивами данных
🔹 Data Warehouse - строим хранилища данных
🔹 Инструменты DE - все самые интересные новинки
Присоединяйтесь к нам - будем вместе следить за всем новым в Data Engineering!
📁 Вот тут все каналы:
https://t.me/addlist/a1B07iwrPxUxNWIy
В нашей подборке вы найдете классные каналы про:
🔹 ETL/ELT - всё о том, как правильно готовить данные
🔹 Data pipeline - собираем потоки данных как конструктор
🔹 Big Data - работаем с огромными массивами данных
🔹 Data Warehouse - строим хранилища данных
🔹 Инструменты DE - все самые интересные новинки
Присоединяйтесь к нам - будем вместе следить за всем новым в Data Engineering!
📁 Вот тут все каналы:
https://t.me/addlist/a1B07iwrPxUxNWIy
Telegram
data party
Айлин invites you to add the folder “data party”, which includes 8 chats.
1❤🔥4🏆2
SQL Squid Game
Представьте себе: вас только что наняли на должность Data Scientist в загадочную организацию Squid Game. Front Man, руководитель игр, заманил вас обещаниями полностью удаленной работы и возможностью работать с передовым ИИ.
Но... сюрприз!
Классическая ситуация в мире данных: вас обманули.
Вместо обещанного вы получаете:
- Product Analytics на SQL.
- Гибридный график (5 дней в офисе, 2 дня возможно удаленно).
И пока вы размышляете о том, как бы пожаловаться на Reddit, Front Man приставляет пистолет к вашей голове и требует ответы на бизнес-вопросы.
Теперь ваша задача - писать SQL-запросы, чтобы выжить!
Готовы проверить свои навыки SQL в экстремальных условиях? Присоединяйтесь к игре!
Представьте себе: вас только что наняли на должность Data Scientist в загадочную организацию Squid Game. Front Man, руководитель игр, заманил вас обещаниями полностью удаленной работы и возможностью работать с передовым ИИ.
Но... сюрприз!
Классическая ситуация в мире данных: вас обманули.
Вместо обещанного вы получаете:
- Product Analytics на SQL.
- Гибридный график (5 дней в офисе, 2 дня возможно удаленно).
И пока вы размышляете о том, как бы пожаловаться на Reddit, Front Man приставляет пистолет к вашей голове и требует ответы на бизнес-вопросы.
Теперь ваша задача - писать SQL-запросы, чтобы выжить!
Готовы проверить свои навыки SQL в экстремальных условиях? Присоединяйтесь к игре!
1👍6🔥3🎉2❤1
Apache Airflow® Best Practices: ETL & ELT Pipelines
44 страницы исчерпывающего руководства по одному из самых распространенных сценариев использования в data engineering на ведущем open-source оркестраторе!
Что вы узнаете из руководства:
📊 Сравнение ETL vs. ELT для вашей архитектурной стратегии - какой подход выбрать и почему.
💡 Лучшие практики написания DAG в Airflow - как создавать эффективные и поддерживаемые пайплайны.
⚡️ Ключевые функции для улучшения ваших ETL & ELT пайплайнов - поднимите свои процессы обработки данных на новый уровень.
Станьте экспертом в оркестрации данных с этим подробным руководством!
Скачать можно по ссылке
@data_whisperer
44 страницы исчерпывающего руководства по одному из самых распространенных сценариев использования в data engineering на ведущем open-source оркестраторе!
Что вы узнаете из руководства:
📊 Сравнение ETL vs. ELT для вашей архитектурной стратегии - какой подход выбрать и почему.
💡 Лучшие практики написания DAG в Airflow - как создавать эффективные и поддерживаемые пайплайны.
⚡️ Ключевые функции для улучшения ваших ETL & ELT пайплайнов - поднимите свои процессы обработки данных на новый уровень.
Станьте экспертом в оркестрации данных с этим подробным руководством!
Скачать можно по ссылке
@data_whisperer
1👍10
DLT Fundamentals: Бесплатное обучение с сертификацией
Хотите углубить свои знания в области DLT? У вас есть отличная возможность!
Что предлагается:
- Бесплатный курс от DltHub
- Практические задания с проверкой
- Сертификат по окончании
Важно: Следующий поток с проверкой домашних заданий и выдачей сертификатов стартует в марте 2025.
Почему стоит участвовать:
- Актуальные знания в сфере DLT
- Практический опыт работы с технологией
- Документальное подтверждение навыков
Материалы уже доступны для самостоятельного изучения:
https://github.com/dlt-hub/dlthub-education/tree/main/courses/dlt_fundamentals_dec_2024
Про DLT уже был пост на канале.
@data_whisperer
Хотите углубить свои знания в области DLT? У вас есть отличная возможность!
Что предлагается:
- Бесплатный курс от DltHub
- Практические задания с проверкой
- Сертификат по окончании
Важно: Следующий поток с проверкой домашних заданий и выдачей сертификатов стартует в марте 2025.
Почему стоит участвовать:
- Актуальные знания в сфере DLT
- Практический опыт работы с технологией
- Документальное подтверждение навыков
Материалы уже доступны для самостоятельного изучения:
https://github.com/dlt-hub/dlthub-education/tree/main/courses/dlt_fundamentals_dec_2024
Про DLT уже был пост на канале.
@data_whisperer
1👍12
Data Contracts
Низкое качество данных угрожает ‘дата командам’, рискуя доходами и доверием. Контракты данных решают эту проблему, обеспечивая качество данных посредством четких определений, владения и соблюдения требований CI/CD.
В этом руководстве рассматриваются основы архитектуры контрактов данных, от ее значения для реальных приложений и стратегий реализации, а также пропагандируется ее внедрение в организациях.
Скачать книгу можно по ссылке
Низкое качество данных угрожает ‘дата командам’, рискуя доходами и доверием. Контракты данных решают эту проблему, обеспечивая качество данных посредством четких определений, владения и соблюдения требований CI/CD.
В этом руководстве рассматриваются основы архитектуры контрактов данных, от ее значения для реальных приложений и стратегий реализации, а также пропагандируется ее внедрение в организациях.
Скачать книгу можно по ссылке
State of Open Source Read-Time OLAP Systems 2025
2024 год стал значимым для развития OLAP-систем с открытым исходным кодом. В данной статье рассматриваются основные тренды и технологии, которые будут определять развитие отрасли в 2025 году.
Ключевые тренды 2024 года:
• Apache Doris укрепил свои позиции как один из лидеров рынка, особенно в Китае
• ClickHouse продолжает активное развитие, фокусируясь на улучшении производительности и расширении функционала.
Так же Clickhouse остается безусловным лидером по всем направлениям.
Что ожидать в 2025:
Технологические тренды
• Развитие гибридных архитектур, объединяющих преимущества различных OLAP-систем
• Рост популярности облачных и serverless-решений
• Углубление интеграции с инструментами искусственного интеллекта и машинного обучения
• Фокус на real-time аналитику и потоковую обработку данных
Бизнес-тренды
• Увеличение спроса на специалистов по OLAP-системам
• Рост инвестиций в развитие open-source решений
• Расширение использования OLAP в средних и малых компаниях
• Повышение требований к безопасности и соответствию регуляторным нормам
💡 Интересные факты:
• За последний год количество проектов, использующих open-source OLAP решения, выросло более чем на 40%
• Более 60% крупных компаний планируют миграцию на open-source OLAP-системы в ближайшие 2 года
• Объем данных, обрабатываемых OLAP-системами, увеличился в 2.5 раза за последний год.
📊 Прогнозы на будущее:
Ожидается, что рынок open-source OLAP-систем продолжит активный рост, а конкуренция между различными решениями приведет к появлению новых инновационных функций и улучшению производительности существующих систем.
@data_whisperer
2024 год стал значимым для развития OLAP-систем с открытым исходным кодом. В данной статье рассматриваются основные тренды и технологии, которые будут определять развитие отрасли в 2025 году.
Ключевые тренды 2024 года:
• Apache Doris укрепил свои позиции как один из лидеров рынка, особенно в Китае
• ClickHouse продолжает активное развитие, фокусируясь на улучшении производительности и расширении функционала.
Так же Clickhouse остается безусловным лидером по всем направлениям.
Что ожидать в 2025:
Технологические тренды
• Развитие гибридных архитектур, объединяющих преимущества различных OLAP-систем
• Рост популярности облачных и serverless-решений
• Углубление интеграции с инструментами искусственного интеллекта и машинного обучения
• Фокус на real-time аналитику и потоковую обработку данных
Бизнес-тренды
• Увеличение спроса на специалистов по OLAP-системам
• Рост инвестиций в развитие open-source решений
• Расширение использования OLAP в средних и малых компаниях
• Повышение требований к безопасности и соответствию регуляторным нормам
💡 Интересные факты:
• За последний год количество проектов, использующих open-source OLAP решения, выросло более чем на 40%
• Более 60% крупных компаний планируют миграцию на open-source OLAP-системы в ближайшие 2 года
• Объем данных, обрабатываемых OLAP-системами, увеличился в 2.5 раза за последний год.
📊 Прогнозы на будущее:
Ожидается, что рынок open-source OLAP-систем продолжит активный рост, а конкуренция между различными решениями приведет к появлению новых инновационных функций и улучшению производительности существующих систем.
@data_whisperer
🔥2
Сегодня в 21:30 на канале СТАФФ инженеры будет стрим про современные базы данных.
Стрим на основе статьи, про которую был пост в канале.
Стрим на основе статьи, про которую был пост в канале.
Telegram
СТАФФ Инженеры
Сегодня 21:30 смотрим на современные базы данных
https://youtube.com/live/4fn6nMMqt0o?feature=share
https://youtube.com/live/4fn6nMMqt0o?feature=share
https://youtube.com/live/4fn6nMMqt0o?feature=share
Ссылка на статью https://www.cs.cmu.edu/~pavlo/blog/2025/01/2024…
https://youtube.com/live/4fn6nMMqt0o?feature=share
https://youtube.com/live/4fn6nMMqt0o?feature=share
https://youtube.com/live/4fn6nMMqt0o?feature=share
Ссылка на статью https://www.cs.cmu.edu/~pavlo/blog/2025/01/2024…
👍4
SQL or Death? Seminar Series – Spring 2025
Университет Carnegie Mellon проведет серию интересных семинаров. И аналогию для SQL написали тоже очень интересную.
Все семинары проходят в Gates Hillman Center 6501 и транслируются онлайн через Zoom.
📅 Следите за обновлениями расписания выступлений на официальном сайте: https://db.cs.cmu.edu/seminar2025/
Университет Carnegie Mellon проведет серию интересных семинаров. И аналогию для SQL написали тоже очень интересную.
Предположим, кто-то с 1970-х годов натирает свое тело бензином. Вы бы вышли замуж за этого человека, даже если бы от него ужасно пахло? Но предположим, что этот человек начинает принимать душ каждый день, чтобы пахнуть немного лучше. Они также отлично ладят практически со всеми на планете и зарабатывают много денег. А как насчет того, чтобы выйти замуж за этого человека сейчас? Это вопрос, с которым мы сталкиваемся сегодня в мире баз данных. SQL 50 лет. Сначала он пах как-то странно, но с годами стал лучше. Было много попыток заменить его, но ни одна из них не увенчалась успехом.
Группа исследования баз данных Университета Карнеги-Меллон изучает этот вопрос. В докладах этой серии будут представлены идеи о том, как (1) заставить SQL работать как можно быстрее, или (2) заменить SQL чем-то лучшим.
Все семинары проходят в Gates Hillman Center 6501 и транслируются онлайн через Zoom.
📅 Следите за обновлениями расписания выступлений на официальном сайте: https://db.cs.cmu.edu/seminar2025/
👍6
𝐃𝐞𝐥𝐭𝐚 𝐋𝐚𝐤𝐞 𝐯𝐬. 𝐀𝐩𝐚𝐜𝐡𝐞 𝐈𝐜𝐞𝐛𝐞𝐫𝐠:
Пост на substack
TLDR
🔹 Delta Lake создан для Spark-heavy workflows , предлагает тесную интеграцию с Databricks и беспрепятственный прием потоковой передачи.
🔹 Apache Iceberg спроектирован с учетом совместимости нескольких движков, что делает его идеальным выбором для команд, совместно использующих Spark, Trino, Flink и Snowflake. Метаданные имеют значение.
Распределенная модель Iceberg легко масштабируется, а журнал транзакций Delta Lake может создавать узкие места за пределами Spark.
Эволюция схемы? Iceberg позволяет изменять столбцы без перезаписи данных, а Delta требует явных действий по слиянию.
Разделение? Айсберг автоматически адаптируется; Delta нуждается в предварительно определенных разделах, что часто требует дорогостоящей перезаписи.
🚀Преимущество в производительности? Iceberg представляет файлы Puffin для расширенной оптимизации запросов, чего не хватает Delta Lake.
💡 Что выбрать? Если вы ставите олл-ин на Spark и Databricks, выбирайте Delta.
Нужна межплатформенная гибкость? Айсберг побеждает.
А с каким табличным форматом работаете вы?
@data_whisperer
Пост на substack
TLDR
🔹 Delta Lake создан для Spark-heavy workflows , предлагает тесную интеграцию с Databricks и беспрепятственный прием потоковой передачи.
🔹 Apache Iceberg спроектирован с учетом совместимости нескольких движков, что делает его идеальным выбором для команд, совместно использующих Spark, Trino, Flink и Snowflake. Метаданные имеют значение.
Распределенная модель Iceberg легко масштабируется, а журнал транзакций Delta Lake может создавать узкие места за пределами Spark.
Эволюция схемы? Iceberg позволяет изменять столбцы без перезаписи данных, а Delta требует явных действий по слиянию.
Разделение? Айсберг автоматически адаптируется; Delta нуждается в предварительно определенных разделах, что часто требует дорогостоящей перезаписи.
🚀Преимущество в производительности? Iceberg представляет файлы Puffin для расширенной оптимизации запросов, чего не хватает Delta Lake.
💡 Что выбрать? Если вы ставите олл-ин на Spark и Databricks, выбирайте Delta.
Нужна межплатформенная гибкость? Айсберг побеждает.
А с каким табличным форматом работаете вы?
@data_whisperer
1👍6⚡1❤🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Что такое ИИ-агенты?
ИИ-агент - это программное обеспечение, которое может взаимодействовать с окружающей средой, собирать данные и использовать их для достижения заданных целей. ИИ-агенты могут выбирать наилучшие действия для достижения этих целей.
Ключевые характеристики ИИ-агентов:
Агент может выполнять автономные действия без постоянного вмешательства человека. При этом они могут иметь человека в цикле для сохранения контроля.
• У агентов есть память для хранения индивидуальных предпочтений и возможности персонализации. Они также могут хранить знания. Языковая модель может выполнять функции обработки информации и принятия решений.
• Агенты должны уметь воспринимать и обрабатывать информацию из окружающей среды.
• Агенты также могут использовать инструменты, такие как доступ в интернет, интерпретаторы кода и API-вызовы.
• Агенты могут взаимодействовать с другими агентами или людьми.
Существуют различные типы ИИ-агентов: обучающиеся агенты, простые рефлексивные агенты, рефлексивные агенты на основе модели, целевые агенты и утилитарные агенты.
Система с ИИ-агентами может быть построена с использованием различных архитектурных подходов:
Одиночный агент: Агенты могут служить персональными помощниками.
Мульти-агент: Агенты могут взаимодействовать друг с другом в режиме сотрудничества или конкуренции.
Человек-машина: Агенты могут взаимодействовать с людьми для более эффективного выполнения задач.
Использовали ли вы ИИ-агентов?
ИИ-агент - это программное обеспечение, которое может взаимодействовать с окружающей средой, собирать данные и использовать их для достижения заданных целей. ИИ-агенты могут выбирать наилучшие действия для достижения этих целей.
Ключевые характеристики ИИ-агентов:
Агент может выполнять автономные действия без постоянного вмешательства человека. При этом они могут иметь человека в цикле для сохранения контроля.
• У агентов есть память для хранения индивидуальных предпочтений и возможности персонализации. Они также могут хранить знания. Языковая модель может выполнять функции обработки информации и принятия решений.
• Агенты должны уметь воспринимать и обрабатывать информацию из окружающей среды.
• Агенты также могут использовать инструменты, такие как доступ в интернет, интерпретаторы кода и API-вызовы.
• Агенты могут взаимодействовать с другими агентами или людьми.
Существуют различные типы ИИ-агентов: обучающиеся агенты, простые рефлексивные агенты, рефлексивные агенты на основе модели, целевые агенты и утилитарные агенты.
Система с ИИ-агентами может быть построена с использованием различных архитектурных подходов:
Одиночный агент: Агенты могут служить персональными помощниками.
Мульти-агент: Агенты могут взаимодействовать друг с другом в режиме сотрудничества или конкуренции.
Человек-машина: Агенты могут взаимодействовать с людьми для более эффективного выполнения задач.
Использовали ли вы ИИ-агентов?
❤4
Langflow
Langflow - новый визуальный фреймворк для создания мультиагентных приложений и систем на основе RAG (Retrieval-Augmented Generation).
🔑 Ключевые особенности:
• Открытый исходный код
• Работает на Python
• Полностью настраиваемый
• Поддерживает различные LLM и векторные хранилища
💡 Интуитивно понятный интерфейс позволяет легко управлять AI-компонентами, что дает разработчикам возможность быстро создавать прототипы и воплощать свои идеи в реальные решения.
👨💻 Независимо от того, опытный ли вы AI-разработчик или только начинаете свой путь, Langflow предоставляет все необходимые инструменты для реализации ваших AI-проектов.
Langflow - новый визуальный фреймворк для создания мультиагентных приложений и систем на основе RAG (Retrieval-Augmented Generation).
🔑 Ключевые особенности:
• Открытый исходный код
• Работает на Python
• Полностью настраиваемый
• Поддерживает различные LLM и векторные хранилища
💡 Интуитивно понятный интерфейс позволяет легко управлять AI-компонентами, что дает разработчикам возможность быстро создавать прототипы и воплощать свои идеи в реальные решения.
👨💻 Независимо от того, опытный ли вы AI-разработчик или только начинаете свой путь, Langflow предоставляет все необходимые инструменты для реализации ваших AI-проектов.
🔥4
🦀 Как Rust тихо захватывает экосистему Python
В последнее время наблюдается интересная тенденция - Rust становится секретным ингредиентом многих инновационных инструментов Python. Как разработчик, ежедневно работающий с Python, я с интересом наблюдаю за эволюцией экосистемы.
Вот наиболее интересные проекты:
• Ruff: этот линтер работает невероятно быстро по сравнению с традиционными линтерами Python. Почему? Он написан на Rust. Речь идёт об ускорении в 10-100 раз.
• UV: ещё один инструмент, написанный на Rust - быстрый и надёжный установщик пакетов Python. UV как более быстрая альтернатива Poetry способная значительно ускорить установку зависимостей.
• Polars: эта библиотека DataFrame конкурирует с Pandas по производительности. И угадайте что? Под капотом - Rust.
• Maturin: делает создание Python-расширений на Rust предельно простым.
Самое интересное, что большинство Python-разработчиков даже не осознают, что используют инструменты на базе Rust. Похоже, Rust становится негласным помощником Python в вопросах производительности.
А что вы думаете об этой тенденции? Пробовали создавать расширения Python с помощью Rust?
@data_whisperer
В последнее время наблюдается интересная тенденция - Rust становится секретным ингредиентом многих инновационных инструментов Python. Как разработчик, ежедневно работающий с Python, я с интересом наблюдаю за эволюцией экосистемы.
Вот наиболее интересные проекты:
• Ruff: этот линтер работает невероятно быстро по сравнению с традиционными линтерами Python. Почему? Он написан на Rust. Речь идёт об ускорении в 10-100 раз.
• UV: ещё один инструмент, написанный на Rust - быстрый и надёжный установщик пакетов Python. UV как более быстрая альтернатива Poetry способная значительно ускорить установку зависимостей.
• Polars: эта библиотека DataFrame конкурирует с Pandas по производительности. И угадайте что? Под капотом - Rust.
• Maturin: делает создание Python-расширений на Rust предельно простым.
Самое интересное, что большинство Python-разработчиков даже не осознают, что используют инструменты на базе Rust. Похоже, Rust становится негласным помощником Python в вопросах производительности.
А что вы думаете об этой тенденции? Пробовали создавать расширения Python с помощью Rust?
@data_whisperer
GitHub
GitHub - astral-sh/uv: An extremely fast Python package and project manager, written in Rust.
An extremely fast Python package and project manager, written in Rust. - astral-sh/uv
1🔥4👍3
TableFlow: Новый подход к обработке потоковых данных с Kafka и Iceberg
В мире потоковой обработки данных появляются всё новые инструменты, которые меняют наше представление о том, как работать с большими объёмами информации.
Один из таких инструментов — TableFlow, концепция, которая объединяет мощь Apache Kafka и Apache Iceberg.
Что такое TableFlow?
TableFlow — это подход, который стирает границы между потоковой обработкой и табличными данными. Он позволяет использовать Kafka как потоковый источник, а Iceberg — как табличное хранилище, обеспечивая гибкость и эффективность в обработке данных.
Почему это важно?
• Гибкость: Вы можете работать с данными как в режиме реального времени, так и в пакетном режиме.
• Масштабируемость: Kafka и Iceberg отлично справляются с большими объёмами данных.
• Упрощение архитектуры: TableFlow уменьшает сложность системы, объединяя потоковую и табличную модели.
Как это работает?
1. Данные поступают в Kafka.
2. С помощью TableFlow они преобразуются и записываются в Iceberg-таблицы.
3. Вы можете анализировать данные как в реальном времени, так и в историческом контексте.
Если вы хотите глубже разобраться в теме, рекомендую прочитать оригинальный пост: TableFlow: The Stream-Table Kafka-Iceberg Duality.
Так же запись
Apache Kafka Meets Apache Iceberg: Real-Time Data Streaming • Kasun Indrasiri • GOTO 2024
@data_whisperer
В мире потоковой обработки данных появляются всё новые инструменты, которые меняют наше представление о том, как работать с большими объёмами информации.
Один из таких инструментов — TableFlow, концепция, которая объединяет мощь Apache Kafka и Apache Iceberg.
Что такое TableFlow?
TableFlow — это подход, который стирает границы между потоковой обработкой и табличными данными. Он позволяет использовать Kafka как потоковый источник, а Iceberg — как табличное хранилище, обеспечивая гибкость и эффективность в обработке данных.
Почему это важно?
• Гибкость: Вы можете работать с данными как в режиме реального времени, так и в пакетном режиме.
• Масштабируемость: Kafka и Iceberg отлично справляются с большими объёмами данных.
• Упрощение архитектуры: TableFlow уменьшает сложность системы, объединяя потоковую и табличную модели.
Как это работает?
1. Данные поступают в Kafka.
2. С помощью TableFlow они преобразуются и записываются в Iceberg-таблицы.
3. Вы можете анализировать данные как в реальном времени, так и в историческом контексте.
Если вы хотите глубже разобраться в теме, рекомендую прочитать оригинальный пост: TableFlow: The Stream-Table Kafka-Iceberg Duality.
Так же запись
Apache Kafka Meets Apache Iceberg: Real-Time Data Streaming • Kasun Indrasiri • GOTO 2024
@data_whisperer
👍6
PgAssistant - это инструмент с открытым исходным кодом, призванный помочь разработчикам понять и оптимизировать производительность баз данных PostgreSQL. Он дает представление о поведении базы данных, выявляет проблемы, связанные со схемой, и помогает их исправить.
Ключевые возможности:
• Анализ поведения базы данных с детальными отчетами.
• Оптимизация схемы БД и выявление проблем.
• Управление библиотекой SQL-запросов через JSON.
• Проверка SQL-кода с помощью SQLfluff.
• Интеграция с OpenAI для оптимизации запросов.
• Поддержка локальных LLM (например, ollama).
• Получение DDL для топовых запросов.
• Встроенный PGTune для настройки параметров.
• Помощь в создании docker-compose файлов.
Ключевые возможности:
• Анализ поведения базы данных с детальными отчетами.
• Оптимизация схемы БД и выявление проблем.
• Управление библиотекой SQL-запросов через JSON.
• Проверка SQL-кода с помощью SQLfluff.
• Интеграция с OpenAI для оптимизации запросов.
• Поддержка локальных LLM (например, ollama).
• Получение DDL для топовых запросов.
• Встроенный PGTune для настройки параметров.
• Помощь в создании docker-compose файлов.
🔥7
SQL Noir - еще один обучающий проект, который делает изучение SQL более увлекательным.
Вместо учебных пособий вы находитесь в роли детектива и расследуете преступления решая SQL задачи.
Вместо учебных пособий вы находитесь в роли детектива и расследуете преступления решая SQL задачи.
👍9🔥8
Cursor: Рекордный рост в истории SaaS-индустрии
💰 $100 миллионов выручки всего за 12 месяцев! И это с командой всего из 12 человек.
👨💻 400 000 разработчиков уже стали платными пользователями, что делает рост компании не только впечатляющим, но и устойчивым.
🏆 Самое интересное: Cursor обгоняет даже $23-миллиардного гиганта Wiz по темпам роста!
Это абсолютный рекорд в истории SaaS-продуктов.
Феноменальный успех Cursor можно объяснить тремя ключевыми факторами:
1. Массовое принятие разработчиками
В отличие от традиционных SaaS-компаний, ориентированных на корпоративные продажи, Cursor выбрал подход "разработчики прежде всего". С более чем 360,000+ индивидуальных разработчиков, платящих 20-40 долларов в месяц, компания создала устойчивую модель со средней стоимостью контракта в 276 долларов. Это массовое принятие стало главным драйвером быстрого роста.
2. AI-First редактор кода
Cursor — это не просто еще один инструмент для кодинга, это редактор кода на базе ИИ, который трансформирует процесс разработки. Интегрируясь с экосистемой VS Code, Cursor предлагает:
• ИИ-помощь в реальном времени для написания, редактирования и автоматизации кода.
• Контекстно-зависимый ИИ, который помогает разработчикам рефакторить, отлаживать и оптимизировать свою работу.
• Повышенную продуктивность, делаянаписание кода более эффективным.
3. Модель роста, основанная на продукте
Успех Cursor подпитывается freemium-моделью, которая привлекает разработчиков на ранних этапах и стимулирует переход на платные планы.
• Бесплатный тариф включает 2,000 ежемесячных AI-автодополнений кода, демонстрируя возможности продукта.
• Когда разработчики видят ценность, они переходят на платные планы, стимулируя рост выручки.
• Крупные технологические компании, такие как OpenAI, Midjourney, Perplexity и Shopify, уже внедрили Cursor, что дополнительно подтверждает его эффективность.
Про то, как писать cursorrules был небольшой пост в канале.
Исходный пост
💰 $100 миллионов выручки всего за 12 месяцев! И это с командой всего из 12 человек.
👨💻 400 000 разработчиков уже стали платными пользователями, что делает рост компании не только впечатляющим, но и устойчивым.
🏆 Самое интересное: Cursor обгоняет даже $23-миллиардного гиганта Wiz по темпам роста!
Это абсолютный рекорд в истории SaaS-продуктов.
Феноменальный успех Cursor можно объяснить тремя ключевыми факторами:
1. Массовое принятие разработчиками
В отличие от традиционных SaaS-компаний, ориентированных на корпоративные продажи, Cursor выбрал подход "разработчики прежде всего". С более чем 360,000+ индивидуальных разработчиков, платящих 20-40 долларов в месяц, компания создала устойчивую модель со средней стоимостью контракта в 276 долларов. Это массовое принятие стало главным драйвером быстрого роста.
2. AI-First редактор кода
Cursor — это не просто еще один инструмент для кодинга, это редактор кода на базе ИИ, который трансформирует процесс разработки. Интегрируясь с экосистемой VS Code, Cursor предлагает:
• ИИ-помощь в реальном времени для написания, редактирования и автоматизации кода.
• Контекстно-зависимый ИИ, который помогает разработчикам рефакторить, отлаживать и оптимизировать свою работу.
• Повышенную продуктивность, делаянаписание кода более эффективным.
3. Модель роста, основанная на продукте
Успех Cursor подпитывается freemium-моделью, которая привлекает разработчиков на ранних этапах и стимулирует переход на платные планы.
• Бесплатный тариф включает 2,000 ежемесячных AI-автодополнений кода, демонстрируя возможности продукта.
• Когда разработчики видят ценность, они переходят на платные планы, стимулируя рост выручки.
• Крупные технологические компании, такие как OpenAI, Midjourney, Perplexity и Shopify, уже внедрили Cursor, что дополнительно подтверждает его эффективность.
Про то, как писать cursorrules был небольшой пост в канале.
Исходный пост
🔥8🤣1
SQL Pipe Syntax теперь в Spark!
В конце января Databricks тихо анонсировали внедрение синтаксиса pipe от Google для SQL в Spark. Это, пожалуй, одно из самых значимых обновлений Databricks за последние годы.
🔍 Что такое SQL pipe syntax? Это расширение SQL, разработанное Google, которое делает код более читаемым и гибким. Вместо сложных вложенных запросов - простые цепочки операций через pipe (|>).
Это расширение SQL было разработано Google сначала для внутреннего использования, а с лета 2024 года стало доступно в BigQuery. Оно было представлено в исследовательской статье SQL Has Problems. We Can Fix Them: Pipe Syntax In SQL.
Для тех, кто не хочет читать техническую статью в субботу (что вполне понятно), кто-то подробно объяснил это в этом посте. По сути, это расширение SQL (важно отметить - не новый язык запросов!), которое вводит pipes для связывания результатов SQL-операций. Лучше всего это объясняется на примере:
Было:
Стало:
⚠️ Важно:
функционал пока доступен только в preview на runtime 16.2 в notebooks. В SQL Warehouses появится позже.
В конце января Databricks тихо анонсировали внедрение синтаксиса pipe от Google для SQL в Spark. Это, пожалуй, одно из самых значимых обновлений Databricks за последние годы.
🔍 Что такое SQL pipe syntax? Это расширение SQL, разработанное Google, которое делает код более читаемым и гибким. Вместо сложных вложенных запросов - простые цепочки операций через pipe (|>).
Это расширение SQL было разработано Google сначала для внутреннего использования, а с лета 2024 года стало доступно в BigQuery. Оно было представлено в исследовательской статье SQL Has Problems. We Can Fix Them: Pipe Syntax In SQL.
Для тех, кто не хочет читать техническую статью в субботу (что вполне понятно), кто-то подробно объяснил это в этом посте. По сути, это расширение SQL (важно отметить - не новый язык запросов!), которое вводит pipes для связывания результатов SQL-операций. Лучше всего это объясняется на примере:
Было:
SELECT * FROM customers WHERE customer_id IN ( SELECT DISTINCT customer_id FROM orders WHERE order_date >= '2024-01-01' )
Стало:
FROM orders |> WHERE order_date >= '2024-01-01' |> SELECT DISTINCT customer_id |> INNER JOIN customers USING(customer_id) |> SELECT *
⚠️ Важно:
функционал пока доступен только в preview на runtime 16.2 в notebooks. В SQL Warehouses появится позже.
🤔8
ClickPipes
ClickPipes - это Postgres CDC коннектор, который позволяет реплицировать данные из вашей базы Postgres в Clickhouse в одно нажатие кнопки.
ClickPipes вышел в публичную бету, но все это удовольствие доступно только в Clickhouse Cloud.
Этот коннектор основан на open-source PeerDB, про который был пост в канале.
@data_whisperer
ClickPipes - это Postgres CDC коннектор, который позволяет реплицировать данные из вашей базы Postgres в Clickhouse в одно нажатие кнопки.
ClickPipes вышел в публичную бету, но все это удовольствие доступно только в Clickhouse Cloud.
Этот коннектор основан на open-source PeerDB, про который был пост в канале.
@data_whisperer
👍1🎉1
Wimsey
Wimsey — это легковесная и гибкая библиотекой для работы с data contracts, которая поможет вам легко и эффективно проверять данные на соответствие заданным условиям.
Вот что делает её особенной:
🛑 Используйте свои любимые библиотеки для работы с данными.
Wimsey построена на основе Narwhals, что позволяет вам тестировать данные нативно в вашей предпочитаемой библиотеке: Pandas, Polars, Dask, CuDF, Rapids, Arrow или Modin.
🛑 Пишите контракты так, как вам удобно
YAML, JSON или Python — выбирайте любой формат для описания контрактов.
🛑 Минимализм и скорость
Wimsey создана для быстрых импортов и минимальной нагрузки. Всего две зависимости (Narwhals и FSSpec) — и вы готовы к работе.
🛑 Простой и понятный API
Всего две функции для тестирования данных и простой dataclass для результатов. Никакой лишней сложности.
🔍 Что такое data contracts?
Если коротко, то Data contracts — это описание того, какими должны быть ваши данные. Например:
• "В данных должны быть только столбцы X и Y"
• "Значения в столбце A не должны превышать 1"
Wimsey позволяет проверять эти условия прямо во время выполнения Python-кода.
Wimsey также предлагает инструменты для автоматической генерации тестов на основе образца данных.
📚 документация
@data_whisperer
Wimsey — это легковесная и гибкая библиотекой для работы с data contracts, которая поможет вам легко и эффективно проверять данные на соответствие заданным условиям.
Вот что делает её особенной:
Wimsey построена на основе Narwhals, что позволяет вам тестировать данные нативно в вашей предпочитаемой библиотеке: Pandas, Polars, Dask, CuDF, Rapids, Arrow или Modin.
YAML, JSON или Python — выбирайте любой формат для описания контрактов.
Wimsey создана для быстрых импортов и минимальной нагрузки. Всего две зависимости (Narwhals и FSSpec) — и вы готовы к работе.
Всего две функции для тестирования данных и простой dataclass для результатов. Никакой лишней сложности.
🔍 Что такое data contracts?
Если коротко, то Data contracts — это описание того, какими должны быть ваши данные. Например:
• "В данных должны быть только столбцы X и Y"
• "Значения в столбце A не должны превышать 1"
Wimsey позволяет проверять эти условия прямо во время выполнения Python-кода.
Wimsey также предлагает инструменты для автоматической генерации тестов на основе образца данных.
📚 документация
@data_whisperer
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - narwhals-dev/narwhals: Lightweight and extensible compatibility layer between dataframe libraries!
Lightweight and extensible compatibility layer between dataframe libraries! - narwhals-dev/narwhals
👍1🎉1
🚀 DBT документация теперь на русском!
Всем привет! Хочу порекомендовать полезный бесплатный проект по dbt, а именно перевод всей доки dbt на русский язык
👉 https://docs.getdbt.tech/
Чем будет полезно?
✅ для новичков, интересующихся dbt, на портале доступны пошаговые гайды, как начать работу с выбранным хранилищем данных и создать первые этапы пайпайна за 15 минут.
✅ для тех, кто уже обрабатывает данные с dbt, сайт станет постоянным компаньоном, потому что там полностью переведены все разделы документации, включая справочник команд и статьи из блогов
✅ для тех, кто хочет перейти с dbt на следующий уровень, переведен раздел с лучшими практиками.
Всем привет! Хочу порекомендовать полезный бесплатный проект по dbt, а именно перевод всей доки dbt на русский язык
👉 https://docs.getdbt.tech/
Чем будет полезно?
✅ для новичков, интересующихся dbt, на портале доступны пошаговые гайды, как начать работу с выбранным хранилищем данных и создать первые этапы пайпайна за 15 минут.
✅ для тех, кто уже обрабатывает данные с dbt, сайт станет постоянным компаньоном, потому что там полностью переведены все разделы документации, включая справочник команд и статьи из блогов
✅ для тех, кто хочет перейти с dbt на следующий уровень, переведен раздел с лучшими практиками.
docs.getdbt.tech
Документация dbt - перевод официального сайта на русский
Документация, гайды и руководства по dbt на русском языке
⚡13