Агрегация данных для аналитики продаж с помощью DataSphere Jobs и Airflow SDK
#БлогкомпанииYandexCloudYandexInfrastructure #Apache #Машинноеобучение #Облачныесервисы #DataEngineering #apacheairflow #datasphere
https://habr.com/ru/companies/yandex_cloud_and_infra/articles/839494/
#БлогкомпанииYandexCloudYandexInfrastructure #Apache #Машинноеобучение #Облачныесервисы #DataEngineering #apacheairflow #datasphere
https://habr.com/ru/companies/yandex_cloud_and_infra/articles/839494/
Хабр
Агрегация данных для аналитики продаж с помощью DataSphere Jobs и Airflow SDK
В маркетинге и продажах крупных компаний есть несколько аналитических задач, которые требуют регулярной обработки сотен тысяч и миллионов записей из разных источников. Например, это...
Наш путь миграции on-prem аналитики в облако
#БлогкомпанииMagnitTech #dataengineering #cloudplatform
https://habr.com/ru/companies/magnit/articles/837752/
#БлогкомпанииMagnitTech #dataengineering #cloudplatform
https://habr.com/ru/companies/magnit/articles/837752/
Хабр
Наш путь миграции on-prem аналитики в облако
Привет, меня зовут Мельников Владислав, я эксперт в команде аналитической платформы данных проекта «Управления цепочками поставок» в Magnit tech. Предыстория В сентябре 2022 года в Магните стартовал...
Sapiens: фундаментальная CV-модель для задач с людьми
#DataMining #Машинноеобучение #Искусственныйинтеллект #DataEngineering #cv #computervision #компьютерноезрение
https://habr.com/ru/articles/841058/
#DataMining #Машинноеобучение #Искусственныйинтеллект #DataEngineering #cv #computervision #компьютерноезрение
https://habr.com/ru/articles/841058/
Хабр
Sapiens: фундаментальная CV-модель для задач с людьми
Почти две недели назад из недр одной из самых прорывных AI лабораторий мира вышла новая классная модель (а точнее — семейство моделей) компьютерного зрения, но данная новость в русскоязычном интернете...
Как мы ускорили Trino, научив оптимизатор удалять ненужные Join
#trino #cedrusdata #sql #dataanalysis #dataengineering #queryoptimization #queryperformance
https://habr.com/ru/companies/cedrusdata/articles/843882/
#trino #cedrusdata #sql #dataanalysis #dataengineering #queryoptimization #queryperformance
https://habr.com/ru/companies/cedrusdata/articles/843882/
Хабр
Как мы ускорили Trino, научив оптимизатор удалять ненужные Join
Trino — это популярный SQL-движок для выполнения аналитических запросов к озерам данных и виртуализации. Наша команда создает коммерческий форк Trino, который называется CedrusData . В России Trino...
Управляем моделью с помощью метаданных в dbt
#dwh #dbt #analytics #data #dataengineering
https://habr.com/ru/articles/844876/
#dwh #dbt #analytics #data #dataengineering
https://habr.com/ru/articles/844876/
Хабр
Управляем моделью с помощью метаданных в dbt
Это приключение посвящено созданию продвинутых макросов, которые используют метаданные модели для управления инкрементальностью и тестами качества. Задание параметров модели в виде метаданных...
ETL-проект для начинающих Data Engineers: От почтового сервера до Greenplum
#dataengineering #etl #etlпроцессы #sql #python
https://habr.com/ru/articles/849062/
#dataengineering #etl #etlпроцессы #sql #python
https://habr.com/ru/articles/849062/
Хабр
ETL-проект для начинающих Data Engineers: От почтового сервера до Greenplum
Привет, Хабр! Меня зовут Дмитрий и я работаю инженером данных. Это моя первая статья, в ней я хочу поделиться своим пет-проектом, который посвящен созданию ETL-процесса — это один из ключевых...
Бутстрап в PySpark
#Python #статистикавit #bigdata #dataengineering #pyspark #bootstrap #абтесты
https://habr.com/ru/companies/X5Tech/articles/849322/
#Python #статистикавit #bigdata #dataengineering #pyspark #bootstrap #абтесты
https://habr.com/ru/companies/X5Tech/articles/849322/
Хабр
Бутстрап в PySpark
Всем привет! Меня зовут Илья Черников, я аналитик больших данных в X5 Tech, сейчас занимаюсь аналитикой и оценкой активностей CVM маркетинга экспресс-доставки “Пятёрочки”. В статье я расскажу о том,...
Как разметить 3D кубойды на 2D изображениях в CVAT? Методы геоинформационных систем в разметке данных
#dataannotation #разметкаданных #dataengineering #ml #машинноеобучение
https://habr.com/ru/companies/data_light/articles/849384/
#dataannotation #разметкаданных #dataengineering #ml #машинноеобучение
https://habr.com/ru/companies/data_light/articles/849384/
Хабр
Как разметить 3D кубоиды на 2D изображениях в CVAT? Методы геоинформационных систем в разметке данных
Команда Data Light регулярно встречается с нестандартными задачами, и в прошлом году мы начали работать над одной из них: наш проект неожиданно перерос из привычной разметки LiDAR облаков (изображений...
Apache Flink: Unit и E2E-тестирование оператора с таймерами в Apache Flink
#java #bigdata #распределенныесистемы #dataengineering #kafka #apacheflink
https://habr.com/ru/companies/ru_mts/articles/853200/
#java #bigdata #распределенныесистемы #dataengineering #kafka #apacheflink
https://habr.com/ru/companies/ru_mts/articles/853200/
Хабр
Apache Flink: Unit и E2E-тестирование оператора с таймерами в Apache Flink
Привет, Хабр! На связи Александр Бобряков, техлид в команде МТС Аналитики. В предыдущей части я рассказал про создание Flink-джобы Kafka-to-Kafka с оператором на основе встроенных таймеров. Такой...
Apache Flink: Сериализация и JacksonStateSerializer
#java #bigdata #dataengineering #распределенныесистемы #apacheflink #сериализация #JacksonStateSerializer
https://habr.com/ru/companies/ru_mts/articles/856774/
#java #bigdata #dataengineering #распределенныесистемы #apacheflink #сериализация #JacksonStateSerializer
https://habr.com/ru/companies/ru_mts/articles/856774/
Хабр
Apache Flink: Сериализация и JacksonStateSerializer
Привет, Хабр! На связи Александр Бобряков, техлид в команде МТС Аналитики. Это мой десятый материал про Apache Flink. В предыдущей части мы закончили разбирать оператор с Flink-таймерами,...
Инструмент обеспечения качества данных: от теории к практике
#dataquality #dataengineering
https://habr.com/ru/companies/leroy_merlin/articles/857044/
#dataquality #dataengineering
https://habr.com/ru/companies/leroy_merlin/articles/857044/
Хабр
Инструмент обеспечения качества данных: от теории к практике
Всем привет! Меня зовут Саша Ткачев, я ведущий дата-инженер отдела управления ценностью данных в Лемана ПРО (Леруа Мерлен ) . Наша команда занимается разработкой self-service инструментов для...
Как мы попробовали Apache Iceberg в связке со Spark и что из этого вышло
#iceberg #apache #apachespark #spark #dataengineering
https://habr.com/ru/companies/cian/articles/859484/
#iceberg #apache #apachespark #spark #dataengineering
https://habr.com/ru/companies/cian/articles/859484/
Введение в синтетические данные для ML: зачем они нужны?
#datascience #generativemodels #datascientist #dataengineering
https://habr.com/ru/companies/data_light/articles/860310/
#datascience #generativemodels #datascientist #dataengineering
https://habr.com/ru/companies/data_light/articles/860310/
Хабр
Введение в синтетические данные для ML: зачем они нужны?
Генерация документов, лиц и даже симуляция целых атак: как далеко можно зайти в создании и использовании синтетических данных? В этой статье Артур Казукевич, Data Science Engineer в Data Light,...
Будь T-shape
#dataengineering #dataengineer #tshape #ishape #развитиевit #карьеравit #чтоучить
https://habr.com/ru/articles/859850/
#dataengineering #dataengineer #tshape #ishape #развитиевit #карьеравit #чтоучить
https://habr.com/ru/articles/859850/
Хабр
Будь T-shape
Вступление Сегодня поговорим о T-shape — концепции, которая играет огромную роль для дата-инженеров и профессионалов в работе с данными. Почему важно быть не только специалистом в своей области, но и...
Гайд по установке Apache Airflow, на случай, если у тебя его ещё нет в преддверии 2025 года
#apacheairflow #dataanalytics #датааналитик #dataengineering #etl
https://habr.com/ru/articles/860900/
#apacheairflow #dataanalytics #датааналитик #dataengineering #etl
https://habr.com/ru/articles/860900/
Хабр
Гайд по установке Apache Airflow, на случай, если у тебя его ещё нет в преддверии 2025 года
Немного лирики, что такое Apache Airflow — это оркестратор (ваших данных), инструмент для создания, планирования и мониторинга рабочих процессов (так называемых DAGs — Directed Acyclic Graphs). Что с...
Михаил Водолагин, ex-CDO Deeplay: «Люди умудряются выстрелить себе в ногу очень по-разному!»
#интервью #аналитика #dataengineering #datascience #machinelearning #datavisualization #собеседования
https://habr.com/ru/articles/860322/
#интервью #аналитика #dataengineering #datascience #machinelearning #datavisualization #собеседования
https://habr.com/ru/articles/860322/
Хабр
Михаил Водолагин, ex-CDO Deeplay: «Люди умудряются выстрелить себе в ногу очень по-разному!»
Что, на ваш взгляд, самое странное может сделать кандидат на собеседовании? Вы когда-нибудь задавали себе вопрос, в чём главное отличие дата инженераот «обычного» аналитика? Знаете, в чём...
Документация, которая точно не навредит аналитике в Вашем проекте
#документацияэтолегко #аналитикаданных #dataanalysis #dataengineering #метаданные
https://habr.com/ru/articles/864512/
#документацияэтолегко #аналитикаданных #dataanalysis #dataengineering #метаданные
https://habr.com/ru/articles/864512/
Хабр
Документация, которая точно не навредит аналитике в Вашем проекте
Привет! Я работаю Chief Data Officer в средней российской компании и, думаю, попробовал «всякое» в плане работы с документацией для команды, которая работает с данными. Хочу...
Инфраструктура для Data-Engineer виртуальные окружения
#виртуальныеокружения #dataengineering #dataengineer #разработканаpython #pythonразработка #работасвиртуальнымиокружениями #poetry
https://habr.com/ru/articles/861412/
#виртуальныеокружения #dataengineering #dataengineer #разработканаpython #pythonразработка #работасвиртуальнымиокружениями #poetry
https://habr.com/ru/articles/861412/
Хабр
Инфраструктура для Data-Engineer виртуальные окружения
Введение В современной Python-разработке управление зависимостями и изоляция проектов являются критически важными аспектами. Независимо от того, работаете ли вы над небольшим скриптом или крупным...
NVidia Triton Inference Server: строим production ML без разработчиков
#selectel #itкомпании #itинфраструктура #облачныесервисы #dataengineering #inference #платформы
https://habr.com/ru/companies/selectel/articles/866256/
#selectel #itкомпании #itинфраструктура #облачныесервисы #dataengineering #inference #платформы
https://habr.com/ru/companies/selectel/articles/866256/
Хабр
Nvidia Triton Inference Server: строим production ML без разработчиков
Привет, Хабр! Меня зовут Антон, я DevOps-инженер в команде Data/ML-продуктов Selectel. В этой статье расскажу про наш новый продукт — Inference-платформу Selectel , а также вызовы, с которыми мы...
Рынок дата-инженеров и прогноз на 2025
#dataengineering #dataengineer #стоитлистановитьсяdataengineer #датаинженер #наймвит #наймдатаинженеров #рынокдлядатаинженеров
https://habr.com/ru/articles/864780/
#dataengineering #dataengineer #стоитлистановитьсяdataengineer #датаинженер #наймвит #наймдатаинженеров #рынокдлядатаинженеров
https://habr.com/ru/articles/864780/
Хабр
Рынок дата-инженеров и прогноз на 2025
Резюме видео Рынок дата-инженеров В своих видео и статьях я ни раз говорил о важности данных, не только потому что я работаю дата-инженером, но и также потому что все привыкли работать с данными....