SmartData — конференция по инженерии данных
444 subscribers
199 photos
4 videos
250 links
Конференция по большим и умным данным.

Ближайшая конференция — SmartData 2025, 5–6 октября, Санкт-Петербург + online.

Подробности и билеты: http://tinyurl.com/SmartDataConference

Чат конференции: @smartdataconf

Саппорт: @JUGruSupport
Download Telegram
Продолжаем набор спикеров на SmartData 2021!

Для подачи заявки достаточно вашей идеи. Мы поможем довести доклад до ума и подготовиться к общению с публикой.

А еще подарим Full Pass — абонемент на все конференции осеннего сезона.

Прием заявок открыт до 9 августа. Подробности: https://smartdataconf.ru/callforpapers/
SmartData — конференция по инженерии данных pinned «Продолжаем набор спикеров на SmartData 2021! Для подачи заявки достаточно вашей идеи. Мы поможем довести доклад до ума и подготовиться к общению с публикой. А еще подарим Full Pass — абонемент на все конференции осеннего сезона. Прием заявок открыт до…»
Традиционно открываем продажи билета-абонемента Full Pass!

По этому билету можно попасть сразу на все конференции сезона:

– Heisenbug: тестирование, 5-7 октября;
– SmartData: data-инжиниринг, 11-14 октября;
– DotNext: .NET-разработка, 21-22 октября;
– Joker: Java-разработка, 25-28 октября;
– HolyJS: JavaScript-разработка, 2-5 ноября;
– DevOops: инженерные DevOps-решения, 8-11 ноября;
– С++ Russia: C++ разработка, 15-18 ноября; 
– Mobius: мобильная разработка, 22-25 ноября.

Если планируете идти только на одну конференцию, потому что остальные кажутся вам ненужными, не спешите отказываться от идеи взять Full Pass. 

На всех наших конференциях есть доклады, которые заходят аудиториям других конференций. Например, на Joker часто обсуждают тестирование, на Heisenbug и DevOops вообще говорят о самых разных стеках. Плюс, будут доклады на «общие» темы — они полезны вообще всем IT-специалистам.

К тому же, нетворкинг не будет ограничен одним стеком: на каждую конференцию мы приглашаем нескольких экспертов мирового масштаба, в том числе создателей языков и технологий. 

Сейчас Full Pass стоит как билеты на две конференции, а дает доступ к восьми. Узнать больше и купить: https://bit.ly/3xjYj3W
Срок приема заявок подходит к концу!

Если вы хотели стать спикером на SmartData 2021, но заявку еще не отправили, самое время запрыгнуть в вагон уходящего поезда и сделать это сейчас. Заявки мы принимаем до 9 августа. 

Подробности на сайте: https://smartdataconf.ru/callforpapers/
Начинаем рассказывать про доклады SmartData 2021! И начнем с доклада об Airflow.

Apache Airflow давно является ведущим оркестратором для множества задач. Но с его использованием сопряжено множество проблем. Даже миграция на Airflow 2.0 для некоторых компаний представляет сложность.

На SmartData выступит один из главных контрибьюторов Airflow — Ash Berlin-Taylor. Он расскажет о том, куда движется проект, какие фичи добавят в версию 2.3 и покажет, как это всё избавит DAG'и от существующих проблем. Вы сможете лучше понять контекст, в котором разрабатывается Airflow и задать вопросы спикеру.

Подробности и билеты: https://vk.cc/c5lANQ
Когда проблемы обработки данных в больших масштабах были решены, появился вопрос об удобстве управления ими. lakeFS — инструмент, который упрощает версионирование данных, добавляя в Data Lake контроль версий.

Itai Admi выступит на SmartData с рассказом о lakeFS и покажет, как контроль версий упрощает эксперименты, воспроизведение и обеспечение качества данных. Еще он расскажет о модели данных graveler и рассмотрит реальный случай использования LakeFS.

Подробности и билеты: https://vk.cc/c5pR8K
TechTrain возвращается! Choo-choo!

TechTrain 2021 Autumn пройдет онлайн 18 сентября. Начало — в 11:45 по Москве (GMT+3)

По традиции, перед стартом сезона конференций мы проверим в бою все системы, а вы сможете посмотреть 8 докладов по разным технологиям и направлениям от крутых экспертов. Будет и про Java, и про Kotlin, и про DevOps, и про дата-инжиниринг, и про многое другое. Обещаем, не заскучаете!

– Сергей Платонов, «Genode — фреймворк для создания операционных систем»;
– Александр Тарасов, «Эволюционная инфраструктура: Перезагрузка»;
– Семен Осипов, «Дикий Запад: Кто такие дата-инженеры и почему они так сильно отличаются друг от друга»;
– Антон Архипов, «Мои любимые возможности в Kotlin»;
– Тагир Валеев, «Java 17 для тех, кто в танке»;
– Дмитрий Гордин, «Борьба за FPS и Android-камера»;
– Филипп Бочаров, «Зачем нам наблюдаемость IT-продуктов и как ее достичь»;
– Егор Малькевич, «Тренды Node.js для тех, кто спешит».

Участие бесплатное, нужно только зарегистрироваться: https://vk.cc/c5wGBo
Казалось бы, что может быть проще, чем вставить данные в БД? Но ClickHouse не так прост, и иногда данные теряются, дублируются или вообще не вставляются.

Артём Шутак выступит на SmartData 2021 с рассказом о решении этих проблем. Он рассмотрит все популярные кейсы вставки данных в ClickHouse. Доклад будет интересен всем инженерам, планирующим внедрить ClickHouse в свою экосистему, а формат Tips & Tricks подойдет для тех, кто хочет понять возможные проблемы и способы их решения.

Подробности и билеты — на сайте конференции: https://vk.cc/c5RRzY
Запрос на интерактивную обработку данных растет, и есть ряд инструментов, которые позволяют упростить организацию этого процесса.Но аналитические запросы медленны, ETL все также занимает всю ночь и большинство данных в облаке никому не нужны. А еще они опять схему данных поменяли в источнике! Можно ничего не копировать? Да: использовать Trino или его конкурентов (Dremio, Drill).

Артем Алиев на SmartData 2021 расскажет о PrestoDB и Trino, зародившихся в Facebook для предоставления интерактивного доступа к данным, хранящимся в Hive/Hadoop. Он расскажет о скрытых возможностях этих инструментов, работе с данными из первоисточников, объединении и обогащении их, запросах с субсекундной скоростью. Доклад для инженеров и архитекторов, которым интересно узнать о новых сценариях интеграции источников данных и подробностях реализации Trino.

Подробности и билеты: https://vk.cc/c5Kzto
Роль инженера данных важна и критична. Но какими скиллами он должен обладать, насколько хорошо знать код, алгоритмы и data science?

Дмитрий Аношин, проработав 10 лет в отрасли, выделил два типа инженеров данных — Gentle и Hardcore. О них он расскажет в своем докладе на SmartData 2021. Приходите послушать Дмитрия, если хотите лучше разобраться в значении профессии “инженер данных” или победить синдром самозванца.

Подробности и билеты: https://vk.cc/c5U9Eq
Сегодня каждая компания — это софтверная компания и завтра каждый сотрудник может стать дата-аналитиком! А в работе с данными всегда актуален вопрос скорости их поставки.

Виктор Кесслер на SmartData 2021 расскажет об инструменте, который позволит убрать часть лишней работы и ускорить time-to-market для данных. Его доклад посвящен концепции Data Lakehouse, её преимуществам и недостаткам, а также платформе Dremio, которая позволяет пользователям самостоятельно анализировать данные. Вы узнаете, как контролировать изменения в данных и почему для аналитики важна открытая архитектура.

Заходите за подробностями и билетами на сайт конференции: https://vk.cc/c5Gjpu
Евгений Ермаков и Николай Гребенщиков возвращаются на SmartData 2021 с продолжением рассказа о якорном моделировании в DWH Яндекс GO. Полтора года назад они начали создавать детальный слой, используя современный подход — Anchor Modeling. Но мечты о красивой архитектуре столкнулись с реальностью.

Спикеры осветят полуторагодовой путь перехода на Greenplum (который еще далек от завершения) и расскажут о внутренностях этой СУБД. Это первый доклад о якорном моделировании в Greenplum и он хорошо показывает, как архитектуры натягиваются на реальность.

Подробности и билеты: https://vk.cc/c5VXN9
Чем заняться вечером пятницы? Разумеется, читать программу SmartData! Теперь, когда она сформирована, стало можно увидеть описания всех докладов в одном посте, а не только прыгать по страницам сайта: https://habr.com/p/577864/
Представьте, что компании нужно выстроить аналитическую платформу, включающую сбор данных с сервисов, доставку до слоев хранения (Data Lake, детализированные данные, витрины), выполнение расчетов (batching, streaming) и интеграцию с BI-инструментами (отчетность, ML).

На SmartData 2021 Николай Голов, глава Data Engineering в ManyChat расскажет, как команда за полтора года решила эту задачу полностью в облаках (AWS), выбирая новейшие инструменты и минимизируя затраты. Николай покажет, как выбирались решения на каждом этапе, расскажет о возможных рисках и подведет итоги работы.

За подробностями и билетами заходите на сайт конференции: https://vk.cc/c6kb8r
SmartData ищет модераторов для дискуссий!
Если вы хотите стать частью конференции, присылайте заявку.

Требования:
— Локация — любое удобное место со стабильным интернетом (подключение будет дистанционным);
— Четкая дикция;
— Умение следить за ходом дискуссии, слушать людей;
— Умение поддержать диалог;
— Умение быстро ориентироваться в ситуации, разбавлять эфир шутками, вовремя и тактично остановить спикера.

Необязательно, но было бы круто:
— Опыт публичных или эфирных выступлений;
— Интерес к тематике (быть экспертом необязательно, но важно хотя бы минимально ориентироваться).

Чем предстоит заниматься:
— В каждый из дней конференции участвовать в 2-3 тематических дискуссиях;
— Следить за чатом, выбирать интересные вопросы, озвучивать их спикеру;
— Следить за ходом дискуссий, вовремя давать и забирать слово у выступающих;
— Возможно, участвовать в брифах с участниками дискуссий.

С нас:
— Билет на конференцию;
— Денежное вознаграждение.

Анкета: https://ru.surveymonkey.com/r/VM5P96N
Одной из основных тенденций в бизнес-аналитике становится использование решений класса Self-service BI.

Николай Валиотти на SmartData 2021 покажет, как создается Self-service BI на примере датасета магазина электронной коммерции. Николай расскажет о системе контроля версий для построения модели данных, рассмотрит лучшие практики и представит инструмент Looker. Рекомендуем доклад всем, кто хочет развивать self-service подход в своей компании.

Подробности и билеты: https://vk.cc/c6F0fX
Задача всех, кто работает с данными — не только передавать их из точки А в точку Б, но и делать инфраструктуру удобнее.

Дмитрий Бугайченко на SmartData 2021 расскажет об опыте Сбера в организации работы с данными. Вы узнаете, как эволюционировали подходы к выделению вычислительных ресурсов и организации доступа, как менялся набор инструментов и подходов к моделированию, как развивались подходы к выводу результатов в промышленную эксплуатацию. Он также расскажет о ролях людей в команде и стеке технологий, где есть как готовые, так и самописные решения. Доклад будет полезен прежде всего практикующим инженерам и лидерам команд, которые хотят лучше работать с ресурсами в области данных.

Подробности и билеты: https://vk.cc/c6Femk
Удивительный факт — Apache Spark иногда хранит данные на диске. И, конечно же, это замедляет их обработку.

Jacek Laskowski на SmartData 2021 заглянет во внутренности Spark и расскажет, как сделать его быстрее, заставив работать только с ОЗУ.

Подробности и билеты: https://vk.cc/c6Fbt1
С темой оптимизации распределенных запросов в SQL-движках сталкивается почти каждый дата инженер. И если с запросом что-то идет не так, то знание матчасти поможет быстро решить эту проблему.

Владимир Озеров и Алексей Гончарук на SmartData 2021 расскажут, как заставить распределенные SQL-движки эффективно обрабатывать данные, расположенные на нескольких серверах. Из доклада вы узнаете о техниках, которые для этого применяются, и о принципах работы оптимизатора распределенных запросов. А еще получите море ссылок на первоисточники для подробного изучения этой темы.

Узнать подробности и выбрать билеты можно на сайте конференции: https://vk.cc/c6FisJ
Тема идентификации пользователей стала особенно актуальна в связи с последовательным ужесточением работы механизмов трекинга в браузерах и необходимостью выполнять законодательства типа 152-ФЗ и GDPR. Новые ограничения ведут к новым требованиям к работе библиотек фингерпринтинга, векторизации клиентских идентификаторов, работе с коллизиями, сшиванию и расшиванию юзеров и т.п.

Артур Хачуян — один из наиболее известных российских экспертов в области отслеживания поведения пользователей в интернете. Его багаж технических наработок в этой области огромен, и он поделится им с участниками SmartData 2021. Артур расскажет о технических аспектах построения кросс ID для веб-аналитики. Доклад будет полезен всем, кто работает с отслеживанием интернет-активности пользователей своих сервисов и пытается строить корректные и быстрые системы трекинга, отвечающие последним техническим и юридическим реалиям.

Подробности и билеты: https://vk.cc/c6HQNd