Коллеги, еще раз привет! ☀️
В связи с тем, что СберЧат день за днем набирает все большую популярность, мы не смогли пойти мимо и тоже завели канал на корпоративной площадке ✅.
Пока мы никуда не уходим из Telegram, но не знаем, что будет дальше, поэтому на всякий случай очень советуем подписаться на нас в СберЧате, чтобы потом (вдруг) не потеряться.
До встречи тут и там 🤝.
С уважением,
команда DWH/BigData 💚
В связи с тем, что СберЧат день за днем набирает все большую популярность, мы не смогли пойти мимо и тоже завели канал на корпоративной площадке ✅.
Пока мы никуда не уходим из Telegram, но не знаем, что будет дальше, поэтому на всякий случай очень советуем подписаться на нас в СберЧате, чтобы потом (вдруг) не потеряться.
До встречи тут и там 🤝.
С уважением,
команда DWH/BigData 💚
Друзья, добрый день! 🌦
В первый день недели спешим поделиться с вами инересной новостью - теперь каждый понедельник (конечно, если вы поддержите нас проявленным интересом) эксперт нашего сообщества Андрей Баллес будет вести колонку в ТГ-канале DWH/BigData.
Админ канала - всего лишь его руки в этом увлекательном жанре ✍️.
Итак, встречайте новую рубрику нашего ТГ от Андрея Баллеса - #втренде 🔥!
(1 выпуск ищите через минуту, комментарии приветствуются)
В первый день недели спешим поделиться с вами инересной новостью - теперь каждый понедельник (конечно, если вы поддержите нас проявленным интересом) эксперт нашего сообщества Андрей Баллес будет вести колонку в ТГ-канале DWH/BigData.
Админ канала - всего лишь его руки в этом увлекательном жанре ✍️.
Итак, встречайте новую рубрику нашего ТГ от Андрея Баллеса - #втренде 🔥!
(1 выпуск ищите через минуту, комментарии приветствуются)
#втренде #Выпуск1(ч.1)
📰 Новости команды RND
Рассказали на митапе про тренды в работе с данными. Записали подкаст про RND. Создали чат для тех, кто хочет вместе с нами активно мониторить и разбирать тренды и технологии. Работаем над Kylin как замена MS SSAS.
📰 Реанимировали Apache Ambari
Attic - это репозиторий неактивных проектов Apache Software Foundation. Буквально в июне Роман Шапошник возглавил проект Apache Ambari и запустил процедуру его возвращения в живые из Apache Attic. Напомню, что только в январе этого года проект был закрыт. Это первый случай за всю историю существования Apache. Детальнее про Attic: https://attic.apache.org/tracking.html
📰 Apache Doris - свежая MPP база стала Top-Level проектом
Высокопроизводительная, рил-тайм аналитическая база данных на MPP архитектуре, которая работает на MySQL протоколе. Детальнее о базе данных здесь (Продолжение следует)
📰 Новости команды RND
Рассказали на митапе про тренды в работе с данными. Записали подкаст про RND. Создали чат для тех, кто хочет вместе с нами активно мониторить и разбирать тренды и технологии. Работаем над Kylin как замена MS SSAS.
📰 Реанимировали Apache Ambari
Attic - это репозиторий неактивных проектов Apache Software Foundation. Буквально в июне Роман Шапошник возглавил проект Apache Ambari и запустил процедуру его возвращения в живые из Apache Attic. Напомню, что только в январе этого года проект был закрыт. Это первый случай за всю историю существования Apache. Детальнее про Attic: https://attic.apache.org/tracking.html
📰 Apache Doris - свежая MPP база стала Top-Level проектом
Высокопроизводительная, рил-тайм аналитическая база данных на MPP архитектуре, которая работает на MySQL протоколе. Детальнее о базе данных здесь (Продолжение следует)
❤1
#втренде #Выпуск1(ч.2)
Кто возьмется сделать one-pager по этой технологии, который критически проанализирует, что она на самом деле из себя представляет и как отличается от знакомых нам технологий?
📰 The Modern Data Stack
Под этим заголовком множество аналитиков пытаются определить современные технологии и подходы по хранению, обработке и анализу данных. Например,
The Modern Data Stack: Past, Present, and Future от dbt, Emerging Architectures for Modern Data Infrastructure от a16z или куда же без Thoughtworks Meet the Modern Data Stack, Data Maturity Journey.
Недавняя статья The Modern Data Stack for Embedded Analytics натолкнула на идею: вместо абсолютизма формулировать область применения стека. Например, ... for Enterprise BI или ... for BigTech Data Scientist ...for ДЗО. Кажется, что этот подход даст возможность охватить и всю широту Сбера.
📰 Мечта аналитика: Serverless
Путь клиента в новую эпоху cloud native и serverless технологий описан в статье Databricks Serverless SQL + Python. Это не только удобно и быстро с точки зрения аналитика. Цена ошибки (т.е. эксперимента) существенно снижается и позволяет выйти на совершенно новый уровень data driven решений в Банке. Команда RND SberData разработала прототип бессерверной базы данных. Задавайте вопросы в чате (ссылка).
Кто возьмется сделать one-pager по этой технологии, который критически проанализирует, что она на самом деле из себя представляет и как отличается от знакомых нам технологий?
📰 The Modern Data Stack
Под этим заголовком множество аналитиков пытаются определить современные технологии и подходы по хранению, обработке и анализу данных. Например,
The Modern Data Stack: Past, Present, and Future от dbt, Emerging Architectures for Modern Data Infrastructure от a16z или куда же без Thoughtworks Meet the Modern Data Stack, Data Maturity Journey.
Недавняя статья The Modern Data Stack for Embedded Analytics натолкнула на идею: вместо абсолютизма формулировать область применения стека. Например, ... for Enterprise BI или ... for BigTech Data Scientist ...for ДЗО. Кажется, что этот подход даст возможность охватить и всю широту Сбера.
📰 Мечта аналитика: Serverless
Путь клиента в новую эпоху cloud native и serverless технологий описан в статье Databricks Serverless SQL + Python. Это не только удобно и быстро с точки зрения аналитика. Цена ошибки (т.е. эксперимента) существенно снижается и позволяет выйти на совершенно новый уровень data driven решений в Банке. Команда RND SberData разработала прототип бессерверной базы данных. Задавайте вопросы в чате (ссылка).
dbt Labs
The Modern Data Stack: Past, Present, and Future | dbt Labs
My thoughts on where our space has been and where it might be going.
Дорогие коллеги! ☀️🌸🐝
Приглашаем вас посетить регулярную экспертную площадку, посвященную миграции на Hadoop 3.
Для формирования повестки просим оставлять свои вопросы здесь.
Мероприятие состоится 28 июля 2022 г. Начало в 16:00.
Повестка:
• Орлов С.: “Восстановление данных в Hbase после disaster инцидентов”
• Матыцин С.: “Анонс воркшопа по фреймворку автотестов, использующемуся для SDP Hadoop”
• Орлов С.: “Архитектура и детали реализации интеграции кластеров SDP Hadoop с ППРБ Аудит”
Платформа проведения встречи – СберМитап.
📺 Ссылка для подключения.
Во время выступления спикеров вопросы можно будет задавать в чате.
Спасибо и до встречи!
С уважением,
команда DWH/BigData 💚
Приглашаем вас посетить регулярную экспертную площадку, посвященную миграции на Hadoop 3.
Для формирования повестки просим оставлять свои вопросы здесь.
Мероприятие состоится 28 июля 2022 г. Начало в 16:00.
Повестка:
• Орлов С.: “Восстановление данных в Hbase после disaster инцидентов”
• Матыцин С.: “Анонс воркшопа по фреймворку автотестов, использующемуся для SDP Hadoop”
• Орлов С.: “Архитектура и детали реализации интеграции кластеров SDP Hadoop с ППРБ Аудит”
Платформа проведения встречи – СберМитап.
📺 Ссылка для подключения.
Во время выступления спикеров вопросы можно будет задавать в чате.
Спасибо и до встречи!
С уважением,
команда DWH/BigData 💚
#втренде #Выпуск2
🌀 Data-diff - command-line tool и библиотека Python позволяет сравнивать таблицы в разных базах данных (миллиарды строк за несколько минут), даже не гоняя данные по сети. Как он это делает - см. github
🌀 Exo - низкоуровневый язык разработки - дает возможность полноценно использовать железные ускорители (GPU, ASIC, FPGA, нестандартные). Сам разработчик явно определяет хинты, что для определенных задач намного эффективнее компилятора. Пример реализации интерфейса - железо-код в ускорителе ML Gemmini. Exo существенно снижает порог входа → большой потенциал для SberDevice и ЛД: exo-lang.dev
🌀 PRQL - новый язык запросов, похожий на SQL, работает со всеми текущими БД! Основное преимущество - лучшая читаемость. Поддерживает абстракции, переменные и функции. Детали на prql-lang.org
🌀 CloudNativePG - оператор k8s для отказоустойчивого кластера PostgreSQL базы с primary/standby архитектурой с поддержкой стриминговой репликации. сайт
🌀 CeresDB - крайне интересная high-performance, distributed, schema-less, cloud-native timeseries database, написанная на Rust, вдохновленная InfluxDB IOx и TiKV. Совмещает технологии Apache Arrow и DataFusion. github
🌀 DAT Linux - сборка линукс, основанная на Ubuntu со множеством предустановленных инструментов по работе с данными, - ссылка. Обзор в следующем выпуске.
Обсуждаем в комментариях, что вам может пригодиться в работе, о чем хотелось бы узнать в деталях.
🌀 Data-diff - command-line tool и библиотека Python позволяет сравнивать таблицы в разных базах данных (миллиарды строк за несколько минут), даже не гоняя данные по сети. Как он это делает - см. github
🌀 Exo - низкоуровневый язык разработки - дает возможность полноценно использовать железные ускорители (GPU, ASIC, FPGA, нестандартные). Сам разработчик явно определяет хинты, что для определенных задач намного эффективнее компилятора. Пример реализации интерфейса - железо-код в ускорителе ML Gemmini. Exo существенно снижает порог входа → большой потенциал для SberDevice и ЛД: exo-lang.dev
🌀 PRQL - новый язык запросов, похожий на SQL, работает со всеми текущими БД! Основное преимущество - лучшая читаемость. Поддерживает абстракции, переменные и функции. Детали на prql-lang.org
🌀 CloudNativePG - оператор k8s для отказоустойчивого кластера PostgreSQL базы с primary/standby архитектурой с поддержкой стриминговой репликации. сайт
🌀 CeresDB - крайне интересная high-performance, distributed, schema-less, cloud-native timeseries database, написанная на Rust, вдохновленная InfluxDB IOx и TiKV. Совмещает технологии Apache Arrow и DataFusion. github
🌀 DAT Linux - сборка линукс, основанная на Ubuntu со множеством предустановленных инструментов по работе с данными, - ссылка. Обзор в следующем выпуске.
Обсуждаем в комментариях, что вам может пригодиться в работе, о чем хотелось бы узнать в деталях.
GitHub
GitHub - datafold/data-diff: Compare tables within or across databases
Compare tables within or across databases. Contribute to datafold/data-diff development by creating an account on GitHub.
Дорогие друзья! ☀️
Нашему сообществу исполняется целых 3 года, отметить которые мы хотим большим митапом 🥳.
Приглашаем вас на онлайн-митап SberProfi DWH/BigData, который состоится 2 августа 2022 года.
Начало в 14:00.
👉 Подключиться 👈
Повестка:
1. Кузнецов А., Стрекаловский Р.: «Описание данных в Базах данных АС»
2. Радионов М.: «Немного ревирс-инжиниринга, декомпиляции, устройства плагинов PXF, QueryGrid. Или рассказ о способе "нативно" получить данные Teradata в GreenPlum»
(подробнее – в Confluence)
3. Ключко П., Постнова М.: «Платформа ML360: основа для разработки и вывода ML-моделей в ПРОМ» (подробнее – в Confluence)
4. Жукова Т.: «Сервис Ввода и корректировки данных КАП для загрузки пользовательских данных в ПРОМ» (подробнее – в Confluence)
Вопросы можно будет задать в чате во время выступления докладчиков.
До встречи на митапе!
С уважением,
DWH/BigData 💚
Нашему сообществу исполняется целых 3 года, отметить которые мы хотим большим митапом 🥳.
Приглашаем вас на онлайн-митап SberProfi DWH/BigData, который состоится 2 августа 2022 года.
Начало в 14:00.
👉 Подключиться 👈
Повестка:
1. Кузнецов А., Стрекаловский Р.: «Описание данных в Базах данных АС»
2. Радионов М.: «Немного ревирс-инжиниринга, декомпиляции, устройства плагинов PXF, QueryGrid. Или рассказ о способе "нативно" получить данные Teradata в GreenPlum»
(подробнее – в Confluence)
3. Ключко П., Постнова М.: «Платформа ML360: основа для разработки и вывода ML-моделей в ПРОМ» (подробнее – в Confluence)
4. Жукова Т.: «Сервис Ввода и корректировки данных КАП для загрузки пользовательских данных в ПРОМ» (подробнее – в Confluence)
Вопросы можно будет задать в чате во время выступления докладчиков.
До встречи на митапе!
С уважением,
DWH/BigData 💚
SberProfi DWH/BigData
Дорогие коллеги! ☀️🌸🐝 Приглашаем вас посетить регулярную экспертную площадку, посвященную миграции на Hadoop 3. Для формирования повестки просим оставлять свои вопросы здесь. Мероприятие состоится 28 июля 2022 г. Начало в 16:00. Повестка: • Орлов С.: “Восстановление…
Коллеги, напоминаем о регулярной площадке по миграции на Hadoop 3, которая начнется через 15 минут 🌪🏃🏻♀️🏃
#втренде #Выпуск3
Apache Attic - за июль ушли 3 проекта "на чердак". Причина у всех одна - отсутствие активности разработки. Один из них - Apache REEF - библиотека для ресурсных менеджеров типа YARN и Mesos. Означает ли это, что они следующие?!
🔥 Hex.tech - решение претендует на роль “UI для современного дата-стека”. На первый взгляд напоминает смесь Jupyter, Zeppelin с элементами Datawrangling. Другими словами - горячая тема. link
🔥 Apache ShardingSphere делает любую базу данных распределенной. Киллер SberDataFusion и SDP Hetero? 💪 link
🔥 Apache InLong - это стриминговая платформа, доступная пользователям в виде SaaS-продукта. Real-time ETL и т.д. Ранее ее инициировал китайский гигант Tencent. Сейчас активно развивается. link
🍭 Apache SystemDS - новая версия 3.0. Это масштабируемая система для машинного обучения. Поддерживает Spark MLContext, Spark Batch, Standalone, и Java Machine Learning Connector (JMLC). Авто-оптимизация основанная на характеристиках кластера и данных. link
Обсуждаем в комментариях, что вам может пригодится в работе, о чем хотелось бы узнать в деталях.
Apache Attic - за июль ушли 3 проекта "на чердак". Причина у всех одна - отсутствие активности разработки. Один из них - Apache REEF - библиотека для ресурсных менеджеров типа YARN и Mesos. Означает ли это, что они следующие?!
🔥 Hex.tech - решение претендует на роль “UI для современного дата-стека”. На первый взгляд напоминает смесь Jupyter, Zeppelin с элементами Datawrangling. Другими словами - горячая тема. link
🔥 Apache ShardingSphere делает любую базу данных распределенной. Киллер SberDataFusion и SDP Hetero? 💪 link
🔥 Apache InLong - это стриминговая платформа, доступная пользователям в виде SaaS-продукта. Real-time ETL и т.д. Ранее ее инициировал китайский гигант Tencent. Сейчас активно развивается. link
🍭 Apache SystemDS - новая версия 3.0. Это масштабируемая система для машинного обучения. Поддерживает Spark MLContext, Spark Batch, Standalone, и Java Machine Learning Connector (JMLC). Авто-оптимизация основанная на характеристиках кластера и данных. link
Обсуждаем в комментариях, что вам может пригодится в работе, о чем хотелось бы узнать в деталях.
Hex
Bring the magic of AI to data, for everyone | Hex
Finally — anyone can explore data using natural language, with or without code, on trusted context, in one integrated platform.
SberProfi DWH/BigData
Дорогие друзья! ☀️ Нашему сообществу исполняется целых 3 года, отметить которые мы хотим большим митапом 🥳. Приглашаем вас на онлайн-митап SberProfi DWH/BigData, который состоится 2 августа 2022 года. Начало в 14:00. 👉 Подключиться 👈 Повестка: 1. Кузнецов…
Коллеги, привет!
Через 10 минут ждем вас на нашем митапе! 🏃🏻♂️
Через 10 минут ждем вас на нашем митапе! 🏃🏻♂️
#втренде #Выпуск4
💫 InfoQ Data Engineering Trends Report ⎋ - инновационные компании адаптируют Cloud agnostic computing for AI, Knowledge Graphs, AI pair programmer (like Github Copilot) and Synthetic Data Generation. Сбер в очередной раз #втренде 😎 Не хватает только сделать систему по дописыванию кода.
📰 Stack Overflow Developer Survey ⎋ - SQL вернул себе 3 место в топе и скинул Python на 4 место; Julia обгоняет Python (а R уж тем более) в списке языков, которые люди больше любят, чем боятся.
🔥 wgpu-native ⎋ выглядит как отличная возможность делать multi-tenant serverless сервисы с GPU on-demand на WGSL. Лаборатория данных 5.0 ?
☁︎ SecretFlow ⎋ - представляет уровень абстракции таких технологий, как Secure Multiparty Computing, Homomorphic Encryption и поэтому упрощает анализ и ML на чувствительных данных.
Обсуждаем в комментариях, что вам может пригодиться в работе, о чем хотелось бы узнать в деталях.
💫 InfoQ Data Engineering Trends Report ⎋ - инновационные компании адаптируют Cloud agnostic computing for AI, Knowledge Graphs, AI pair programmer (like Github Copilot) and Synthetic Data Generation. Сбер в очередной раз #втренде 😎 Не хватает только сделать систему по дописыванию кода.
📰 Stack Overflow Developer Survey ⎋ - SQL вернул себе 3 место в топе и скинул Python на 4 место; Julia обгоняет Python (а R уж тем более) в списке языков, которые люди больше любят, чем боятся.
🔥 wgpu-native ⎋ выглядит как отличная возможность делать multi-tenant serverless сервисы с GPU on-demand на WGSL. Лаборатория данных 5.0 ?
☁︎ SecretFlow ⎋ - представляет уровень абстракции таких технологий, как Secure Multiparty Computing, Homomorphic Encryption и поэтому упрощает анализ и ML на чувствительных данных.
Обсуждаем в комментариях, что вам может пригодиться в работе, о чем хотелось бы узнать в деталях.
InfoQ
AI, ML, and Data Engineering InfoQ Trends Report—August 2022
In this annual report, the InfoQ editors discuss the current state of AI, ML, and data engineering and what emerging trends you as a software engineer, architect, or data scientist should watch. We curate our discussions into a technology adoption curve with…
#втренде #Выпуск5
Matano ⎋ - Serverless Security Data Lake Platform, написанный на Rust для анализа логов. Для трансформации использует VRL, сохраняет в S3 в формате Iceberg и позволяет написать алерты на Python.
VRL ⎋ - Vector Remap Language, созданный Datadog для парсинга и трансформации логов и метрик для мониторинга. Играет все большую роль в "Data Observability".
Osmos Data ⎋ - пример нового поколения бессерверных low-code сервисов по захвату внешних данных. Здесь фишка в автоматизации процесса с помощью AI: не нужно больше мэпить колонки руками, встроены правила проверки качества данных.
ClickHouse SuperSet connector ⎋ - обратите внимание, кто работает с этими продуктами - теперь появился поддерживаемый Opensource коннектор.
Обсуждаем в комментариях, что вам может пригодится в работе, о чем хотелось бы узнать в деталях ⬇️⬇️⬇️.
Matano ⎋ - Serverless Security Data Lake Platform, написанный на Rust для анализа логов. Для трансформации использует VRL, сохраняет в S3 в формате Iceberg и позволяет написать алерты на Python.
VRL ⎋ - Vector Remap Language, созданный Datadog для парсинга и трансформации логов и метрик для мониторинга. Играет все большую роль в "Data Observability".
Osmos Data ⎋ - пример нового поколения бессерверных low-code сервисов по захвату внешних данных. Здесь фишка в автоматизации процесса с помощью AI: не нужно больше мэпить колонки руками, встроены правила проверки качества данных.
ClickHouse SuperSet connector ⎋ - обратите внимание, кто работает с этими продуктами - теперь появился поддерживаемый Opensource коннектор.
Обсуждаем в комментариях, что вам может пригодится в работе, о чем хотелось бы узнать в деталях ⬇️⬇️⬇️.
#втренде #Выпуск6
⇶ Arrows.app ⎋ Вообще Arrows используется для визуализации labeled property graphs из домена графовых баз данных. Но выяснилось, что для визуализации моделей данных в терминах анкеров/атрибутов/линков тоже отлично подходит.
🆀 Debezium + Quarkus = решение распределенного CDC в k8s ⎋ Статья описывает как это сделать и с помощью каких паттернов избежать проблему Dual-Writes
👯♀️ Ballerina ⎋ - язык для "Data-oriented programming" на тему недавно вышла книга ⎋. Интересно рассмотреть этот подход для преобразования данных на лету, напр в NRT или промышленных ML решениях.
🔀 Remote Shuffle Service для Spark ⎋- Uber сделали внешний шафл менеджер сами и ускорили Spark в 2-5 раз. Месяц назад похожее решение 🔀 Uniffle ⎋ было внесено коллегами из Китая в Apache инкубатор, но информации пока мало. Нащупали тренд )
👩🔬 Google Research на Youtube ⎋ - на днях запустили конент про последние тренды в AI/ML/Robotics/Algo/Quantum computing/... ждем контент дополняющий их отличный ресурс research.google
Обсуждаем в комментариях, что вам может пригодится в работе, о чем хотелось бы узнать в деталях ⬇️⬇️⬇️.
⇶ Arrows.app ⎋ Вообще Arrows используется для визуализации labeled property graphs из домена графовых баз данных. Но выяснилось, что для визуализации моделей данных в терминах анкеров/атрибутов/линков тоже отлично подходит.
🆀 Debezium + Quarkus = решение распределенного CDC в k8s ⎋ Статья описывает как это сделать и с помощью каких паттернов избежать проблему Dual-Writes
👯♀️ Ballerina ⎋ - язык для "Data-oriented programming" на тему недавно вышла книга ⎋. Интересно рассмотреть этот подход для преобразования данных на лету, напр в NRT или промышленных ML решениях.
🔀 Remote Shuffle Service для Spark ⎋- Uber сделали внешний шафл менеджер сами и ускорили Spark в 2-5 раз. Месяц назад похожее решение 🔀 Uniffle ⎋ было внесено коллегами из Китая в Apache инкубатор, но информации пока мало. Нащупали тренд )
👩🔬 Google Research на Youtube ⎋ - на днях запустили конент про последние тренды в AI/ML/Robotics/Algo/Quantum computing/... ждем контент дополняющий их отличный ресурс research.google
Обсуждаем в комментариях, что вам может пригодится в работе, о чем хотелось бы узнать в деталях ⬇️⬇️⬇️.
InfoQ
Debezium and Quarkus: Change Data Capture Patterns to Avoid Dual-Writes Problems
It’s common in microservices to write data in two places, a database and then send the content to another microservice. One approach to tackle this problem is dual writes, but you may lose data because of concurrent writes. Debezium is an open-source project…
Дорогие коллеги! ☀️
Приглашаем вас посетить регулярную экспертную площадку, посвященную миграции на Hadoop 3.
Для формирования повестки просим оставлять свои вопросы здесь.
Мероприятие состоится 30 августа 2022 г. Начало в 15:00.
Повестка:
• Зленко И. (SberData): “Перфоманс фикс timestamp из Hive 4 в Hive 3”
• Орлов С. (SberData): “Релиз 3.5.3: состав, план тиража”
• Тутринов В. (SberData): “YARN Watchdog: демо и функциональность”
👉 Ссылка для подключения 👈
Во время выступления спикеров вопросы можно будет задавать в чате.
Обращаем ваше внимание, что мероприятие проводится только для сотрудников Банка, просьба не пересылать информацию внешним участникам.
Спасибо и до встречи!
С уважением,
команда DWH/BigData 💚
Приглашаем вас посетить регулярную экспертную площадку, посвященную миграции на Hadoop 3.
Для формирования повестки просим оставлять свои вопросы здесь.
Мероприятие состоится 30 августа 2022 г. Начало в 15:00.
Повестка:
• Зленко И. (SberData): “Перфоманс фикс timestamp из Hive 4 в Hive 3”
• Орлов С. (SberData): “Релиз 3.5.3: состав, план тиража”
• Тутринов В. (SberData): “YARN Watchdog: демо и функциональность”
👉 Ссылка для подключения 👈
Во время выступления спикеров вопросы можно будет задавать в чате.
Обращаем ваше внимание, что мероприятие проводится только для сотрудников Банка, просьба не пересылать информацию внешним участникам.
Спасибо и до встречи!
С уважением,
команда DWH/BigData 💚
SberProfi DWH/BigData
Дорогие коллеги! ☀️ Приглашаем вас посетить регулярную экспертную площадку, посвященную миграции на Hadoop 3. Для формирования повестки просим оставлять свои вопросы здесь. Мероприятие состоится 30 августа 2022 г. Начало в 15:00. Повестка: • Зленко И.…
Друзья!
10 минут остается до начала нашей регулярной площадки по миграции на Hadoop 3 ⏳.
Присоединяйтесь!
10 минут остается до начала нашей регулярной площадки по миграции на Hadoop 3 ⏳.
Присоединяйтесь!
Дорогие друзья! 🌦
Приглашаем вас на онлайн-митап SberProfi DWH/BigData, который состоится 6 сентября 2022 года.
Начало в 14:30.
👉 Подключиться 👈
Повестка:
1. Матыцин С.: «Фреймворк AT SDP Hadoop: пример использования при тестировании прикладных приложений» (подробнее – в Confluence)
2. Бирзнек М., Савин О.: «Cервис автоматизации XOps: полезный инструментарий для витрин и ML-моделей» (подробнее – в Confluence)
3. Радионов М.: «Тестирования HDFS на нескольких ДЦ» (подробнее – в Confluence)
Вопросы можно будет задать в чате во время выступления докладчиков.
До встречи на митапе!
С уважением,
DWH/BigData 💚
Приглашаем вас на онлайн-митап SberProfi DWH/BigData, который состоится 6 сентября 2022 года.
Начало в 14:30.
👉 Подключиться 👈
Повестка:
1. Матыцин С.: «Фреймворк AT SDP Hadoop: пример использования при тестировании прикладных приложений» (подробнее – в Confluence)
2. Бирзнек М., Савин О.: «Cервис автоматизации XOps: полезный инструментарий для витрин и ML-моделей» (подробнее – в Confluence)
3. Радионов М.: «Тестирования HDFS на нескольких ДЦ» (подробнее – в Confluence)
Вопросы можно будет задать в чате во время выступления докладчиков.
До встречи на митапе!
С уважением,
DWH/BigData 💚
#втренде #Выпуск7
Apache TVM ⎋ повышает эффективность работы ML засчет компилирования под CPU, GPU, FPGA и другие ML-акселераторы, в т.ч. внутри баузеров (edge computing!). Поддерживает random forests/classical ML, memory planning, MISRA-C, Python, ... напоминает TensorFlowXLA ⎋
Apache StreamPark ⎋ - новый фреймворк, позволяющий отделить бизнес-логику от конфигурации Spark и Flink и таким образом увеличить скорость разработки и вывода в ПРОМ.
Visual Data Preparation ⎋ - ETL для неструктурированных данных (картинки, видео), позволяет привести их в анализируемые AI/ML-данные. Под капотом - микросервисная архитектура, Triton Inference Server, Temporal (workflow engine) и Airbyte (коннекторы).
SurrealDB ⎋ - опенсорс-бессерверная база под OLTP-нагрузки с поддержкой аналитических нагрузок. Интересно, как работает их движок.
Data Mesh в Netflix ⎋ в своем тех.блоге описывают платформу данных и то, как подход дата-меш помог прийти к лучшему качеству, создать каталог данных и трэчить линедж.
PS: 3-6 октября проходит ApacheCon ⎋. Доклады - топ!
Apache TVM ⎋ повышает эффективность работы ML засчет компилирования под CPU, GPU, FPGA и другие ML-акселераторы, в т.ч. внутри баузеров (edge computing!). Поддерживает random forests/classical ML, memory planning, MISRA-C, Python, ... напоминает TensorFlowXLA ⎋
Apache StreamPark ⎋ - новый фреймворк, позволяющий отделить бизнес-логику от конфигурации Spark и Flink и таким образом увеличить скорость разработки и вывода в ПРОМ.
Visual Data Preparation ⎋ - ETL для неструктурированных данных (картинки, видео), позволяет привести их в анализируемые AI/ML-данные. Под капотом - микросервисная архитектура, Triton Inference Server, Temporal (workflow engine) и Airbyte (коннекторы).
SurrealDB ⎋ - опенсорс-бессерверная база под OLTP-нагрузки с поддержкой аналитических нагрузок. Интересно, как работает их движок.
Data Mesh в Netflix ⎋ в своем тех.блоге описывают платформу данных и то, как подход дата-меш помог прийти к лучшему качеству, создать каталог данных и трэчить линедж.
PS: 3-6 октября проходит ApacheCon ⎋. Доклады - топ!
OpenXLA Project
Коллеги, что вам может пригодиться в работе, о чем хотелось бы узнать в деталях?
Anonymous Poll
9%
Apache TVM
30%
Apache StreamPark
17%
Visual Data Preparation
13%
SurrealDB
67%
Data Mesh
Коллеги, добрый день! 🐝
В продолжение рубрики #втренде просим вас пройти краткий опрос ⬆️⬆️⬆️.
Спасибо!
В продолжение рубрики #втренде просим вас пройти краткий опрос ⬆️⬆️⬆️.
Спасибо!