Теперь про Data Lakehouse
Архитектура data lakehouse объединяет преимущества хранилищ данных и озер данных, предоставляя высокую производительность и простоту использования, а также низкие затраты и гибкость.
Основные преимущества Data Lakehouse:
Сочетание хранилищ и озер данных: Data lakehouse использует механизмы, которые позволяют реализовать функции, характерные для хранилищ данных (гарантии ACID, лучшая производительность, консистентность), на основе инфраструктуры озер данных.
Единое хранилище данных: Данные хранятся в тех же местах и форматах, что и в озере данных, но за счет нового формата таблиц улучшаются производительность и гарантии ACID.
Уменьшение копий данных: Благодаря ACID-гарантиям и улучшенной производительности можно выполнять обновления и другие манипуляции с данными в lakehouse, снижая количество копий данных и, соответственно, затраты на хранение и вычисления.
Быстрые запросы: Оптимизации на уровне движка запросов, формата таблиц и формата файлов позволяют получать инсайты быстрее.
Исторические снимки данных (snapshots): Форматы таблиц lakehouse позволяют сохранять исторические снимки данных, что облегчает восстановление и проверку данных.
Экономичность: Data lakehouse помогает снизить затраты на хранение и вычисления по сравнению с традиционными хранилищами данных.
Открытая архитектура: Использование открытых форматов, таких как Apache Iceberg и Apache Parquet, предотвращает зависимость от поставщиков и позволяет использовать различные инструменты для работы с данными.
Если по простому, то Lakehouse это взять лучшие свойства Data Warehouse и лучшие свойства Data Lake и смешать их.
Lakehouse = DW + DL.
Самый яркий пример Lakehouse это Databricks.
Что такое Databricks? Это просто виртуальные машины со Spark, которые читают данных из облачного сториджа (AWS S3, Azure Storage, GCP bucket). Если данные у нас в формате Parquet, ORC, CSV, JSON, то это просто обычное озеро данных. А вот если мы будем использовать специальный формат таблицы (table format) Delta, Iceberg, Hudi, то уже Lakehouse. Там конечно вам расскажут про Unified Analytics (типа все вместе трудятся в одном workspace), Unity Catalog, Delta Streaming, Repos и другие фичи, которые созданы для Enterprise.
Другой пример такой архитектуры это Snowflake. Мы привыкли, что Snowflake это хранилище данных, хотя по факту это такой же decouple между Storage (sharing everything) и Compute (sharing nothing). Единственный минус (он же и плюс) - данные хранятся в свое собственном формате, чтобы клиенты из-за высоких расходов кредитов не убежали к Databricks🤱
Еще пример Lakehouse:
- AWS Athena + Iceberg
- Trino + Iceberg
- Synapse Serverless + Delta
Выбор как это хостить:
- ( Managed Service) ( Пример Athena, Synapse Serverless, GCP Dataproc Spark, EMR Servrless, AWS Glue)
- (Managed) Kubernetes (Пример Trino, Clickhouse, DuckDB)
- PaaS (Пример Databricks, AWS, EMR, Azure HDInsights, Synapse Spark)
- On-premise (Hadoop + HDFS)
Когда что использовать? Ну здесь сами понимаете, зависит от команды и бюджета. Можно просто и дорого, можно сложно и дорого (возможно подешевле за инфру, но команда будет больше и дороже).
Мне как простому инженеру вообще все-равно, главное чтобы ЗП капнула вовремя😊
А так прикольно понимать разницу и уметь работать с этим зоопарком🥂
Архитектура data lakehouse объединяет преимущества хранилищ данных и озер данных, предоставляя высокую производительность и простоту использования, а также низкие затраты и гибкость.
Основные преимущества Data Lakehouse:
Сочетание хранилищ и озер данных: Data lakehouse использует механизмы, которые позволяют реализовать функции, характерные для хранилищ данных (гарантии ACID, лучшая производительность, консистентность), на основе инфраструктуры озер данных.
Единое хранилище данных: Данные хранятся в тех же местах и форматах, что и в озере данных, но за счет нового формата таблиц улучшаются производительность и гарантии ACID.
Уменьшение копий данных: Благодаря ACID-гарантиям и улучшенной производительности можно выполнять обновления и другие манипуляции с данными в lakehouse, снижая количество копий данных и, соответственно, затраты на хранение и вычисления.
Быстрые запросы: Оптимизации на уровне движка запросов, формата таблиц и формата файлов позволяют получать инсайты быстрее.
Исторические снимки данных (snapshots): Форматы таблиц lakehouse позволяют сохранять исторические снимки данных, что облегчает восстановление и проверку данных.
Экономичность: Data lakehouse помогает снизить затраты на хранение и вычисления по сравнению с традиционными хранилищами данных.
Открытая архитектура: Использование открытых форматов, таких как Apache Iceberg и Apache Parquet, предотвращает зависимость от поставщиков и позволяет использовать различные инструменты для работы с данными.
Если по простому, то Lakehouse это взять лучшие свойства Data Warehouse и лучшие свойства Data Lake и смешать их.
Lakehouse = DW + DL.
Самый яркий пример Lakehouse это Databricks.
Что такое Databricks? Это просто виртуальные машины со Spark, которые читают данных из облачного сториджа (AWS S3, Azure Storage, GCP bucket). Если данные у нас в формате Parquet, ORC, CSV, JSON, то это просто обычное озеро данных. А вот если мы будем использовать специальный формат таблицы (table format) Delta, Iceberg, Hudi, то уже Lakehouse. Там конечно вам расскажут про Unified Analytics (типа все вместе трудятся в одном workspace), Unity Catalog, Delta Streaming, Repos и другие фичи, которые созданы для Enterprise.
Другой пример такой архитектуры это Snowflake. Мы привыкли, что Snowflake это хранилище данных, хотя по факту это такой же decouple между Storage (sharing everything) и Compute (sharing nothing). Единственный минус (он же и плюс) - данные хранятся в свое собственном формате, чтобы клиенты из-за высоких расходов кредитов не убежали к Databricks
Еще пример Lakehouse:
- AWS Athena + Iceberg
- Trino + Iceberg
- Synapse Serverless + Delta
Выбор как это хостить:
- ( Managed Service) ( Пример Athena, Synapse Serverless, GCP Dataproc Spark, EMR Servrless, AWS Glue)
- (Managed) Kubernetes (Пример Trino, Clickhouse, DuckDB)
- PaaS (Пример Databricks, AWS, EMR, Azure HDInsights, Synapse Spark)
- On-premise (Hadoop + HDFS)
Когда что использовать? Ну здесь сами понимаете, зависит от команды и бюджета. Можно просто и дорого, можно сложно и дорого (возможно подешевле за инфру, но команда будет больше и дороже).
Мне как простому инженеру вообще все-равно, главное чтобы ЗП капнула вовремя😊
А так прикольно понимать разницу и уметь работать с этим зоопарком🥂
Please open Telegram to view this post
VIEW IN TELEGRAM
💯28🍌16🗿5❤🔥2😈1🎄1
Увидел вакансию VP data на зарплату до 217к CAD. При этом иногда Sr Data Engineer 180к-200к, чтобы несколько часов в день код пописать, баги пофиксить и дальше своими делами заниматься и митингов 4 штуки в неделю. Вы точно хотите быть VP в Канаде?!🫣
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿24🤷♂8
Продолжаем нашу тему про Lakehouse. Самое важное это формат таблицы (table format).
Формат таблиц — это метод структурирования файлов набора данных, чтобы представить их как единую "таблицу".
Основная цель формата таблиц — предоставить абстракцию, которая позволяет пользователям и инструментам легко и эффективно взаимодействовать с данными.
Форматы таблиц существуют с момента появления реляционных СУБД, таких как System R, Multics и Oracle. Эти системы позволяли пользователям обращаться к набору данных как к таблице, абстрагируя сложные детали хранения данных на диске.
В современных системах большие объемы данных хранятся как файлы в хранилищах данных (например, Amazon S3, Azure Data Lake Storage, Google Cloud Storage). Использование SQL или кода для работы с этими файлами может быть неудобным и приводить к несогласованности данных.
Изначально изобрели Hive и он стал стандартом формата таблиц. Hive был разработан Facebook в 2009 году для упрощения аналитики в Hadoop, предоставляя возможность писать SQL-запросы вместо сложных задач MapReduce. (MapReduce писался на Java🫣)
Формат таблиц Hive определяет таблицу как все файлы в указанной директории и использует Hive Metastore для отслеживания этих таблиц.
Простой пример:
Если вы запустите Apache Spark локально и создать с помощью Spark SQL таблицу или вью, то метанные сможете найти в Hive Metastore. В Databricks Hive тоже по умолчанию, но там лучше подключить Unity Catalog. В AWS Glue, лучше использовать Glue Catalog и тд. А так все это про метанные и их управление.
Преимущества Hive:
- Поддержка более эффективных запросов благодаря техникам, таким как разделение и хеширование.
- Независимость от формата файлов, что позволяет использовать такие форматы, как Apache Parquet.
- Возможность атомарных изменений на уровне разделов таблицы.
Недостатки Hive:
- Неэффективность изменений на уровне файлов.
- Отсутствие механизма для атомарного обновления нескольких разделов.
- Проблемы с одновременными обновлениями.
- Замедление запросов из-за необходимости чтения и списка файлов и директорий.
- Ограниченные статистические данные для оптимизации запросов.
- Проблемы с производительностью при большом количестве файлов в одном разделе.
Современные форматы таблиц, такие как Apache Iceberg, Apache Hudi и Delta Lake, решают проблемы Hive, определяя таблицы как канонический список файлов, а не директорий. Это позволяет реализовать функции, такие как транзакции ACID и "путешествие во времени". (Прям как у Snowflake😏)
- Apache Iceberg: Разработан в 2018 году в Netflix для обеспечения ACID-транзакций и улучшения производительности при работе с большими данными в озерах данных.
- Apache Hudi: Создан в 2016 году в Uber для поддержки инкрементных обновлений и предоставления ACID-гарантий в больших наборах данных. (Наиболее устаревший)
- Delta Lake: Создан Databricks в 2019 году для обеспечения надежных транзакций и управления данными в озерах данных, улучшая их производительность и надежность.
Преимущества современных форматов таблиц:
- Поддержка транзакций ACID.
- Безопасность транзакции при одновременной записи в файл
- Сбор статистики и метаданных для более эффективного планирования запросов.
Поэтому работая с данными сегодня, вы будете работать либо с аналитическим хранилищем данных (не важно, что у них внутри) BigQuery, Redshift, Snowflake и тп, либо использовать Lakehouse решения и один из 3х популярных открытых форматов данных. Таким образом scope инженера данных и не такой-то уж и большой.
Лучший вариант понять все это - сделать pet проекты. Взять один сценарий и реализовать его разными способами, даже если на входе всего 100 мб JSON файлов.
Мне кажется 30-40% типичного собеседования на дата инженера проходи за обсуждение плюсов и минусов того или иного решения.
Формат таблиц — это метод структурирования файлов набора данных, чтобы представить их как единую "таблицу".
Основная цель формата таблиц — предоставить абстракцию, которая позволяет пользователям и инструментам легко и эффективно взаимодействовать с данными.
Форматы таблиц существуют с момента появления реляционных СУБД, таких как System R, Multics и Oracle. Эти системы позволяли пользователям обращаться к набору данных как к таблице, абстрагируя сложные детали хранения данных на диске.
В современных системах большие объемы данных хранятся как файлы в хранилищах данных (например, Amazon S3, Azure Data Lake Storage, Google Cloud Storage). Использование SQL или кода для работы с этими файлами может быть неудобным и приводить к несогласованности данных.
Изначально изобрели Hive и он стал стандартом формата таблиц. Hive был разработан Facebook в 2009 году для упрощения аналитики в Hadoop, предоставляя возможность писать SQL-запросы вместо сложных задач MapReduce. (MapReduce писался на Java🫣)
Формат таблиц Hive определяет таблицу как все файлы в указанной директории и использует Hive Metastore для отслеживания этих таблиц.
Простой пример:
Если вы запустите Apache Spark локально и создать с помощью Spark SQL таблицу или вью, то метанные сможете найти в Hive Metastore. В Databricks Hive тоже по умолчанию, но там лучше подключить Unity Catalog. В AWS Glue, лучше использовать Glue Catalog и тд. А так все это про метанные и их управление.
Преимущества Hive:
- Поддержка более эффективных запросов благодаря техникам, таким как разделение и хеширование.
- Независимость от формата файлов, что позволяет использовать такие форматы, как Apache Parquet.
- Возможность атомарных изменений на уровне разделов таблицы.
Недостатки Hive:
- Неэффективность изменений на уровне файлов.
- Отсутствие механизма для атомарного обновления нескольких разделов.
- Проблемы с одновременными обновлениями.
- Замедление запросов из-за необходимости чтения и списка файлов и директорий.
- Ограниченные статистические данные для оптимизации запросов.
- Проблемы с производительностью при большом количестве файлов в одном разделе.
Современные форматы таблиц, такие как Apache Iceberg, Apache Hudi и Delta Lake, решают проблемы Hive, определяя таблицы как канонический список файлов, а не директорий. Это позволяет реализовать функции, такие как транзакции ACID и "путешествие во времени". (Прям как у Snowflake😏)
- Apache Iceberg: Разработан в 2018 году в Netflix для обеспечения ACID-транзакций и улучшения производительности при работе с большими данными в озерах данных.
- Apache Hudi: Создан в 2016 году в Uber для поддержки инкрементных обновлений и предоставления ACID-гарантий в больших наборах данных. (Наиболее устаревший)
- Delta Lake: Создан Databricks в 2019 году для обеспечения надежных транзакций и управления данными в озерах данных, улучшая их производительность и надежность.
Преимущества современных форматов таблиц:
- Поддержка транзакций ACID.
- Безопасность транзакции при одновременной записи в файл
- Сбор статистики и метаданных для более эффективного планирования запросов.
Поэтому работая с данными сегодня, вы будете работать либо с аналитическим хранилищем данных (не важно, что у них внутри) BigQuery, Redshift, Snowflake и тп, либо использовать Lakehouse решения и один из 3х популярных открытых форматов данных. Таким образом scope инженера данных и не такой-то уж и большой.
Лучший вариант понять все это - сделать pet проекты. Взять один сценарий и реализовать его разными способами, даже если на входе всего 100 мб JSON файлов.
Мне кажется 30-40% типичного собеседования на дата инженера проходи за обсуждение плюсов и минусов того или иного решения.
❤🔥44⚡6🫡3🦄1
Сегодня я узнал новый термин - Data Clean room. Вообще никогда не слышал. Оказывается популярная штука:
Databricks: https://www.databricks.com/discover/enterprise-data-platform/clean-room
Snowflaek: https://www.snowflake.com/trending/data-clean-room-for-business-growth/
Big Query: https://cloud.google.com/bigquery/docs/data-clean-rooms
Возможно опять buzz words и hype, и вендоры как обычно пользуются непониманием😒
По факту это возможность предоставить данные в безопасной среде, где можно применить data masking, раздать права и производить мониторинг/аудит.
Все 3 вендора выше имеют функциональность Data Sharing. Но из статей вообще не понятно о чем они…
Кто нибудь строил clean room? Именно задача была сделать clean room (то есть термин использовался)
Databricks: https://www.databricks.com/discover/enterprise-data-platform/clean-room
Snowflaek: https://www.snowflake.com/trending/data-clean-room-for-business-growth/
Big Query: https://cloud.google.com/bigquery/docs/data-clean-rooms
Возможно опять buzz words и hype, и вендоры как обычно пользуются непониманием
По факту это возможность предоставить данные в безопасной среде, где можно применить data masking, раздать права и производить мониторинг/аудит.
Все 3 вендора выше имеют функциональность Data Sharing. Но из статей вообще не понятно о чем они…
Кто нибудь строил clean room? Именно задача была сделать clean room (то есть термин использовался)
Please open Telegram to view this post
VIEW IN TELEGRAM
Databricks
What Is a Data Clean Room? | Databricks
Discover how Databricks' Clean Room enables secure data collaboration and analysis while maintaining privacy and compliance.
❤🔥6🤷4💯2🐳1
Ну что тут говорить…. Все так🤱
Другой вопрос если с деньгами все порядке, можно себе позволить быть loyal или просто пилить стартапчик для души🍟
Другой вопрос если с деньгами все порядке, можно себе позволить быть loyal или просто пилить стартапчик для души
Please open Telegram to view this post
VIEW IN TELEGRAM
💯50🗿3
И на всякий случай!
Как казаться умным
- Спрашивайте "А будет ли это масштабироваться?" независимо от темы разговора
- Просите вернуться на один слайд назад без всякой причины
- Побуждайте всех "сделать шаг назад"
- Повторяйте последнюю фразу инженера, но очень медленно
- Спрашивайте, задаем ли мы правильные вопросы
- Ходите по комнате
- Выйдите и сделайте вид, что получили важный телефонный звонок
- Спрашивайте, не смешиваем ли мы несколько вопросов
- Перебивайте чье-то обновление, а затем дайте им закончить
- В онлайн звонке отправить emoji или reaction, и похвалить спикера
- Спросить про следующие шаги и action plan
- Уточнить сроки (dead line)
- Спросить есть ли у нас OKR и как мы будем их измерить?
- На всякие случай спросить, а результат точно имеет tangible output?
Дополните список!
Как казаться умным
- Спрашивайте "А будет ли это масштабироваться?" независимо от темы разговора
- Просите вернуться на один слайд назад без всякой причины
- Побуждайте всех "сделать шаг назад"
- Повторяйте последнюю фразу инженера, но очень медленно
- Спрашивайте, задаем ли мы правильные вопросы
- Ходите по комнате
- Выйдите и сделайте вид, что получили важный телефонный звонок
- Спрашивайте, не смешиваем ли мы несколько вопросов
- Перебивайте чье-то обновление, а затем дайте им закончить
- В онлайн звонке отправить emoji или reaction, и похвалить спикера
- Спросить про следующие шаги и action plan
- Уточнить сроки (dead line)
- Спросить есть ли у нас OKR и как мы будем их измерить?
- На всякие случай спросить, а результат точно имеет tangible output?
Дополните список!
🌚77💯68⚡16🫡12🙈11❤🔥7🐳2🗿2🍌1🦄1
Всем привет! Поделитесь пожалуйста ресурсами (телеграмм каналами, сайтами, форумами, агентствами) которые помогают с переездом в Европу, США, Канаду, Южную Америку или может быть поделится своими историями.
Будет полезно для всех подписчиков!
Или можете мне в личку скинуть, я потом опубликую список а то бот трет ссылки;
Спасибо!
Будет полезно для всех подписчиков!
Или можете мне в личку скинуть, я потом опубликую список а то бот трет ссылки;
Спасибо!
❤🔥16⚡5🗿1🦄1
This media is not supported in your browser
VIEW IN TELEGRAM
Встретимся в Петербурге, чтобы потусить и послушать короткие лайтнинги от коллег. Переключимся с работы на живое общение — так мы сможем не только подзарядиться, но и поймать новые идеи! В программе — прогулка по трём барам, настойки и коктейли, codebattle, задушевные разговоры и крутая вечеринка!
До встречи на Код-хоппинге! 🎉
Please open Telegram to view this post
VIEW IN TELEGRAM
🍾3🙈3
Mindbox ищет Senior Data Engineer-ов, чтобы усилить команду внутренней платформы данных.
Локация: можно полностью удаленно или из офисов в Москве/Ереване
Деньги: до 500net
Строим DeltaLake на Spark и подход DataMesh, чтобы доменные команды могли быстро и без посредников использовать данные друг друга для развития своих продуктов.
Ожидаем:
- Опыт решения сложных задач простым в поддержке и понимании кодом (ООП, SOLID, автотесты)
- Знание Python как родного, опыт промышленной разработки на статически типизированных языках C#/Java/Scala/Kotlin/C++
У нас:
- Современный Big Data стек
- Выделяем существенный ресурс (>30% времени) на уменьшение техдолга и поддержки
- Особенная культура: открытые зарплаты, право принять любое решение у каждого. Прямая обратная связь, возможность выбирать технологии и влиять на бэклог
- Well-being-программы: 300 000 ₽ в год на софинансирование образования, медицины, спорта, путешествий.
Ссылка на вакансию: https://hh.ru/vacancy/92849363?hhtmFrom=employer_vacancies
Резюме присылать Кате @ktitovaa
Локация: можно полностью удаленно или из офисов в Москве/Ереване
Деньги: до 500net
Строим DeltaLake на Spark и подход DataMesh, чтобы доменные команды могли быстро и без посредников использовать данные друг друга для развития своих продуктов.
Ожидаем:
- Опыт решения сложных задач простым в поддержке и понимании кодом (ООП, SOLID, автотесты)
- Знание Python как родного, опыт промышленной разработки на статически типизированных языках C#/Java/Scala/Kotlin/C++
У нас:
- Современный Big Data стек
- Выделяем существенный ресурс (>30% времени) на уменьшение техдолга и поддержки
- Особенная культура: открытые зарплаты, право принять любое решение у каждого. Прямая обратная связь, возможность выбирать технологии и влиять на бэклог
- Well-being-программы: 300 000 ₽ в год на софинансирование образования, медицины, спорта, путешествий.
Ссылка на вакансию: https://hh.ru/vacancy/92849363?hhtmFrom=employer_vacancies
Резюме присылать Кате @ktitovaa
hh.ru
Вакансия Senior Data Engineer в Москве, работа в компании Mindbox (вакансия в архиве c 13 ноября 2024)
Зарплата: не указана. Москва. Требуемый опыт: 3–6 лет. Полная занятость. Дата публикации: 31.10.2024.
❤🔥29🗿4
Выше я просил скинуть ссылки для релокации и поиска работы за границей, вот результат:
Телеграмм Каналы
https://t.me/unipage_study_abroad/1676 образование за рубежом
https://t.me/zarubezhom_jobs - Вакансии от 200+ зарубежных компаний с русскоговорящими фаундерами или командами. Наши читатели уже получили 100+ офферов в InDrive, Revolut, Wheely, Finom и другие компании💙
https://t.me/relohub_dn - Рассказываем, консультируем и помогаем в получении ВНЖ Испании на 3 года. Связаться с нами и задать вопросы можно тут: @relohub_spain. Наш сайт: [relohub.ru](http://relohub.ru/)
@portugal_migrun Сообщество номадов, фрилансеров, IT да и просто хороших людей, в процессе эмиграции =) Задаем вопросы, делимся опытом и поддерживаем друг друга! https://app.migrun.tech/ru/portugal
@o1eb1eb2 O1 виза, EB1 EB2 NIW гринкарта
@visatalents Чат создан чтоб помогать участникам в подготовки и получения визы для релокации в том числе в США, Великобританию, Францию, Канаду и Австралию.
@relocationdev Свежие новости: как и куда уехать, где получить ВНЖ и как забрать котика с собой.
@relocate_easy ✈️Канал по эмиграции/релокации
@astonspassport Канал “Nomad”
@relocateme IT jobs with relocation assistance, international job search tips, relocation stories, and more. Official website: [https://relocate.me](https://relocate.me/).
В Барселоне IT сообщество https://t.me/bcn_ithub
Сайты
http://rusforum.ca/ - форум про Канаду и программы иммиграции
https://www.gday.ru/forum/ - форум про Австралию
Вакансии
https://www.linkedin.com/posts/appodeal_barcelona-datascientist-dataengineer-activity-7218869419664375808-H5-D если все ок, то релокация в Барселону и помощь со всем начиная с визы для высококвалифицированных специалистов и подготовки документов, заканчивая детским садом/школой и страховкой. вакансии как DE, так и DS, DA, PM
=====
Есть еще целый раздел как иммигрировать в Россию. Недавно мои знакомые в Канаде получили Российское гражданство. Мы их знаем лет 7 и все это время они хотели получить гражданство и это очень сложный процесс, но этим летом все получилось. Но к сожалению на концерт Агутина они опоздали☺️
В целом для каждой страны в каждый отдельный момент времени есть свои программы, старайтесь использовать нетворкинг, чтобы найти людей, кто прошел этот путь относительно недавно, или кто за деньги может рассказать, что нужно делать.
Например в Канаду раньше были провинциальные программы, а вот сейчас все кого я знаю переехали через учебную программу.
В Европе многие находят хорошие варианты по Digital Nomad визам в Португалии и Испании.
Телеграмм Каналы
https://t.me/unipage_study_abroad/1676 образование за рубежом
https://t.me/zarubezhom_jobs - Вакансии от 200+ зарубежных компаний с русскоговорящими фаундерами или командами. Наши читатели уже получили 100+ офферов в InDrive, Revolut, Wheely, Finom и другие компании💙
https://t.me/relohub_dn - Рассказываем, консультируем и помогаем в получении ВНЖ Испании на 3 года. Связаться с нами и задать вопросы можно тут: @relohub_spain. Наш сайт: [relohub.ru](http://relohub.ru/)
@portugal_migrun Сообщество номадов, фрилансеров, IT да и просто хороших людей, в процессе эмиграции =) Задаем вопросы, делимся опытом и поддерживаем друг друга! https://app.migrun.tech/ru/portugal
@o1eb1eb2 O1 виза, EB1 EB2 NIW гринкарта
@visatalents Чат создан чтоб помогать участникам в подготовки и получения визы для релокации в том числе в США, Великобританию, Францию, Канаду и Австралию.
@relocationdev Свежие новости: как и куда уехать, где получить ВНЖ и как забрать котика с собой.
@relocate_easy ✈️Канал по эмиграции/релокации
@astonspassport Канал “Nomad”
@relocateme IT jobs with relocation assistance, international job search tips, relocation stories, and more. Official website: [https://relocate.me](https://relocate.me/).
В Барселоне IT сообщество https://t.me/bcn_ithub
Сайты
http://rusforum.ca/ - форум про Канаду и программы иммиграции
https://www.gday.ru/forum/ - форум про Австралию
Вакансии
https://www.linkedin.com/posts/appodeal_barcelona-datascientist-dataengineer-activity-7218869419664375808-H5-D если все ок, то релокация в Барселону и помощь со всем начиная с визы для высококвалифицированных специалистов и подготовки документов, заканчивая детским садом/школой и страховкой. вакансии как DE, так и DS, DA, PM
=====
Есть еще целый раздел как иммигрировать в Россию. Недавно мои знакомые в Канаде получили Российское гражданство. Мы их знаем лет 7 и все это время они хотели получить гражданство и это очень сложный процесс, но этим летом все получилось. Но к сожалению на концерт Агутина они опоздали☺️
В целом для каждой страны в каждый отдельный момент времени есть свои программы, старайтесь использовать нетворкинг, чтобы найти людей, кто прошел этот путь относительно недавно, или кто за деньги может рассказать, что нужно делать.
Например в Канаду раньше были провинциальные программы, а вот сейчас все кого я знаю переехали через учебную программу.
В Европе многие находят хорошие варианты по Digital Nomad визам в Португалии и Испании.
❤🔥33⚡3🦄2
Media is too big
VIEW IN TELEGRAM
Для Surfalytics я уже закончил модуль 1 (он по счету 2й). В нем постарался понятным языком изложить всю суть аналитики и инжиниринга данных, чтобы было понятно вообще всем.
Я рассказал, что такое аналитика и какие у нее цели, рассмотрел пример бизнеса и конвертировал его в аналитическое решение с несколькими слоями, затем рассказал какая роль за что отвечает.
Нарисовал Mindmap в котором указал все что важно/полезно знать, если вы работаете с данными.
Детально разобрал road map для позиций Data Analyst, Analytics Engineer, Data Engineer и несколько бонус ролей - Support Engineer, Sales Engineer, Data Advocate/Evangelist.
Так же рассказал про виды дата команд и как они работаю в Agile, типичный пример про спринт из 2х недель.
Рассмотрел самые популярные типы файлов (JSON, CSV, PARQUET и тп) и вообще разные файлы которые можно встретить в репозитории, такие как
Рассмотрел аж 30 лет истории аналитических решений и ключевые инновации.
В качестве проекта по классике мы начинаем с дашборда в spreadsheet (Microsoft Excel).
Ссылка на playlist: https://www.youtube.com/playlist?list=PLNCDg7zJiXhMMCNkqLZ568Twc_wkxpb6c
Осталось еще 11 модулей🙃
Я рассказал, что такое аналитика и какие у нее цели, рассмотрел пример бизнеса и конвертировал его в аналитическое решение с несколькими слоями, затем рассказал какая роль за что отвечает.
Нарисовал Mindmap в котором указал все что важно/полезно знать, если вы работаете с данными.
Детально разобрал road map для позиций Data Analyst, Analytics Engineer, Data Engineer и несколько бонус ролей - Support Engineer, Sales Engineer, Data Advocate/Evangelist.
Так же рассказал про виды дата команд и как они работаю в Agile, типичный пример про спринт из 2х недель.
Рассмотрел самые популярные типы файлов (JSON, CSV, PARQUET и тп) и вообще разные файлы которые можно встретить в репозитории, такие как
.pre-commit.yaml, makefile, .gitignor и тп.Рассмотрел аж 30 лет истории аналитических решений и ключевые инновации.
В качестве проекта по классике мы начинаем с дашборда в spreadsheet (Microsoft Excel).
Ссылка на playlist: https://www.youtube.com/playlist?list=PLNCDg7zJiXhMMCNkqLZ568Twc_wkxpb6c
Осталось еще 11 модулей🙃
❤🔥131⚡31🍾14
This media is not supported in your browser
VIEW IN TELEGRAM
Вот такие будут футблоки детские и взрослые. Дети уже себе выбрали картинки, осталось все этого загрузить в Shopify и интегрировать с print-on-demand сервисом.
❤🔥31🗿4
Приходите на ML-тренировку Data Dojo Яндекса, которая пройдёт 14 августа в Петербурге!
На событии для начинающих в ML- и DS-сферах сможете послушать доклады победителей соревнований, узнать их лучшие решения и разобрать пару задач на офлайн-зарешке.
Среди спикеров:
🔹 Эдуард Мартынов, ВМК МГУ. Расскажет про обучение трансформеров для дискриминативных задач.
🔹 Александр Перевалов, HTWK Leipzig. Объяснит, как решать задачу извлечения данных, понимания и ответов на вопросы на основе таблиц из отчётности организаций.
🔹 Никита Синчинов, ML разработчик Яндекс. Поделится, как выиграть серебро, используя лик предоставленных в данных.
Перед стартом докладов разберёте несколько задач с руководителем группы разработки Лаборатории машинного интеллекта Яндекса Радославом Нейчевым. А после — нетворкинг.
Для тех, кто не сможет прийти лично, будет трансляция.
Зарегистрироваться по ссылке можно уже сейчас.
На событии для начинающих в ML- и DS-сферах сможете послушать доклады победителей соревнований, узнать их лучшие решения и разобрать пару задач на офлайн-зарешке.
Среди спикеров:
🔹 Эдуард Мартынов, ВМК МГУ. Расскажет про обучение трансформеров для дискриминативных задач.
🔹 Александр Перевалов, HTWK Leipzig. Объяснит, как решать задачу извлечения данных, понимания и ответов на вопросы на основе таблиц из отчётности организаций.
🔹 Никита Синчинов, ML разработчик Яндекс. Поделится, как выиграть серебро, используя лик предоставленных в данных.
Перед стартом докладов разберёте несколько задач с руководителем группы разработки Лаборатории машинного интеллекта Яндекса Радославом Нейчевым. А после — нетворкинг.
Для тех, кто не сможет прийти лично, будет трансляция.
Зарегистрироваться по ссылке можно уже сейчас.
❤🔥5🙈4🗿1
Ребята из DevCrowd впервые проводят большое исследование специалистов, работающих в направлениях DS/ML/AI:
- что входит в обязанности той или иной профессии
- какие навыки наиболее важны и каких знаний не хватает
- сколько зарабатывать специалисты в зависимости от опыта и грейда
- а так же полезные для развития каналы, курсы и книги
Проходите опрос, рассказывайте про ваш опыт и помогите сделать исследование максимально охватным. Его результаты появятся в открытом доступе в конце сентября, и помогут вам сравнить свои ожидания с рыночными, построить план своего развития, и просто понять, что происходит с индустрией!
👉Пройти опрос
Посмотреть другие исследования проекта
PS не реклама, просто дружеский пост.
- что входит в обязанности той или иной профессии
- какие навыки наиболее важны и каких знаний не хватает
- сколько зарабатывать специалисты в зависимости от опыта и грейда
- а так же полезные для развития каналы, курсы и книги
Проходите опрос, рассказывайте про ваш опыт и помогите сделать исследование максимально охватным. Его результаты появятся в открытом доступе в конце сентября, и помогут вам сравнить свои ожидания с рыночными, построить план своего развития, и просто понять, что происходит с индустрией!
👉Пройти опрос
Посмотреть другие исследования проекта
PS не реклама, просто дружеский пост.
DevCrowd
Недушные рисерчи российского IT. Мы опросили уже 10000+ айтишников
❤🔥5🗿3
По моему мнению, сейчас для всех людей кто начинает работать с данными в контексте аналитики важно с первого дня обучения или работы по профессии знать следующие вещи:
- Командная строка (CLI), та самая, которая у вас могла быть в школе на информатик в CMD. Сейчас если у вас MacOS, то
- Среда разработки (IDE), самый лучший вариант это VSCode. Бесплатно и есть плагины для всего. Отлично подойдет, чтоб редактировать файлы, писать код и запускать окошко с командной строкой.
- Git система. Самая популярная и бесплатная это GitHub. Создайте себе аккаунт и каждый день делайте туда commit, через branch, чтобы потом сделать Pull Request. А еще вы можете бесплатно запостить свой сайт про себя, использую GitHub Pages.
- Markdown - очень просто текстовый язык. Используйте его, чтобы создавать в каждой папке в вашем репозитории GitHub файлик
- Контейнеры, используйте Docker File, потренируйтесь создавать к `DockerFile и потом к нему подключаться.
Как правило все эти навыки не обязательны для аналитиков и BI разработчиков. Но это будет ваше преимущество и откроет вам много возможностей в будущем. А так же вы сможете быстро “въехать” в существующие проекты и понять, что где хранится и для чего делает, но и разговаривать на одном языке с инженерами. Да и быстрей станете сами инженером, ведь им платят больше!
PS Обо всем этом я рассказывал в 0м модуле Surfalytics (на английском) с упражнениями и примерами. В 1м модуле я рассказывал про роли и roadmap. А сейчас уже записываю 2й модуль и во 2м уроке мы использовали SQLite, Postgres на локальной машине, а потом тоже самое но в Docker контейнере.
Возможно вам будет сложно на английском, но мой английский с русским акцентом вам должен быть понятен, и сам навык английского очень важен, я еще в 2010 году читал Kimbal на английском и различные блоги и документацию. Поэтому Surfalytics для вас как бесплатный сериальчик на английском с субтитрами. А если прям хотите каждый день практиковаться, приходите в Surfalytics сообщество.
PPS еще есть замечательная книга Missing Readme, которая на пальцах рассказывает, что зачем для junior software engineer.
Подписывайтесь на YouTube, это мне поможет, я верю, что материал хороший, но сложно сейчас пробиться с 0, поэтому like, follow очень помогает!
- Командная строка (CLI), та самая, которая у вас могла быть в школе на информатик в CMD. Сейчас если у вас MacOS, то
Zsh с приятными плагинами Oh My Zsh, если Windows, то сразу ставьте Ubuntu WSL.- Среда разработки (IDE), самый лучший вариант это VSCode. Бесплатно и есть плагины для всего. Отлично подойдет, чтоб редактировать файлы, писать код и запускать окошко с командной строкой.
- Git система. Самая популярная и бесплатная это GitHub. Создайте себе аккаунт и каждый день делайте туда commit, через branch, чтобы потом сделать Pull Request. А еще вы можете бесплатно запостить свой сайт про себя, использую GitHub Pages.
- Markdown - очень просто текстовый язык. Используйте его, чтобы создавать в каждой папке в вашем репозитории GitHub файлик
readme.md и там описывайте шаги, храните код. Намного полезней, чем Google Doc. Конечно не так удобно как Notion, но пользы лучше. И в конце-концов ваш GitHub профайл, это ваш актив. - Контейнеры, используйте Docker File, потренируйтесь создавать к `DockerFile и потом к нему подключаться.
Как правило все эти навыки не обязательны для аналитиков и BI разработчиков. Но это будет ваше преимущество и откроет вам много возможностей в будущем. А так же вы сможете быстро “въехать” в существующие проекты и понять, что где хранится и для чего делает, но и разговаривать на одном языке с инженерами. Да и быстрей станете сами инженером, ведь им платят больше!
PS Обо всем этом я рассказывал в 0м модуле Surfalytics (на английском) с упражнениями и примерами. В 1м модуле я рассказывал про роли и roadmap. А сейчас уже записываю 2й модуль и во 2м уроке мы использовали SQLite, Postgres на локальной машине, а потом тоже самое но в Docker контейнере.
Возможно вам будет сложно на английском, но мой английский с русским акцентом вам должен быть понятен, и сам навык английского очень важен, я еще в 2010 году читал Kimbal на английском и различные блоги и документацию. Поэтому Surfalytics для вас как бесплатный сериальчик на английском с субтитрами. А если прям хотите каждый день практиковаться, приходите в Surfalytics сообщество.
PPS еще есть замечательная книга Missing Readme, которая на пальцах рассказывает, что зачем для junior software engineer.
Подписывайтесь на YouTube, это мне поможет, я верю, что материал хороший, но сложно сейчас пробиться с 0, поэтому like, follow очень помогает!
YouTube
Surfalytics-Module0
Share your videos with friends, family, and the world
❤🔥151🐳8⚡7💯2🗿1
Forwarded from Время Валеры
Начал активно нанимать в BP в Куала- Лумпуре, столице Малайзии. Визу делаем. Нужны дата-аналитики (мидлы-синьоры-стафы),
Дата Инженеры (мидлы-синьоры-стафы-принципал), МЛ Инженеры (мидлы-синьоры-стафы-принципал)
Если есть желание, резюме можно прислать на maiia.malenko@bp.com
Дата Инженеры (мидлы-синьоры-стафы-принципал), МЛ Инженеры (мидлы-синьоры-стафы-принципал)
Если есть желание, резюме можно прислать на maiia.malenko@bp.com
⚡17🗿3🫡2🤷♀1
И как раз Smart Data опубликовала мой доклад про архитектуры решений, которые я строил и вообще про срез знаний моей бурной data engineering деятельности.
Дмитрий Аношин — Примеры реальных аналитических решений и дата-команд в западных компаниях
Я выступал у них 3 раза уже, но в этот раз без меня😔 .
Вообще изначально главная идея телеграмм канала была именно писать контент на русском и летать в Москву/Питер выступать на конференциях. Очень надеюсь в будущем так и будет и выступлю на конференции в Москве и чего-нибудь расскажу, чему-нибудь научу📊
Дмитрий Аношин — Примеры реальных аналитических решений и дата-команд в западных компаниях
Я выступал у них 3 раза уже, но в этот раз без меня
Вообще изначально главная идея телеграмм канала была именно писать контент на русском и летать в Москву/Питер выступать на конференциях. Очень надеюсь в будущем так и будет и выступлю на конференции в Москве и чего-нибудь расскажу, чему-нибудь научу
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Дмитрий Аношин — Примеры реальных аналитических решений и дата-команд в западных компаниях
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта SmartData — https://jrg.su/lwPwvf
Дмитрий работает кем-то вроде консультанта по внедрению современных аналитических решений как open source, так и коммерческих — Databricks…
— —
Скачать презентацию с сайта SmartData — https://jrg.su/lwPwvf
Дмитрий работает кем-то вроде консультанта по внедрению современных аналитических решений как open source, так и коммерческих — Databricks…
❤🔥57⚡8💯2🍾2
Я решил под конец дня выполнить недельный план и вместе со стажером и ChatGPT запушить код, но к сожалению GitHub умер на самом финише.
Я думаю у многих проблемы, ну можно закрывать ноут и гулять, еще лето! И надо переходить на импортозамещение
Статус https://www.githubstatus.com/
Я думаю у многих проблемы, ну можно закрывать ноут и гулять, еще лето! И надо переходить на импортозамещение
Статус https://www.githubstatus.com/
🍾18
История из жизни.
Говорю директору у нас тут полный треш (tech debt, open source, операционка, все падает каждый день и вообще какая-то сухо…чка) и вообще нет никакого инцентива продолжать все это, и типа я сваливаю, давай до свидание.
А он говорит, реально треш, надо валить, и спрашивает нет ли у меня вариантов для него🤣
Говорю директору у нас тут полный треш (tech debt, open source, операционка, все падает каждый день и вообще какая-то сухо…чка) и вообще нет никакого инцентива продолжать все это, и типа я сваливаю, давай до свидание.
А он говорит, реально треш, надо валить, и спрашивает нет ли у меня вариантов для него🤣
🐳68💯24🙈13😈10🫡8⚡4🍌3
Forwarded from Charts Club | Петров визуализирует
Что такое VCS и как с помощью неё уменьшить косты бизнеса?
Version Control System (VCS) — это система управления версиями, которая позволяет отслеживать изменения в коде софта или других файлах проекта.
С VCS вы можете вернуться к любой предыдущей версии софта, просмотреть историю изменений, а также работать над проектом в команде, избегая конфликтов.
Эта система позволяет разработчикам эффективно управлять проектами, независимо от их размера и сложности, экономя время и деньги. Таким образом, это повышение эффективности в управлении ресурсами дает компании возможность уменьшить косты.
Плюсы использования:
1️⃣ История изменений — можно легко отследить, кто и когда вносил изменения, и откатиться на любую предыдущую версию;
2️⃣ Параллельная работа — разработчики могут работать над разными частями проекта одновременно, не мешая друг другу;
3️⃣ Резервное копирование — ваш код всегда будет безопасен, так как его копии хранятся на удаленном сервере;
4️⃣ Простота коллаборации — легко делиться кодом с другими участниками команды;
Минусы использования:
1️⃣ Кривая обучения — для новичков VCS может показаться сложным;
2️⃣ Конфликты слияния — при работе над одними и теми же файлами могут возникать конфликты, которые нужно вручную разрешать;
Основные поставщики:
1️⃣ GitHub — крупнейший репозиторий кода, предоставляющий как платные, так и бесплатные тарифы;
2️⃣ GitLab — аналог GitHub с расширенными функциями DevOps;
3️⃣ Bitbucket — поддерживает работу с приватными репозиториями бесплатно для небольших команд;
4️⃣ Azure Repos — часть экосистемы Microsoft Azure, интегрируется с другими сервисами Microsoft;
Использование VCS — это ключ к эффективному управлению проектами и командной работе. Внедряя VCS в свои процессы, вы значительно упростите разработку и повысите её качество.
Присоединяйтесь к Data Verse
#технологии
Version Control System (VCS) — это система управления версиями, которая позволяет отслеживать изменения в коде софта или других файлах проекта.
С VCS вы можете вернуться к любой предыдущей версии софта, просмотреть историю изменений, а также работать над проектом в команде, избегая конфликтов.
Эта система позволяет разработчикам эффективно управлять проектами, независимо от их размера и сложности, экономя время и деньги. Таким образом, это повышение эффективности в управлении ресурсами дает компании возможность уменьшить косты.
Плюсы использования:
Минусы использования:
Основные поставщики:
Использование VCS — это ключ к эффективному управлению проектами и командной работе. Внедряя VCS в свои процессы, вы значительно упростите разработку и повысите её качество.
Присоединяйтесь к Data Verse
#технологии
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿16❤🔥5⚡4🙈1🫡1