Небольшой Q&A про data engineering.
Medium
Introduction to Data Engineering
A Q&A for the most frequently asked questions about data engineering.
Forwarded from TechSparks
В США случился новый и несколько неожиданный наезд на Facebook, который может коснуться и других технологических компаний -- и уж точно не останется без их внимания. Министерство юстиции объявило, что выдвигает обвинения против Фейсбука; компания виновна в том, что с 2018 года последовательно дискриминировала граждан Америки при найме, предпочитая им иммигрантов. Компания при этом помогала с получением временных рабочих виз.
"Our message to all employers -- including those in the technology sector -- is clear: you cannot illegally prefer to recruit, consider, or hire temporary visa holders over U.S. workers."
Интересно, насколько пострадает ФБ и как изменится практика глобального найма, которая не только для ФБ характерна
https://abcnews.go.com/Business/justice-department-alleges-facebook-discriminated-american-workers-lawsuit/story?id=74523040
"Our message to all employers -- including those in the technology sector -- is clear: you cannot illegally prefer to recruit, consider, or hire temporary visa holders over U.S. workers."
Интересно, насколько пострадает ФБ и как изменится практика глобального найма, которая не только для ФБ характерна
https://abcnews.go.com/Business/justice-department-alleges-facebook-discriminated-american-workers-lawsuit/story?id=74523040
ABC News
Justice Department alleges Facebook discriminated against American workers in new lawsuit
The Justice Department announced Thursday that it filed a lawsuit against Facebook, alleging the social media giant discriminated against U.S. workers.
Adobe’s experience platform data lake currently processing ~1 million batches per day, which equates roughly to 13TB of data and 32 billion events. Data management at scale brings unique challenges of data reliability, read reliability, and scalability. Adobe writes an excellent post with an overview of the data lake and the effective usage of Apache Iceberg to manages the data lake.
Medium
Iceberg at Adobe
After performing several successful Proofs-of-Concept we started down the path of migrating to Apache Iceberg. Here’s why.
Сегодня можно будет посмотреть dbt101 на английском. Важный элемент экосистемы инженера данных, можно не использовать, но надо знать, что это такое.
Автор книги Building Data Teams, выступил на подкасте про data engineering.
Data Engineering Podcast
Data Engineering Podcast: Proven Patterns For Building Successful Data Teams
An interview with Jesse Anderson about the lessons that he has learned from helping organizations large and small built high functioning data teams that are able to turn big data into valuable products.
The Future Job Report.pdf
10.6 MB
Отчет за октябрь по профессиям будущего. Data Engineer в списке, сразу после AI.🚀
Аналитическое хранилище данных Amazon Redshift получило возможность использовать ML с помощью SQL. В целом индустрия идёт по пути упрощения методов анализа данных.
Amazon
Create, train, and deploy machine learning models in Amazon Redshift using SQL with Amazon Redshift ML | Amazon Web Services
December 2022: Post was reviewed and updated to announce support of Prediction Probabilities for Classification problems using Amazon Redshift ML. Amazon Redshift is a fast, petabyte-scale cloud data warehouse data warehouse delivering the best price–performance.…
Я немного изучаю Databricks. У них курсы бесплатные онлайн. Моя идея, эмигрировать все на databricks для gears. Сейчас у нас HDInsight+Hive, Azure Data Factory, SQL Server, SSIS. Я хочу все заменить на Databricks. Мне это даст возможность использовать данные стриминга (game telemetry) и легче интегрировать ML, иначе это будет зоопарк технологий. Конечно можно было все тоже самое сделать на Azure Synapse (облачное хранилище данных, можно сделать lakehouse), но я специально хочу Spark + Python. Чтобы я могу точно ответить чем DataBricks c Delta Lake отличается от Redshift и Snowflake.
Я уже писал, что у DataBricks все курсы онлайн бесплатно, вот интересный курс для всех - Just Enough Python for Apache Spark
PS если вы учитесь на инженера данных или вы инженер данных, то важно знать назначение всех технологий выше и разницу между, например, озером данных или хранилищем данных, а есть еще lake house. Все обязательно пройдем на datalearn.
Я уже писал, что у DataBricks все курсы онлайн бесплатно, вот интересный курс для всех - Just Enough Python for Apache Spark
PS если вы учитесь на инженера данных или вы инженер данных, то важно знать назначение всех технологий выше и разницу между, например, озером данных или хранилищем данных, а есть еще lake house. Все обязательно пройдем на datalearn.
Роман подготовил новый вебинар, копирую из slack! Всех прокачаем!🤩
Всем привет!
У нас подоспел новый вебинар, на котором будет практика и вы сможете повторить все действия и даже выложить в паблик, что будет плюсом для портфолио
Тема - SQL в анализе данных 101. Решаем прикладную задачу сегментации.
Когда: 10 декабря (четверг) в 19:00 по мск
Спикер: Eugene Kudashev . Вы наверное уже его знаете из чатов 😊
Описание вебинара:
Разберем полный цикл задачи в анализе данных на примере RFM сегментации. Построим простое решение с помощью SPARK SQL на базе databricks community edition и построим дашборд с результатами в Tableau public.
Ссылка: https://youtu.be/72mRlugPKNI
Рекомендации:
установить табло десктоп - на нашем где инструкция как установить его на год бесплатно, заварить чай и быть в онлайне на нашем ютубе в назначенное время☺️
Подписывайтесь на наш ютуб канал datalearn и не забывайте нажимать на колокольчик, чтобы не пропустить выход новых видео, а также огромная просьба делиться видео с друзьями и коллегами.
Хорошим материалом делиться надо ☺️
Всех обнял, до встречи в эфире🤗
Всем привет!
У нас подоспел новый вебинар, на котором будет практика и вы сможете повторить все действия и даже выложить в паблик, что будет плюсом для портфолио
Тема - SQL в анализе данных 101. Решаем прикладную задачу сегментации.
Когда: 10 декабря (четверг) в 19:00 по мск
Спикер: Eugene Kudashev . Вы наверное уже его знаете из чатов 😊
Описание вебинара:
Разберем полный цикл задачи в анализе данных на примере RFM сегментации. Построим простое решение с помощью SPARK SQL на базе databricks community edition и построим дашборд с результатами в Tableau public.
Ссылка: https://youtu.be/72mRlugPKNI
Рекомендации:
установить табло десктоп - на нашем где инструкция как установить его на год бесплатно, заварить чай и быть в онлайне на нашем ютубе в назначенное время☺️
Подписывайтесь на наш ютуб канал datalearn и не забывайте нажимать на колокольчик, чтобы не пропустить выход новых видео, а также огромная просьба делиться видео с друзьями и коллегами.
Хорошим материалом делиться надо ☺️
Всех обнял, до встречи в эфире🤗
YouTube
SQL В АНАЛИЗЕ ДАННЫХ РЕШАЕМ ПРИКЛАДНУЮ ЗАДАЧУ / ЕВГЕНИЙ КУДАШЕВ
Разберем полный цикл задачи в анализе данных на примере RFM сегментации. Построим простое решение с помощью SPARK SQL на базе databricks community edition и построим дашборд с результатами в Tableau public.
Ссылка на материалы в видео и презентацию:
http…
Ссылка на материалы в видео и презентацию:
http…
А я буду рассказывать про свою профессию и другие профессии, которые работают с данными на образовательном онлайн-фестивале и онлайн-интенсиве по технологическим сферам - ТехноИнновации
Вы слышали про Slowly Changing Dimensions (SCDs)? Вот про них небольшая статья с примерами.
The Holistics Blog
Slowly Changing Dimensions (SCDs) In The Age of The Cloud Data Warehouse
What a new approach to slowly changing dimensions tell us about the future of dimensional data modeling.
Ещё одно подтверждение насколько snowflake крут, и как он меняет индустрию и заставляет других развиваться. Вот и Redshift подготовил data sharing.
Amazon
Announcing Amazon Redshift data sharing (preview) | Amazon Web Services
Amazon Redshift is a fast, scalable, secure, and fully managed cloud data warehouse that makes it simple and cost-effective to analyze all your data using standard SQL. Amazon Redshift offers up to 3x better price performance than any other cloud data warehouse.…
В штате Флорида, data scientist самостоятельно собирал данные по ковиду, и его данные отличались от официальных, к ним домой ворвались агенты с оружием, изъяли всю технику. Так что, сами понимаете - статистика наука точная)
BBC News
Police raid home of Florida Covid-19 tracker creator
Rebekah Jones was fired from the Department of Health after accusing it of manipulating virus data.
Еще один кейс ML. Особенно актуальный после сериала Queen’s Gambit от Neyflix. Я его посмотрел, мне очень понравился. Тоже решил записать детей на шахматы онлайн😎 Если кто по скайп нанимает репетиторов для детей 6-8 лет, поделитесь в комментариях.
Meduza
Из-за изоляции и сериала «Ход королевы» все начали играть в шахматы онлайн. Но что делать с читерами?
Из-за вынужденной изоляции во время пандемии, а также на фоне популярности сериала «Ход королевы» люди по всему миру стали массово играть в шахматы онлайн. Это привело к беспрецедентному уровню читерства, когда игроки пользуются подсказками компьютерных программ.…