Главный data engineer influencer написал пост как он обрабатывал data set 100TB + (для особо современных подписчиках у него доступна версия в ТикТок). На картинке изображено дерево, как он обрабатывал каждый час и merge по 2 часа, потом по 4 часа и тп.
Он классно обозначал проблемы:
- data retention
- cost of storage (у нас кстати на одном проекте в S3 образовалось 700TB данных, а используем только 40)
- IO проблема
- data shuffle
Это еще повезло, что не надо исторически обновлять данные, так как это просто события. А прикиньте у вас данные по клиентам, и там например нужно взять сессию клиента, которая больше часа или 24 часов и использовать оконную функцию, тут уже так красиво не сделать.
Он классно обозначал проблемы:
- data retention
- cost of storage (у нас кстати на одном проекте в S3 образовалось 700TB данных, а используем только 40)
- IO проблема
- data shuffle
Это еще повезло, что не надо исторически обновлять данные, так как это просто события. А прикиньте у вас данные по клиентам, и там например нужно взять сессию клиента, которая больше часа или 24 часов и использовать оконную функцию, тут уже так красиво не сделать.
💯27👨💻5❤🔥4⚡3
Все-таки Excel это отличная база. Satya Nadella не даст соврать! https://youtu.be/Gmz74e0r87M?si=IiRi3NNjHeQF03vO
YouTube
Old Video Of Microsoft CEO Satya Nadella Giving Excel Demo #shorts #microsoft #satyanadella
Today, he's the CEO of a $1.8 trillion company.
In 1993, he was just another middle manager doing Excel demos.
Satya Nadella worked at Microsoft for 22 years.
He climbed the ladder.
And is worth ~$700 million today.
There are many ways to win.
#shorts…
In 1993, he was just another middle manager doing Excel demos.
Satya Nadella worked at Microsoft for 22 years.
He climbed the ladder.
And is worth ~$700 million today.
There are many ways to win.
#shorts…
💯23🌚3⚡2🤷1
Кто-то из вас уже получил письмо от Surfalytics! Ведь для datalearn я специально собирал emails студентов последние 3 года, чтобы потом рассказать им про Surfalytics.
Главная идея в том, что datalearn был эксперимент, где я проверял, разные вещи, что работает, а что нет, чтобы потом развернуть это глобально, что сейчас и делаю.
Datalearn так и остался -7 модулей, от Excel до Databrikcs. Этих знаний хватит с головой, чтобы выучится и найти 1ю работу, либо просто закрыть пробелы. Главный навык это фундаментальные знания для аналитическиго решения, терминология, разделение задач по специализациям и обзор современных инструментов.
Телеграм канал как и раньше будет про новости в мире аналитики, мемы и личнй блог, и успешный успех. Все за что вы меня любите.☺️
Вот первая расслыка - https://blog.surfalytics.com/p/moving-datalearn-to-surfalytics можете подписаться, много разных интересных идей, про что написать, и обязательно напишу. Если интересно, подписывайтесь!
Меня пока сильно бросает, утром могу писать пост в группе facebook "айтишник в канаде", а вечером залететь к филипинцам в группу и начать рассказывать про замечательные возможности дата карьеры, и в перерывах придумывать проекты для субботу и ревьювить резюмешки в нашем Discord.
А сколько еще груп по миру и всем надо рассказать и показать, что такое Surfalytics, и почему именно он стоит их времени и внимания, по-сути я конкурию за внимание аудитории, чтобы люди не Netflix смотрели или играли в консоль, а учились и развивались вместе с нами, глядишь еще и на серфе вместе покатаемся🤩
Главная идея в том, что datalearn был эксперимент, где я проверял, разные вещи, что работает, а что нет, чтобы потом развернуть это глобально, что сейчас и делаю.
Datalearn так и остался -7 модулей, от Excel до Databrikcs. Этих знаний хватит с головой, чтобы выучится и найти 1ю работу, либо просто закрыть пробелы. Главный навык это фундаментальные знания для аналитическиго решения, терминология, разделение задач по специализациям и обзор современных инструментов.
Телеграм канал как и раньше будет про новости в мире аналитики, мемы и личнй блог, и успешный успех. Все за что вы меня любите.
Вот первая расслыка - https://blog.surfalytics.com/p/moving-datalearn-to-surfalytics можете подписаться, много разных интересных идей, про что написать, и обязательно напишу. Если интересно, подписывайтесь!
Меня пока сильно бросает, утром могу писать пост в группе facebook "айтишник в канаде", а вечером залететь к филипинцам в группу и начать рассказывать про замечательные возможности дата карьеры, и в перерывах придумывать проекты для субботу и ревьювить резюмешки в нашем Discord.
А сколько еще груп по миру и всем надо рассказать и показать, что такое Surfalytics, и почему именно он стоит их времени и внимания, по-сути я конкурию за внимание аудитории, чтобы люди не Netflix смотрели или играли в консоль, а учились и развивались вместе с нами, глядишь еще и на серфе вместе покатаемся🤩
Please open Telegram to view this post
VIEW IN TELEGRAM
Surfalytics
Moving DataLearn to Surfalytics
why do you get this email from Dmitry Anoshin?!
❤🔥84🍾8🌚4🙈2🫡1
Как использовать Spark в Kubernetes для обработки данных? Узнайте на бесплатном вебинаре
Разберем возможности, ограничения и специфические особенности работы с Apache Spark, развернутом на базе Kubernetes.
⏰ 05.12.2023, 15:00 МСК
⚡️Регистрация: https://bit.ly/3G8928x
В программе:
🔹 Запуск и настройка первого Spark приложения в Kubernetes.
🔹 Сценарии запуска пользовательского кода, в том числе с использованием S3.
🔹 Основные методы отладки, поиска ошибок и работы с логами в Spark Kubernetes.
🔹 QA-сессия.
Спикер:
- Александр Волынский, технический менеджер продукта, VK Cloud.
Приглашаем дата- и ML-инженеров, тимлидов и руководителей платформ данных, специалистов из команд DWH.
Регистрация: https://bit.ly/3G8928x
Разберем возможности, ограничения и специфические особенности работы с Apache Spark, развернутом на базе Kubernetes.
⏰ 05.12.2023, 15:00 МСК
⚡️Регистрация: https://bit.ly/3G8928x
В программе:
🔹 Запуск и настройка первого Spark приложения в Kubernetes.
🔹 Сценарии запуска пользовательского кода, в том числе с использованием S3.
🔹 Основные методы отладки, поиска ошибок и работы с логами в Spark Kubernetes.
🔹 QA-сессия.
Спикер:
- Александр Волынский, технический менеджер продукта, VK Cloud.
Приглашаем дата- и ML-инженеров, тимлидов и руководителей платформ данных, специалистов из команд DWH.
Регистрация: https://bit.ly/3G8928x
⚡23🐳5🍌1
Наверно придется найти время в busy schedule, чтобы пройти такой курс https://www.deeplearning.ai/courses/generative-ai-with-llms/ хоть понять когда там инженеров планируют заменить ботами))
DeepLearning.AI - Learning Platform
Generative AI with Large Language Models
Understand the generative AI lifecycle. Describe transformer architecture powering LLMs. Apply training/tuning/inference methods. Hear from researchers on generative AI challenges/opportunities.
🗿8🎄4😭1
This media is not supported in your browser
VIEW IN TELEGRAM
Всё о Machine Learning на YaTalks 2023: доклады топовых экспертов
Ждём вас на конференции YaTalks 2023 — крупнейшем мероприятии Яндекса для IT-сообщества. Более 100 экспертов индустрии соберутся, чтобы поделиться кейсами и идеями, которыми можно вдохновиться. Выступления будут 5 и 6 декабря: офлайн — в Москве и Белграде, онлайн — в любой точке мира.
Вот что обсудим в первый день в треке Machine Learning ↓
«Ускоритель в масштабе планеты: как инженеры управляют временем» — доклад о технологиях, которые увеличили скорость целых городов и стран, и о том, что происходит уже сейчас и ждёт нас в будущем.
Алексей Гусаков, технический директор, Яндекс Поиск
«Практические аспекты обучения диффузионных моделей на примере YandexART» — про процесс обучения генеративных картиночных диффузионных моделей от а до я.
Сергей Овчаренко, руководитель группы нейросетевых технологий компьютерного зрения, Яндекс Поиск
«Сильный ИИ — миф или уже реальность?» — что сейчас умеют LLM, с чем ещё, кроме текстов, умеют работать и как они могут помочь в создании сверхсильной интеллектуальной машины.
Андрей Кузнецов, руководитель научной группы FusionBrain, AIRI
Вас ждут не только доклады, но и нетворкинг, лайвкодинг, Random Coffee с коллегами, карьерные консультации и живые встречи с топовыми экспертами. Регистрируйтесь по ссылке на один из дней и приходите ↓
Зарегистрироваться
Реклама. ООО "Яндекс". erid: 2VtzqxJFN5W
Ждём вас на конференции YaTalks 2023 — крупнейшем мероприятии Яндекса для IT-сообщества. Более 100 экспертов индустрии соберутся, чтобы поделиться кейсами и идеями, которыми можно вдохновиться. Выступления будут 5 и 6 декабря: офлайн — в Москве и Белграде, онлайн — в любой точке мира.
Вот что обсудим в первый день в треке Machine Learning ↓
«Ускоритель в масштабе планеты: как инженеры управляют временем» — доклад о технологиях, которые увеличили скорость целых городов и стран, и о том, что происходит уже сейчас и ждёт нас в будущем.
Алексей Гусаков, технический директор, Яндекс Поиск
«Практические аспекты обучения диффузионных моделей на примере YandexART» — про процесс обучения генеративных картиночных диффузионных моделей от а до я.
Сергей Овчаренко, руководитель группы нейросетевых технологий компьютерного зрения, Яндекс Поиск
«Сильный ИИ — миф или уже реальность?» — что сейчас умеют LLM, с чем ещё, кроме текстов, умеют работать и как они могут помочь в создании сверхсильной интеллектуальной машины.
Андрей Кузнецов, руководитель научной группы FusionBrain, AIRI
Вас ждут не только доклады, но и нетворкинг, лайвкодинг, Random Coffee с коллегами, карьерные консультации и живые встречи с топовыми экспертами. Регистрируйтесь по ссылке на один из дней и приходите ↓
Зарегистрироваться
Реклама. ООО "Яндекс". erid: 2VtzqxJFN5W
❤🔥12👨💻3🍌2😈1
Эспертный совет как все успевать. Хотя за меня все уже сказали аж в 1969 году в передаче Фитиль. Всем к просмотру и внедрению в вашу ежедневную рутину - отличный пример чем инженер от СТАФФ инженера отличается😅
YouTube
Фитиль "Порожняк" (1969) смотреть онлайн
Смотрите на iPad: https://itunes.apple.com/ru/app/rvision-tv/id810243002
Подписывайтесь: http://www.youtube.com/subscription_center?add_user=FitilOfficial
Кинопортал RVision.tv - http://rvision.tv
Вступайте в группу: http://vk.com/rvision
Порожняк (1969)…
Подписывайтесь: http://www.youtube.com/subscription_center?add_user=FitilOfficial
Кинопортал RVision.tv - http://rvision.tv
Вступайте в группу: http://vk.com/rvision
Порожняк (1969)…
⚡35💯29👨💻5😭3🫡3
Будущее за децентрализацией.
Я не про blockchain. Но идея похожа. Я думал о том, почему одни успешнее других? И пришел к такомы выводу, что децентрализация образования, заработка, внимания и всего остального намного эффективней централизации.
Note: в начале карьры важна централизация, чтобы овладедь минимальными навыками в профессии.
Давайте рассмотрим несколько примеров.
1. Учеба, курсы, тренинги, повышение квалификации.
Ни одна школа, ни одни платные курсы вам не помогут получить нужный результат. Их фокус прибыль. Их воронка продаж это 1-2 success stories, и "обещания" найти работу в data, front-end, AI, QA и тп. (Я заметил, что самый треш происходит в Data Science, там вообще концов не найти, что учить, зачем, для чего).
Децентрализация обучения это возможность использовать открытые ресурсы и комбинировать их вметсе. Пример - вендорские тренинги Snowflake/Databricks, tutorials dbt/Astro. Хорошие видео на youtube, конференции, опыт экспертов.
Список и конфигурация будет всегда менятся в зависимости от движения рынка, региона, экономической и политической ситуации. Сегодня одно, завтра другое.
2. Децентрализация зароботка.
3. Децентрализация фокуса и внимания.
Например до 2023 года мой фокус был направлен на изучения технологий. Книги и тренинги по технологиям. Каждый год появлялось что-то новое. Видео про технологии, конференции про технологии. С утра до вечера про технологии. Технологическая централизация, которая не позволяла расширить горизонт. В 2024 году я буду делать и читать, что угодно, но только не еще одна технологическая книга или конференция. Профита от этого мало.
Что еще можно децентрализировать?
Я не про blockchain. Но идея похожа. Я думал о том, почему одни успешнее других? И пришел к такомы выводу, что децентрализация образования, заработка, внимания и всего остального намного эффективней централизации.
Note: в начале карьры важна централизация, чтобы овладедь минимальными навыками в профессии.
Давайте рассмотрим несколько примеров.
1. Учеба, курсы, тренинги, повышение квалификации.
Ни одна школа, ни одни платные курсы вам не помогут получить нужный результат. Их фокус прибыль. Их воронка продаж это 1-2 success stories, и "обещания" найти работу в data, front-end, AI, QA и тп. (Я заметил, что самый треш происходит в Data Science, там вообще концов не найти, что учить, зачем, для чего).
Децентрализация обучения это возможность использовать открытые ресурсы и комбинировать их вметсе. Пример - вендорские тренинги Snowflake/Databricks, tutorials dbt/Astro. Хорошие видео на youtube, конференции, опыт экспертов.
Список и конфигурация будет всегда менятся в зависимости от движения рынка, региона, экономической и политической ситуации. Сегодня одно, завтра другое.
2. Децентрализация зароботка.
3. Децентрализация фокуса и внимания.
Например до 2023 года мой фокус был направлен на изучения технологий. Книги и тренинги по технологиям. Каждый год появлялось что-то новое. Видео про технологии, конференции про технологии. С утра до вечера про технологии. Технологическая централизация, которая не позволяла расширить горизонт. В 2024 году я буду делать и читать, что угодно, но только не еще одна технологическая книга или конференция. Профита от этого мало.
Что еще можно децентрализировать?
⚡52💯13🍾4👨💻3❤🔥1🌭1🗿1🦄1
Ладно, закрываем дискуссию про бабло! Всем хороших выходных! https://youtu.be/3uVDwerwoC0?si=ph1e--LhnEoIDsas
YouTube
Антоха МС — Бабки
Съемки проходили на прекрасном и красивом Плещеевом Озере.
Слушайте трек «Бабки» на площадках — https://band.link/A1KFV
Режиссер/оператор: Петр Тимофеев https://www.instagram.com/peterandcomputer/
Фокуспуллер: Игорь Киселев https://instagram.com/garrikislow…
Слушайте трек «Бабки» на площадках — https://band.link/A1KFV
Режиссер/оператор: Петр Тимофеев https://www.instagram.com/peterandcomputer/
Фокуспуллер: Игорь Киселев https://instagram.com/garrikislow…
🍾14⚡2❤🔥2🌭1😭1👨💻1
Чувак про Rust в контексте Инжиниринга Данных рассказывает https://seattledataguy.substack.com/p/behind-the-rust-hype-what-every-data
По-моему мнения это пока больше "по приколу" чем реально строить pipelines.
А вы как думаете?
По-моему мнения это пока больше "по приколу" чем реально строить pipelines.
А вы как думаете?
Substack
Behind the Rust Hype: What Every Data Engineer Needs to Know
Rust, Rust, Rust.
⚡2
Не всем зашло юмористическое видео Фитиль про вагоны, которое я расшарил выше.
История про взаимодействие с отечественным стартапом spenx, которые вроде как хотели делать аналитику на AWS и их заинтересовал сервис Rock Your Data и наша экспертиза в создании облачных аналитических решений.
После первого звонка на 2 часа, хотя оплатили только 1 час, был небольшой ping pong в Slack про следующие шаги, поис кандидатов и тп.
Насколько я понял, я уже должен был искать кандидатов и быть более активным в Slack. На мое возражение, что нужно более менее структурировать отношения и что я не готов бесплатно что-то делать, мужики написали, что они решили после нового года вернуться. И мне как раз и вспомнилась история про вагоны и я решил пошутить, но что-то пошло не по плану😂
В целом для подписчиков есть хорошая и плохая новость, хорошая у них возможно будут вакансии Data Engineer (я уже написал требования) и BI Engineer. Но плохая, вас могут послать😏
Вообще если мои посты и шутки вас бесят, то у вас будет конкурентное преимущество на собеседовнии!
История про взаимодействие с отечественным стартапом spenx, которые вроде как хотели делать аналитику на AWS и их заинтересовал сервис Rock Your Data и наша экспертиза в создании облачных аналитических решений.
После первого звонка на 2 часа, хотя оплатили только 1 час, был небольшой ping pong в Slack про следующие шаги, поис кандидатов и тп.
Насколько я понял, я уже должен был искать кандидатов и быть более активным в Slack. На мое возражение, что нужно более менее структурировать отношения и что я не готов бесплатно что-то делать, мужики написали, что они решили после нового года вернуться. И мне как раз и вспомнилась история про вагоны и я решил пошутить, но что-то пошло не по плану😂
В целом для подписчиков есть хорошая и плохая новость, хорошая у них возможно будут вакансии Data Engineer (я уже написал требования) и BI Engineer. Но плохая, вас могут послать😏
Вообще если мои посты и шутки вас бесят, то у вас будет конкурентное преимущество на собеседовнии!
🙈46🐳13🗿9🤷♂6❤🔥6💯3⚡2😭2
В суббот прошла еще одна крутая сессия Surfalytics. Было 2 комнаты у нас:
1. Мы начали с Microsoft Fabric, оказалось не просто получить trial. Далее сделали в нем lakehouse, data pipeline, data model и дашборд. В качестве вывода оставили эту историю для темы про поговорить с hiring manager про современные инструменты и трудности preview от Microsoft.
Далее, показал Synapse Analytics, где мы посмотрели на Dedicated SQL Pool, Serverless SQL Pool, Spark Pool. Надеюсь все поняли разницу между Synapse и Fabric. Как раз картинка про это к посту. Ну только источники по идее будут в нем Fabric но все подключения настраиваются внутри.
А заодно изучили разницу между SQL и PySpark.
Далее, ребята решили дальше ковырять Azure. Насколько я понял в Европе Microsoft Azure популярен и много вакансий.
Вообще любой топик мы обсуждаем, мы смотрим через призму организации и реальных потребностей компании.
2. Продолжение прошлого проекта с dbt, Snowflake, GitHub actions, Astro, docker, Fivetran. Я там не участвовал, но жду блог посты и GitHub readme.md и кодом.
Суббота отличный день получить новые знания и закрыть пробелы. Далее будем дальше ковырять технологии для data engineer и bi/data analyst.
1. Мы начали с Microsoft Fabric, оказалось не просто получить trial. Далее сделали в нем lakehouse, data pipeline, data model и дашборд. В качестве вывода оставили эту историю для темы про поговорить с hiring manager про современные инструменты и трудности preview от Microsoft.
Далее, показал Synapse Analytics, где мы посмотрели на Dedicated SQL Pool, Serverless SQL Pool, Spark Pool. Надеюсь все поняли разницу между Synapse и Fabric. Как раз картинка про это к посту. Ну только источники по идее будут в нем Fabric но все подключения настраиваются внутри.
А заодно изучили разницу между SQL и PySpark.
Далее, ребята решили дальше ковырять Azure. Насколько я понял в Европе Microsoft Azure популярен и много вакансий.
Вообще любой топик мы обсуждаем, мы смотрим через призму организации и реальных потребностей компании.
2. Продолжение прошлого проекта с dbt, Snowflake, GitHub actions, Astro, docker, Fivetran. Я там не участвовал, но жду блог посты и GitHub readme.md и кодом.
Суббота отличный день получить новые знания и закрыть пробелы. Далее будем дальше ковырять технологии для data engineer и bi/data analyst.
❤🔥36⚡7💯5🐳3
Пост про Liquid Clustering в Databricks.
В начале вообще говорят про партиции, что уже полезно, даже если вы не на Databricks. Далее показывают пример комманды в Spark и оценнка производительности.
В начале вообще говорят про партиции, что уже полезно, даже если вы не на Databricks. Далее показывают пример комманды в Spark и оценнка производительности.
⚡7🐳3
Если вдруг ИТ и аналитика не подходят всегда есть интересные альтернативы https://dtf.ru/flood/2295618-kak-ya-rabotal-provodnikom-passazhirskogo-poezda-i-pochemu-eto-odna-iz-samyh-koshmarnyh-professiy-v-rossii
DTF
Как я работал проводником пассажирского поезда и Почему это одна из самых кошмарных профессий в России — Офтоп на DTF
Хочу рассказать вам о такой сфере деятельности как "Проводник пассажирского поезда". Многие люди даже не догадываются о том, насколько сложно проводникам обеспечивать ваш комфортный проезд в поезде. Для большинства пассажиров поездка занимает от одного до…
🌚20⚡3😈3🙈3❤🔥2🐳2🙉2🌭1🍌1🫡1
Одно из главных видео уходящего года - https://youtu.be/PMfn9_nTDbM?si=G7unvD4FIT8SXTGV
PS так же посмотрите, если что понравится в playlist https://www.youtube.com/playlist?list=PL2yQDdvlhXf-5R7VtNr9P4nosA7DiDtM1
Я сам хотел поехать на машине с семьей в Вегас на конференцию за свой счет, но не договорился с начальством. Можете считать, меня тоже послали, но вежливо!😜
PS так же посмотрите, если что понравится в playlist https://www.youtube.com/playlist?list=PL2yQDdvlhXf-5R7VtNr9P4nosA7DiDtM1
Я сам хотел поехать на машине с семьей в Вегас на конференцию за свой счет, но не договорился с начальством. Можете считать, меня тоже послали, но вежливо!😜
YouTube
AWS re:Invent 2023 - CEO Keynote with Adam Selipsky
Adam Selipsky, CEO of Amazon Web Services, shares his perspective on cloud transformation. He highlights innovations in data, infrastructure, and artificial intelligence and machine learning that are helping AWS customers achieve their goals faster, mine…
⚡5❤🔥3🌭1😭1
Хороший креатив с AWS конференции. Я все никак не доберусь до Tabular.
Насколько я понял это как Athena, но для Iceberg. На одном проекте у нас Kafka пишет в S3 (JSON), далее мы используем Snowflake External Tables.
Задача писать кафкой сразу Iceberg в Snowflake Iceberg Managed table и как-то там использовать Tabular.
Кто-нибуть использовал?
На проекте Surfalytics обязательно попробуем.
В эту субботу будем:
- Snowflake 101 + Hex
- Just enough CLI and Shell for Data Roles
Насколько я понял это как Athena, но для Iceberg. На одном проекте у нас Kafka пишет в S3 (JSON), далее мы используем Snowflake External Tables.
Задача писать кафкой сразу Iceberg в Snowflake Iceberg Managed table и как-то там использовать Tabular.
Кто-нибуть использовал?
На проекте Surfalytics обязательно попробуем.
В эту субботу будем:
- Snowflake 101 + Hex
- Just enough CLI and Shell for Data Roles
🦄20🤷5❤🔥4🐳2🌭1