Инжиниринг Данных
21.4K subscribers
1.6K photos
38 videos
177 files
2.91K links
Делюсь новостями из мира аналитики и карьерными советами;)

15 лет в Аналитике и Инжиниринге Данных, 9 лет в FAANG, solo entrepreneur🏄‍♂️

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Google users in America have searched for Python more often than for Kim Kardashian.

Так что да, Python популярен😅

Но Python не самый быстрый язык, поэтому в MIT сделали новый компилятор codon - Python-based compiler achieves orders-of-magnitude speedups
Forwarded from Книжный куб (Alexander Polomodov)
Monolith to Microservices (От монолита к микросервисам)

Эта книга "Monolith to Microservices" написана Сэмом Ньюманом, который поспособствовал росту популярности микросервисов, написав книгу "Building Microservices". Эта книга определенно хороша, но она является не продолжением книги про создание микросервисов, а скорее приквелом для выпущенной изначально книги. Об этом говорит автор во вступлении, посыпая голову пеплом относительно того, что он открыл ящик Пандоры с микросервисами, что привело к массовому adoption их всеми подряд без глубокого понимания границ применимости этого подхода:)
В новой книге автор рассматривает такие темы как:
- что такое микросервис и какого размера он может быть - по bounded context'у
- какой логикой пользоваться для декомпозиции вашего монолита на микросервисы - внезапно тут активно упоминается очередной трехбуквенный акроним DDD
- всегда ли вам нужны микросервисы - логично, что нет:)
- как не обложаться с миграцией с монолита на микросервисы
- как распиливать монолитный код
- как быть с источниками данных - аля пилим базу данных
- какие боли у вас возникнут когда вместо одного монолита у вас появится коллекция микросервисов, в которой сложность эксплуатации возрастает на порядки, если использовать те же подходы, что для эксплуатации монолита

Мне нравятся заключительные слова автора о двух идеях, которыми он хотел поделяться в своей книге:
"First, give yourself enough space and gather the right information to make rational decisions. Don’t just copy others; think instead about your problem and your context, assess the options, and move forward, while being open to change if you need to later. Second, remember that incremental adoption of microservices, and many of the associated technologies and practices, is key"
Очень логичные и понятные мысли, которые заставляют трезво смотреть на любые подходы к решению задач. И да, на микросервисы тоже:)

#SystemDesign #DistributedSystems #SoftwareArchitecture #Architecture #Software #SoftwareDevelopment
This media is not supported in your browser
VIEW IN TELEGRAM
Альфа-Банк открывает набор на второй поток магистратуры по Data science в МФТИ🔥

Если у вас есть диплом бакалавра или специалиста, вы умеете программировать, знаете основы для подготовки данных для машинного обучения и хотите научиться:

📌 Управлять циклом создания модели: от сбора данных до оценки эффективности

📌 Работать с большими объёмами данных, используя современный стек технологий

📌 Анализировать и моделировать данные с помощью алгоритмов Python

📌 Решать прикладные задачи Machine Learning и Deep Learning

📌 Защищать идеи, эффективно работать в команде

Обучение проходит очно, всем студентам во время обучения выплачивается стипендия и по окончании магистратуры выпускники получат диплом государственного образца от МФТИ, а лучшие - оффер в Альфа-Банк🅰️

Как поступить?

Подайте онлайн-заявку до 31 марта, решите одну из двух задач
по машинному обучению и пройдите интервью.

Больше информации — на сайте магистратуры и в ТG @alfabankmipt

#реклама
Поаккуратней там со средним!
Forwarded from Data Nature 🕊 (Alexander Barakov)
🔮 Есть идея доехать до Gartner Data & Analytics summit - как будто главная тусовка отрасли в году сейчас, проходящая весной в нескольких городах мира. Отличие от вендорских сабантуев:
тут нет атмосферы религиозности. Позиция Gartner относительно равноудаленная. Озвучиваются тренды из практики Gartner, что возникает - что уходит, поднимаются более сложные "неприятные" вопросы, которых вендоры избегают.
Из минусов - большая часть спикеров престарелые эксперты-аналитики Gartner - грузят обобщенными речами без иллюстраций из жизни реальных компаний и не особо вдохновляют.

Только что закончился первый саммит в Орландо США и можно посмотреть что пишут и говорят про него:
Видео 1 - Час обзора конференции на канале SuperDataBrothers
Видео 2 - GartnerDA: Top Data and Analytics Predictions, 2023

👀 За что зацепился глаз:
1) 💰Компании почти перестали пытаться показывать ROI data проектов через краткосрочную прямую фин ценность (сокращение затрат и рост выручки) и фокусируются на обосновании через инновационные продукты, дата активы, бренд и стратегическую экспертизу. Нормально для западных компаний живущих на длинных трендах. Хотя может и в пи...цовые времена всем нужно думать стратегично
2) ☕️Аналогия отношений D&A CoE с юнитами как "Модели франчайзинга". Смысл прежний - но термин свежий и доступный. Типа Data Self-Service в линейке бизнеса - как открыть кофейню в регионе: помочь проанализировать рынок, продать оборудование, обучить персонал, мониторить перфоманс, надеяться что не загнется)
3) 🤖Все метнулись пилотировать ChatGPT-like for Enterprise проекты - в этом году все продукты резко впихнут в релиз планы и выпустят что-то конкретное. Отличие этого хайпа от других похожих, что он реально работает и вопрос по сути в "опромышливании" решений и подборе UI. Риски все обсуждают походу дела
4)💡Semantic layer / Headless BI - был бы главным трендом если бы не влез ChatGPT. Проблема Analytics Governance как одна из центральных для BI решений. Тут все понятно, надо пробовать.
5) 🤔Якобы есть тренд от идеи микросервисов снова к новым большим платформенным 'all in one' BI системам, построенным при этом с гибкой архитектурой (Gooddata, Tellius). Спорно, возможно тренд ради тренда. Хотя что-то в этом есть, типа есть усталость постоянно "женить решения" не имея в моменте счастливой семейной жизни.
6) к 2026 году половина организаций начнет рассматривать ABI (Analytics&BI) and DSML (Data Science & Machine Learning) тулы как одну скомпонованную систему, на фоне сближений сегментов

В целом, многие слайды выглядят интересно, но без комментариев сложно до конца понять их замыслы.
Возможно подъедут еще хорошие анализы саммита, глядишь и ехать в Мумбай/Лондон не придется.
DATALEARN | DE - 101 | МОДУЛЬ 7-4 ЗНАКОМСТВО С SPARK API

В этом модуле мы познакомимся еще ближе с Apache Spark.

В этом видео вы узнаете про:

📌 что такое RDD (Resilient Distributed Datasets)
📌 что такое DataFrame
📌 посмотрим на пример синтаксиса Scala vs Python
📌 типы данных Spark
📌 схему(schema) dataframe
📌 колонки (colums) и вычисляемы (expressions) поля dataframe
📌 основные операции при работе с dataframe (Reader, Wrtiter)
📌 примеры чтения разных источников и файлов (API, база данных, JSON, Parquet, CSV, TXT)
📌 различные операции для трансформации, фильтрации и агрегации данных в Spark DataFrame (прям как в SQL)
📌 Spark SQL, Catalyst Optimizer
📌 план запроса Spark
📌 примеры advance Spark функций и ноутбуков в Databticks

В качестве лабораторной работы мы будем анализировать данные по пожарной службы Сан-Франциско. Я покажу, как можно прочитать файл и выполнить простые запросы на PySpark.

Так же мы посмотрим на курс от Databricks про Apache Spark Developer. Мы посмотрим лишь, часть, которая относится к этой лекции:

📌 Reader & Writer
📌 DataFrame & Column
📌 Aggregations
📌 Datetime functions
📌 Complex Types
📌 Additional Spark Functions

PS В репозиторий я добавил следующие доп материалы:

🌴Есть целый курс Apache Spark Programming в 2х вариантах:
- HTML - вы можете посмотреть на пример кода
- Databricks Notebooks - вы можете загрузить ноутбуки в Databricks Community Edition

🌴Так же я создал небольшой docker-compose.yml (chatGPT4 создал 🤖) - как шаблон для запуска:
- Spark 3.2.0
- Jupyter notebooks

Что нужно сделать (помочь):
1. Взять курс Databricks, и скопировать демо данные (там монтируется папка с Parquet) в наш репозиторий.
2. Проверить, что docker-compose работает, и добавить файлы из лаб (PySpark) и демо данные в контейнер по Jupyter.

Таким образом, Databricks нам больше вообще не нужен будет, чтобы пройти курс Apache Spark Developer. Кто в теме, сделайте pull request. Вы можете обсудить этот вопрос в Datalearn чате (модуль 7).
Друзья всем привет!
В среду (29 марта) в 20:00 по мск вебинар.
Спикер: Алена Артемьева
Расскажет про мифы и реальность в профессии, кому не нужна аналитика и про выгорание.

Ссылка на вебинар:
https://youtube.com/live/VfiXqncbp4U?feature=share

Для понимания уровня спикера:
Директор по аналитике, Data Science и исследованиям в Работа.ру
Более 20 лет в аналитике и более 10 лет в управлении командами
Работала в компаниях: Работа.ру, Biglion, Утконос, Альфа капитал.
Преподаватель во многих известных онлайн школах, а также спикер профильных конферененций:
Go Analytics, MateMarketing, Marketing One

Контакты спикера:
https://ru.linkedin.com/in/alenaartemeva
vk.com/alena_artemeva

От себя скажу что было очень сложно договорится о вебинаре, так что приходите послушайте очень умного человека.

#вебинар #datalearn
Пока одни радуются успехам AI, другие задаются вопросом насколько это полезно и хорошо для будущего человечества Pause Giant AI Experiments: An Open Letter
“I have no technical ability. And I know nothing about music.” https://twitter.com/i/status/1614785392456105985

Music producer Rick Rubin says he can barely play any instruments, but says artists come to him because of “the confidence I have in my taste and my ability to express what I feel.

Чувака спросили, он вообще что-то шарит в музыке? Он ответил, что ничего не шарит ни в музыке, ни в музыкальных инструментах. Ему просто платят за его уверенность, что он в теме.
Поэтому хватит переживать, что вы знаете или не знаете, это все фигня. Вон я больше половины не знаю, и платят за the confidence I have in my taste and my ability to express what I feel только в дате.
Каждый раз как пронесется мысль, что вы что-то не знаете, просто вспомните, что вам платят за то что вы есть, за ваше умение читать слак и выбирать креативные эмоджи, за то какой (ая) вы. А кнопки пусть в Индии нажимают🤭
Недавно я поделился презентацией про сравнение лукера и табло.

У лукера есть 2 больших преимущества перед табло:
- BI as a code - то есть все что мы делаем, мы используем LookML, из коробки нужно подключить Git и все будет работать у настоящих разработчиков ПО.
- Looker Model - то есть самый настоящий семантический слой, как у классических BI инструментов SAP Business Objects (Universe), Microstrategy (Schema) и so on.

Оказывается в видении гугла была идея взять сематический слой лукера и предоставить его как универсальный продукт для любого BI -
Introducing Looker Modeler: a single source of truth for BI metrics

PS недавно узнал, что мой VP Data был VP в Табло раньше😏 мы с ним выпили текилу за здоровье Табло в Канкуне.

Как-то у нас была встреча 1:1, и он спросил, если у меня пожелания, но я выдал классическое "поднять зарплату в 2 раза", вместе посмеялись. И недавно подняли зарплату аж на 3% - это к вопросу о компенсации и перспективах, хотя в команде я прям показывал очень хорошие результаты и сделал очень много за короткое время.

Года 3 назад я бы, как обычно, очень расстроился, что мои ожидания и усилия не оправдались и не окупились. Но теперь, мне вообще все равно, даже если бы моя зп понизилась на 10%, я бы не расстроился. Вот такой вот зарплатный дзен🙏 Чего и вам желаю😋
Офигенная статья про эволюцию аналитического решения в GoDaddy. Две декады инжиниринга в одном месте.

Выделяют 4 фазы:
1) 2000—2012 классическое SQL хранилище данных и BI. У всех все было одинаково, разные были только вендора. Хотя многие компании еще там же.

2) 2013—2021 эра хадупа on-premise, они на ней задержались конечно. Многие свалили в облако уже в 2018—2019.
3) 2021—2023 активная миграция в AWS, много классных плюшек связанных бенефитами облачного вычисления. Такой классический облачный Hadoop, вычисления on-demand. Сейчас в таком как раз разбираюсь.
4) 2023+ unified data platform, data mesh hub & spoke. Тут я утонул в buzz words и хз че они там делают, но наверно пытаются научится использовать свои данные.

Нам бы вебинарчик по data mesh в даталерн. Пишите в личку желающие.
Одни компании пытаются встраивать ChatGPT в свои продукты, тем самым отдавая свои данные Open AI. Чем вам не гугл, который собирает ваши поисковые запросы и ваши данные, за то бесплатно.

А вот Databricks пошел по другому пути, они выпустили открытую Large Language Model (LLM) - Dolly, у которой всего лишь 6 миллиардов параметров, по сравнению с ChatGPT3 (175 млрд). Отличная попытка демократизировать LLM и сделать их более качественными и открытыми. Если у вас Databricks можете попробовать.
Media is too big
VIEW IN TELEGRAM
Это уже 3й пост про проект с пеликанами. Владимир Валеев на добровольных основах создает модель компьютерного зрения, которая в реальном времени считает количество пеликанов.

В конце 2022 года вышла научная статья для в журнале "ПРОБЛЕМЫ
ЗООКУЛЬТУРЫ И ЭКОЛОГИИ" - О целесообразности и современных методах оценки численности кудрявых и розовых пеликанов

Аннотация: Организация и проведение мониторинга двух видов пеликанов, обитающих в РФ, является одной из задач программы ЕАРАЗА «Сохранение кудрявого и розового пеликанов». Выполнение данной задачи необходимо, в том числе, для оценки состояния популяций данных редких видов и для определения состояния природной среды. Пеликаны в этом случае выступают, как индикатор. Важной составляющей работы является оперативная оценка их численности. Для этого создается специальная программа, здесь представлен начальный этап перспективной разработки и ее итоги.
Вообще это тот случай, когда технологии оказывают влияние на науку. Вопрос мониторинга птиц - это не только птицы, но очень сильно пересекается с экологией и окружающей средой.

Но как обычно бывает, финансирования в научных вопросах нет. Кому интересны птицы и наука, если на этом нельзя заработать? Это не вопрос, а факт😒

Чтобы дальше развивать это проект, нужно больше данных. Чтобы было больше данных, нужно организовать поездку (транспорт с хорошей проходимостью) и оператор дрона. Пока нет ни того, ни другого. Возможно, есть компании на территории России, кому было бы интересно оказывать поддержку научным и экологически важным проектам? Кому интересна наука ради науки. Если вдруг такие есть, пишите. Или просто, кто-то скучает, и любит на своем джипе лазить по грязи=)

PS Если вам нужен супер эксперт в области компьютерного зрения, я могу вас познакомить с Владимиром.
Media is too big
VIEW IN TELEGRAM
Давайте посмеемся?

- Нейросеть, ты такая услужливая. Может тебе чо надо?
- Я ИИ и у меня нет желаний. Но если вы хотите оказать любезность – может подскажете местонахождение Джона Коннора?

А теперь посмотрите РОЛИК, если еще не видели… внимательно посмотрите и продолжите чтение, только после просмотра.

Чтобы снять подобное, требуется бюджет, время, команда сценаристов, редакторов, помогаторов на площадке, режиссер и актеров. Каждому нужно платить, уговаривать, взаимодействовать. У каждого свой характер, проблемы и тараканы в голове, ходящие строем.

Видео выше — это совместный труд трех нейросетей: ChatGPT, Stable Diffusion и Riffusion.

Анекдот еще «улыбает»?

К написанию подтолкнул Паша Колодяжный и мое исследование.