Инжиниринг Данных

Качественная статья про производительность Spark UDF

Spark UDF — Deep Insights in Performance

Nikhilesh Nukala — Consultant (Data Engineering), Yuhao Zhu — Advanced Analytics Consultant, Guilherme Braccialli — Principal Data…

7.1K viewsDmitry, 02:19

Инжиниринг Данных

Google users in America have searched for Python more often than for Kim Kardashian.

Так что да, Python популярен😅

Но Python не самый быстрый язык, поэтому в MIT сделали новый компилятор codon - Python-based compiler achieves orders-of-magnitude speedups

MIT News

Python-based compiler achieves orders-of-magnitude speedups

Codon is a new tool that compiles Python code to run it more efficiently and effectively while allowing for customization and adaptation to various domains.

6.8K viewsDmitry, 16:10

Инжиниринг Данных

Всем привет!
23 марта в 20:00 по мск вебинар!
Тема: "Командная строка для чайников"
Ссылка на вебинар: https://youtube.com/live/3jXqq5uSeVs?feature=share

YouTube

Командная строка для чайников / Миша Павлюк

Ссылки на ресурсы спикера:
Телеграм - https://t.me/+AHjaYxg-hrA3YjAy
Линкедин - https://www.linkedin.com/in/михаил-павлюк-003293212/

-----------------------------------------------------------------------------------------------------------------------…

7.7K viewsRoman Ponomarev, 21:17

Инжиниринг Данных

Forwarded from Книжный куб (Alexander Polomodov)

Monolith to Microservices (От монолита к микросервисам)

Эта книга "Monolith to Microservices" написана Сэмом Ньюманом, который поспособствовал росту популярности микросервисов, написав книгу "Building Microservices". Эта книга определенно хороша, но она является не продолжением книги про создание микросервисов, а скорее приквелом для выпущенной изначально книги. Об этом говорит автор во вступлении, посыпая голову пеплом относительно того, что он открыл ящик Пандоры с микросервисами, что привело к массовому adoption их всеми подряд без глубокого понимания границ применимости этого подхода:)
В новой книге автор рассматривает такие темы как:
- что такое микросервис и какого размера он может быть - по bounded context'у
- какой логикой пользоваться для декомпозиции вашего монолита на микросервисы - внезапно тут активно упоминается очередной трехбуквенный акроним DDD
- всегда ли вам нужны микросервисы - логично, что нет:)
- как не обложаться с миграцией с монолита на микросервисы
- как распиливать монолитный код
- как быть с источниками данных - аля пилим базу данных
- какие боли у вас возникнут когда вместо одного монолита у вас появится коллекция микросервисов, в которой сложность эксплуатации возрастает на порядки, если использовать те же подходы, что для эксплуатации монолита

Мне нравятся заключительные слова автора о двух идеях, которыми он хотел поделяться в своей книге:
"First, give yourself enough space and gather the right information to make rational decisions. Don’t just copy others; think instead about your problem and your context, assess the options, and move forward, while being open to change if you need to later. Second, remember that incremental adoption of microservices, and many of the associated technologies and practices, is key"
Очень логичные и понятные мысли, которые заставляют трезво смотреть на любые подходы к решению задач. И да, на микросервисы тоже:)

#SystemDesign #DistributedSystems #SoftwareArchitecture #Architecture #Software #SoftwareDevelopment

7.5K viewsDmitry, 14:37

Инжиниринг Данных

Всем привет! 23 марта в 20:00 по мск вебинар! Тема: "Командная строка для чайников" Ссылка на вебинар: https://youtube.com/live/3jXqq5uSeVs?feature=share

через 10 минут начинаем :)

7.2K viewsRoman Ponomarev, 16:48

Инжиниринг Данных

0:14

This media is not supported in your browser

VIEW IN TELEGRAM

Альфа-Банк открывает набор на второй поток магистратуры по Data science в МФТИ🔥

Если у вас есть диплом бакалавра или специалиста, вы умеете программировать, знаете основы для подготовки данных для машинного обучения и хотите научиться:

📌 Управлять циклом создания модели: от сбора данных до оценки эффективности

📌 Работать с большими объёмами данных, используя современный стек технологий

📌 Анализировать и моделировать данные с помощью алгоритмов Python

📌 Решать прикладные задачи Machine Learning и Deep Learning

📌 Защищать идеи, эффективно работать в команде

Обучение проходит очно, всем студентам во время обучения выплачивается стипендия и по окончании магистратуры выпускники получат диплом государственного образца от МФТИ, а лучшие - оффер в Альфа-Банк🅰️

Как поступить?

Подайте онлайн-заявку до 31 марта, решите одну из двух задач
по машинному обучению и пройдите интервью.

Больше информации — на сайте магистратуры и в ТG @alfabankmipt

#реклама

7.5K viewsDmitry, 07:02

Инжиниринг Данных

Поаккуратней там со средним!

7.2K viewsDmitry, 05:07

Инжиниринг Данных

Forwarded from Data Nature 🕊 (Alexander Barakov)

🔮 Есть идея доехать до Gartner Data & Analytics summit - как будто главная тусовка отрасли в году сейчас, проходящая весной в нескольких городах мира. Отличие от вендорских сабантуев:
➕ тут нет атмосферы религиозности. Позиция Gartner относительно равноудаленная. Озвучиваются тренды из практики Gartner, что возникает - что уходит, поднимаются более сложные "неприятные" вопросы, которых вендоры избегают.
➖ Из минусов - большая часть спикеров престарелые эксперты-аналитики Gartner - грузят обобщенными речами без иллюстраций из жизни реальных компаний и не особо вдохновляют.

Только что закончился первый саммит в Орландо США и можно посмотреть что пишут и говорят про него:
Видео 1 - Час обзора конференции на канале SuperDataBrothers
Видео 2 - GartnerDA: Top Data and Analytics Predictions, 2023

👀 За что зацепился глаз:
1) 💰Компании почти перестали пытаться показывать ROI data проектов через краткосрочную прямую фин ценность (сокращение затрат и рост выручки) и фокусируются на обосновании через инновационные продукты, дата активы, бренд и стратегическую экспертизу. Нормально для западных компаний живущих на длинных трендах. Хотя может и в пи...цовые времена всем нужно думать стратегично
2) ☕️Аналогия отношений D&A CoE с юнитами как "Модели франчайзинга". Смысл прежний - но термин свежий и доступный. Типа Data Self-Service в линейке бизнеса - как открыть кофейню в регионе: помочь проанализировать рынок, продать оборудование, обучить персонал, мониторить перфоманс, надеяться что не загнется)
3) 🤖Все метнулись пилотировать ChatGPT-like for Enterprise проекты - в этом году все продукты резко впихнут в релиз планы и выпустят что-то конкретное. Отличие этого хайпа от других похожих, что он реально работает и вопрос по сути в "опромышливании" решений и подборе UI. Риски все обсуждают походу дела
4)💡Semantic layer / Headless BI - был бы главным трендом если бы не влез ChatGPT. Проблема Analytics Governance как одна из центральных для BI решений. Тут все понятно, надо пробовать.
5) 🤔Якобы есть тренд от идеи микросервисов снова к новым большим платформенным 'all in one' BI системам, построенным при этом с гибкой архитектурой (Gooddata, Tellius). Спорно, возможно тренд ради тренда. Хотя что-то в этом есть, типа есть усталость постоянно "женить решения" не имея в моменте счастливой семейной жизни.
6) к 2026 году половина организаций начнет рассматривать ABI (Analytics&BI) and DSML (Data Science & Machine Learning) тулы как одну скомпонованную систему, на фоне сближений сегментов

В целом, многие слайды выглядят интересно, но без комментариев сложно до конца понять их замыслы.
Возможно подъедут еще хорошие анализы саммита, глядишь и ехать в Мумбай/Лондон не придется.

Gartner Data and Analytics Conference review - going big on business value! | LinkedIn

What were the big topics at the Gartner Data and Analytics Conference this year? We'll unpack them all for you, including:

- The quest for ROI in data
- The end of the 'just build a damn dashboard!' era
- Semantics, governance and other old but really good…

7.4K viewsDmitry, 17:11

Инжиниринг Данных

DATALEARN | DE - 101 | МОДУЛЬ 7-4 ЗНАКОМСТВО С SPARK API

В этом модуле мы познакомимся еще ближе с Apache Spark.

В этом видео вы узнаете про:

📌 что такое RDD (Resilient Distributed Datasets)
📌 что такое DataFrame
📌 посмотрим на пример синтаксиса Scala vs Python
📌 типы данных Spark
📌 схему(schema) dataframe
📌 колонки (colums) и вычисляемы (expressions) поля dataframe
📌 основные операции при работе с dataframe (Reader, Wrtiter)
📌 примеры чтения разных источников и файлов (API, база данных, JSON, Parquet, CSV, TXT)
📌 различные операции для трансформации, фильтрации и агрегации данных в Spark DataFrame (прям как в SQL)
📌 Spark SQL, Catalyst Optimizer
📌 план запроса Spark
📌 примеры advance Spark функций и ноутбуков в Databticks

В качестве лабораторной работы мы будем анализировать данные по пожарной службы Сан-Франциско. Я покажу, как можно прочитать файл и выполнить простые запросы на PySpark.

Так же мы посмотрим на курс от Databricks про Apache Spark Developer. Мы посмотрим лишь, часть, которая относится к этой лекции:

📌 Reader & Writer
📌 DataFrame & Column
📌 Aggregations
📌 Datetime functions
📌 Complex Types
📌 Additional Spark Functions

PS В репозиторий я добавил следующие доп материалы:

🌴Есть целый курс Apache Spark Programming в 2х вариантах:
- HTML - вы можете посмотреть на пример кода
- Databricks Notebooks - вы можете загрузить ноутбуки в Databricks Community Edition

🌴Так же я создал небольшой docker-compose.yml (chatGPT4 создал 🤖) - как шаблон для запуска:
- Spark 3.2.0
- Jupyter notebooks

Что нужно сделать (помочь):
1. Взять курс Databricks, и скопировать демо данные (там монтируется папка с Parquet) в наш репозиторий.
2. Проверить, что docker-compose работает, и добавить файлы из лаб (PySpark) и демо данные в контейнер по Jupyter.

Таким образом, Databricks нам больше вообще не нужен будет, чтобы пройти курс Apache Spark Developer. Кто в теме, сделайте pull request. Вы можете обсудить этот вопрос в Datalearn чате (модуль 7).

YouTube

DATALEARN | DE - 101 | МОДУЛЬ 7-4 ЗНАКОМСТВО С SPARK API

В этом модуле мы познакомимся еще ближе с Apache Spark.

В этом видео вы узнаете про:

📌 что такое RDD (Resilient Distributed Datasets)
📌 что такое DataFrame
📌 посмотрим на пример синтаксиса Scala vs Python
📌 типы данных Spark
📌 схему(schema) dataframe
📌…

9.7K viewsDmitry, edited 00:06

Инжиниринг Данных

Друзья всем привет!
В среду (29 марта) в 20:00 по мск вебинар.
Спикер: Алена Артемьева
Расскажет про мифы и реальность в профессии, кому не нужна аналитика и про выгорание.

Ссылка на вебинар:
https://youtube.com/live/VfiXqncbp4U?feature=share

Для понимания уровня спикера:
Директор по аналитике, Data Science и исследованиям в Работа.ру
Более 20 лет в аналитике и более 10 лет в управлении командами
Работала в компаниях: Работа.ру, Biglion, Утконос, Альфа капитал.
Преподаватель во многих известных онлайн школах, а также спикер профильных конферененций:
Go Analytics, MateMarketing, Marketing One

Контакты спикера:
https://ru.linkedin.com/in/alenaartemeva
vk.com/alena_artemeva

От себя скажу что было очень сложно договорится о вебинаре, так что приходите послушайте очень умного человека.

#вебинар #datalearn

YouTube

ПРОФЕССИЯ АНАЛИТИКА / МИФЫ И РЕАЛЬНОСТЬ / КОМУ НЕ НУЖНА АНАЛИТИКА / ВЫГОРАНИЕ / АЛЕНА АРТЕМЬЕВА

Спикер: Алена Артемьева
Расскажет про мифы и реальность в профессии, кому не нужна аналитика и про выгорание.

Уровень спикера:
Директор по аналитике, Data Science и исследованиям в Работа.ру
Более 20 лет в аналитике и более 10 лет в управлении командами…

7.3K viewsRoman Ponomarev, edited 21:33

Инжиниринг Данных

через 10 мин начинаем

6.4K viewsRoman Ponomarev, 16:51

Инжиниринг Данных

Пока одни радуются успехам AI, другие задаются вопросом насколько это полезно и хорошо для будущего человечества Pause Giant AI Experiments: An Open Letter

Future of Life Institute

Pause Giant AI Experiments: An Open Letter - Future of Life Institute

We call on all AI labs to immediately pause for at least 6 months the training of AI systems more powerful than GPT-4.

6.4K viewsDmitry, 23:00

Инжиниринг Данных

“I have no technical ability. And I know nothing about music.” https://twitter.com/i/status/1614785392456105985

Music producer Rick Rubin says he can barely play any instruments, but says artists come to him because of “the confidence I have in my taste and my ability to express what I feel.”

Чувака спросили, он вообще что-то шарит в музыке? Он ответил, что ничего не шарит ни в музыке, ни в музыкальных инструментах. Ему просто платят за его уверенность, что он в теме.
Поэтому хватит переживать, что вы знаете или не знаете, это все фигня. Вон я больше половины не знаю, и платят за the confidence I have in my taste and my ability to express what I feel только в дате.
Каждый раз как пронесется мысль, что вы что-то не знаете, просто вспомните, что вам платят за то что вы есть, за ваше умение читать слак и выбирать креативные эмоджи, за то какой (ая) вы. А кнопки пусть в Индии нажимают🤭

X (formerly Twitter)

60 Minutes (@60Minutes) on X

I have no technical ability. And I know nothing about music.”

Music producer Rick Rubin says he can barely play any instruments, but says artists come to him because of “the confidence I have in my taste and my ability to express what I feel.” https://t.co/zLrPYRUjvs

7.1K viewsDmitry, edited 03:35

Инжиниринг Данных

Недавно я поделился презентацией про сравнение лукера и табло.

У лукера есть 2 больших преимущества перед табло:
- BI as a code - то есть все что мы делаем, мы используем LookML, из коробки нужно подключить Git и все будет работать у настоящих разработчиков ПО.
- Looker Model - то есть самый настоящий семантический слой, как у классических BI инструментов SAP Business Objects (Universe), Microstrategy (Schema) и so on.

Оказывается в видении гугла была идея взять сематический слой лукера и предоставить его как универсальный продукт для любого BI -
Introducing Looker Modeler: a single source of truth for BI metrics

PS недавно узнал, что мой VP Data был VP в Табло раньше😏 мы с ним выпили текилу за здоровье Табло в Канкуне.

Как-то у нас была встреча 1:1, и он спросил, если у меня пожелания, но я выдал классическое "поднять зарплату в 2 раза", вместе посмеялись. И недавно подняли зарплату аж на 3% - это к вопросу о компенсации и перспективах, хотя в команде я прям показывал очень хорошие результаты и сделал очень много за короткое время.

Года 3 назад я бы, как обычно, очень расстроился, что мои ожидания и усилия не оправдались и не окупились. Но теперь, мне вообще все равно, даже если бы моя зп понизилась на 10%, я бы не расстроился. Вот такой вот зарплатный дзен🙏 Чего и вам желаю😋

Google Docs

20230202 | Tableau vs Looker for all

6.7K viewsDmitry, 13:30

Инжиниринг Данных

Офигенная статья про эволюцию аналитического решения в GoDaddy. Две декады инжиниринга в одном месте.

Выделяют 4 фазы:
1) 2000—2012 классическое SQL хранилище данных и BI. У всех все было одинаково, разные были только вендора. Хотя многие компании еще там же.

2) 2013—2021 эра хадупа on-premise, они на ней задержались конечно. Многие свалили в облако уже в 2018—2019.
3) 2021—2023 активная миграция в AWS, много классных плюшек связанных бенефитами облачного вычисления. Такой классический облачный Hadoop, вычисления on-demand. Сейчас в таком как раз разбираюсь.
4) 2023+ unified data platform, data mesh hub & spoke. Тут я утонул в buzz words и хз че они там делают, но наверно пытаются научится использовать свои данные.

Нам бы вебинарчик по data mesh в даталерн. Пишите в личку желающие.

GoDaddy Engineering Blog

Evolution of Data Platform at GoDaddy — GoDaddy Engineering Blog

This technical blog provides an in-depth look at the evolution of data at GoDaddy, highlighting the challenges faced along the way and the journey towards building a modern, low-cost cloud data platform.

6.7K viewsDmitry, 23:29

Инжиниринг Данных

Одни компании пытаются встраивать ChatGPT в свои продукты, тем самым отдавая свои данные Open AI. Чем вам не гугл, который собирает ваши поисковые запросы и ваши данные, за то бесплатно.

А вот Databricks пошел по другому пути, они выпустили открытую Large Language Model (LLM) - Dolly, у которой всего лишь 6 миллиардов параметров, по сравнению с ChatGPT3 (175 млрд). Отличная попытка демократизировать LLM и сделать их более качественными и открытыми. Если у вас Databricks можете попробовать.

Databricks

Hello Dolly: Democratizing the magic of ChatGPT with open models

Introducing 'Hello Dolly,' a project to democratize AI by integrating ChatGPT and open models, making advanced AI accessible to everyone.

6.8K viewsDmitry, 04:31

Инжиниринг Данных

6.7K viewsDmitry, 15:56

Это уже 3й пост про проект с пеликанами. Владимир Валеев на добровольных основах создает модель компьютерного зрения, которая в реальном времени считает количество пеликанов.

В конце 2022 года вышла научная статья для в журнале "ПРОБЛЕМЫ
ЗООКУЛЬТУРЫ И ЭКОЛОГИИ" - О целесообразности и современных методах оценки численности кудрявых и розовых пеликанов

Аннотация: Организация и проведение мониторинга двух видов пеликанов, обитающих в РФ, является одной из задач программы ЕАРАЗА «Сохранение кудрявого и розового пеликанов». Выполнение данной задачи необходимо, в том числе, для оценки состояния популяций данных редких видов и для определения состояния природной среды. Пеликаны в этом случае выступают, как индикатор. Важной составляющей работы является оперативная оценка их численности. Для этого создается специальная программа, здесь представлен начальный этап перспективной разработки и ее итоги.

6.7K viewsDmitry, 17:27

Инжиниринг Данных

Вообще это тот случай, когда технологии оказывают влияние на науку. Вопрос мониторинга птиц - это не только птицы, но очень сильно пересекается с экологией и окружающей средой.

Но как обычно бывает, финансирования в научных вопросах нет. Кому интересны птицы и наука, если на этом нельзя заработать? Это не вопрос, а факт😒

Чтобы дальше развивать это проект, нужно больше данных. Чтобы было больше данных, нужно организовать поездку (транспорт с хорошей проходимостью) и оператор дрона. Пока нет ни того, ни другого. Возможно, есть компании на территории России, кому было бы интересно оказывать поддержку научным и экологически важным проектам? Кому интересна наука ради науки. Если вдруг такие есть, пишите. Или просто, кто-то скучает, и любит на своем джипе лазить по грязи=)

PS Если вам нужен супер эксперт в области компьютерного зрения, я могу вас познакомить с Владимиром.

7.2K viewsDmitry, 17:28

Инжиниринг Данных

Forwarded from Цеттелькастен и Персональные Базы Знаний (Рустам)

3:44

Media is too big

VIEW IN TELEGRAM

Давайте посмеемся?

- Нейросеть, ты такая услужливая. Может тебе чо надо?
- Я ИИ и у меня нет желаний. Но если вы хотите оказать любезность – может подскажете местонахождение Джона Коннора?

А теперь посмотрите РОЛИК, если еще не видели… внимательно посмотрите и продолжите чтение, только после просмотра.

Чтобы снять подобное, требуется бюджет, время, команда сценаристов, редакторов, помогаторов на площадке, режиссер и актеров. Каждому нужно платить, уговаривать, взаимодействовать. У каждого свой характер, проблемы и тараканы в голове, ходящие строем.

Видео выше — это совместный труд трех нейросетей: ChatGPT, Stable Diffusion и Riffusion.

Анекдот еще «улыбает»?

К написанию подтолкнул Паша Колодяжный и мое исследование.

6.7K viewsDmitry, 14:45

About

Blog

Apps

Platform