Инжиниринг Данных

GitHub провел опрос о пользе AI tools для разработчиков и поделились результатами. Результаты позитивные, я полностью согласен, так как уже использование chatGPT заменил google.

❤‍🔥13🌚2

7.03K viewsDmitry, edited 16:39

Инжиниринг Данных

🚀 Хотите узнать, как собирать и анализировать данные в Telegram?

Тогда подключайтесь к бесплатному вебинару 20 июня 2023 года в 12:00.

Мы подробно расскажем и покажем, как с помощью serverless-сервисов реализовать упрощённый пайплайн поставки данных в Managed ClickHouse и визуализировать их в DataLens. На вебинаре:
• мы сделаем обзор serverless-сервисов и DataLens;
• вы узнаете, как решить задачи поставки и визуализации данных, используя связку: Managed ClickHouse, serverless-сервисов, DataLens, — и как реализовать эти задачи на примере аналитики данных Telegram-чатов.

Вебинар будет полезен бэкенд- и фронтенд-разработчикам, DevOps-специалистам, аналитикам и PM-ам.

Вебинар бесплатный — нужна только регистрация.

#реклама

❤‍🔥8🗿3⚡1

6.93K viewsDmitry, 18:36

Инжиниринг Данных

Пример решения на Azure Databricks для крупнейшего Северо-Американского телеком оператора. Так получилось, что я слегка помогают сразу двум операторам, один на AWS EMR+Spark и витрины в Snowflake, а другой на Azure Databricks (Delta Lake).

❤‍🔥25🗿1

6.67K viewsDmitry, edited 06:01

Инжиниринг Данных

🔥 Главная в России конференция про Kubernetes®

22 июня 2023 года состоится Kuber Conf — конференция для всех, кто работает с Kubernetes®. Вас ждёт 9 докладов, 12 спикеров, 180 минут техноконтента:

➡️ технические доклады, продуктовые обзоры, лучшие практики от разработчиков и экспертов по контейнерным технологиям;
➡️ создание сервисов и решение бизнес-задач с помощью Kubernetes в финтехе, e-commerce, HoReCa и не только;
➡️ неформальное общение с профессиональным сообществом, встреча старых друзей и новые знакомства.

Регистрируйтесь по ссылке, чтобы получить доступ к онлайн-трансляции Kuber Conf’23!

🙊5🐳2

8.83K viewsDmitry, 06:59

Инжиниринг Данных

Я решил изучить Emacs, стал читать книгу Harley Hahn's Emacs Field Guide

И в первой главе сразу:

Generally speaking, here is what we can say about the type of people who like to use Emacs (and because you are reading this book, I am assuming that these three statements apply to you):

1. Emacs users are smart.
2. Emacs users like to use computers.
3. Emacs users enjoy teaching themselves how to use complicated, powerful tools.

Ну вы поняли😎

PS Emacs — один из наиболее мощных и широко распространённых редакторов, используемых в мире Unix. По популярности он соперничает с редактором vi и его клонами. В зависимости от ситуации, Emacs может быть:

- текстовым редактором;
- программой для чтения почты и новостей Usenet;
- интегрированной средой разработки (IDE);
- операционной системой;
- всем, чем угодно.

Всё это разнообразие достигается благодаря архитектуре Emacs, которая позволяет расширять возможности редактора при помощи языка Emacs Lisp. На языке C написаны лишь самые базовые и низкоуровневые части Emacs, включая полнофункциональный интерпретатор языка Lisp. Таким образом, Emacs имеет встроенный язык программирования, который может использоваться для настройки, расширения и изменения поведения редактора. В действительности, большая часть того редактора, с которым пользователи Emacs работают в наши дни, написана на языке Lisp.

Первая версия редактора Emacs была написана в 70-х годах 20-го столетия Richard Stallman (Ричардом Столманом) как набор макросов для редактора TECO. В дальнейшем, уже будучи основателем Фонда Свободного программного обеспечения Free Software Foundation и проекта GNU, Столман разработал GNU Emacs в развитие оригинального Emacs и до сих пор сопровождает эту программу. (источник https://alexott.net/ru/writings/altlinux-emacs/#sec1 - самое интересное, что я общался с этим человеком, когда внедрял Databricks в Xbox, а теперь мне Bing выдал его пост сверху)

PPS Классное выступление How Emacs made me appreciate software freedom

SpringerLink

Harley Hahn's Emacs Field Guide

In this book, Harley Hahn demystifies Emacs for programmers, students, and everyday users. The first part of the book carefully creates a context for your work with Emacs. What exactly is Emacs? How does it relate to your personal need to work quickly and…

❤‍🔥11🌚6💘1🦄1

8.26K viewsDmitry, 18:52

Инжиниринг Данных

Оказывается в Ванкувере проводится крупнейшая конференция - EEE/CVF Conference on Computer Vision and Pattern Recognition 2023 о которой я узнал из канала эйай ньюз

Автор канала Артем оказался в Ванкувере и после нескольких сообщений получилось организовать классную встречу на крыше с шикарным видом и bbq в самом центре Ванкувера на которую пришли все желающие среди его подписчиков.

Несмотря на то, что некоторым не продали алкоголь😜, мы отлично провели время, обсуди непростую жизнь иммигрантов и ИТишников, зарплаты, жизнь в Европе/Северной Америке и много другое.

❤‍🔥33🍌8🐳6🌚2

7.25K viewsDmitry, 21:00

Инжиниринг Данных

📊 Любопытный кейс Fix Price с аналитикой данных о продажах.

Долгое время команда Fix Price использовала платформу с ассоциативной архитектурой. Данные обрабатывали в оперативной памяти. Поняли, что много времени тратят на построение витрин данных — по три часа в день.

Изменили подход к построению структуры данных и внедрили СУБД на базе ClickHouse с предварительной обработкой xml-файлов с помощью Yandex Cloud Functions. Результат — теперь на один отчет тратится несколько секунд 🤩

Подробности по ссылке.

🦄18🗿8🙈6❤‍🔥2🍾1

7.19K viewsDmitry, 15:00

Инжиниринг Данных

#weeklydatanewsdump

И снова накопилась порция полезных ссылок.

Мне понравилось видео - God-Tier Developer Roadmap, в котором автор рассказывает о пирамиде языков программирования, начиная с таких простых как Scratch. Было бы классно сделать такую же пирамиду про Аналитику. Например, в моем понимании начинается с Excel->SQL->Python->Scala/Go и тп.

Другое видео I Tried Andrew Huberman's Morning Routine - [30 Days + Blood Tests] - в целом про дисциплину. Мы все знаем как быть успешными (для меня отчасти это синоним дисциплинированности), но очень мало людей имеют достаточно мотивации, чтобы следовать простым правилам, которые сделают вас более продуктивными, мотивированными, и как следствие более счастливыми и здоровыми. Это большой топик, у которого нет четкого решения.

Недавно увидел очень удобный плагин Fig, у которого нереальный autocompletion. Это open source. Другой классный плагин для CLI - fx, который умеет красиво форматировать JSON в командной строке.

Парочка ресурсов про PySpark Style Guides:
- PySpark Style Guide
- Palantir PySpark Style Guide - активно использовал его.

Вообще style guide необходим, чтобы вы не использовали, чтобы все было "по красоте".

Отличная статья, которая помогает разобраться в Presto\Trino терминологии - Introduction to Presto/Trino for Data Engineers. Кстати AWS Athena использует Presto query engine. Так же недавно мы общались с Trino/Presto основателями. Мой текущий DE менеджер (пригласил бывших коллег) был сокращен из Meta, где он проработал года 3, а до этого он много лет работал в Lyft, еще до IPO. Очень грамотный мужик, слушаю его и впитываю информацию. Вообще он сказал, что уже на пенсию собирается=) как я понял он грамотно распорядился стоками Lyft/Meta и владеет недвижимостью в Канаде и США, и в свободное время менеджер инженеров🛺

Snowflake поделился - Monitoring your Snowflake Organization with Snowsight. Вообще, все что есть в снежинке для мониторинга стоимости сделано очень качественно и детально, можно все отслеживать и тем самым экономить и оптимизировать.

Хотя согласно этой маркетинговой статье REDUCING OUR DATA INFRASTRUCTURE COSTS BY 76% BY MIGRATING FROM SNOWFLAKE TO DATABRICKS в Databricks будет еще дешевле🙈, и где то я видел, что в Trino будет еще дешевле, чем в Databricks и про миграцию из Trino/Presto на Snowflake. Круг замкнулся. 😭

Пока мы топим за облака, есть компании, кто очень круто обходится без облаков, так как особо никаких нет преимуществ для них - Inside Agoda’s Private Cloud. Поэтому для большинства Российских компаний быть не в облаке это уже не значит, что компания динозавр, а наоборот осмысленный шаг.

Еще несколько Git Repos с полезными материалами по Software Engineering Foundations:
- 30-seconds-of-code
- Public APIs - Explore, discover and consume public APIs as simpler programmable building blocks all on one platform for a 10x developer experience.
- free-programming-books - The list was moved to GitHub by Victor Felder for collaborative updating and maintenance. It has grown to become one of GitHub's most popular repositories, with 271,000+ stars, about 9,700 watchers, more than 8,300 commits, 2,400+ contributors, and 54,000+ forks.
- The Algorithms - Open Source resource for learning Data Structures & Algorithms and their implementation in any Programming Language
- Tech Interview Handbook - free and curated technical interview preparation materials for busy engineers, brought to you by me, the author of Blind 75. Over 500,000 people have benefitted from this handbook!

PS И маленький бонус для Северо Американских (и не только) коллег - Insights про ипотеку, как начать экономить и перестать жечь деньги на ипотечный процент - Mortgages and Christmas Gifts и еще мне понравилось Understanding Money - это все личный блог Harley Hahn, автора книги про Unix, Emacs и множество других. Мужик просто гений.

❤‍🔥27🐳5🍾3🫡3🌭1

6.85K viewsDmitry, edited 18:16

Инжиниринг Данных

Return to Office Enters the Desperation Phase - статья про возвращение сотрудников в офис, напоминает нам о том, что идея удаленной работы не очень хорошо ложится на финасовые показатели больших компаний. Отсюда и движ в сторону загнать всех в офис, а кто не хочет - "давай досвидание".

В Linkedin попался хороший комментарий на эту тему:

This article starts strong with this asinine CEO complaining that zoom calls are too polite and that he is much happier in person where you can interrupt people.

And it’s that kind of pathetic reaching that we hear over and over again when regressive CEOs struggle to justify RTO. But they are liars. Here are three reasons they want you back in the office:

1. Bonuses and EBIT: with long term leases, the cost of an office looks like a loss on their balance sheet. EVEN IN A PROFITABLE COMPANY this means bonuses get a bit lighter for the folks on top.

2. Quiet layoffs: if they can make a change that will force parents, distant workers and others to resign - that doesn’t look like a layoff on their balance sheet. Does it vastly discriminate against single moms and people with less family wealth? Sure. Is that racism with extra steps? Sure. But that’s fine. We can interrupt people in person!

3. Middle Management Failings: the incompetence and impotence of middle management has never been more obvious than the vast improvements in output that happened when they were no longer part of the equation with WFH. And once again, you can quiet lay off brown moms every day of the Shark Week, but try to fire middle management and you’ve got a lawsuit on your hands buddy.

RTO is a lie by liars and what comes next will be the scramble to invent proof of decreased productivity from home. But don’t pretend for a second that these racist liars aren’t ready to put their racist lying sleaze hands on the scale to make their points. They’ve already started.

То есть, несомненно, возможность всех заставить ходить на работу принесет выгоду владельцам бизнеса, но явно не на пользу сотрудникам, особенно у кого есть множестве личных дел. В мое случае ходить в офисе звучит как "зашквар", что-то из далекого прошлого. В любом случае не нам выбирать, где работать - дома или в офисе, кто платит, тот и музыку заказывает.

А как у вас настрой с удаленной работой и возвращение в офис? А может быть вы уже вернулись?

NY Times

Return to Office Enters the Desperation Phase

The next stage of getting workers back at their desks includes incentives like $10 to the charity of their choice — and consequences like poor performance evaluations if they don’t make the trek in.

❤‍🔥4🐳2🌚2🌭2👨‍💻2

7.06K viewsDmitry, 06:15

Инжиниринг Данных

IT_One Data Meetup: обработка и хранение данных — бесплатный онлайн-митап при поддержке JUG Ru Group.

🗓 Митап пройдет на сайте IT_One — 29 июня в 18:00

В программе:
✔️ Анна Зверькова — «Как обойти грабли при очистке данных от дубликатов с помощью Apache Hive».
Анна расскажет о способах и проблемах дедупликации большого объема данных невысокого уровня качества, а также о методах решения проблем с помощью Apache Hive и других инструментов.

✔️ Сергей Мелекшаян — «Кэширование ответов с помощью JSONB для высоконагруженных сервисов».
Сергей покажет, как уменьшить количество промежуточных операций и отдавать данные быстрее — с помощью готовых данных в виде JSON.

Так же в программе дискуссии и розыгрыши призов 🎁

Участие бесплатное. Регистрация по ссылке на сайте мероприятия.

❤‍🔥5👨‍💻2🙈2🐳1

7.83K viewsDmitry, 09:01

Инжиниринг Данных

Классно видеть как 2 топ человека из Tableau Community создали семью. Именно они учили всех Tableau и запустили проект MakeOverMonday, на котором каждую неделю выдавали новый data set и каждый желающий строил dashboard. Я сам лично построил dashboard про объемы картофеля в Нидерладнах🦥

❤‍🔥82🤷‍♂3🤷‍♀2⚡1

8.14K viewsDmitry, 17:00

Инжиниринг Данных

Мы часто сравниваем цены облачных решений по условным единицам - DBU, credits, DPU, SCU и так далее.

На самом деле цена складывается еще и из облачных сервисов, которые задействованы в работе решения.

На картинке список статей расхода за владением Databricks, где сам compute (DBU) лишь часть цены удовольствия.

🗿8❤‍🔥3

7.91K viewsDmitry, 06:30

Инжиниринг Данных

Вчера был очередной спонтанный event, даже 2. Во-первых, я посетил местный митап low key data, на котором люди пообщались за жизнь, и на котором был автор книги Fundamentals of Data Engineering. Было шумно и скучно.

А вот второе событие было что нужно! Так как это был последний день конференции CVPR по компьютерному зрению, и народ решился собраться вместе, и мне удалось присоединится. Но в этот раз был народ из бывшего сообщества ODS, которое распалось на 2. В Как я понял, народ собрался из Singularis. Я сам далек от их движений, но было классно снова собраться на крыше Microsoft с видом на вечерний/ночной Ванкувер (так как столик на 10 человек в ресторане не вместил 20-30 человек).

Познакомился со множество классного народа, вот например:
- основатели стартапов Denti.AI, DVC, Breeze Traffic
- инженеры из Калифорнии с зп 600к+
- PhD студенты
- и просто гении нашего времени

Короче, прям благоприятная среда для нетворкинга! Так, что если еще какой движ в Ванкувере, пишите, будем собираться обсуждать стартапы, компании, страны, зарплаты и пить местные напитки🦾

🍾10🌭8❤‍🔥3

7.95K viewsDmitry, 18:34

Инжиниринг Данных

Forwarded from Книжный куб (Alexander Polomodov)

Публикации на Google Research

Последние пару дней я активно готовился к своему докладу про RnD и изучал страничку research.google/pubs/, чтобы посмотреть какие white papers появлялись у Google и когда.
В итоге, я составил список ключевых документов с фокусом на сервисы и инфраструктур (исключая ML), которым решил поделиться

- 2003 год - The Google File System - про распределенную файловую систему от Google
- 2004 года - MapReduce: Simplified Data Processing on Large Clusters - про концепцию параллельной обработки в формате MapReduce (по мотивам появился Hadoop)
- 2006 год - Bigtable: A Distributed Storage System for Structured Data - про распределенную NoSQL базу (по мотивам BigTable и Amazon DynamoDB появилась Cassandra)
- 2006 - The Chubby lock service for loosely-coupled distributed systems - про сервис распределенных локов, которые можно использовать вместо встраивания консесуса в сами сервисы
- 2007 - Engineering Reliability into Web Sites: Google SRE - про роль SRE в обеспечении надежности
- 2010 - Dapper, a Large-Scale Distributed Systems Tracing Infrastructure - про трассировку в распределенных системах (open source последователи Zipkin, Jaeger, OpenTelemetry)
- 2012 - Spanner: Google's Globally-Distributed Database - про NewSQL базу данных с масштабированием как у NoSQL и ACID транзакциями, под капотом TrueTime для точного определения времени, что нужно для определения порядка транзакций (open source последователи Cockroach DB)
- 2013 - Omega: flexible, scalable schedulers for large compute clusters - про окрестратор рабочих нагрузок (наследник Borg, но менее удачный)
- 2015 - Large-scale cluster management at Google with Borg - про оркестратор рабочих нагрузок, что предшествовал Omega и в итоге оказался более удачным и пережил ее
- 2015 - TensorFlow: Large-Scale Machine Learning on Heterogeneous Distributed Systems - про фреймворк для машинного обучения, который сразу был выпущен в open source
- 2016 - Borg, Omega, and Kubernetes - про сравнение двух внутренних и одного публичного (K8s) оркестратора нагрузок (Kubernetes изначально тоже сделал Google)
- 2016 - Ubiq: A Scalable and Fault-tolerant Log Processing Infrastructure - про обработку логов на масштабе
- 2017 - Spanner, TrueTime and the CAP Theorem - про CAP теорему и Spanner от создателя CAP-теоремы, Eric Brewer, что к этому моменту уже давно работал в Google
- 2018 - Advantages and disadvantages of a monolithic repository: a case study at google - про монорепозиторий Google и как он помогает им в разработке
- 2019 - Zanzibar: Google’s Consistent, Global Authorization System - про ReBAC систему авторизации, что завязана на отношения между сущностями (мы этот white paper как-то уже обсуждали в Code of Architecture)
- 2020 - Monarch: Google's Planet-Scale In-Memory Time Series Database - про time-series базу данных
- 2020 - Scaling PageRank to 100 Billion Pages - про масштабирование ключевого алгоритма на графах (Page Rank) на супер масштабы
- 2020 - Autopilot: Workload Autoscaling at Google Scale - про автомасштабирование рабочих нагрузок в облаках
- 2022 - Deployment Archetypes for Cloud Applications - интересное исследование про виды deployments
- 2023 - A Model-based, Quality Attribute-guided Architecture Re-Design Process at Google - интересный документ про архитектурные процессы в Google на примере репроектирования системы Monarch, про которую был white paper от 2020 года

Если суммировать мои мысли про Google и создание ими статей, то видно, что они первыми писали про многие сложные штуки, но вот open source решений поначалу они не создавали, и у них появлялись open source аналоги. И эти аналоги были несовместимы с внутренними инструментами Google, что мешало получать помощь от коммьюнити. Значимыми исключениями с точки зрения открытости являются: Android, Chrome, Kubernetes, TensorFlow.

#RnD #WhitePaper #Software #SoftwareDevelopment #Architecture #SoftwareArchitecture #DistributedSystems #SystemDesign #SystemEngineering

research.google

Publications – Google Research

Google publishes hundreds of research papers each year. Publishing our work enables us to collaborate and share ideas with, as well as learn from, the broader scientific…

❤‍🔥24🦄4

6.92K viewsDmitry, 14:35

Инжиниринг Данных

Следующие несколько дней будет идти снег, то есть Snowflake Summit 2023 в Лас-Вегасе. Достаточно большое событие в мире аналитике. Когда давно таким же была Tableau Conference. Но фокус сместился с инструментов визуализации и коммуникации к инструментами хранения и обработки больших данных и AI. Ведь AI без больших данных (я не про buzz Big Data, а буквально много данных).

Самое забавное, что конференция Databricks проходит в эти же дни в Сан-Франциско.

Сегодня был всего один Keynote - Generative AI's Impact on Data Innovation in the Enterprise на котором CEO Snowflake и CEO NVIDIA обсудили роль generative AI в современном мире.

Вся дискуссия свелась к определению AI приложений. Оба CEO не могут сдержать эмоций от бума AI и LLM. "Просто WOW!"(c)

Главная задача аналитического решения - intelligence decision, то есть необходимо найти правильную информация - insights, которые помогут принять правильное решение. Данные мы научились собирать, хранить и обрабатывать. Но все еще достаточно сложно найти правильную информацию.

С ростом популярности LLM можно будет поручить эту задачу (поиска insights) умным агентам (AI agents). Но для этого необходимо будет тюнить и совершенствовать базовый (pre-trained) LLM модели. А это очень дорогой (compute intense) процесс.

Именно поэтому Snowflake и Nvidia рассказали про партнерство в этой области. У Snowflake есть много данных, NVIDIA предоатсвить GPU compute и pre-trained модели. Таким образом клиенты смогут строить AI Applications and Systems.

AI System = LLM model + knowledge database.

Кстати, нашел старый пост про Snowflake+Nvidia - Large-Scale Machine Learning with Snowflake and RAPIDS

Так, что смотрим что нового появится в Snowflake.

PS еще узнал про сервис chatPDF.

В самом Лас-Вегасе +35, вся улица пестрит баннерами data вендоров.

PPS параллельно с summit проходит этажом выше Hair конференция про прически и уходы за волосами.

Из минусов, детям до 21 запрещают играть в казино, а какие были надежды и планы на выигрыш)))

👨‍💻14❤‍🔥3🗿1

6.52K viewsDmitry, edited 04:49

Инжиниринг Данных

29 июня в Екатеринбурге пройдёт бесплатный митап Yandex Infrastructure.

На нём расскажем про приватное контейнерное облако, про использование простаивающих ресурсов во внутреннем облаке Яндекса и про YTsaurus — платформу для обработки и хранения больших данных.

Встреча будет полезна для backend-разработчиков, DevOps- и SRE-инженеров.

Начало мероприятия в 18:00.
Регистрация по ссылке

❤‍🔥8🍌4🙊3🌚2⚡1

6.15K viewsDmitry, 15:58

Инжиниринг Данных

2й день конференции Snowflake Summit.

TL;DR: snowflake уже не просто хранилище данных, но это полноценная платформа, которая решает все современные потребности для организации, включая BI, DWH, BigData, Data Applications, Generative AI, ML, LLMs, containers, streamings, customer facing applications. И все это очень безопасно внутри snowflake data cloud. И самое главное, они следуют своей миссии - SaaS, managed data cloud, где heavy lifting происходит под капотом, позволяя решать бизнес задачи и не тонуть в коде открытого ПО и не жечь ресурсы на его поддержку. Цена у такого удобства это vendor lock + серьезный cost за использования такого удобного продукта.

Все началось с keynote, ну а как вы хотели? без keynote любая конференция - деньги на ветер.

CEO Snowflake рассказал, что AI strategy, не возможна без Data Strategy. И у snowflake все отлично со стратегией данных, потому что snowflake это прежде всего data Cloud.

Потом нам показали очень классную визуализацию - circle network chart в котором все клиенты snowflake, и многие из них соединены друг с другом. Мы рассмотрели одного клиента поближе, компанию Fiserv, и только эта компания имеет связь с 5-7 других компаний, и все это происходит внутри snowflake data cloud.

Frank так же подискутировал на тему, что было 60-70 лет назад, и что сейчас. 60-70 лет назад у клиентов было 1-3 структурированных баз данных, и все было очень просто. Теперь, у клиентов могут быть сотни источников данных - структурированных и неструктурированных. Именно поэтому snowflake приобрел компанию Applica, которая помогает неструктурированные данные превращать в структурированные, с помощью AI и ML.

Затем, мы посмотрели на типичные workloads, в них входят: collaboration, data sharing, кибер безопасность (отличный способ избавиться от старого SIEM решения), инжиниринг данных (между прочем 40% утилизации snowflake), AI (70% клиентов что-то делают с AI/ML), приложения.

И все это защищено enterprise grade безопасностью, как говорит Frank - governance - это наше все.

Упомянули про 3 главных новинки этого лета:
- Iceberg формат
- Фреймворк для создания native приложений
- Snowpark контейнеры (Snowpark Container Service)

Далее был небольшой fireside chat между CTO snowflake и AI/ML подразделением, включая нового SVP, который присоединился месяц назад и работал 15 лет в go, где отвечал за разработку ML/AI.

Таким образом commitment в AI/ML огромный.

🫡19❤‍🔥4

5.84K viewsDmitry, 05:51

Инжиниринг Данных

В заключении SVP по продукту рассказал о главных релизах. Что-то уже доступно, что-то еще в разработке.

1. Большая работа проделана с открытым форматом Iсeberg. Изначально идея использовать Iсeberg не очень взлетела, но компания собрала отзывы от клиентов и выкатила новое решение - Iceberg Managed Tables. Прирост производительности и удобство работы.

2. С недавним приобретениме стартапа, которыей работал на преоборазованием неструктурированных данных в структурированные привело к созданию нового сервиса - Document API, мы просто загружаем PDF, и можем писать запросы к данным и оптимизировать модель.

3. Рассказали про Performance Index.

4. Компания Fidelity рассказала про свой опыт миграция на облако Snowflake и консолидацию 200 хранилищ и баз данных вместе.

5. Рассказали про marketplace. Как все крупные вендоры у Snowflake будет свой marketplace, не AppStore, но тем неменее.

6. Показали демку по созданию приложения в несколько кликов. Направление приложений и marketplace активно развивается и многие компании уже монетизируют приложения и данные.

7. Для разработчиков будет обновленный Snowflake Python, CLI, looging/tracing API и наконец-то синхронизация с git системой.

8. Показали Snowpark - code interface для данных в snowflake. И самое главное рассказали про резил snowpark container service, теперь мы можем хранить docker image в snowflake registy и создавать свои приложения, особенно актуально для ML/AI.

9. Улучшения в области streaming. Появятся Kafka connectors, которые будут напрямую загружать данные в snowflake dynamic tables.

10. Text-to-code - аналог chaptGPT, но для вашего хранилища данных.

11. Недавняя покупка Streamlit позволяет создавать AI приложения.

12. Интеграция с Nvidia, GPU Compute.

Так же я побывал на нескольких сессия связанных с ML/AI видением для snowflake, и примерами создания ml приложений.

Посмотрел на использование Python (snowpark) для задач data engineering.

И в заключении, посетил классный workshop по оптимизации стоимости Snowflake.

Расскажу отдельно потом про каждую сессию.

🍾31❤‍🔥3🌭2

6.06K viewsDmitry, 05:51

Инжиниринг Данных

Попалась классная статья работы с данными в Spark в Почте Mail.ru: как они хранят петабайты информации и как выполняют запросы к ним.

В статье они также рассказали, как в хранилище они превратили 7 петабайт в 0,5 петабайт, что позволило сэкономить годовой бюджет по закупке серверов.

А самое главное – там собраны ключевые проблемы с данными, знание о которых вполне может помочь вам построить своё классное хранилище без последующей переделки. Почитать можно тут.

❤‍🔥14🍌10🌚8

6.59K viewsDmitry, 16:09

Инжиниринг Данных

3й день Snowflake Summit.

Несмотря на то, что будет еще один день, все самое интересное уже рассказали и показали. В четверг можно будет посмотреть повтор сессий прошедших дней и полететь дальше отдыхать от работы🦆

Как обычно, утро началось с keynote.

Вначале Snowflake president Benoît Dageville, рассказал нам, еще раз, какой замечательный продукт Snowflake. Напомнил нам, как все началось в 2014 году, когда они придумали разделить storage и compute, создав killer хранилище данных. 4 года позже появился data sharing, возможность давать доступ к своим данным, без физического перемещения этих данных, конечно же внутри Snowflake data cloud! (ведь бесплатный сыр только в мышеловке).

А теперь, у нас есть AI, Apps, Pipelines (имеется ввиду классическое хранилище данных). Благодаря snowpark, мы можем использовать Python, SQL, Java, Scala. И вообще забудьте Apache Spark, теперь вам не нужно платить кому-то еще, все можно делать с помощью Snowpark, да еще контейнизировать ваши приложения.

Так же он рассказал, что snowflake активно работает над open source решениями, включая streamlit, snowpark, terraform, sansshel, schemachange, lezer-snowsql.

Далее, в театральной постановке на показали работу выдуманной компании - Tasty Bytes. У которой полный цикл классических проблем для современного решения данных: batch vs streaming, SQL vs Python, как добавить ML?, где хостить ML? как дать доступ внешним клиентам?

Нам еще раз показали dynamic tables, kafka connectors, SQL forecast, Snowpark, Stremlit App.

Пример stremlit App мне напомнил Microstrategy mobile apps, но здесь реально %уяк %уяк и в продакшн, справится даже стажер.

Так же я посетил несколько сессий (ссылки на Quickstart, вы можете пройти бесплатно tutorial):
1. hands-on - Snowpark + AWS SageMaker, отличный вариант если вас не устраивает тотальный vendor lock.
2. DevOps with Snowflake - на котором рассказали про возможности infrustructure as a Code с использованием terraform и альтернатив, чтобы управлять объектами snowflake и RBAC. В планах начать использовать snowflake API, пока работает все с Snowflake SDK.
3. Near Realtime Ingestion and Transformation on Snowflake - очень хорошая прикладная сессия по интеграции Apache Kafka и подобных streaming решений в snowflake. Рассказали про преимущества/недостатки и best practices для каждого случая. Существует три варианта:
- Clound Sink + Snowpipe
- Snowflake kafka connector with Snowpipe
- Kafka Connector with Snowpipe Streaming
- Custom Java Application

В целом хорошее мероприятие, видно куда движется индустрия, для полной картины еще бы посмотреть databricks. Можно сказать гештальт по snowflake закрыт, несмотря на то, что еще один день впереди.

Стоило ли мероприятие 2 тысячи долларов? Конечно да, если за вас кто-то заплатил, или вам нужно списать большие суммы денег в расходы, а так все тоже самое можно узнать бесплатно online. Все quickstarts доступны.

Каких-то прорывных мыслей у меня не появилось, кроме как - "Ахренеть, с какой скоростью все движется, тут кое-как в одно въехал, и на тебе, еще десяток фич и инструментов". В целом snowflake хорошо подмял под себя индустрию.

🍾14🌚3

6.4K viewsDmitry, edited 04:28

Инжиниринг Данных

Yandex Cloud приглашает на Data Open Source Day

Это первая конференция от Yandex Cloud про Open Source инструменты для обработки данных и создания корпоративных хранилищ.

В программе Data Open Source Day:

🔹 Реальные бизнес-задачи, которые можно решать с помощью Open Source продуктов.
🔹 Эксперты из OZON, Яндекс, Битрикс24 и других компаний расскажут, как технологии с открытым исходным кодом помогают им в работе.
🔹 Какой вклад команда Yandex Cloud вносит в развитие ClickHouse® и Greenplum® .
🔹 Open Source продукты Яндекса для работы с данными: расскажем про YDB и YTsaurus.

Также вас ждёт доклад Яндекс Игр об опыте использования управляемых сервисов PostgreSQL, Redis, YDB. Рассказ о том, как Open Source помогает науке и при чём здесь озеро Байкал.

🗓 11 июля 2023, в 15:00. Участие бесплатное. Регистрация по ссылке .

#реклама

🍾12🙉5🍌1

7.93K viewsDmitry, edited 06:59

About

Blog

Apps

Platform