Следующие несколько дней будет идти снег, то есть Snowflake Summit 2023 в Лас-Вегасе. Достаточно большое событие в мире аналитике. Когда давно таким же была Tableau Conference. Но фокус сместился с инструментов визуализации и коммуникации к инструментами хранения и обработки больших данных и AI. Ведь AI без больших данных (я не про buzz Big Data, а буквально много данных).
Самое забавное, что конференция Databricks проходит в эти же дни в Сан-Франциско.
Сегодня был всего один Keynote - Generative AI's Impact on Data Innovation in the Enterprise на котором CEO Snowflake и CEO NVIDIA обсудили роль generative AI в современном мире.
Вся дискуссия свелась к определению AI приложений. Оба CEO не могут сдержать эмоций от бума AI и LLM. "Просто WOW!"(c)
Главная задача аналитического решения - intelligence decision, то есть необходимо найти правильную информация - insights, которые помогут принять правильное решение. Данные мы научились собирать, хранить и обрабатывать. Но все еще достаточно сложно найти правильную информацию.
С ростом популярности LLM можно будет поручить эту задачу (поиска insights) умным агентам (AI agents). Но для этого необходимо будет тюнить и совершенствовать базовый (pre-trained) LLM модели. А это очень дорогой (compute intense) процесс.
Именно поэтому Snowflake и Nvidia рассказали про партнерство в этой области. У Snowflake есть много данных, NVIDIA предоатсвить GPU compute и pre-trained модели. Таким образом клиенты смогут строить AI Applications and Systems.
AI System = LLM model + knowledge database.
Кстати, нашел старый пост про Snowflake+Nvidia - Large-Scale Machine Learning with Snowflake and RAPIDS
Так, что смотрим что нового появится в Snowflake.
PS еще узнал про сервис chatPDF.
В самом Лас-Вегасе +35, вся улица пестрит баннерами data вендоров.
PPS параллельно с summit проходит этажом выше Hair конференция про прически и уходы за волосами.
Из минусов, детям до 21 запрещают играть в казино, а какие были надежды и планы на выигрыш)))
Самое забавное, что конференция Databricks проходит в эти же дни в Сан-Франциско.
Сегодня был всего один Keynote - Generative AI's Impact on Data Innovation in the Enterprise на котором CEO Snowflake и CEO NVIDIA обсудили роль generative AI в современном мире.
Вся дискуссия свелась к определению AI приложений. Оба CEO не могут сдержать эмоций от бума AI и LLM. "Просто WOW!"(c)
Главная задача аналитического решения - intelligence decision, то есть необходимо найти правильную информация - insights, которые помогут принять правильное решение. Данные мы научились собирать, хранить и обрабатывать. Но все еще достаточно сложно найти правильную информацию.
С ростом популярности LLM можно будет поручить эту задачу (поиска insights) умным агентам (AI agents). Но для этого необходимо будет тюнить и совершенствовать базовый (pre-trained) LLM модели. А это очень дорогой (compute intense) процесс.
Именно поэтому Snowflake и Nvidia рассказали про партнерство в этой области. У Snowflake есть много данных, NVIDIA предоатсвить GPU compute и pre-trained модели. Таким образом клиенты смогут строить AI Applications and Systems.
AI System = LLM model + knowledge database.
Кстати, нашел старый пост про Snowflake+Nvidia - Large-Scale Machine Learning with Snowflake and RAPIDS
Так, что смотрим что нового появится в Snowflake.
PS еще узнал про сервис chatPDF.
В самом Лас-Вегасе +35, вся улица пестрит баннерами data вендоров.
PPS параллельно с summit проходит этажом выше Hair конференция про прически и уходы за волосами.
Из минусов, детям до 21 запрещают играть в казино, а какие были надежды и планы на выигрыш)))
👨💻14❤🔥3🗿1
29 июня в Екатеринбурге пройдёт бесплатный митап Yandex Infrastructure.
На нём расскажем про приватное контейнерное облако, про использование простаивающих ресурсов во внутреннем облаке Яндекса и про YTsaurus — платформу для обработки и хранения больших данных.
Встреча будет полезна для backend-разработчиков, DevOps- и SRE-инженеров.
Начало мероприятия в 18:00.
Регистрация по ссылке
На нём расскажем про приватное контейнерное облако, про использование простаивающих ресурсов во внутреннем облаке Яндекса и про YTsaurus — платформу для обработки и хранения больших данных.
Встреча будет полезна для backend-разработчиков, DevOps- и SRE-инженеров.
Начало мероприятия в 18:00.
Регистрация по ссылке
❤🔥8🍌4🙊3🌚2⚡1
2й день конференции Snowflake Summit.
TL;DR: snowflake уже не просто хранилище данных, но это полноценная платформа, которая решает все современные потребности для организации, включая BI, DWH, BigData, Data Applications, Generative AI, ML, LLMs, containers, streamings, customer facing applications. И все это очень безопасно внутри snowflake data cloud. И самое главное, они следуют своей миссии - SaaS, managed data cloud, где heavy lifting происходит под капотом, позволяя решать бизнес задачи и не тонуть в коде открытого ПО и не жечь ресурсы на его поддержку. Цена у такого удобства это vendor lock + серьезный cost за использования такого удобного продукта.
Все началось с keynote, ну а как вы хотели? без keynote любая конференция - деньги на ветер.
CEO Snowflake рассказал, что AI strategy, не возможна без Data Strategy. И у snowflake все отлично со стратегией данных, потому что snowflake это прежде всего data Cloud.
Потом нам показали очень классную визуализацию - circle network chart в котором все клиенты snowflake, и многие из них соединены друг с другом. Мы рассмотрели одного клиента поближе, компанию Fiserv, и только эта компания имеет связь с 5-7 других компаний, и все это происходит внутри snowflake data cloud.
Frank так же подискутировал на тему, что было 60-70 лет назад, и что сейчас. 60-70 лет назад у клиентов было 1-3 структурированных баз данных, и все было очень просто. Теперь, у клиентов могут быть сотни источников данных - структурированных и неструктурированных. Именно поэтому snowflake приобрел компанию Applica, которая помогает неструктурированные данные превращать в структурированные, с помощью AI и ML.
Затем, мы посмотрели на типичные workloads, в них входят: collaboration, data sharing, кибер безопасность (отличный способ избавиться от старого SIEM решения), инжиниринг данных (между прочем 40% утилизации snowflake), AI (70% клиентов что-то делают с AI/ML), приложения.
И все это защищено enterprise grade безопасностью, как говорит Frank - governance - это наше все.
Упомянули про 3 главных новинки этого лета:
- Iceberg формат
- Фреймворк для создания native приложений
- Snowpark контейнеры (Snowpark Container Service)
Далее был небольшой fireside chat между CTO snowflake и AI/ML подразделением, включая нового SVP, который присоединился месяц назад и работал 15 лет в go, где отвечал за разработку ML/AI.
Таким образом commitment в AI/ML огромный.
TL;DR: snowflake уже не просто хранилище данных, но это полноценная платформа, которая решает все современные потребности для организации, включая BI, DWH, BigData, Data Applications, Generative AI, ML, LLMs, containers, streamings, customer facing applications. И все это очень безопасно внутри snowflake data cloud. И самое главное, они следуют своей миссии - SaaS, managed data cloud, где heavy lifting происходит под капотом, позволяя решать бизнес задачи и не тонуть в коде открытого ПО и не жечь ресурсы на его поддержку. Цена у такого удобства это vendor lock + серьезный cost за использования такого удобного продукта.
Все началось с keynote, ну а как вы хотели? без keynote любая конференция - деньги на ветер.
CEO Snowflake рассказал, что AI strategy, не возможна без Data Strategy. И у snowflake все отлично со стратегией данных, потому что snowflake это прежде всего data Cloud.
Потом нам показали очень классную визуализацию - circle network chart в котором все клиенты snowflake, и многие из них соединены друг с другом. Мы рассмотрели одного клиента поближе, компанию Fiserv, и только эта компания имеет связь с 5-7 других компаний, и все это происходит внутри snowflake data cloud.
Frank так же подискутировал на тему, что было 60-70 лет назад, и что сейчас. 60-70 лет назад у клиентов было 1-3 структурированных баз данных, и все было очень просто. Теперь, у клиентов могут быть сотни источников данных - структурированных и неструктурированных. Именно поэтому snowflake приобрел компанию Applica, которая помогает неструктурированные данные превращать в структурированные, с помощью AI и ML.
Затем, мы посмотрели на типичные workloads, в них входят: collaboration, data sharing, кибер безопасность (отличный способ избавиться от старого SIEM решения), инжиниринг данных (между прочем 40% утилизации snowflake), AI (70% клиентов что-то делают с AI/ML), приложения.
И все это защищено enterprise grade безопасностью, как говорит Frank - governance - это наше все.
Упомянули про 3 главных новинки этого лета:
- Iceberg формат
- Фреймворк для создания native приложений
- Snowpark контейнеры (Snowpark Container Service)
Далее был небольшой fireside chat между CTO snowflake и AI/ML подразделением, включая нового SVP, который присоединился месяц назад и работал 15 лет в go, где отвечал за разработку ML/AI.
Таким образом commitment в AI/ML огромный.
🫡19❤🔥4
В заключении SVP по продукту рассказал о главных релизах. Что-то уже доступно, что-то еще в разработке.
1. Большая работа проделана с открытым форматом Iсeberg. Изначально идея использовать Iсeberg не очень взлетела, но компания собрала отзывы от клиентов и выкатила новое решение - Iceberg Managed Tables. Прирост производительности и удобство работы.
2. С недавним приобретениме стартапа, которыей работал на преоборазованием неструктурированных данных в структурированные привело к созданию нового сервиса - Document API, мы просто загружаем PDF, и можем писать запросы к данным и оптимизировать модель.
3. Рассказали про Performance Index.
4. Компания Fidelity рассказала про свой опыт миграция на облако Snowflake и консолидацию 200 хранилищ и баз данных вместе.
5. Рассказали про marketplace. Как все крупные вендоры у Snowflake будет свой marketplace, не AppStore, но тем неменее.
6. Показали демку по созданию приложения в несколько кликов. Направление приложений и marketplace активно развивается и многие компании уже монетизируют приложения и данные.
7. Для разработчиков будет обновленный Snowflake Python, CLI, looging/tracing API и наконец-то синхронизация с git системой.
8. Показали Snowpark - code interface для данных в snowflake. И самое главное рассказали про резил snowpark container service, теперь мы можем хранить docker image в snowflake registy и создавать свои приложения, особенно актуально для ML/AI.
9. Улучшения в области streaming. Появятся Kafka connectors, которые будут напрямую загружать данные в snowflake dynamic tables.
10. Text-to-code - аналог chaptGPT, но для вашего хранилища данных.
11. Недавняя покупка Streamlit позволяет создавать AI приложения.
12. Интеграция с Nvidia, GPU Compute.
Так же я побывал на нескольких сессия связанных с ML/AI видением для snowflake, и примерами создания ml приложений.
Посмотрел на использование Python (snowpark) для задач data engineering.
И в заключении, посетил классный workshop по оптимизации стоимости Snowflake.
Расскажу отдельно потом про каждую сессию.
1. Большая работа проделана с открытым форматом Iсeberg. Изначально идея использовать Iсeberg не очень взлетела, но компания собрала отзывы от клиентов и выкатила новое решение - Iceberg Managed Tables. Прирост производительности и удобство работы.
2. С недавним приобретениме стартапа, которыей работал на преоборазованием неструктурированных данных в структурированные привело к созданию нового сервиса - Document API, мы просто загружаем PDF, и можем писать запросы к данным и оптимизировать модель.
3. Рассказали про Performance Index.
4. Компания Fidelity рассказала про свой опыт миграция на облако Snowflake и консолидацию 200 хранилищ и баз данных вместе.
5. Рассказали про marketplace. Как все крупные вендоры у Snowflake будет свой marketplace, не AppStore, но тем неменее.
6. Показали демку по созданию приложения в несколько кликов. Направление приложений и marketplace активно развивается и многие компании уже монетизируют приложения и данные.
7. Для разработчиков будет обновленный Snowflake Python, CLI, looging/tracing API и наконец-то синхронизация с git системой.
8. Показали Snowpark - code interface для данных в snowflake. И самое главное рассказали про резил snowpark container service, теперь мы можем хранить docker image в snowflake registy и создавать свои приложения, особенно актуально для ML/AI.
9. Улучшения в области streaming. Появятся Kafka connectors, которые будут напрямую загружать данные в snowflake dynamic tables.
10. Text-to-code - аналог chaptGPT, но для вашего хранилища данных.
11. Недавняя покупка Streamlit позволяет создавать AI приложения.
12. Интеграция с Nvidia, GPU Compute.
Так же я побывал на нескольких сессия связанных с ML/AI видением для snowflake, и примерами создания ml приложений.
Посмотрел на использование Python (snowpark) для задач data engineering.
И в заключении, посетил классный workshop по оптимизации стоимости Snowflake.
Расскажу отдельно потом про каждую сессию.
🍾31❤🔥3🌭2
Попалась классная статья работы с данными в Spark в Почте Mail.ru: как они хранят петабайты информации и как выполняют запросы к ним.
В статье они также рассказали, как в хранилище они превратили 7 петабайт в 0,5 петабайт, что позволило сэкономить годовой бюджет по закупке серверов.
А самое главное – там собраны ключевые проблемы с данными, знание о которых вполне может помочь вам построить своё классное хранилище без последующей переделки. Почитать можно тут.
В статье они также рассказали, как в хранилище они превратили 7 петабайт в 0,5 петабайт, что позволило сэкономить годовой бюджет по закупке серверов.
А самое главное – там собраны ключевые проблемы с данными, знание о которых вполне может помочь вам построить своё классное хранилище без последующей переделки. Почитать можно тут.
❤🔥14🍌10🌚8
3й день Snowflake Summit.
Несмотря на то, что будет еще один день, все самое интересное уже рассказали и показали. В четверг можно будет посмотреть повтор сессий прошедших дней и полететь дальше отдыхать от работы🦆
Как обычно, утро началось с keynote.
Вначале Snowflake president Benoît Dageville, рассказал нам, еще раз, какой замечательный продукт Snowflake. Напомнил нам, как все началось в 2014 году, когда они придумали разделить storage и compute, создав killer хранилище данных. 4 года позже появился data sharing, возможность давать доступ к своим данным, без физического перемещения этих данных, конечно же внутри Snowflake data cloud! (ведь бесплатный сыр только в мышеловке).
А теперь, у нас есть AI, Apps, Pipelines (имеется ввиду классическое хранилище данных). Благодаря snowpark, мы можем использовать Python, SQL, Java, Scala. И вообще забудьте Apache Spark, теперь вам не нужно платить кому-то еще, все можно делать с помощью Snowpark, да еще контейнизировать ваши приложения.
Так же он рассказал, что snowflake активно работает над open source решениями, включая streamlit, snowpark, terraform, sansshel, schemachange, lezer-snowsql.
Далее, в театральной постановке на показали работу выдуманной компании - Tasty Bytes. У которой полный цикл классических проблем для современного решения данных: batch vs streaming, SQL vs Python, как добавить ML?, где хостить ML? как дать доступ внешним клиентам?
Нам еще раз показали dynamic tables, kafka connectors, SQL forecast, Snowpark, Stremlit App.
Пример stremlit App мне напомнил Microstrategy mobile apps, но здесь реально %уяк %уяк и в продакшн, справится даже стажер.
Так же я посетил несколько сессий (ссылки на Quickstart, вы можете пройти бесплатно tutorial):
1. hands-on - Snowpark + AWS SageMaker, отличный вариант если вас не устраивает тотальный vendor lock.
2. DevOps with Snowflake - на котором рассказали про возможности infrustructure as a Code с использованием terraform и альтернатив, чтобы управлять объектами snowflake и RBAC. В планах начать использовать snowflake API, пока работает все с Snowflake SDK.
3. Near Realtime Ingestion and Transformation on Snowflake - очень хорошая прикладная сессия по интеграции Apache Kafka и подобных streaming решений в snowflake. Рассказали про преимущества/недостатки и best practices для каждого случая. Существует три варианта:
- Clound Sink + Snowpipe
- Snowflake kafka connector with Snowpipe
- Kafka Connector with Snowpipe Streaming
- Custom Java Application
В целом хорошее мероприятие, видно куда движется индустрия, для полной картины еще бы посмотреть databricks. Можно сказать гештальт по snowflake закрыт, несмотря на то, что еще один день впереди.
Стоило ли мероприятие 2 тысячи долларов? Конечно да, если за вас кто-то заплатил, или вам нужно списать большие суммы денег в расходы, а так все тоже самое можно узнать бесплатно online. Все quickstarts доступны.
Каких-то прорывных мыслей у меня не появилось, кроме как - "Ахренеть, с какой скоростью все движется, тут кое-как в одно въехал, и на тебе, еще десяток фич и инструментов". В целом snowflake хорошо подмял под себя индустрию.
Несмотря на то, что будет еще один день, все самое интересное уже рассказали и показали. В четверг можно будет посмотреть повтор сессий прошедших дней и полететь дальше отдыхать от работы🦆
Как обычно, утро началось с keynote.
Вначале Snowflake president Benoît Dageville, рассказал нам, еще раз, какой замечательный продукт Snowflake. Напомнил нам, как все началось в 2014 году, когда они придумали разделить storage и compute, создав killer хранилище данных. 4 года позже появился data sharing, возможность давать доступ к своим данным, без физического перемещения этих данных, конечно же внутри Snowflake data cloud! (ведь бесплатный сыр только в мышеловке).
А теперь, у нас есть AI, Apps, Pipelines (имеется ввиду классическое хранилище данных). Благодаря snowpark, мы можем использовать Python, SQL, Java, Scala. И вообще забудьте Apache Spark, теперь вам не нужно платить кому-то еще, все можно делать с помощью Snowpark, да еще контейнизировать ваши приложения.
Так же он рассказал, что snowflake активно работает над open source решениями, включая streamlit, snowpark, terraform, sansshel, schemachange, lezer-snowsql.
Далее, в театральной постановке на показали работу выдуманной компании - Tasty Bytes. У которой полный цикл классических проблем для современного решения данных: batch vs streaming, SQL vs Python, как добавить ML?, где хостить ML? как дать доступ внешним клиентам?
Нам еще раз показали dynamic tables, kafka connectors, SQL forecast, Snowpark, Stremlit App.
Пример stremlit App мне напомнил Microstrategy mobile apps, но здесь реально %уяк %уяк и в продакшн, справится даже стажер.
Так же я посетил несколько сессий (ссылки на Quickstart, вы можете пройти бесплатно tutorial):
1. hands-on - Snowpark + AWS SageMaker, отличный вариант если вас не устраивает тотальный vendor lock.
2. DevOps with Snowflake - на котором рассказали про возможности infrustructure as a Code с использованием terraform и альтернатив, чтобы управлять объектами snowflake и RBAC. В планах начать использовать snowflake API, пока работает все с Snowflake SDK.
3. Near Realtime Ingestion and Transformation on Snowflake - очень хорошая прикладная сессия по интеграции Apache Kafka и подобных streaming решений в snowflake. Рассказали про преимущества/недостатки и best practices для каждого случая. Существует три варианта:
- Clound Sink + Snowpipe
- Snowflake kafka connector with Snowpipe
- Kafka Connector with Snowpipe Streaming
- Custom Java Application
В целом хорошее мероприятие, видно куда движется индустрия, для полной картины еще бы посмотреть databricks. Можно сказать гештальт по snowflake закрыт, несмотря на то, что еще один день впереди.
Стоило ли мероприятие 2 тысячи долларов? Конечно да, если за вас кто-то заплатил, или вам нужно списать большие суммы денег в расходы, а так все тоже самое можно узнать бесплатно online. Все quickstarts доступны.
Каких-то прорывных мыслей у меня не появилось, кроме как - "Ахренеть, с какой скоростью все движется, тут кое-как в одно въехал, и на тебе, еще десяток фич и инструментов". В целом snowflake хорошо подмял под себя индустрию.
🍾14🌚3
Yandex Cloud приглашает на Data Open Source Day
Это первая конференция от Yandex Cloud про Open Source инструменты для обработки данных и создания корпоративных хранилищ.
В программе Data Open Source Day:
🔹 Реальные бизнес-задачи, которые можно решать с помощью Open Source продуктов.
🔹 Эксперты из OZON, Яндекс, Битрикс24 и других компаний расскажут, как технологии с открытым исходным кодом помогают им в работе.
🔹 Какой вклад команда Yandex Cloud вносит в развитие ClickHouse® и Greenplum® .
🔹 Open Source продукты Яндекса для работы с данными: расскажем про YDB и YTsaurus.
Также вас ждёт доклад Яндекс Игр об опыте использования управляемых сервисов PostgreSQL, Redis, YDB. Рассказ о том, как Open Source помогает науке и при чём здесь озеро Байкал.
🗓 11 июля 2023, в 15:00. Участие бесплатное. Регистрация по ссылке.
#реклама
Это первая конференция от Yandex Cloud про Open Source инструменты для обработки данных и создания корпоративных хранилищ.
В программе Data Open Source Day:
🔹 Реальные бизнес-задачи, которые можно решать с помощью Open Source продуктов.
🔹 Эксперты из OZON, Яндекс, Битрикс24 и других компаний расскажут, как технологии с открытым исходным кодом помогают им в работе.
🔹 Какой вклад команда Yandex Cloud вносит в развитие ClickHouse® и Greenplum® .
🔹 Open Source продукты Яндекса для работы с данными: расскажем про YDB и YTsaurus.
Также вас ждёт доклад Яндекс Игр об опыте использования управляемых сервисов PostgreSQL, Redis, YDB. Рассказ о том, как Open Source помогает науке и при чём здесь озеро Байкал.
🗓 11 июля 2023, в 15:00. Участие бесплатное. Регистрация по ссылке.
#реклама
🍾12🙉5🍌1
Буквально перед конференцией читал статью - Building A Million Dollar Data Analytics Service - идея в том, что можно собирать любые данные, приводить их в порядок и продавать insights. Есть огромное количество стартапов, кто так делает. Одни insights для wildberries чего стоят!
Можно например не только продавать insights, но и "брать" данные у клиента и загружать их к себе облако, и потом тоже, продавать insights.
Теперь Snowflake может делать все сразу, загружаем данные к себе, создаем нативное приложение с помощью streamlit и раздаем доступ всем желающим через snowflake data cloud.
Сегодня был как раз на презентации Real Time Analytics for Marketing with Stremlit. (добавил фотки в коммент), очень классное решение, snowflake использует его у себя внутри, там BI + прогнозирование, и самое главное, можно писать сегменты обратно в хранилище.
Утром еще была мощная дискуссия среди SVP Product Snowflake, VP of applied research at NVIDIA, VP Microsoft Azure AI Platform. Они поговорили о будущем, настоящем и прошлом в области AI. Самое важное из разговора нам необходим grow mindset. Вы сами видите с какой скоростью развиваются технологии. VP Azure буквально посоветовал учиться и развиваться по выходным, вечерам и ночам.
Недавно вышел курс на курсере - Generative AI with Large Language Models на AWS. И уже известные курсы на deeplearning.ai, google generative AI training
PS пока ехал в аэропорт, водитель Uber, мужичок лет 55-60 рассказал, что они с женой переехали в Вегас из Техаса, их основная работа - играть в казино в кости. Они с женой играют каждый день, обычно в день получается около тысячи, иногда больше, иногда меньше. uber он водит от скуки, дети выросли, а жена еще работает ради страховки. В год это 365т US$ без налогов. Он рассказал, что они ходят только в определенные казино, где одинаковые кости, покрытие, размер стола. У них есть своя техника как бросать кости и стратегия игры, они занимаются этим всю жизнь.
То ли мы учим? 🤑
Далее планирую углубится в databricks новинки и сравнить с snowflake. Эти ребята меняют индустрию. Уже видел, что databricks - Introducing English as the New Programming Language for Apache Spark
Из смешного - во время мировой премьеры Microsoft Fabric, text-to-query штука сделала кривой запрос. Пока еще сыровата технология. В этом посте - LLM Is Not Enough (For Self-Service Analytics) автор обсуждает этот вопрос.
Ну и в заключении ждем подобных штуковин от yandex, vk облаков! Я же отслеживают все их тренды через рекламные посты😝
Можно например не только продавать insights, но и "брать" данные у клиента и загружать их к себе облако, и потом тоже, продавать insights.
Теперь Snowflake может делать все сразу, загружаем данные к себе, создаем нативное приложение с помощью streamlit и раздаем доступ всем желающим через snowflake data cloud.
Сегодня был как раз на презентации Real Time Analytics for Marketing with Stremlit. (добавил фотки в коммент), очень классное решение, snowflake использует его у себя внутри, там BI + прогнозирование, и самое главное, можно писать сегменты обратно в хранилище.
Утром еще была мощная дискуссия среди SVP Product Snowflake, VP of applied research at NVIDIA, VP Microsoft Azure AI Platform. Они поговорили о будущем, настоящем и прошлом в области AI. Самое важное из разговора нам необходим grow mindset. Вы сами видите с какой скоростью развиваются технологии. VP Azure буквально посоветовал учиться и развиваться по выходным, вечерам и ночам.
Недавно вышел курс на курсере - Generative AI with Large Language Models на AWS. И уже известные курсы на deeplearning.ai, google generative AI training
PS пока ехал в аэропорт, водитель Uber, мужичок лет 55-60 рассказал, что они с женой переехали в Вегас из Техаса, их основная работа - играть в казино в кости. Они с женой играют каждый день, обычно в день получается около тысячи, иногда больше, иногда меньше. uber он водит от скуки, дети выросли, а жена еще работает ради страховки. В год это 365т US$ без налогов. Он рассказал, что они ходят только в определенные казино, где одинаковые кости, покрытие, размер стола. У них есть своя техника как бросать кости и стратегия игры, они занимаются этим всю жизнь.
То ли мы учим? 🤑
Далее планирую углубится в databricks новинки и сравнить с snowflake. Эти ребята меняют индустрию. Уже видел, что databricks - Introducing English as the New Programming Language for Apache Spark
Из смешного - во время мировой премьеры Microsoft Fabric, text-to-query штука сделала кривой запрос. Пока еще сыровата технология. В этом посте - LLM Is Not Enough (For Self-Service Analytics) автор обсуждает этот вопрос.
Ну и в заключении ждем подобных штуковин от yandex, vk облаков! Я же отслеживают все их тренды через рекламные посты😝
❤🔥32🐳4🍌4🦄2🌭1👨💻1
Делая всякие внутренние тренинги по Databricks, мне попалась интересная лаба - имитация Databricks/Spark среды с вопросами.
Вот пример:
У вас есть notebook и вы можете кликать на доступные элементы в UI - https://www.databricks.training/spark-ui-simulator/experiment-0000/v003-P/index.html
Для этой лабы есть секция с вопросами - https://www.databricks.training/spark-ui-simulator/experiment-0000/v003-P/lab.html
Вы можете попробовать, много Spark терминологии. Как я понял, это самая базовая лаба. Можно еще полазить тут https://www.databricks.training/spark-ui-simulator/index.html
Из комментария - https://www.dbdemos.ai/ Demos for Databricks.
Вот пример:
У вас есть notebook и вы можете кликать на доступные элементы в UI - https://www.databricks.training/spark-ui-simulator/experiment-0000/v003-P/index.html
Для этой лабы есть секция с вопросами - https://www.databricks.training/spark-ui-simulator/experiment-0000/v003-P/lab.html
Вы можете попробовать, много Spark терминологии. Как я понял, это самая базовая лаба. Можно еще полазить тут https://www.databricks.training/spark-ui-simulator/index.html
Из комментария - https://www.dbdemos.ai/ Demos for Databricks.
www.dbdemos.ai
dbdemos - Install demos for Databricks Lakehouse
dbdemos - Databricks Lakehouse demos
❤🔥23🌭1🍌1
Бесплатный тренинг по Generative AI, если пройдете получите бэйдж. Даже если вам не нужно создавать с нуля Generative AI, все равно придется с ними работать рано или поздно. Многие компании бросились изучать данный вопрос и искать варианты применения современных подходов.
Поэтому будет нелишним понимать суть и уметь оперировать простыми решениями на уровне готовых ML блоков, примерно так же, как многие из вас принимают участие в ML решениях при подготовки данных, релизе или просто знают теорию и делали ML после нескольких tutorials. В этом плане databricks очень удобное место, чтобы понять, как применять на практики решения generative AI.
databricks еще купил mosaic AI, чтобы еще больше демократизировать gen ai и развивать open source - Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs
В целом кардинально разный подход между databricks (открытый подход) и snowflake (хотят вас подсадить на "вендорскую иглу").
Хорошо, что я сразу работаю и с тем и с другим. Осталось на проект попасть, где внедряют gen ai решение.
Поэтому будет нелишним понимать суть и уметь оперировать простыми решениями на уровне готовых ML блоков, примерно так же, как многие из вас принимают участие в ML решениях при подготовки данных, релизе или просто знают теорию и делали ML после нескольких tutorials. В этом плане databricks очень удобное место, чтобы понять, как применять на практики решения generative AI.
databricks еще купил mosaic AI, чтобы еще больше демократизировать gen ai и развивать open source - Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs
В целом кардинально разный подход между databricks (открытый подход) и snowflake (хотят вас подсадить на "вендорскую иглу").
Хорошо, что я сразу работаю и с тем и с другим. Осталось на проект попасть, где внедряют gen ai решение.
❤🔥20
Forwarded from Stanislav Lysikov
Dbt Meetup
Привет. Рады сообщить, что наконец мы набрались сил и докладов на тему DBT и готовы поделиться ими с вами :)
Большое спасибо компании Space307 за классный дизайн и повсеместную поддержку в проведении, благодаря ребятам наш внешний лоск становится красивее, а знания в мире доступнее :)
Митапы пройдут 20 июля в 19:00 (GMT+3) и 27 июля в 19:00 (GMT+3).
Программа 20 июля, 19:00:
1. Оркестрация dbt jobs для Dev, Test, Prod без головной боли
Артемий Козырь, Analytics Engineer at Wheely
2. Modern Data Stack, а стоит ли игра свеч?
Никита Баканчев, ex-Senior Data Engineer at NabuMinds
3.Описание метрик в dbt
Венера Насырова, BI Analyst at Space307
4. CI/CD и оркестрация онпрем когда адаптеров много
Станислав Лысиков, Data Platform Engineer at Space307
Программа 27 июля, 19:00:
1. DataVault в GreenPlum на основе автоматизированного создания dbt-моделей
Дмитрий Тирских, Data Engineer at X5 Digital
2. Любовь и восторг: как мигрировать 40+ DS/PA на dbt
Алмаз, Data Engineer at Picsart
3. Автоматическое создание экспозиций в dbt
Кирилл Романихин, Data Engineer at Space307
4. Автоматизация вокруг dbt (чего не хватает в коробке)
Станислав Лысиков, Data Platform Engineer at Space307
Подробности о докладах и регистрация на митапы по ссылке:
https://cutt.ly/bwi8covj
Важно! На каждый митап нужно регистрироваться отдельно.
Отзывы, предложения и благодарность в сообщество DBT - https://t.me/dbt_users
PS: архив старых митапов доступен на ютубе: https://www.youtube.com/watch?v=AxXv-988B1A, https://www.youtube.com/watch?v=10H45iYaCc8
Привет. Рады сообщить, что наконец мы набрались сил и докладов на тему DBT и готовы поделиться ими с вами :)
Большое спасибо компании Space307 за классный дизайн и повсеместную поддержку в проведении, благодаря ребятам наш внешний лоск становится красивее, а знания в мире доступнее :)
Митапы пройдут 20 июля в 19:00 (GMT+3) и 27 июля в 19:00 (GMT+3).
Программа 20 июля, 19:00:
1. Оркестрация dbt jobs для Dev, Test, Prod без головной боли
Артемий Козырь, Analytics Engineer at Wheely
2. Modern Data Stack, а стоит ли игра свеч?
Никита Баканчев, ex-Senior Data Engineer at NabuMinds
3.Описание метрик в dbt
Венера Насырова, BI Analyst at Space307
4. CI/CD и оркестрация онпрем когда адаптеров много
Станислав Лысиков, Data Platform Engineer at Space307
Программа 27 июля, 19:00:
1. DataVault в GreenPlum на основе автоматизированного создания dbt-моделей
Дмитрий Тирских, Data Engineer at X5 Digital
2. Любовь и восторг: как мигрировать 40+ DS/PA на dbt
Алмаз, Data Engineer at Picsart
3. Автоматическое создание экспозиций в dbt
Кирилл Романихин, Data Engineer at Space307
4. Автоматизация вокруг dbt (чего не хватает в коробке)
Станислав Лысиков, Data Platform Engineer at Space307
Подробности о докладах и регистрация на митапы по ссылке:
https://cutt.ly/bwi8covj
Важно! На каждый митап нужно регистрироваться отдельно.
Отзывы, предложения и благодарность в сообщество DBT - https://t.me/dbt_users
PS: архив старых митапов доступен на ютубе: https://www.youtube.com/watch?v=AxXv-988B1A, https://www.youtube.com/watch?v=10H45iYaCc8
space307.team
DBT MEETUP
13 августа, 19:00 – 21:00 (GMT+3)
❤🔥37🐳4
Forwarded from Reveal the Data
Привет! Меня зовут Саша, я аналитик в медиа-агентстве. Я активно использую в работе и самообучении AI-продукты: ChatGPT, Whisper и DALL·E. Пробовал и другие продукты, но эти показались самыми удачными.
Идея
Я участвовал в конкурсе Yandex Datalens Festival 2022, а недавно Рома разобрал кейс оттуда на вебинаре. Во время просмотра меня осенило: интервью можно расшифровать, а потом суммировать с помощью GPT-4, опираясь на блоки Dashboard Canvas 2.0. А еще попросить подобрать графики и задать дополнительные вопросы.
Инструменты
Для расшифровки аудио использовал Whisper. Его возможности меня сильно впечатлили ещё раньше, при работе с интервью для исследовательского конкурса. Русский язык она транскрибирует очень хорошо: орфографических ошибок почти нет и даже расставляет знаки препинания. А для анализа интервью использовался GPT-4, наверняка, вы уже много про него слышали.
О Dashboard canvas 2.0
Это форма, заполняемая по результатам интервью. Показалось, что можно заполнять её автоматически. Нейросети активно применяются для суммирования информации (тот же YaGPT в Я.Браузере или проект 300.ya.ru). Несмотря на то, что у интервью есть план, в результате получается поток видео/аудио, который еще нужно структурировать и аккуратно проанализировать, то есть из руды получить что-то ценное. И часто это сложнее, чем кажется: нужны уточняющие вопросы в обе стороны, расшифровки обрывков мыслей или даже шуток, держать в голове много составляющих.
GPT-4 заполняет Canvas
GPT-4, настроенный на работу BI-разработчиком с помощью промпта, получил интервью на вход. Блоки Canvas я сформулировал в виде вопросов: кто будет использовать дашборд, для чего он нужен и т. д.
С суммированием информации для блоков GPT-4 справился хорошо, но выжимку нужно делать еще более «сухой», чем получилось в итоге (ниже есть ссылка на полную версию диалога).
Ещё пришлось задавать уточняющие вопросы о KPI и товарных категориях. Я знал, что это важные моменты, так как сам смотрел интервью несколько раз. В этом смысле получилось не совсем то, что я ожидал — хотелось бы, чтобы это был полноценный второй пилот или штурман. Но, думаю, можно дообучить модель или придумать более подходящий промпт.
Графики
Ещё я попросил составить список возможных графиков для выделенных метрик и получил в основном линейные графики, немного столбиков и даже пирог :) Приятно удивило предложение индикаторов. А вот таблицу GPT-4 не предложил, наверное, опасаясь проклятий всех разработчиков дашбордов :)
Хотел бы узнать ваше мнение в комментариях по поводу предложенных графиков. Мое личное мнение: связь с метриками слабая, рекомендации довольно общие, возможно, подходит как источник идей, но не готового решения. После увиденного решения от Ромы я отчетливо понял, какой большой путь лежит между рекомендацией линейного графика и готовым дашбордом.
«Забытые» вопросы
В конце диалога я решил спросить у GPT-4, какие вопросы нужно задать бизнес-заказчику, чтобы подвести итог и внезапно получил дополнительные вопросы. Они релевантны и действительно полезны: о каких KPI мы могли забыть, о качестве и частоте обновления данных, о доступах к дашборду, тренингах и др. Здесь однозначно плюс GPT-4.
Итог
Если правильно настроить нейросеть на анализ интервью и выделение из него главного по заданным ранее правилам, в нашем случае Dashboard Canvas, то можно упростить себе задачу формирования бизнес-потребностей заказчиков.
Хотя GPT-4 хорошо суммирует, он может что-то упускать, все равно приходится надеяться только на себя. Больше пользы видится в автоматизации интервью с помощью нейронных сетей, когда они становятся интервьюером, знают, что спросить и могут адаптироваться по ходу, а после этого способны заполнить какие-либо формы – разумеется, нейронная сеть должна говорить с заказчиком и не просто распознавать его речь, но и анализировать на ходу – эти продукты существуют по отдельности, но думаю, осталось недолго до их появления и полноценного использования в рабочих процессах.
Всем спасибо за внимание! 🔗 Полная версия диалога с GPT-4
Идея
Я участвовал в конкурсе Yandex Datalens Festival 2022, а недавно Рома разобрал кейс оттуда на вебинаре. Во время просмотра меня осенило: интервью можно расшифровать, а потом суммировать с помощью GPT-4, опираясь на блоки Dashboard Canvas 2.0. А еще попросить подобрать графики и задать дополнительные вопросы.
Инструменты
Для расшифровки аудио использовал Whisper. Его возможности меня сильно впечатлили ещё раньше, при работе с интервью для исследовательского конкурса. Русский язык она транскрибирует очень хорошо: орфографических ошибок почти нет и даже расставляет знаки препинания. А для анализа интервью использовался GPT-4, наверняка, вы уже много про него слышали.
О Dashboard canvas 2.0
Это форма, заполняемая по результатам интервью. Показалось, что можно заполнять её автоматически. Нейросети активно применяются для суммирования информации (тот же YaGPT в Я.Браузере или проект 300.ya.ru). Несмотря на то, что у интервью есть план, в результате получается поток видео/аудио, который еще нужно структурировать и аккуратно проанализировать, то есть из руды получить что-то ценное. И часто это сложнее, чем кажется: нужны уточняющие вопросы в обе стороны, расшифровки обрывков мыслей или даже шуток, держать в голове много составляющих.
GPT-4 заполняет Canvas
GPT-4, настроенный на работу BI-разработчиком с помощью промпта, получил интервью на вход. Блоки Canvas я сформулировал в виде вопросов: кто будет использовать дашборд, для чего он нужен и т. д.
С суммированием информации для блоков GPT-4 справился хорошо, но выжимку нужно делать еще более «сухой», чем получилось в итоге (ниже есть ссылка на полную версию диалога).
Ещё пришлось задавать уточняющие вопросы о KPI и товарных категориях. Я знал, что это важные моменты, так как сам смотрел интервью несколько раз. В этом смысле получилось не совсем то, что я ожидал — хотелось бы, чтобы это был полноценный второй пилот или штурман. Но, думаю, можно дообучить модель или придумать более подходящий промпт.
Графики
Ещё я попросил составить список возможных графиков для выделенных метрик и получил в основном линейные графики, немного столбиков и даже пирог :) Приятно удивило предложение индикаторов. А вот таблицу GPT-4 не предложил, наверное, опасаясь проклятий всех разработчиков дашбордов :)
Хотел бы узнать ваше мнение в комментариях по поводу предложенных графиков. Мое личное мнение: связь с метриками слабая, рекомендации довольно общие, возможно, подходит как источник идей, но не готового решения. После увиденного решения от Ромы я отчетливо понял, какой большой путь лежит между рекомендацией линейного графика и готовым дашбордом.
«Забытые» вопросы
В конце диалога я решил спросить у GPT-4, какие вопросы нужно задать бизнес-заказчику, чтобы подвести итог и внезапно получил дополнительные вопросы. Они релевантны и действительно полезны: о каких KPI мы могли забыть, о качестве и частоте обновления данных, о доступах к дашборду, тренингах и др. Здесь однозначно плюс GPT-4.
Итог
Если правильно настроить нейросеть на анализ интервью и выделение из него главного по заданным ранее правилам, в нашем случае Dashboard Canvas, то можно упростить себе задачу формирования бизнес-потребностей заказчиков.
Хотя GPT-4 хорошо суммирует, он может что-то упускать, все равно приходится надеяться только на себя. Больше пользы видится в автоматизации интервью с помощью нейронных сетей, когда они становятся интервьюером, знают, что спросить и могут адаптироваться по ходу, а после этого способны заполнить какие-либо формы – разумеется, нейронная сеть должна говорить с заказчиком и не просто распознавать его речь, но и анализировать на ходу – эти продукты существуют по отдельности, но думаю, осталось недолго до их появления и полноценного использования в рабочих процессах.
Всем спасибо за внимание! 🔗 Полная версия диалога с GPT-4
💘18🐳11🙈7❤🔥6
Почти 5 лет я прожил на острове Ванкувер в столице Британской Колумбии - Виктории. Попалась презентация, которую я давно делал для коллег из Seattle, если интересно узнать больше про этот небольшой город, you are welcome.
Google Docs
Welcome to Victoria
One of the best vacation destination on West Coast. Why?
❤🔥37💘2
Forwarded from Рома держит в курсе
В гугле показали зависимость продуктивности инженеров от времени "билда", или проще говоря от "вынужденного временного простоя исполнителя"
Если мы принимаем что продуктивность в т.ч. зависит от того насколько часто инженер отвлекается от своего основного стрима работы и идет заниматься чем-то другим (потому что ждёт пока все сбилдится), то исследование показывает, что даже легкое сокращение времени, которое требуется для сборки кода, улучшает продуктивность.
Со своей стороны я могу вспомнить map-reduce YT (Ыть) использовавшийся нами для аналитики в Яндексе, и как медленно он исполнял sql. Работать без прерывания было невозможно. Постоянно появлялись "вынужденные" остановки на сделать кофе или поболтать с ребятами/потупить в ленту.
У меня есть подозрение что "билд кода" можно заменить вообще на любой процесс, который не требует вовлечения, но занимает время, достаточное для того, чтобы исполнитель плюнул, прервал свой поток работы и переключился на что то другое, не всегда продуктивное
Если мы принимаем что продуктивность в т.ч. зависит от того насколько часто инженер отвлекается от своего основного стрима работы и идет заниматься чем-то другим (потому что ждёт пока все сбилдится), то исследование показывает, что даже легкое сокращение времени, которое требуется для сборки кода, улучшает продуктивность.
Со своей стороны я могу вспомнить map-reduce YT (Ыть) использовавшийся нами для аналитики в Яндексе, и как медленно он исполнял sql. Работать без прерывания было невозможно. Постоянно появлялись "вынужденные" остановки на сделать кофе или поболтать с ребятами/потупить в ленту.
У меня есть подозрение что "билд кода" можно заменить вообще на любой процесс, который не требует вовлечения, но занимает время, достаточное для того, чтобы исполнитель плюнул, прервал свой поток работы и переключился на что то другое, не всегда продуктивное
❤🔥49🐳7🌚1