Сегодня увидел, что один из топовых инженеров Амазона - VP Amazon Robotics/Distinguished Engineer присоединился в роли CTO компании Scale AI, которую создал студент MIT 3 года назад в возрасте 21-22, в итоге он бросил MIT ( в лучших традициях фаундеров). Сейчас они закрыли раунд инвестиций C +100млн$. Насколько я понял, компания создала платформу, которая занимается разметкой данных (видео, аудио, текст). Чтобы создать крутой AI ему часто надо помочь тренироваться на реальных данных, для этого их надо размечать. То есть по сути, Scale AI это как call center на аутсорсу, но только они не на звонки отвечают, а размечают данные - The startup has nearly 30,000 contractors aiding in the labeling process. “The humans are pretty critical to what we’re doing because they’re there to make sure that all the data we provide is really high quality,”
Все мы знаем, насколько критично качество данных в аналитики, в принятии решений и ML/AI. Вот они решают конкретную задачу, повышают качество входных данных, а на выходе повышают качество AI моделей, например для автономных автомобилей.
Все мы знаем, насколько критично качество данных в аналитики, в принятии решений и ML/AI. Вот они решают конкретную задачу, повышают качество входных данных, а на выходе повышают качество AI моделей, например для автономных автомобилей.
Forwarded from Datalytics
Нашёл на Kaggle микрокурс по изучению Pandas, оформленный в виде ноутбуков. Включает в себя разбор всех базовых функций, так что для ознакомления с возможностями библиотеки отлично подходит
https://www.kaggle.com/learn/pandas
https://www.kaggle.com/learn/pandas
Kaggle
Learn Pandas Tutorials
Solve short hands-on challenges to perfect your data manipulation skills.
Forwarded from World Speaks English (IELTS Prep)
💫 БЕСПЛАТНЫЙ ВЕБИНАР ОБ IELTS
То, чего никогда не было - бесплатный и всеобъемлющий вебинар про IELTS с моими друзьями из школы аналитиков данных DataLearn!
2 сентября, в 20:00 (время московское) буду вещать про самостоятельную подготовку к тесту. Затрону темы:
1. Зачем нужен IELTS
2. Требуемые баллы
3. Структура теста
4. Где и за сколько сдавать
5. Как готовиться самостоятельно
6. Лучшие учебники
7. Сложности самоподготовки
8. Как я могу вам помочь
Трансляция будет здесь, присоединяйтесь!
Придете? 😍
То, чего никогда не было - бесплатный и всеобъемлющий вебинар про IELTS с моими друзьями из школы аналитиков данных DataLearn!
2 сентября, в 20:00 (время московское) буду вещать про самостоятельную подготовку к тесту. Затрону темы:
1. Зачем нужен IELTS
2. Требуемые баллы
3. Структура теста
4. Где и за сколько сдавать
5. Как готовиться самостоятельно
6. Лучшие учебники
7. Сложности самоподготовки
8. Как я могу вам помочь
Трансляция будет здесь, присоединяйтесь!
Придете? 😍
Так как я сейчас в Amazon Retail, и текущий руководитель Jeff Wilke уходит на пенсию после 20 лет, назначают нового руководителя, если интересно, тут подробности.
Fortune
Who is Dave Clark, the new chief of Amazon's giant retail business?
Early in his career, he was known as "the sniper."
Еще один новый канал по AI/ML и по развитию персонального бренда. Allie работает в AWS в роли sales для стартапов. Насколько я понял, она закончила MBA связанную с AI/ML и активно рассказывает в linkedin про свой опыт за что и получила популярность. Рассказывает очень позитивно.
Как вы понимаете, без английского языка в нашей профессии никуда. Для вас мы нашли интересного спикера, которые занимается обучение языка уже много лет. Сам вебинар про IELTS, это своего рода продолжение темы про Иммиграцию в Канаду, чтобы полностью осветить этот вопрос. Но даже если вы не планируете сдавать IELTS, вам будет полезно узнать про структуру экзамены, про материалы для изучения языка и много другого. Через 10 минут начало! https://youtu.be/qV89JpCshaI
YouTube
Зачем нужен IELTS и как подготовиться / Darian Sandmartin
🔔 Darian Sandmartin (IELTS Academic 8.0) - создательница международного сообщества World Speaks English для тех, кто изучает английский и готовится к IELTS - рассказывает о том, зачем нужен IELTS, как к нему подготовиться самостоятельно, какие учебники использовать…
Я часто ссылался на облачный ETL - Matillion. Я начал работать с ними с 2017 и теперь они попали в квадрант гартнера. Кто смотрел мои уроки по BI на datalearn, уже знает, что такое квадрант и кто туда попадает. На модуле 4 будем как раз с ETL/ELT разбираться. Я думаю ещё недели 2-3 и смогу продолжить.
Matillion
Matillion Named in the 2020 Gartner Magic Quadrant for Data Integration Tools
At a growing company like Matillion, you get to experience a lot of great firsts. Of course, there was our first sale of Matillion ETL. We also remember our first round of funding. LastThe post...
Forwarded from Интернет-аналитика (Алексей Никушин)
Это что-то невероятное
Анатолий Карпов @data_karpov берет интервью у Алексея Никушина @a_nikushin
Говорим про образование, курсы, настроения в @analysts_hunter, Матемаркетинг @MateMarketing_official и нелегкую жизнь аналитиков
https://www.youtube.com/watch?v=mome3DWQqg0
Анатолий Карпов @data_karpov берет интервью у Алексея Никушина @a_nikushin
Говорим про образование, курсы, настроения в @analysts_hunter, Матемаркетинг @MateMarketing_official и нелегкую жизнь аналитиков
https://www.youtube.com/watch?v=mome3DWQqg0
YouTube
Алексей Никушин: аналитика, маркетинг, МатеМаркетинг | Интервью | karpov.courses
Курс «Аналитик данных»: http://bit.ly/429Aj4i
В этот раз к нам в гости пришёл Алексей Никушин, основатель конференции МатеМаркетинг. Нам удалось поговорить о настоящем и будущем аналитики, в частности:
● Аналитик и маркетолог — это одно и тоже. Правда…
В этот раз к нам в гости пришёл Алексей Никушин, основатель конференции МатеМаркетинг. Нам удалось поговорить о настоящем и будущем аналитики, в частности:
● Аналитик и маркетолог — это одно и тоже. Правда…
Интересная статья про Data-Driven подход. В ней автор делится историями про подход Амазон. Сейчас у меня тоже интересные проекты. Я уже месяц с новой командой, но пока не доконца разобрался как все работает. С точки зрения бизнеса у нас 2 основных проекта - это feature attribution model (то есть все кампании на главной странице амазон) и customer perception. Science команда использует AWS Elastic Map Reduce (Hadoop) + Spark + Zeppelin для heavy liftin трансформаций - этот процесс называется feature engineering. Используется Hadoop потому что, объем кликстрима это сотни терабайтов. Дальше, используют GPU виртульную машину для моделей deep learning. Помимо этого есть еще много A/B тестов. В ближайше перспективе мне нужно будет найти и устранить причину в существующих data pipelines, которые берут начала из центрального озера данных и мы используем еще один EMR+Spark, чтобы копировать к себе нужные данные в формате parquet.
Другая моя инциатива заменить существующие подход EMR + GPU виртуальную машину, на Amazon Sage Maker. Как я понял с 2021 года Amazon планирует повсеместно использовать этот сервис для ML/AI.
Пока не очень понял как все это работает, но технические уже более менее понятно откуда данные приходят и куда уходят.
Другая моя инциатива заменить существующие подход EMR + GPU виртуальную машину, на Amazon Sage Maker. Как я понял с 2021 года Amazon планирует повсеместно использовать этот сервис для ML/AI.
Пока не очень понял как все это работает, но технические уже более менее понятно откуда данные приходят и куда уходят.
Entrepreneur
Data Driven: What Amazon's Jeff Bezos Taught Me About Running a Company
A former employee of the retailer reflects on the lessons learned from the boss of the web giant.
“There are no solutions. There are only trade-offs.” by Thomas Sowell. Что значит не бывает решений, а есть только компромиссы. При построении аналитических решений и продуктов это фраза очень кстати. Всегда мы слышим - "Мы можем это сделать, но...". Или " у нас вот есть 2 варианта, у каждого свои +/-".
22 сентября расскажут про Databricks + Lakehouse. Я очень хотел бы поработать на databrics и создать lakehouse. То есть это полная альтернатива традиционному хранилищу данных. Так же Spark даст возможность использовать библиотеки для ML, ноутбуки для визуализации и дашбордов, и библиотеки для стриминга. Кто-то делал проект на databricks? https://databricks.com/p/webinar/cloud-data-platform-virtual-event-lakehouse
Databricks
Cloud Data Platform Series – The Dawn of Lakehouse | Databricks
Join the virtual event to learn about the Lakehouse architecture, combining the best of data lakes and data warehouses for modern data needs.
А вот еще интересное мероприятия - DBT проводит онлайн конференцию в декабре. Интересное решения, для тех кто любит хранить все тбизнес дата трансформации в SQL (может и pyhton поддерживает). https://www.getdbt.com/coalesce/
Getdbt
Coalesce Conference | Crafted by dbt Labs
Join dbt Labs and thousands of analytics professionals at our premier data conference Coalesce 2023.
Сегодня опытный человек лет 40 поделился со мной интересной идеей. В современной корпоративной культуре, человек подобен виртуальной машине. Так как мы с ним в амазоне, соответственно это EC2 instance, который работает, а когда что-то не так, его просто отключают и удаляют на всегда, или он сам сдувается и отваливается. Мне понравилось такое сравнение. Другой комментарий про отсутствие empathy (эмпатия - осознанное сопереживание текущему эмоциональному состоянию другого человека без потери ощущения происхождения этого переживания). Люди настолько заняты и перегружены работой, что не остается места эмпатии. Как у вас с эмпатией на рабочем месте?
Кстати в библиографической книге про Стив Джобса, говориться что Бил Гейтс совершенно не обладает эмпатией, а вот его предшественние новый CEO наоборот. Сейчас большой тренд на эмпатия в западных компаниях, новые CEO Uber и ряда других крупных компаний.
Кстати в библиографической книге про Стив Джобса, говориться что Бил Гейтс совершенно не обладает эмпатией, а вот его предшественние новый CEO наоборот. Сейчас большой тренд на эмпатия в западных компаниях, новые CEO Uber и ряда других крупных компаний.
Forwarded from LEFT JOIN
Altinity выпустили обзор сравнения перфоманса Clickhouse и Redshift, несколько ключевых выводов:
+ В Clickhouse появилась возможность загружать данные из S3 табличной функцией s3()
+ Clickhouse на одной ноде несколько проигрывает Redshift по скорости выполнения запросов, но выигрывает на сопоставивом количестве нод
+ Стоимость операционного использования Clickhouse ощутимо ниже, чем Redshift (однако в статье не указан необходимый ресурс на поддержку того и иного решения)
+ В Clickhouse по-прежнему остаются ряд особенностей, которые следует учитывать при построении запроса.
Например, использование конструкции с JOIN до сих пор неэффективно, а замена JOIN на подзапросы дает значительный прирост в скорости.
+ В Clickhouse появилась возможность загружать данные из S3 табличной функцией s3()
+ Clickhouse на одной ноде несколько проигрывает Redshift по скорости выполнения запросов, но выигрывает на сопоставивом количестве нод
+ Стоимость операционного использования Clickhouse ощутимо ниже, чем Redshift (однако в статье не указан необходимый ресурс на поддержку того и иного решения)
+ В Clickhouse по-прежнему остаются ряд особенностей, которые следует учитывать при построении запроса.
Например, использование конструкции с JOIN до сих пор неэффективно, а замена JOIN на подзапросы дает значительный прирост в скорости.
Altinity | Run open source ClickHouse® better
ClickHouse Software And Services | Altinity
Deploy and operate ClickHouse, a lightning fast, open source SQL data warehouse for real-time analytics, time series, and log analysis.
Forwarded from Reveal the Data
Написал заметку о том как быть, когда заказчик просит «таблицу как в Эксель» и никаких графиков. Показал для каких задач и как работают таблицы. Описал семь кейсов, которые обычно прячутся за такими запросами, и какие решения я использую.
https://revealthedata.com/blog/all/tablica-ili-grafik-kak-ubedit-zakazchika/
#статья
https://revealthedata.com/blog/all/tablica-ili-grafik-kak-ubedit-zakazchika/
#статья
Revealthedata
Таблица или график? Как убедить заказчика
Подскажи плз, стоит ли бороться, забить или еще какой-то вариант?)»