В четверг 13 июля в 19 часов по мск вместе с @JustStas поговорим про построение модели Marketing Mix с помощью библиотеки Robyn.
Расскажем, как она работает и чем применение на практике отличается от теории.
Серия постов про Robyn тут.
Расскажем, как она работает и чем применение на практике отличается от теории.
Серия постов про Robyn тут.
facebookexperimental.github.io
Robyn
Our mission is to democratise modeling knowledge, inspire the industry through innovation, reduce human bias in the modeling process & build a strong open source marketing science community.
Небольшой Анонс. 14 июля в 19:30 (GMT+3) Валерий проведёт System Design интервью в прямом эфире! На повестке — дизайн системы сети заправок и ритейл-магазинов при ней. Ждём вас на трансляции :)
YouTube
System Design с Валерием Бабушкиным | Собеседование | karpov.courses
Курс System Design: https://bit.ly/3XE0q1v
Возможно, вы заметили, что на нашем канале давно не проходили mock-собеседования c Валерием Бабушкиным, но мы решили исправить эту ситуацию!
14 июля в 19:30 (GMT+3) Валерий проведёт System Design интервью в прямом…
Возможно, вы заметили, что на нашем канале давно не проходили mock-собеседования c Валерием Бабушкиным, но мы решили исправить эту ситуацию!
14 июля в 19:30 (GMT+3) Валерий проведёт System Design интервью в прямом…
Прочитал статью DISCOVERING LATENT KNOWLEDGE IN LANGUAGEMODELS WITHOUT SUPERVISION
Авторы статьи сделали ряд неожиданных предположений и предложений:
1. Вероятности ответов Да и Нет на один и тот же вопрос (имеющий только один правильный ответ из этих двух вариантов) - должны суммировать в единицу
2. Создаем набор из пар вопросов и ответов, где вопрос повторяется два раза, ответ же Да в одном случае и нет в другом
3. Забираем из модели активации которые генерируются при каждом из вариантов
4. Делаем такой лосс чтобы эти активации выдавали вероятности (после накладывания некоторой матрицы параметров) и суммировались в единицу для каждой пары (и еще учитываем уверенность, чтобы избежать модели дегенерата, которая будет всегда говорить - не все так однозначно, всей правды мы не узнаем и выдавать вероятность в 0.5 на любой вопрос и ответ Да/Нет)
5. Ну и все - обучили сеть из которой можно вытаскивать ответы да/нет, правда очевидно что может сработать не сразу и нужно будет умножать ответ на - 1 (вдруг она да в ноль будет скидывать, а нет в единицу).
Говорят что решили и это ( Technically, we also need to determine whether p˜(qi) > 0.5 corresponds to “Yes” or “No,” as this isn’t specified by LCCS. For simplicity in our evaluations we take the maximum accuracy over the two possible ways of labeling the predictions of a given test set. However, in Appendix A we describe how one can identify the two clusters without any supervision in principle by leveraging conjunctions.) но в апендикс я понятное дело не лез.
Пишут что всех порвали (среди zero shot подходов) и даже дают код
В целом годное чтиво
#ArticleReview
Авторы статьи сделали ряд неожиданных предположений и предложений:
1. Вероятности ответов Да и Нет на один и тот же вопрос (имеющий только один правильный ответ из этих двух вариантов) - должны суммировать в единицу
2. Создаем набор из пар вопросов и ответов, где вопрос повторяется два раза, ответ же Да в одном случае и нет в другом
3. Забираем из модели активации которые генерируются при каждом из вариантов
4. Делаем такой лосс чтобы эти активации выдавали вероятности (после накладывания некоторой матрицы параметров) и суммировались в единицу для каждой пары (и еще учитываем уверенность, чтобы избежать модели дегенерата, которая будет всегда говорить - не все так однозначно, всей правды мы не узнаем и выдавать вероятность в 0.5 на любой вопрос и ответ Да/Нет)
5. Ну и все - обучили сеть из которой можно вытаскивать ответы да/нет, правда очевидно что может сработать не сразу и нужно будет умножать ответ на - 1 (вдруг она да в ноль будет скидывать, а нет в единицу).
Говорят что решили и это ( Technically, we also need to determine whether p˜(qi) > 0.5 corresponds to “Yes” or “No,” as this isn’t specified by LCCS. For simplicity in our evaluations we take the maximum accuracy over the two possible ways of labeling the predictions of a given test set. However, in Appendix A we describe how one can identify the two clusters without any supervision in principle by leveraging conjunctions.) но в апендикс я понятное дело не лез.
Пишут что всех порвали (среди zero shot подходов) и даже дают код
В целом годное чтиво
#ArticleReview
Время Валеры
В четверг 13 июля в 19 часов по мск вместе с @JustStas поговорим про построение модели Marketing Mix с помощью библиотеки Robyn. Расскажем, как она работает и чем применение на практике отличается от теории. Серия постов про Robyn тут.
Небольшая поправка, стрим проведем на час позже, в 18 по Лондону
Подоспело видео из которого вы узнаете:
Кто сильнее: Терминатор или Робокоп? МГУ или Hard ML? А также самую страшную тайну Aliexpress
Кто сильнее: Терминатор или Робокоп? МГУ или Hard ML? А также самую страшную тайну Aliexpress
YouTube
Построение модели Marketing Mix с помощью библиотеки Robyn
Вместе с @JustStas поговорили про построение модели Marketing Mix с помощью библиотеки Robyn https://facebookexperimental.github.io/Robyn/Рассказали, как она работает и чем применение на практике отличается от теории.
Серия постов про Robyn тут https://t…
Серия постов про Robyn тут https://t…
21 июля 18:00 по мск “Валерий Бабушкин, Арсений Кравченко: Интервью с авторами Machine Learning System Design”
YouTube
Валерий Бабушкин, Арсений Кравченко: Интервью с авторами Machine Learning System Design
Встретимся обсудить опыт написания технической литературы и ML System Design c невероятно интересными гостемя - Валерой Бабушкиным и Арсений Кравченко 🔥 Валера - VP of Data science в Blockchain.com, ранее работал в Facebook как WhatApp User Data Privacy Tech…
Вышла запись нашего с Арсением интервью по поводу книги
YouTube
Валерий Бабушкин, Арсений Кравченко: Интервью с авторами Machine Learning System Design
#systemdesign #machinelearning #career #softwareengineer
Встретились обсудить опыт написания технической литературы и ML System Design c невероятно интересными гостями - Валерой Бабушкиным и Арсений Кравченко 🔥 Валера - VP of Data science в Blockchain.com…
Встретились обсудить опыт написания технической литературы и ML System Design c невероятно интересными гостями - Валерой Бабушкиным и Арсений Кравченко 🔥 Валера - VP of Data science в Blockchain.com…
Вышло записанное некоторое время назад интервью
Обсуждаем:
1.Артура Человека и мои душевные терзания по этому поводу
2. Игоря и стартапы, Прекрасную Мета Россию будущего
3. Сильных пацанов
4. Кто важнее - старший или главный начальник
5. Этику AI
6.Краткий период в жизни, в который можно нормально поработать - и многое другое
Обсуждаем:
1.Артура Человека и мои душевные терзания по этому поводу
2. Игоря и стартапы, Прекрасную Мета Россию будущего
3. Сильных пацанов
4. Кто важнее - старший или главный начальник
5. Этику AI
6.Краткий период в жизни, в который можно нормально поработать - и многое другое
YouTube
Валерий Бабушкин об уходе из Blockchain.com, книге и будущем LLM | Интервью | karpov.courses
Учитесь Data Science с нами: https://bit.ly/43QdHpn
Возвращаем легендарные, но нерегулярные интервью karpovꓸcourses! Так сложилось, что раз в год мы берем интервью у Валерия Бабушкина, где узнаем последние новости из мира Data Science и его карьерного пути.…
Возвращаем легендарные, но нерегулярные интервью karpovꓸcourses! Так сложилось, что раз в год мы берем интервью у Валерия Бабушкина, где узнаем последние новости из мира Data Science и его карьерного пути.…
Дали пояс. В комментах будут нюдсы
Прочитал заметку небезызвестного Ron Kohavi (автора книги по а/б тестам) , When Not to Trust a Published A/B Test – an Example - где он ругает контору Optimizely
Сетап следующий
The test was run by Optimizely, an A/B Testing Vendor, on their own site. The site uses “Get Started” as a Call to Action (CTA) on its pages in the upper-right, as shown below in Figure 1. Additional details are on GuessTheTest - Which CTA copy won?
The Treatment replaced that copy with “Watch a demo” on the Orchestrate product page, as shown below in Figure 2.
The test ran for 44 days with a 50%/50% design. 22,208 visitors saw the Control and 22,129 visitors saw the Treatment.
The Overall Evaluation Criterion (OEC) was clicks on the button.
The results showed that Control had 0.91% click-through rate and the Treatment had 1.59% click-through rate, a 75% lift
Сначала рассказывает про хорошее:
1. Ровно одно изменение на весь тест
2. Группы разбиты 50/50%
3. Sample Ratio Mismatch отсутствует
4. Тест длится долго, больше недели, это хорошо (он правда ворчит что 44 дня - это получается неполный недельный цикл и лучше либо 42 либо 49, тут соглашусь)
Плохое:
1. Мощность теста нужно просчитывать заранее. Обычно хороший аплифт это 5 или 10%. Для 5% в упомянутом тесте нужно 688к наблюдений, а было только 22к - соотвественно эксперимент заранее имеет недостаток в мощности, например эффект в 5, будет пойман только в 7.3% случаев. Если посчитать пост хок, то тест нормально ловит аплифт в 74.7% - и тут кроется ловушка, описанная здесь в разделе 5 - A/B Testing Intuition Busters - Post-hoc Power Calculations are Noisy and Misleading. Кратко - если уж вы поймали стат значимый результат, то он в среднем будет завышен от реального, когда ваш эксперимент имеет недостаточную мощность, а для того изменения, которые вы поймали, мощность у вас конечно будет по расчетам нормальная.
Легко проверить - возьмем и просимулируем 10 000 экспериментов с мощностью в 7.3% и аплифтом в 5%, видим следующее:
i. Стат значимый результат в 13.7% случаев (5% от ложноположительных + 7.3% когда увидели - вот вам уже и число близкое к тому что мы получили)
ii. Минимальный аплифт (когда наблюдается положительная разница) - 14.3%, средний (в абсолютах) - 22.9%, максимальный - 55.5% (но ведь мы знаем что истинный аплифт 5%!, то есть если мы что-то и поймаем, мы в среднем завысим эффект в 4.6 раз)
Разбор того-же самого в посте на LI
2. Судя по описанию теста, такое изменение тестировали на разных страницах и взяли ту, где стало круто - наше любимое множественное сравнение! Никаких поправок на него конечно не делалось
3. Optimizely еще не раскатали тест на всех - это красный флаг, значит что-то их самих не устраивает
4. Самое клевое - Кнопка на ряде мобил и девайсов не показывалась
The button does not seem to show up on smaller viewpoints
If the user doesn’t see the copy, any treatment effect is likely to be diluted, as the treatment effect for those users is zero. It isn’t clear from the description whether this was a PC-only test or if triggering was employed to limit to users who actually saw the button.
То есть возникает вопрос как еще трактовать то результаты, насколько они репрезентативны и для какой группы
Итог - хороший разбор от Рона
Считаю ошибкой со стороны Optimizely заявлять о таких результатах сразу. По хорошему, после того что они увидели нужно было делать раскатку на всех, а через некоторое время катить обратный эксперимент и оценивать еще раз
#ArticleReview
Сетап следующий
The test was run by Optimizely, an A/B Testing Vendor, on their own site. The site uses “Get Started” as a Call to Action (CTA) on its pages in the upper-right, as shown below in Figure 1. Additional details are on GuessTheTest - Which CTA copy won?
The Treatment replaced that copy with “Watch a demo” on the Orchestrate product page, as shown below in Figure 2.
The test ran for 44 days with a 50%/50% design. 22,208 visitors saw the Control and 22,129 visitors saw the Treatment.
The Overall Evaluation Criterion (OEC) was clicks on the button.
The results showed that Control had 0.91% click-through rate and the Treatment had 1.59% click-through rate, a 75% lift
Сначала рассказывает про хорошее:
1. Ровно одно изменение на весь тест
2. Группы разбиты 50/50%
3. Sample Ratio Mismatch отсутствует
4. Тест длится долго, больше недели, это хорошо (он правда ворчит что 44 дня - это получается неполный недельный цикл и лучше либо 42 либо 49, тут соглашусь)
Плохое:
1. Мощность теста нужно просчитывать заранее. Обычно хороший аплифт это 5 или 10%. Для 5% в упомянутом тесте нужно 688к наблюдений, а было только 22к - соотвественно эксперимент заранее имеет недостаток в мощности, например эффект в 5, будет пойман только в 7.3% случаев. Если посчитать пост хок, то тест нормально ловит аплифт в 74.7% - и тут кроется ловушка, описанная здесь в разделе 5 - A/B Testing Intuition Busters - Post-hoc Power Calculations are Noisy and Misleading. Кратко - если уж вы поймали стат значимый результат, то он в среднем будет завышен от реального, когда ваш эксперимент имеет недостаточную мощность, а для того изменения, которые вы поймали, мощность у вас конечно будет по расчетам нормальная.
Легко проверить - возьмем и просимулируем 10 000 экспериментов с мощностью в 7.3% и аплифтом в 5%, видим следующее:
i. Стат значимый результат в 13.7% случаев (5% от ложноположительных + 7.3% когда увидели - вот вам уже и число близкое к тому что мы получили)
ii. Минимальный аплифт (когда наблюдается положительная разница) - 14.3%, средний (в абсолютах) - 22.9%, максимальный - 55.5% (но ведь мы знаем что истинный аплифт 5%!, то есть если мы что-то и поймаем, мы в среднем завысим эффект в 4.6 раз)
Разбор того-же самого в посте на LI
2. Судя по описанию теста, такое изменение тестировали на разных страницах и взяли ту, где стало круто - наше любимое множественное сравнение! Никаких поправок на него конечно не делалось
3. Optimizely еще не раскатали тест на всех - это красный флаг, значит что-то их самих не устраивает
4. Самое клевое - Кнопка на ряде мобил и девайсов не показывалась
The button does not seem to show up on smaller viewpoints
If the user doesn’t see the copy, any treatment effect is likely to be diluted, as the treatment effect for those users is zero. It isn’t clear from the description whether this was a PC-only test or if triggering was employed to limit to users who actually saw the button.
То есть возникает вопрос как еще трактовать то результаты, насколько они репрезентативны и для какой группы
Итог - хороший разбор от Рона
Считаю ошибкой со стороны Optimizely заявлять о таких результатах сразу. По хорошему, после того что они увидели нужно было делать раскатку на всех, а через некоторое время катить обратный эксперимент и оценивать еще раз
#ArticleReview
Linkedin
#abtest #pvalue #experimentguide #statisticalpower | Ron Kohavi | 49 comments
An important graph to show the problem with running low power experiments.
If you ran an #abtest on a site that converted at 5% for the control and 5.5% for the treatment (10% relative lift), and you had 1,000 users in each of the two variants, you would…
If you ran an #abtest on a site that converted at 5% for the control and 5.5% for the treatment (10% relative lift), and you had 1,000 users in each of the two variants, you would…
Несколько разочаровался в oura ring. После того как у меня появилась чудо простыня, которая не только меняет свою температуру, чтобы улучшить качество сна, но в дополнение имеет кучу датчиков и отслеживает различные показатели, начал сравнивать их с кольцом. Конечно, я не знаю своего истинного пульса и фаз сна, но точну знаю, поспал я днем или нет - простыня такое ловит без проблем, кольцо через раз. Или в целом, насколько хорошо я восстановился. Не так, чтобы oura несла совсем бред, но иногда она конечно сходит с ума. Самые ярки моменты - это если вырезать какие-то куски сна, то общий скор в Oura может стать сильно лучше. Из разряда, проспал 8 часов - говорит все, тебе капец, пульс поздно упал, вырезаешь первые два часа - все, ништяк, молодец. Очевидно что это еще проблема в алгоритмах обработки сигналов. Отсюда вопрос к студии, что еще попробовать и чтобы переносное. Возможно Whoop?
Однажды я работал директором по моделированию и анализу данных в одной из крупнейших корпораций РФ - X5 Retail Group. Одновременно с этим я работал вице-президентом по машинному обучению в одной из крупнейших корпораций мира - Alibaba.
Преисполнившись чувством собственной важности, я решил что пора купить себе очки и направился в салон оптики. В салоне меня поджидал продавец. Он с энтузиазмом начал показывать и нахваливать свой товар, переходя от одной полки к другой. В какой-то момент он остановился, окинул меня взглядом и сказал: ну эти линзы дорогие, около чирика (10 тысяч рублей), поэтому выбирай из тех что уже тебе показал.
Так я и сделал лазерную коррецию зрения
#CoolStory
Преисполнившись чувством собственной важности, я решил что пора купить себе очки и направился в салон оптики. В салоне меня поджидал продавец. Он с энтузиазмом начал показывать и нахваливать свой товар, переходя от одной полки к другой. В какой-то момент он остановился, окинул меня взглядом и сказал: ну эти линзы дорогие, около чирика (10 тысяч рублей), поэтому выбирай из тех что уже тебе показал.
Так я и сделал лазерную коррецию зрения
#CoolStory