Один чел на Linkedin, написал что периодически переживает из за потенциально пересекающихся и влияющих друг на друга А/Б тестов
Это конечно ерунда, потому что:
A/B tests are not done blindly, it is very hard to imagine an improvement of 8% that you won't anticipate as a possible outcome of interactions of two new features
The only way I can imagine this is if someone runs thousands of random things without any idea behind them and want to check the results
При этом чел сам ссылается на статью от Microsoft - A/B Interactions: A Call to Relax
Где ровно то-же самое и говорят, пацаны - расслабьтесь, мы за вас уже посмотрели, такая штука практически никогда не возникает
Поэтому не бойтесь пропустить интеракцию всей своей жизни, почитайте лучше заметку Адама C3PO - про сто тысяч аб тестов
Это конечно ерунда, потому что:
A/B tests are not done blindly, it is very hard to imagine an improvement of 8% that you won't anticipate as a possible outcome of interactions of two new features
The only way I can imagine this is if someone runs thousands of random things without any idea behind them and want to check the results
При этом чел сам ссылается на статью от Microsoft - A/B Interactions: A Call to Relax
Где ровно то-же самое и говорят, пацаны - расслабьтесь, мы за вас уже посмотрели, такая штука практически никогда не возникает
Поэтому не бойтесь пропустить интеракцию всей своей жизни, почитайте лучше заметку Адама C3PO - про сто тысяч аб тестов
Linkedin
#experimentation #interaction #datascience | Jakub Linowski | 35 comments
Some of the teams I deal with (including myself) still show occasional concern about potentially interacting a/b tests, for better and/or for worse.
It's almost 2024 and I still don't know of an easy way to check for these between two or more overlapping…
It's almost 2024 and I still don't know of an easy way to check for these between two or more overlapping…
Завтра (13 декабря), в 18 по Лондону проведем стрим с @seeallochnaya и инженером из DeepMind, который участвовал в создании Gemini. Обсудим как обычно LLM, будущее и прошлое
Вопросы можно оставлять здесь
Добавить в календарь
Вопросы можно оставлять здесь
Добавить в календарь
Google Workspace
Google Calendar - Easier Time Management, Appointments & Scheduling
Learn how Google Calendar helps you stay on top of your plans - at home, at work and everywhere in between.
Второго января, в 21 по Москве/18 по Лондону, проведем стрим с уникальным человеком - CTO Aliexpress.ru, экс-CTO Ozon.ru, экс-VP Yandex Search Development и Yandex Fellow - Анатолий Орлов, также известный как Анатоликс
Обсудим, как минимум следующее, а затем просто начнем говорить обо всем:
Карьерный путь Анатоликcа и его видение роли менеджера.
Как люди становятся руководителями.
Что отличает хорошего руководителя от плохого.
Как часто теряешь хорошего разработчика и получаешь плохого руководителя и почему их так много
Как меняется видение и распорядок дня в зависимости от размера команды: от 10 до 100 до 1000 человек.
Добавить в календарь
Канал Анатоликса
Обсудим, как минимум следующее, а затем просто начнем говорить обо всем:
Карьерный путь Анатоликcа и его видение роли менеджера.
Как люди становятся руководителями.
Что отличает хорошего руководителя от плохого.
Как часто теряешь хорошего разработчика и получаешь плохого руководителя и почему их так много
Как меняется видение и распорядок дня в зависимости от размера команды: от 10 до 100 до 1000 человек.
Добавить в календарь
Канал Анатоликса
5 января, в 13 по Лондону, проведем стрим с Адамом Елдаровым, СРО в YouDo, ex Head of Data Science в YouDo и Ticketland, а также гуру научного бодибилдинга и активного долголетия.
Обсудим спортивное питание, бады, способы накачаться и как это помогает быть продакт менеджером
Канал Адама
Добавить в календарь
Обсудим спортивное питание, бады, способы накачаться и как это помогает быть продакт менеджером
Канал Адама
Добавить в календарь
Прочитал заметку от Spotify - Choosing a Sequential Testing Framework — Comparisons and Discussions
Рассматривают различные подходы для непрерывного тестирования в А/Б тестах, то-есть когда можно подглядывать, их плюсы и минусы
Group sequential tests
Плюсы: подход с alpha-spending функцией, которая тратится, только когда мы проверяем результаты, позволяет принимать решение, готовые ли мы сейчас подглядывать или лучше подождем. Если не подсматривать - тест сходится до традиционного z-test.
Легко объяснить - по факту z-test.
Минусы: нужно знать предельное количество данных, которое мы можем собрать, если что то пойдет не так в обе стороны, то тест может иметь как заниженный, так и завышенный false positive rate
Нужно выбирать alpha-spending, если мы заранее знаем сколько данных, то это не проблема, а если не знаем - underpower
Подглядывать можно не более пары сотен раз
Заметка для себя: Надо посмотреть пересекается ли как то с этим - Increase A/B Testing Power by Combining Experiments & Weighted Z-test
Always valid inference - куда входит любимый нами mSPRT The Mixture Sequential Probability Ratio Test
Плюсы: Легко воплотить
Можно сколько удобно данных скормить и не нужно знать размер данных заранее
Можно задать любое правило для остановки
Работает как с батчами так и со стримингом (в отличии от пункта выше)
Минусы: Нужно описывать параметры распределения для успеха, как некоторую смесь распределений
Тяжелее понять для челов, которые не понимают
Underpowered если батч а не стриминг, потому что обновляются данные сразу куском, а не по итерации
Заметка для себя: - Давно такой лажи надуманной я не читал, челы сразу сказали в начале статьи, что выбирают GST и начали выдумывать какие-то дурацкие причины почему mSPRT плох. Ну то есть, да, есть некоторая смесь распределений, но даже смесь распределений это распределение, на практике мы всегда делаем какое-то допущение, это в принципе тоже самое как задавание MDE, которые мы хотим поймать. То, что кому-то тяжелее это понять, удивительная причина, там все довольно просто на пальцах показать, для многих будет даже проще z-testа, ну а то - что underpowered для батчей - вообще ерунда. Кто вам мешает взять батч и прогнать его последовательно как будто это стриминг, ведь timestamp для каждого события есть, а обновление - это операция умножения двух циферок, то есть по факту вы это итак делаете с батчем, просто докинуть один sort
Bonferroni corrections - куда-же без нее
Плюсы - легко закодить
Минусы - заранее решаем сколько раз будем подсматривать
Если подсматривать много раз, скорее всего ничего не найдем
Проверили эти подходы на симуляции
Bounded false positive rate - держится у всех
GST всех побил по чувствительности на батчах, правда на стриминге он просто не работает и пойди тут сравни теперь, судя по всему mSPRT они не обработали в батчах через таймстемпы и должного сравнения мы не получим (если только их графики батча и стрима это не один и те-же данные, тогда худо бедно можно сравнить Можно пойти и посмотреть код - оставляю это на вашу совесть, код написан в R)
Описали свои выводы - что и когда брать. В целом читать можно и нужно, но с осторожностью
#ArticleReview
Рассматривают различные подходы для непрерывного тестирования в А/Б тестах, то-есть когда можно подглядывать, их плюсы и минусы
Group sequential tests
Плюсы: подход с alpha-spending функцией, которая тратится, только когда мы проверяем результаты, позволяет принимать решение, готовые ли мы сейчас подглядывать или лучше подождем. Если не подсматривать - тест сходится до традиционного z-test.
Легко объяснить - по факту z-test.
Минусы: нужно знать предельное количество данных, которое мы можем собрать, если что то пойдет не так в обе стороны, то тест может иметь как заниженный, так и завышенный false positive rate
Нужно выбирать alpha-spending, если мы заранее знаем сколько данных, то это не проблема, а если не знаем - underpower
Подглядывать можно не более пары сотен раз
Заметка для себя: Надо посмотреть пересекается ли как то с этим - Increase A/B Testing Power by Combining Experiments & Weighted Z-test
Always valid inference - куда входит любимый нами mSPRT The Mixture Sequential Probability Ratio Test
Плюсы: Легко воплотить
Можно сколько удобно данных скормить и не нужно знать размер данных заранее
Можно задать любое правило для остановки
Работает как с батчами так и со стримингом (в отличии от пункта выше)
Минусы: Нужно описывать параметры распределения для успеха, как некоторую смесь распределений
Тяжелее понять для челов, которые не понимают
Underpowered если батч а не стриминг, потому что обновляются данные сразу куском, а не по итерации
Заметка для себя: - Давно такой лажи надуманной я не читал, челы сразу сказали в начале статьи, что выбирают GST и начали выдумывать какие-то дурацкие причины почему mSPRT плох. Ну то есть, да, есть некоторая смесь распределений, но даже смесь распределений это распределение, на практике мы всегда делаем какое-то допущение, это в принципе тоже самое как задавание MDE, которые мы хотим поймать. То, что кому-то тяжелее это понять, удивительная причина, там все довольно просто на пальцах показать, для многих будет даже проще z-testа, ну а то - что underpowered для батчей - вообще ерунда. Кто вам мешает взять батч и прогнать его последовательно как будто это стриминг, ведь timestamp для каждого события есть, а обновление - это операция умножения двух циферок, то есть по факту вы это итак делаете с батчем, просто докинуть один sort
Bonferroni corrections - куда-же без нее
Плюсы - легко закодить
Минусы - заранее решаем сколько раз будем подсматривать
Если подсматривать много раз, скорее всего ничего не найдем
Проверили эти подходы на симуляции
Bounded false positive rate - держится у всех
GST всех побил по чувствительности на батчах, правда на стриминге он просто не работает и пойди тут сравни теперь, судя по всему mSPRT они не обработали в батчах через таймстемпы и должного сравнения мы не получим (если только их графики батча и стрима это не один и те-же данные, тогда худо бедно можно сравнить Можно пойти и посмотреть код - оставляю это на вашу совесть, код написан в R)
Описали свои выводы - что и когда брать. В целом читать можно и нужно, но с осторожностью
#ArticleReview
Spotify Engineering
Choosing a Sequential Testing Framework — Comparisons and Discussions
Spotify Engineering
Forwarded from Стать специалистом по машинному обучению
Приветствую, друзья!
Во-первых, хочу поздравить всех с наступающим Новым Годом и пожелать реализации ваших стремлений! А во-вторых, сообщить о выходе очередного (хотя и последнего в этом году) выпуска Machine Learning Podcast. Выпуск немного нестандартный. В нем сразу два гостя. Гостя два, а тема одна - их совместно написанная книга "Machine Learning System Design with end-to-end examples". Разговариваем о том, как вообще пришла идея написать книгу по теме проектирования ML-систем, почему в соавторстве, а не раздельно, для кого будет полезна данная книга, из каких частей состоит ML System Design, как подходить к разработке ML-систем разной сложности и так далее. Два взгляда двух разных авторов одной книги! Хорошего и интересного вам завершения года!
https://mlpodcast.mave.digital/ep-54
Во-первых, хочу поздравить всех с наступающим Новым Годом и пожелать реализации ваших стремлений! А во-вторых, сообщить о выходе очередного (хотя и последнего в этом году) выпуска Machine Learning Podcast. Выпуск немного нестандартный. В нем сразу два гостя. Гостя два, а тема одна - их совместно написанная книга "Machine Learning System Design with end-to-end examples". Разговариваем о том, как вообще пришла идея написать книгу по теме проектирования ML-систем, почему в соавторстве, а не раздельно, для кого будет полезна данная книга, из каких частей состоит ML System Design, как подходить к разработке ML-систем разной сложности и так далее. Два взгляда двух разных авторов одной книги! Хорошего и интересного вам завершения года!
https://mlpodcast.mave.digital/ep-54
11 выпуск 4 сезона
#054 ML Валерий Бабушкин и Арсений Кравченко. Как написать книгу об ML System Design — Подкаст «Machine Learning Podcast»
Этот выпуск немного нестандартный. Во-первых, он новогодний, потому что выходит 31 декабря, а во-вторых, в нем сразу два гостя - Валерий Бабушкин и Арсений Кравченко. Валерий и Арсений в сооавторстве написали книгу, посвященную большой и интересной т
Почитал интернет, комментарии на Ютюбе, понял что люди не верят в достижения, буду для себя хранить их здесь и давать ссылки, да и себе пригодится, а то многое забывается. По работе есть резюме, а по спорту нет
Результат Турнира по Грепплингу кровью и потом 2 - 2014 год
Новички до 92кг, 4 схватки, проигрыш в финале - на 1 бал, как итог - 2 место
Результат Турнира по Грепплингу кровью и потом - 5 - 2015 год
Выступил сначала по разрядникам в Ги, в категории до 92кг людей не было, пришлось идти в до 100кг
2 Схватки: 1 Проиграл, 1 Выиграл - 3 место
В этот же день выступал по Но Ги, новички, 92 кг
2 Схватки: 1 выиграл, 1 проиграл - 2 место, устал, проиграл тому, кого на Кровью и потом - 2 выиграл в полуфинале
Ассоциация Силового Многоборья Витязь - МСМК по народному жиму
Протоколы соревнований
Кубок Мира АСМ "Витязь" 27-29 мая 2016
Категория профессионалы, до 90кг, Опен, собственный вес 85кг, результаты - 85кг - 41 повтор (1 повторения не хватило да звания Элита, так и остался МСМК)
Но ничего, в том же году пожал 90кг на 50 и выиграл iPad на клубных соревнованиях
Федерация Русского Жима - рекорд России по Юниорам, МС по русскому жиму
25 июня 2011 года, 75кг на 47 раз, сертификат в комментариях
#Memoir
Результат Турнира по Грепплингу кровью и потом 2 - 2014 год
Новички до 92кг, 4 схватки, проигрыш в финале - на 1 бал, как итог - 2 место
Результат Турнира по Грепплингу кровью и потом - 5 - 2015 год
Выступил сначала по разрядникам в Ги, в категории до 92кг людей не было, пришлось идти в до 100кг
2 Схватки: 1 Проиграл, 1 Выиграл - 3 место
В этот же день выступал по Но Ги, новички, 92 кг
2 Схватки: 1 выиграл, 1 проиграл - 2 место, устал, проиграл тому, кого на Кровью и потом - 2 выиграл в полуфинале
Ассоциация Силового Многоборья Витязь - МСМК по народному жиму
Протоколы соревнований
Кубок Мира АСМ "Витязь" 27-29 мая 2016
Категория профессионалы, до 90кг, Опен, собственный вес 85кг, результаты - 85кг - 41 повтор (1 повторения не хватило да звания Элита, так и остался МСМК)
Но ничего, в том же году пожал 90кг на 50 и выиграл iPad на клубных соревнованиях
Федерация Русского Жима - рекорд России по Юниорам, МС по русскому жиму
25 июня 2011 года, 75кг на 47 раз, сертификат в комментариях
#Memoir