Understanding Statistics and Experimental Design. How to Not Lie With Statistics (Статистика и планирование эксперимента для непосвященных)
Эта книга подойдет даже новичкам - авторы отлично постарались, чтобы донести основы статистики максимально просто, с минимумом формул и максимумом смысла. Если вы когда-то слышали магические слова навроде a/b тесты, статзначимость, t-критерий, p-value и хотели понять что именно это значит, то эта книга для вас. Если вы знаете теорвер, матстаты, матанализ, то вам будет проще следить за мыслью авторов, но даже без этого эта книга позволит вам начать чувствовать bullshit, который иногда показывают под видом отличного эксперимента. В общем, в эпоху повсеметного data-driven эта книга всего в 150+ страниц очень хороша:) Она доступна бесплатно на сайте издательства Springer.
Сама книга состоит из 3 частей и 12 глав
I - Принципы статистики - эта часть must read для людей, что используют статистику для принятия решений
1 - Основы теории вероятностей - авторы говорят про вероятность, распределение вероятностей, условную вероятность и концепцию независимых событий. Дальше рассматривается вариант анализа на некоторую болезнь и дальше вводятся термины чувствительность (sensivity), специфичность (specificity), частота ложноположительных результатов (false positive rate) и частота ложноотрицательных результатов (miss rate). Дальше автор показывает как это все работает вместе и почему даже врачи не всегда понимают статистику:)
2 - Планирование эксперимента и основы статистики: теория обнаружения сигналов - авторы идут от signal detection theory и на примере желтой подводной лодки и эхолокаторов показывают как выглядит дизайн эксперимента и принятие решения. По-факту, у нас есть различимость сигнала и шума, а также некоторый порог принятия решений. В итоге, процент верных решений смешивает их вместе. Этот вывод дальше авторы показывают в части про t-критерий, где размер эффекта смешан с размером выборки:)
3 - Главная концепция статистики - здесь авторы рассказывает про канонический подход к статистике, обсуждают статистику для выборочного среднего, а дальше показывают как можно сравнивать выборочные средние при помощи одностороннего и двухстороннего t-критерия. Дальше авторы показывают, что в стандартном тесте p-value контролирует частоту ошибок первого типа или false positive, когда мы находим эффект, а его нет. Еще интереснее обсуждение рассчета мощности эксперимента, который говорит про вероятность получить значимый результат, если альтернативная гипотеза верна (то есть средние в наших совокупностях отличаются). Концепция мощности нужна в дальнейших главах, особенно в третей части книги. А вообще самая сочная часть этой главы - это следствия в конце, которые напрямую влияют на дизайн экспериментов и говорят про размер выборки, размер эффекта, нулевые результаты и так далее
4 - Вариации на тему t-критерия - это глава со звездочкой относительно третей главы, где рассматривался обычный t-критерий
II - Множественная проверка гипотез - очень интересная часть, про то, насколько сложно задизайнить правильный эксперимент с множественной проверкой гипотез
5 - Задача множественной проверки гипотез
6 - Дисперсионный анализ (ANOVA)
7 - Планирование эксперимента: подгонка модели, мощность и сложные планы - очень важная глава для практика-экспериментатора, где авторы делятся правильной методикой и показывают на примере как можно отстрелить себе обе ноги и не только
8 - Корреляции - сравнение t-критерия, ANOVA и стандартной истории с поиском корреляций между относительными переменными (в ANOVA у нас независимые переменные номинальные)
III - Метаанализ и кризис науки - эту часть интересно прочитать ученым и тем, кто любит читать статьи английских ученых:) Тут авторы на пальцах показывают как в погоне за результатами авторы исследований публикуют слишком хорошие результаты, чтобы они были правдой:)
9 - Метаанализ
10 - Воспроизводимость
11 - Величины избыточного успеха
12 - Предлагаемые улучшения и нерешенные проблемы
#Math #Statistics #PopularScience #Science #ML #Data
Эта книга подойдет даже новичкам - авторы отлично постарались, чтобы донести основы статистики максимально просто, с минимумом формул и максимумом смысла. Если вы когда-то слышали магические слова навроде a/b тесты, статзначимость, t-критерий, p-value и хотели понять что именно это значит, то эта книга для вас. Если вы знаете теорвер, матстаты, матанализ, то вам будет проще следить за мыслью авторов, но даже без этого эта книга позволит вам начать чувствовать bullshit, который иногда показывают под видом отличного эксперимента. В общем, в эпоху повсеметного data-driven эта книга всего в 150+ страниц очень хороша:) Она доступна бесплатно на сайте издательства Springer.
Сама книга состоит из 3 частей и 12 глав
I - Принципы статистики - эта часть must read для людей, что используют статистику для принятия решений
1 - Основы теории вероятностей - авторы говорят про вероятность, распределение вероятностей, условную вероятность и концепцию независимых событий. Дальше рассматривается вариант анализа на некоторую болезнь и дальше вводятся термины чувствительность (sensivity), специфичность (specificity), частота ложноположительных результатов (false positive rate) и частота ложноотрицательных результатов (miss rate). Дальше автор показывает как это все работает вместе и почему даже врачи не всегда понимают статистику:)
2 - Планирование эксперимента и основы статистики: теория обнаружения сигналов - авторы идут от signal detection theory и на примере желтой подводной лодки и эхолокаторов показывают как выглядит дизайн эксперимента и принятие решения. По-факту, у нас есть различимость сигнала и шума, а также некоторый порог принятия решений. В итоге, процент верных решений смешивает их вместе. Этот вывод дальше авторы показывают в части про t-критерий, где размер эффекта смешан с размером выборки:)
3 - Главная концепция статистики - здесь авторы рассказывает про канонический подход к статистике, обсуждают статистику для выборочного среднего, а дальше показывают как можно сравнивать выборочные средние при помощи одностороннего и двухстороннего t-критерия. Дальше авторы показывают, что в стандартном тесте p-value контролирует частоту ошибок первого типа или false positive, когда мы находим эффект, а его нет. Еще интереснее обсуждение рассчета мощности эксперимента, который говорит про вероятность получить значимый результат, если альтернативная гипотеза верна (то есть средние в наших совокупностях отличаются). Концепция мощности нужна в дальнейших главах, особенно в третей части книги. А вообще самая сочная часть этой главы - это следствия в конце, которые напрямую влияют на дизайн экспериментов и говорят про размер выборки, размер эффекта, нулевые результаты и так далее
4 - Вариации на тему t-критерия - это глава со звездочкой относительно третей главы, где рассматривался обычный t-критерий
II - Множественная проверка гипотез - очень интересная часть, про то, насколько сложно задизайнить правильный эксперимент с множественной проверкой гипотез
5 - Задача множественной проверки гипотез
6 - Дисперсионный анализ (ANOVA)
7 - Планирование эксперимента: подгонка модели, мощность и сложные планы - очень важная глава для практика-экспериментатора, где авторы делятся правильной методикой и показывают на примере как можно отстрелить себе обе ноги и не только
8 - Корреляции - сравнение t-критерия, ANOVA и стандартной истории с поиском корреляций между относительными переменными (в ANOVA у нас независимые переменные номинальные)
III - Метаанализ и кризис науки - эту часть интересно прочитать ученым и тем, кто любит читать статьи английских ученых:) Тут авторы на пальцах показывают как в погоне за результатами авторы исследований публикуют слишком хорошие результаты, чтобы они были правдой:)
9 - Метаанализ
10 - Воспроизводимость
11 - Величины избыточного успеха
12 - Предлагаемые улучшения и нерешенные проблемы
#Math #Statistics #PopularScience #Science #ML #Data
SpringerLink
Understanding Statistics and Experimental Design
This open access textbook teaches essential principles that can help all readers generate statistics and correctly interpret the data. It offers a valuable guide for students of bioengineering, biology, psychology and medicine, and notably also for interested…
❤19👍11🔥5
Доверительное a/b тестирование (Trustworthy Online Controlled Experiments)
Уже после начала отпуска я дочитал книгу по a/b экспериментам, которые являются необходимым инструментом для bigtech компаний для того, чтобы оценить эффективность тех или иных идей по оптимизации веб-сайтов, приложений, ml-моделей.
Это дейстительно крутая книга, которую написали совместно три автора:
- Ron Kohavi - Technical Fellow and corporate VP of Microsoft's Analysis and Experimentation (previously director of data mining and personalization at Amazon)
- Diane Tang - Google Fellow, with expertise in large-scale data analysis and infrastructure, online controlled experiments, and ads systems
- Ya Xu - head of Data Science and Experimentation at LinkedIn
Эта книга на русском вышла в издательстве ДМК Пресс и ее даже можно читать, сверяясь периодически с первоисточником.
Книга состоит пяти частей:
1) Введение для всех - объяснение мотивации проведения экспериментов, как выглядит полный цикл проведения экспериментов, как оценить надежность полученных данных и как прокачать культуру экспериментирования и прийти к платформе
2) Избранные темы для всех - пример известных экспериментов по оценке влияния скорости вебсайтов на бизнес показатели (full дизайн эксперимента и разбор его результатов), какие организационные показатели бывают, как выбрать OEC (overall evaluation criteria) для оценки эффектов экспериментов, как проведенные эксперименты формируют институциональную память и как их можно использовать для метаанализа, как проводить этичные эксперименты
3) Дополнительные и альтернативные методы контролируемых экспериментов - что делать, если честный a/b тест не провести (экспертная оценка, исследование UX, фокус-группы, обзоры, ...), как дизайнить наблюдательные исследования для исследования причинно-следственных связей
4) Платформы для экспериментов - очень важный раздел для тех, кто решил делать свою платформу. Здесь идет речь про эксперименты на стороне клиента (например, в мобильном приложении), про инструментарий для экспериментов, как выбрать еденицу рандомизации (страница/экран, сеанс пользователя, пользователь, компания, ...), как найти компромисс между скоростью/качеством/риском при дальнейшем развитии экспериментальной платформы, как анализировать масштабные эксперименты
5) Развернутое описание анализа экспериментов - тут наступает время статистики и авторы рассказывают про t-тест, p-значение и доверительные интервалы, ошибки первого и второго родов. Рекомендую почитать книгу "Understanding Statistics and Experimental Design. How to Not Lie With Statistics", про которую я писал раньше. Тут же идет речь про оценку дисперсии и повышение чувствительности экспериментов, как и зачем проводить a/a тестирование, какие существуют ограничительные показатели при проведении экспериментов, навроде SRM (sample ratio mismatch), как может происходить утечка и интерференция между вариантами (например, при экспериментах в соцсетях или на e-com платформах), как мерить долгосрочные эффекты.
В общем, книга топовая и я рекомендую ее к прочтению тем, кто глубоко погружен в тему a/b экспериментов ... или тем, кому просто нравится статистика:)
#Math #Statistics #PopularScience #Science #ML #Data #Software #PlatformEngineering
Уже после начала отпуска я дочитал книгу по a/b экспериментам, которые являются необходимым инструментом для bigtech компаний для того, чтобы оценить эффективность тех или иных идей по оптимизации веб-сайтов, приложений, ml-моделей.
Это дейстительно крутая книга, которую написали совместно три автора:
- Ron Kohavi - Technical Fellow and corporate VP of Microsoft's Analysis and Experimentation (previously director of data mining and personalization at Amazon)
- Diane Tang - Google Fellow, with expertise in large-scale data analysis and infrastructure, online controlled experiments, and ads systems
- Ya Xu - head of Data Science and Experimentation at LinkedIn
Эта книга на русском вышла в издательстве ДМК Пресс и ее даже можно читать, сверяясь периодически с первоисточником.
Книга состоит пяти частей:
1) Введение для всех - объяснение мотивации проведения экспериментов, как выглядит полный цикл проведения экспериментов, как оценить надежность полученных данных и как прокачать культуру экспериментирования и прийти к платформе
2) Избранные темы для всех - пример известных экспериментов по оценке влияния скорости вебсайтов на бизнес показатели (full дизайн эксперимента и разбор его результатов), какие организационные показатели бывают, как выбрать OEC (overall evaluation criteria) для оценки эффектов экспериментов, как проведенные эксперименты формируют институциональную память и как их можно использовать для метаанализа, как проводить этичные эксперименты
3) Дополнительные и альтернативные методы контролируемых экспериментов - что делать, если честный a/b тест не провести (экспертная оценка, исследование UX, фокус-группы, обзоры, ...), как дизайнить наблюдательные исследования для исследования причинно-следственных связей
4) Платформы для экспериментов - очень важный раздел для тех, кто решил делать свою платформу. Здесь идет речь про эксперименты на стороне клиента (например, в мобильном приложении), про инструментарий для экспериментов, как выбрать еденицу рандомизации (страница/экран, сеанс пользователя, пользователь, компания, ...), как найти компромисс между скоростью/качеством/риском при дальнейшем развитии экспериментальной платформы, как анализировать масштабные эксперименты
5) Развернутое описание анализа экспериментов - тут наступает время статистики и авторы рассказывают про t-тест, p-значение и доверительные интервалы, ошибки первого и второго родов. Рекомендую почитать книгу "Understanding Statistics and Experimental Design. How to Not Lie With Statistics", про которую я писал раньше. Тут же идет речь про оценку дисперсии и повышение чувствительности экспериментов, как и зачем проводить a/a тестирование, какие существуют ограничительные показатели при проведении экспериментов, навроде SRM (sample ratio mismatch), как может происходить утечка и интерференция между вариантами (например, при экспериментах в соцсетях или на e-com платформах), как мерить долгосрочные эффекты.
В общем, книга топовая и я рекомендую ее к прочтению тем, кто глубоко погружен в тему a/b экспериментов ... или тем, кому просто нравится статистика:)
#Math #Statistics #PopularScience #Science #ML #Data #Software #PlatformEngineering
Dmkpress
Доверительное А/В-тестирование
Купить книгу «Доверительное А/В-тестирование», автора Сюй Я. в издательстве «ДМК Пресс». Выгодные цены в Москве, доставка. Заказать книги и учебники на официальном сайте издательства.
👍8❤4🔥4
Как лгать при помощи статистики (How to Lie with Statistics) - Part I
Этой книге Дарелла Хаффа уже 70 лет, но она до сих пор не потеряла актуальность. Я решил ее прочитать в продолжение книги "Understanding Statistics and Experimental Design. How to Not Lie With Statistics", про которую я рассказывал раньше. И книга не подвела моих ожиданий - она написана простым языком, не содержит воды и рассказывает о различных способах злоупотребления статистикой в целях обмана аудитории и манипулирования ее мнением. Книга состоит из 10 глав:
1. Выборка изначально необъективна - эта манипуляция связана с тем, как мы формируем выборку. Если выборка не соответствует генеральной совокупности (не является репрезентативной), то статистика, которую мы вычислим по этой выборке может показывать те числа, которые мы хотим. Но даже если мы хотим сделать максимально честную выборку, то это достаточно сложно сделать. Например, автор рассказывает про это на примере опросов. А вот пример от меня, whitepaper "DevEx in Action" про developer productivity был описан на основе опросов тех разработчиков, которые работали в компаниях, что пользовались платформой https://getdx.com/ , которая предоставляет инструменты для измерения developer productivity. В итоге, опрос показал, что эти инструменты полезны:)
2. Грамотно выбранное среднее - здесь речь идет про выбор среднего удобного для вашего конкретного случая использования, например, это может быть среднее (mean), медиана (median) и мода. В общем, в зависимости от вида распределения вашей величины эти варианты среднего могут сильно отличаться:)
3. Нюансы, о которых скромно умалчивают - здесь начинается все с размера выборки, который могут не упоминать (а при маленьком размере получить интересные результаты гораздо проще), также про неуспешные результаты экспериментов можно не рассказывать (зачем говорить про неинтересные вещи), плюс можно играть с формулировкой так, чтобы было не ясно как рассчитывается сам показатель:)
4. Много шума практически из ничего - здесь автор рассказывает про статзначимость и доверительные интервалы:) И что при указании конкретных чисел нам сложно сравнить их между собой не зная доверительных интервалов.
5. График - лучше не бывает - тут идет речь про манипуляции с графиками: отсчет не от начальной точки по вертикали, разные масштабы осей, выбор нужного интервала времени для демонстрации графика величины на котрасте между началом и концом интервала
6. Схематичная картинка - здесь автор рассказывает как можно при помощи инфографики обманывать людей. Например, при двухкратном росте денежного показателя показывать в два раза больший мешочек денег - но предметы мы воспринимает как трехмерные и там ощущение от этого приема, что рост был в 8 (2ˆ3) раз
7. Псевдообоснованная цифра - тут автор показывает как взятое из статистики рандомное число можно трактовать по своему усмотрению. Главное сделать отсылку к авторитету и указать откуда взято число, а интерпретацию уже вкрутить свою:) Кстати, это частая манипулятивная техника
8. И снова это "после - значит вследствие" - здесь автор рассказывает, что корреляция совсем не равна причинно-следственной связи. Возможно причина и следствие связаны циклом (как обсуждалось в книге "Искусство системного мышления", про которую я рассказывал раньше) или обе переменных зависят от какой-то другой третьей, а может быть это просто совпадение:)
9. Как производить статикуляции (статистические манипуляции) - тут автор показывает примеры из предыдущих глав и добавляет игры с процентами, повторный учет одних и тех же элементов в расчетах, складывает вместе разные типы объектов и выводит среднее. В общем, поступает очень креативно:)
Продолжение в следующем посте.
#Math #Statistics #PopularScience #Science #Data
Этой книге Дарелла Хаффа уже 70 лет, но она до сих пор не потеряла актуальность. Я решил ее прочитать в продолжение книги "Understanding Statistics and Experimental Design. How to Not Lie With Statistics", про которую я рассказывал раньше. И книга не подвела моих ожиданий - она написана простым языком, не содержит воды и рассказывает о различных способах злоупотребления статистикой в целях обмана аудитории и манипулирования ее мнением. Книга состоит из 10 глав:
1. Выборка изначально необъективна - эта манипуляция связана с тем, как мы формируем выборку. Если выборка не соответствует генеральной совокупности (не является репрезентативной), то статистика, которую мы вычислим по этой выборке может показывать те числа, которые мы хотим. Но даже если мы хотим сделать максимально честную выборку, то это достаточно сложно сделать. Например, автор рассказывает про это на примере опросов. А вот пример от меня, whitepaper "DevEx in Action" про developer productivity был описан на основе опросов тех разработчиков, которые работали в компаниях, что пользовались платформой https://getdx.com/ , которая предоставляет инструменты для измерения developer productivity. В итоге, опрос показал, что эти инструменты полезны:)
2. Грамотно выбранное среднее - здесь речь идет про выбор среднего удобного для вашего конкретного случая использования, например, это может быть среднее (mean), медиана (median) и мода. В общем, в зависимости от вида распределения вашей величины эти варианты среднего могут сильно отличаться:)
3. Нюансы, о которых скромно умалчивают - здесь начинается все с размера выборки, который могут не упоминать (а при маленьком размере получить интересные результаты гораздо проще), также про неуспешные результаты экспериментов можно не рассказывать (зачем говорить про неинтересные вещи), плюс можно играть с формулировкой так, чтобы было не ясно как рассчитывается сам показатель:)
4. Много шума практически из ничего - здесь автор рассказывает про статзначимость и доверительные интервалы:) И что при указании конкретных чисел нам сложно сравнить их между собой не зная доверительных интервалов.
5. График - лучше не бывает - тут идет речь про манипуляции с графиками: отсчет не от начальной точки по вертикали, разные масштабы осей, выбор нужного интервала времени для демонстрации графика величины на котрасте между началом и концом интервала
6. Схематичная картинка - здесь автор рассказывает как можно при помощи инфографики обманывать людей. Например, при двухкратном росте денежного показателя показывать в два раза больший мешочек денег - но предметы мы воспринимает как трехмерные и там ощущение от этого приема, что рост был в 8 (2ˆ3) раз
7. Псевдообоснованная цифра - тут автор показывает как взятое из статистики рандомное число можно трактовать по своему усмотрению. Главное сделать отсылку к авторитету и указать откуда взято число, а интерпретацию уже вкрутить свою:) Кстати, это частая манипулятивная техника
8. И снова это "после - значит вследствие" - здесь автор рассказывает, что корреляция совсем не равна причинно-следственной связи. Возможно причина и следствие связаны циклом (как обсуждалось в книге "Искусство системного мышления", про которую я рассказывал раньше) или обе переменных зависят от какой-то другой третьей, а может быть это просто совпадение:)
9. Как производить статикуляции (статистические манипуляции) - тут автор показывает примеры из предыдущих глав и добавляет игры с процентами, повторный учет одних и тех же элементов в расчетах, складывает вместе разные типы объектов и выводит среднее. В общем, поступает очень креативно:)
Продолжение в следующем посте.
#Math #Statistics #PopularScience #Science #Data
🔥10❤5👍3👏2🏆2✍1
Как лгать при помощи статистики (How to Lie with Statistics) - Part I
Продолжая первый пост про книгу, расскажу про последнюю главу "Как поставить статистика на место", которая является венцом книги, где автор приводит вопросы, которые стоит задавать, когда вы видите аргументы, основанные на статистике:
- Кто это говорит? (обращаем внимание на предвзятость данных)
- Откуда ему об этом известно? (обращаем внимание на процедуру сбора данных и их анализа)
- Не подменен ли объект исследования? (для себя я это связал с валидацией цепочки Goal - Signal - Metric, что упоминалось в посте про "Measuring Engineering Productivity")
- Есть ли в этом смысл? (магия цифр не должна вас отвлекать от вопроса поиска смысла в приведенных аргументах и статистике)
На тему статистики рекомендую еще почиать книги:
- Understanding Statistics and Experimental Design. How to Not Lie With Statistics (Статистика и планирование эксперимента для непосвященных)
- Доверительное a/b тестирование (Trustworthy Online Controlled Experiments)
Они посложнее этой книги и содержат формулы, но они позволяют понять ее детальнее, а книга про доверительное a/b тестирование позволяет еще и понять как сделать платформу для проведения экспериментов на уровне всей компании.
#Math #Statistics #PopularScience #Science #Data
Продолжая первый пост про книгу, расскажу про последнюю главу "Как поставить статистика на место", которая является венцом книги, где автор приводит вопросы, которые стоит задавать, когда вы видите аргументы, основанные на статистике:
- Кто это говорит? (обращаем внимание на предвзятость данных)
- Откуда ему об этом известно? (обращаем внимание на процедуру сбора данных и их анализа)
- Не подменен ли объект исследования? (для себя я это связал с валидацией цепочки Goal - Signal - Metric, что упоминалось в посте про "Measuring Engineering Productivity")
- Есть ли в этом смысл? (магия цифр не должна вас отвлекать от вопроса поиска смысла в приведенных аргументах и статистике)
На тему статистики рекомендую еще почиать книги:
- Understanding Statistics and Experimental Design. How to Not Lie With Statistics (Статистика и планирование эксперимента для непосвященных)
- Доверительное a/b тестирование (Trustworthy Online Controlled Experiments)
Они посложнее этой книги и содержат формулы, но они позволяют понять ее детальнее, а книга про доверительное a/b тестирование позволяет еще и понять как сделать платформу для проведения экспериментов на уровне всей компании.
#Math #Statistics #PopularScience #Science #Data
🔥12👍3❤2
Вакансия Staff Engineer в a/b платформу @ Tinkoff
Я ищу крутого инженера в команду, которая разрабатывает систему для проведения экспериментов. Эта система позволяет автоматизировать все этапы проведения экспериментов от планирования до подведения итогов и, существенно снизить расходы на проведение экспериментов. Интересно, что за эту систему отвечает мой коллега, Андрей Цыбин, с которым мы уже записывали серию подкаста "Code of Leadership" про систему продуктовой аналитики Statist. В итоге, сейчас у Андрея есть позиция крутого инженера, что выступит забойщиком при создании системы подведения итогов по экспериментам, которая позволяет оценить результаты проведения тестов по набору метрик и статистических критериев к ним, и на основе этих данных принять решение по эксперименту. План таков, что вокруг этого инженера соберется команда, что сможет сделать Тинькофф еще более data driven.
Кстати, я уже рассказывал про книги на тему статистики, которые были бы полезны такому инженеру
- Как лгать при помощи статистики (How to Lie with Statistics) - на пальцах объясняется как врут с помощью статистики, а отсюда становится ясна мотивация создания системы подведения итогов экспериментов
- Understanding Statistics and Experimental Design. How to Not Lie With Statistics (Статистика и планирование эксперимента для непосвященных) - в этой книге рассказывается про дизайн экспериментов и математику, что стоит за ними
- Доверительное a/b тестирование (Trustworthy Online Controlled Experiments) - а эта книга позволяет еще и понять как сделать платформу для проведения экспериментов на уровне всей компании
Ну а теперь немного про наши ожидания от идеального кандидата (tl;dr -надо быть крутым инженером )
- Опыт разработки на любом из уважаемых языков программирования (C++, Python, Java, Kotlin, Scala, Golang, C#)
- Опыт проектирования масштабируемой инфраструктуры для распределенной обработки данных, включая ее мониторинг. Будет плюсом опыт работы с инструментами обработки данных, таких как: Apache Spark, Apache Airflow и т.п.
- Опыт проектирования моделей данных, выбор подходящего способа хранения и работы с такими хранилищами как: S3, HDFS, Clickhouse, Greenplum
- Будет плюсом знание математической статистики и понимание методологий проведения А/Б экспериментов (можно поботать книги, что я указывал выше, чтобы понять насколько это интересно)
Ну а теперь что придется делать кандидату (tl;dr - надо делать то, что делают крутые инженеры )
- Планировать техническое развитие продукта (тех долг, улучшения)
- Участвовать в разработке архитектуры и спецификации задач
- Участвовать в процессе разработки новых фич от проектирования до ввода в эксплуатацию (да, у нас разработчики релизят код на прод)
- Улучшать кодовую базу как основных сервисов, так и вспомогательных библиотек
- Вести внешную коммуникацию с другими командами, стекхолдерами и руководителями
- Отвечать на своевременную доставку фич
Если вам понравилась позиция, то пишите в личку @apolomodov и @tcandrei
P.S.
А в общем про staff инженеров мы говорили с моим коллегой, Лешей Тарасовым, в другом выпуске Code of Leadership.
#Vacancy #Statistics #Data #Staff #Leadership #Architecture #SoftwareArchitecture
Я ищу крутого инженера в команду, которая разрабатывает систему для проведения экспериментов. Эта система позволяет автоматизировать все этапы проведения экспериментов от планирования до подведения итогов и, существенно снизить расходы на проведение экспериментов. Интересно, что за эту систему отвечает мой коллега, Андрей Цыбин, с которым мы уже записывали серию подкаста "Code of Leadership" про систему продуктовой аналитики Statist. В итоге, сейчас у Андрея есть позиция крутого инженера, что выступит забойщиком при создании системы подведения итогов по экспериментам, которая позволяет оценить результаты проведения тестов по набору метрик и статистических критериев к ним, и на основе этих данных принять решение по эксперименту. План таков, что вокруг этого инженера соберется команда, что сможет сделать Тинькофф еще более data driven.
Кстати, я уже рассказывал про книги на тему статистики, которые были бы полезны такому инженеру
- Как лгать при помощи статистики (How to Lie with Statistics) - на пальцах объясняется как врут с помощью статистики, а отсюда становится ясна мотивация создания системы подведения итогов экспериментов
- Understanding Statistics and Experimental Design. How to Not Lie With Statistics (Статистика и планирование эксперимента для непосвященных) - в этой книге рассказывается про дизайн экспериментов и математику, что стоит за ними
- Доверительное a/b тестирование (Trustworthy Online Controlled Experiments) - а эта книга позволяет еще и понять как сделать платформу для проведения экспериментов на уровне всей компании
Ну а теперь немного про наши ожидания от идеального кандидата (tl;dr -
- Опыт разработки на любом из уважаемых языков программирования (C++, Python, Java, Kotlin, Scala, Golang, C#)
- Опыт проектирования масштабируемой инфраструктуры для распределенной обработки данных, включая ее мониторинг. Будет плюсом опыт работы с инструментами обработки данных, таких как: Apache Spark, Apache Airflow и т.п.
- Опыт проектирования моделей данных, выбор подходящего способа хранения и работы с такими хранилищами как: S3, HDFS, Clickhouse, Greenplum
- Будет плюсом знание математической статистики и понимание методологий проведения А/Б экспериментов (можно поботать книги, что я указывал выше, чтобы понять насколько это интересно)
Ну а теперь что придется делать кандидату (tl;dr -
- Планировать техническое развитие продукта (тех долг, улучшения)
- Участвовать в разработке архитектуры и спецификации задач
- Участвовать в процессе разработки новых фич от проектирования до ввода в эксплуатацию (да, у нас разработчики релизят код на прод)
- Улучшать кодовую базу как основных сервисов, так и вспомогательных библиотек
- Вести внешную коммуникацию с другими командами, стекхолдерами и руководителями
- Отвечать на своевременную доставку фич
Если вам понравилась позиция, то пишите в личку @apolomodov и @tcandrei
P.S.
А в общем про staff инженеров мы говорили с моим коллегой, Лешей Тарасовым, в другом выпуске Code of Leadership.
#Vacancy #Statistics #Data #Staff #Leadership #Architecture #SoftwareArchitecture
YouTube
Code of Leadership #8 - Интервью с Андреем Цыбиным про Statist (система для продуктовой аналитики)
Восьмой выпуск подкаста - это интервью с Андреем Цыбиным, техническим директором продуктовой аналитики и a/b платформы в Тинькофф. В этом интервью Андрей вспоминает с чего начинался его путь в компании, как он занялся Statist, который изначально предназначался…
🔥7👍4❤3
Потенциальный логотип a/b платформы
В продолжении поста про вакансию Staff Engineer в a/b платформу @ Tinkoff придумал пару картинок для платформы. Они сделана по мотивам иллюстраций с сайта Рона Кохави, который написал книгу Доверительное a/b тестирование (Trustworthy Online Controlled Experiments). Красивую картинку Рона с забавными обложками тоже приложил к этому посту.
#Vacancy #Statistics #Data #Staff #Leadership #Architecture #SoftwareArchitecture
В продолжении поста про вакансию Staff Engineer в a/b платформу @ Tinkoff придумал пару картинок для платформы. Они сделана по мотивам иллюстраций с сайта Рона Кохави, который написал книгу Доверительное a/b тестирование (Trustworthy Online Controlled Experiments). Красивую картинку Рона с забавными обложками тоже приложил к этому посту.
#Vacancy #Statistics #Data #Staff #Leadership #Architecture #SoftwareArchitecture
👍5🔥2❤1
Глубокое обучение и анализ данных. Практическое руководство
Прочитал эту книгу Дмитрия Малова за пару недель, что пришлись на отпуск и разъезды. Книга издана в 2023 году и сопровождается кодом и графиками, что доступны на Github. В книге 270 страниц, разделенных на 8 отдельных глав, причем автор пытается сначала изложить необходимые основы, а дальше уже переходить к практике и примерам:
1. Основы машинного обучения - здесь автор начинает с базиса, в который входит
- Линейная алгебра - скаляр, вектор, матрица, тензор, норма
- Теория информации и теорвер - случайная величина, распределение вероятности, условная вероятность, матожидание, дисперсия, ковариация, правило Байеса
- Основные понятия машинного обучения и решаемые задачи - классификация, регрессия, обнаружение аномалий, машинный перевод, структурный вывод, синтез и выбборка), а также отношение к опыту при обучении и варианты обучения с учителем, без учителя, с частичным привлечением учителя, а также обучение с подкреплением
- Основы разработки: синтаксис python, основы ооп (абстракция, инкаспусляция, полиморфизм, наследование и композиция), процессы разработки: waterfall и agile:)
2. Основные алгоритмы машинного обучения - здесь автор начинает с предобработки данных, а дальше рассматривает алгоритмы снижения их размерности: линейные и нелинейные методы, линейную и логистическую регрессию, деревья решений, метод опорных векторов, наивный байесовский классификатор, k-means, k nearest neighbors, случайный лес и алгоритм градиентного бустинга. Все это умещается в 30 страниц, поэтому если вы отдельно не изучали все эти вещи, то иногда сложно успевать за мыслью автора (я слава богу до этого это все уже ботал лет 10 назад, когда у меня был приступ самообразования и я зависал на Coursera и Edx)
3. Основы глубокого обучения - здесь автор начинает с обратного распространения ошибки (backpropagation), дальше рассказывает про персептрон, цепь Маркова, машину Больцмана, сеть Хопфилда, сверточные нейронные сети (CNN), трансформеры, рекуррентные нейронные сети (RNN), автокодировщики, генеративно состязательные сети (GAN). А в конце приводит пример системы, которую автор походу делал для whitepaper или диплома:)
4. Основы data science - интересно, что тут рассказ начинается с методологии работы с данными, а точнее с CRISP-DM (Cross-Industry Standard Process for Data Mining, дальше рассказывается про роли в команде ML-разработки, где примечательны data analyst, data engineer, data scientist. Дальше автор рассказывает про тренды: deep fakes и борьба с ними, интерес бизнеса к обучению end2end моделей, Auto ML для low-code и no-code использования, MLOps (я недавно писал про whitepaper на эту тему от Google и участвовал в подкасте на эту же тему). А заканчивает эту главу автор тем, что рассматривает популярные библиотеки для ML разработки, среди которых хотелось бы упомянуть TensorFlow, PyTorch, Keras
5. Задачи глубокого обучения - в этой главе автор приводит примеры задач и показывает как их можно решать при помощи deep learning. Тут как раз пригодится код из репозитория, чтобы поиграть с задачами самому. Тут есть примеры аугментации данных, компьютерного зрения и использования OpenCV, классическая задача на распознование символов, обработка естественного языка, обработка аудио, а также обработка видео. В общем, в этой и следующих трех главах собрана самая мякотка:)
6-8. Последние три главы посвящены знакомству с TensorFlow, Keras и PyTorch. Здесь показано как решать задачи из 5 главы с использованием конкретной библиотеки.
Если финализировать саммари по книге, то она показалась мне кратким интро в область deep learning. В ней есть вся нужная базовая инфа, но чтобы ее понять придется почитать дополнительные материалы. Здесь же есть примеры задач и код, который может стать стартовой точкой для ваших экспериментов. В общем, книга мне скорее понравилась, но надо учесть, что за исключением конкретных библиотек TensorFlow, Keras и PyTorch все остальное я уже достаточно давно и неплохо изучил:)
#AI #Math #Statistics #Software #DataScience #ML
Прочитал эту книгу Дмитрия Малова за пару недель, что пришлись на отпуск и разъезды. Книга издана в 2023 году и сопровождается кодом и графиками, что доступны на Github. В книге 270 страниц, разделенных на 8 отдельных глав, причем автор пытается сначала изложить необходимые основы, а дальше уже переходить к практике и примерам:
1. Основы машинного обучения - здесь автор начинает с базиса, в который входит
- Линейная алгебра - скаляр, вектор, матрица, тензор, норма
- Теория информации и теорвер - случайная величина, распределение вероятности, условная вероятность, матожидание, дисперсия, ковариация, правило Байеса
- Основные понятия машинного обучения и решаемые задачи - классификация, регрессия, обнаружение аномалий, машинный перевод, структурный вывод, синтез и выбборка), а также отношение к опыту при обучении и варианты обучения с учителем, без учителя, с частичным привлечением учителя, а также обучение с подкреплением
- Основы разработки: синтаксис python, основы ооп (абстракция, инкаспусляция, полиморфизм, наследование и композиция), процессы разработки: waterfall и agile:)
2. Основные алгоритмы машинного обучения - здесь автор начинает с предобработки данных, а дальше рассматривает алгоритмы снижения их размерности: линейные и нелинейные методы, линейную и логистическую регрессию, деревья решений, метод опорных векторов, наивный байесовский классификатор, k-means, k nearest neighbors, случайный лес и алгоритм градиентного бустинга. Все это умещается в 30 страниц, поэтому если вы отдельно не изучали все эти вещи, то иногда сложно успевать за мыслью автора (я слава богу до этого это все уже ботал лет 10 назад, когда у меня был приступ самообразования и я зависал на Coursera и Edx)
3. Основы глубокого обучения - здесь автор начинает с обратного распространения ошибки (backpropagation), дальше рассказывает про персептрон, цепь Маркова, машину Больцмана, сеть Хопфилда, сверточные нейронные сети (CNN), трансформеры, рекуррентные нейронные сети (RNN), автокодировщики, генеративно состязательные сети (GAN). А в конце приводит пример системы, которую автор походу делал для whitepaper или диплома:)
4. Основы data science - интересно, что тут рассказ начинается с методологии работы с данными, а точнее с CRISP-DM (Cross-Industry Standard Process for Data Mining, дальше рассказывается про роли в команде ML-разработки, где примечательны data analyst, data engineer, data scientist. Дальше автор рассказывает про тренды: deep fakes и борьба с ними, интерес бизнеса к обучению end2end моделей, Auto ML для low-code и no-code использования, MLOps (я недавно писал про whitepaper на эту тему от Google и участвовал в подкасте на эту же тему). А заканчивает эту главу автор тем, что рассматривает популярные библиотеки для ML разработки, среди которых хотелось бы упомянуть TensorFlow, PyTorch, Keras
5. Задачи глубокого обучения - в этой главе автор приводит примеры задач и показывает как их можно решать при помощи deep learning. Тут как раз пригодится код из репозитория, чтобы поиграть с задачами самому. Тут есть примеры аугментации данных, компьютерного зрения и использования OpenCV, классическая задача на распознование символов, обработка естественного языка, обработка аудио, а также обработка видео. В общем, в этой и следующих трех главах собрана самая мякотка:)
6-8. Последние три главы посвящены знакомству с TensorFlow, Keras и PyTorch. Здесь показано как решать задачи из 5 главы с использованием конкретной библиотеки.
Если финализировать саммари по книге, то она показалась мне кратким интро в область deep learning. В ней есть вся нужная базовая инфа, но чтобы ее понять придется почитать дополнительные материалы. Здесь же есть примеры задач и код, который может стать стартовой точкой для ваших экспериментов. В общем, книга мне скорее понравилась, но надо учесть, что за исключением конкретных библиотек TensorFlow, Keras и PyTorch все остальное я уже достаточно давно и неплохо изучил:)
#AI #Math #Statistics #Software #DataScience #ML
👍9🔥3❤2
Neural correlates of interspecies perspective taking in the post-mortem Atlantic Salmon: an argument for multiple comparisons correction (Рубрика #Humor)
При изучении книги Дэвида Хэнда "Темные данные" ("Dark data. Why what you don't know matters") наткнулся на разбор этого whitepaper про проведение экспериментов над мозгом мертвого лосося. Этот эксперимент получил Шнобелевскую премию по нейробиологии и он был поставлен следующим образом:
- Мертвому лососю проводили МРТ-сканирование головного мозга
- Одновременно с этим показывали серию фотографий, изображающие людей в различных ситуациях
- А также просили испытуемого определить какие эмоции используют изображенные люди
- Фиксировали определение эмоций при помощи реакции, которая определялась как активность клеток мозга, видимая на вокселях (пикселях МРТ-изображения)
Оказалось, что несколько вокселей оказались активны. Авторы сделали открытие, что
Дэвид Хэнд, автор книги про темные данные, а также президент статистического общества и член Британской академии, вспоминает анекдот на эту тему
А для того, что эксперименты у нас в Тинькофф были защищены от такого мы и делаем внутри компании a/b платформу, про которую я уже рассказывал при публикации вакансии staff инженера в эту платформу. Также есть ряд книг, что полезны тем, кому нравится статистика и эксперименты и про которые я уже рассказывал раньше.
- Как лгать при помощи статистики (How to Lie with Statistics) - на пальцах объясняется как врут с помощью статистики, а отсюда становится ясна мотивация создания системы подведения итогов экспериментов
- Understanding Statistics and Experimental Design. How to Not Lie With Statistics (Статистика и планирование эксперимента для непосвященных) - в этой книге рассказывается про дизайн экспериментов и математику, что стоит за ними
- Доверительное a/b тестирование (Trustworthy Online Controlled Experiments) - а эта книга позволяет еще и понять как сделать платформу для проведения экспериментов на уровне всей компании
#Math #PopularScience #SelfDevelopment #Humor #Statistics
При изучении книги Дэвида Хэнда "Темные данные" ("Dark data. Why what you don't know matters") наткнулся на разбор этого whitepaper про проведение экспериментов над мозгом мертвого лосося. Этот эксперимент получил Шнобелевскую премию по нейробиологии и он был поставлен следующим образом:
- Мертвому лососю проводили МРТ-сканирование головного мозга
- Одновременно с этим показывали серию фотографий, изображающие людей в различных ситуациях
- А также просили испытуемого определить какие эмоции используют изображенные люди
- Фиксировали определение эмоций при помощи реакции, которая определялась как активность клеток мозга, видимая на вокселях (пикселях МРТ-изображения)
Оказалось, что несколько вокселей оказались активны. Авторы сделали открытие, что
Либо мы наткнулись на поразительное открытие на стыке ихтиологии и посмертных когнитивных функций, либо что-то не так с нашим статистическим подходом. Можем ли мы заключить из этих данных, что лосось выразил свое мнение, отвечая на поставленный вопрос? Конечно, нет. Контролируя когнитивные способности субъекта, в данном случае мы полностью исключили эту возможность
Дэвид Хэнд, автор книги про темные данные, а также президент статистического общества и член Британской академии, вспоминает анекдот на эту тему
Экспериментатор А говорит экспериментатору Б, что у него большие проблемы с воспроизведением результатов, полученных Б. "Неудивительно, - отвечает тот, - ведь я тоже не смог получить их первые 100 раз, когда проводил эксперимент".
А для того, что эксперименты у нас в Тинькофф были защищены от такого мы и делаем внутри компании a/b платформу, про которую я уже рассказывал при публикации вакансии staff инженера в эту платформу. Также есть ряд книг, что полезны тем, кому нравится статистика и эксперименты и про которые я уже рассказывал раньше.
- Как лгать при помощи статистики (How to Lie with Statistics) - на пальцах объясняется как врут с помощью статистики, а отсюда становится ясна мотивация создания системы подведения итогов экспериментов
- Understanding Statistics and Experimental Design. How to Not Lie With Statistics (Статистика и планирование эксперимента для непосвященных) - в этой книге рассказывается про дизайн экспериментов и математику, что стоит за ними
- Доверительное a/b тестирование (Trustworthy Online Controlled Experiments) - а эта книга позволяет еще и понять как сделать платформу для проведения экспериментов на уровне всей компании
#Math #PopularScience #SelfDevelopment #Humor #Statistics
👍8❤3😁2👎1
Темные данные (Dark Data. Why What We Don’t Know Is Even More Important Than What We Do) (Рубрика #Management) (Part I)
Недавно я прочитал эту книгу Дэвида Хэнда, члена Британской академии, президента Королевского статистического общества. Меня заинтересовал подзаголовок книги на русском "практическое руководство по принятию правильных решений в мире недостающих данных". В итоге, практического руководства я не увидел, но встретил много реальных историй фейлов при работе с данными. Интересно, что больше половины примеров я уже читал в других книгах, плюс большую часть перечисленных проблем встречал на практике. Поэтому книга, как по мне, не содержит какой-то вау информации, но определенно полезна для думающих людей, что планируют принимать решения на основе данных. Суть в том, что обычно решения принимаются на основе данных, что у нас есть. Но часто для принятия решения не менее важны те данные, которых у нас нет. Автор называет такие данные темными и приводит их классификацию, как обычно неполную, но кажется полезную.
В последней части книги автор дает советы о том, как извлекать из темных данных пользу через
- Рандомизированные контролируемые исследования (привет a/b тесты)
- Симуляции (на эту тему я как-то читал книгу "Вероятностное программирование на практике")
- Репликацию данных (тут автор рассказывает про бутстреппинг)
- Баейсовский подход с априорным распределение (тут можно вспомнить про многорукие бандиты)
- Конфиденцильность данных и сбор их без раскрытия чувствительной информации
Ну и в самом конце автор вспоминает анекдот про поиск под фонарем, где светлее
И желает читателям найти свои способы расширить маленькое пятно света и осветить окрестности своих данных:)
P.S.
В следующем посте я расскажу подробнее про виды темных данных
#Management #Data #Math #Statistics
Недавно я прочитал эту книгу Дэвида Хэнда, члена Британской академии, президента Королевского статистического общества. Меня заинтересовал подзаголовок книги на русском "практическое руководство по принятию правильных решений в мире недостающих данных". В итоге, практического руководства я не увидел, но встретил много реальных историй фейлов при работе с данными. Интересно, что больше половины примеров я уже читал в других книгах, плюс большую часть перечисленных проблем встречал на практике. Поэтому книга, как по мне, не содержит какой-то вау информации, но определенно полезна для думающих людей, что планируют принимать решения на основе данных. Суть в том, что обычно решения принимаются на основе данных, что у нас есть. Но часто для принятия решения не менее важны те данные, которых у нас нет. Автор называет такие данные темными и приводит их классификацию, как обычно неполную, но кажется полезную.
В последней части книги автор дает советы о том, как извлекать из темных данных пользу через
- Рандомизированные контролируемые исследования (привет a/b тесты)
- Симуляции (на эту тему я как-то читал книгу "Вероятностное программирование на практике")
- Репликацию данных (тут автор рассказывает про бутстреппинг)
- Баейсовский подход с априорным распределение (тут можно вспомнить про многорукие бандиты)
- Конфиденцильность данных и сбор их без раскрытия чувствительной информации
Ну и в самом конце автор вспоминает анекдот про поиск под фонарем, где светлее
Пьяный мужик что-то ищет под фонарем. К нему подходит милиционер:
— Вы что вы тут делаете?
— Ключи от квартиры ищу
— А где потерял?
— Да вон там, в парке.
— А зачем здесь ищешь?
— А здесь светлее.
И желает читателям найти свои способы расширить маленькое пятно света и осветить окрестности своих данных:)
P.S.
В следующем посте я расскажу подробнее про виды темных данных
#Management #Data #Math #Statistics
👍14❤6🔥5
Темные данные (Dark Data. Why What We Don’t Know Is Even More Important Than What We Do) - Part II - (Рубрика #Management)
Продолжая рассказ про темные данные, которые я начал в прошлом посте, в этом я хотел рассказать про классы темных данных, которые выделяет Дэвид Хэнд, член Британской академии, президент Королевского статистического общества.
1) Данные, о которых мы знаем, что они отсутствуют - это "известные неизвестные", которые возникают, когда мы знаем, что в данных есть проблемы, скрывающие значения, которые могли быть записаны
2) Данные, о которых мы не знаем, что они отсутствуют - это "неизвестные неизвестные". Тут мы даже не знаем, что нам не хватает каких-то данных. В книге рассказывает про катастрофу Challenger, где принимающим решения не хватало информации о поведении уплотнительных колец при холодной погоде, но они об этом и не знали
3) Выборочные факты - к таким проблемам приводит плохой набор критериев для включения в выборку или ошибочное применение разумных критериев. Также сюда можно отнести p-hacking, который состоит в проведении большого количества статистических тестов, но рассказе только о тех, что были успешны
4) Самоотбор - этот вариант является подтипом предыдущего типа темных данных, а именно выборочных фактов. Он проявляется, когда людям дают самим решать что включать в результаты опроса, а что нет. У отсутствующих данных могут быть системные отличия от тех, что все-таки были внесены.
5) Неизвестный определяющий фактор - тут старая как мир история про то, что корреляция не является причинно-следственной связью. Тут же автор вспоминает про парадокс Симпсона
6) Данные, которые могли бы существовать (контрфактуальные данные) - это данные, которые мы смогли бы увидеть, если бы предприняли какие-то другие действия или наблюдали бы за происходящим при других условиях.
7) Данные, меняющиеся со временем - одни данные могут перестать регистрироваться за пределами периода наблюдений, другие - потому что изменилась природа. В итоге, время может скрывать данные разными путями.
😍 Неверно определяемые данные - определение данных может меняться со временем, чтобы лучше соответствовать своему предмету и назначению. Это может вызывать проблемы в интерпретации временных рядов, так как сам характер данных меняется.
9) Обобщение данных - здесь идет речь о том, когда мы вместо данных сохраняем какие-то их параметры: среднее, медиану, средне-квадратичное отклонение и так далее. Так мы теряем часть информации из данных
10) Ошибки измерения и неопределенность - этот тип данных про погрешность измерений, а также при конвертации данных из разных форматов.
11) Искажение обратной связи и уловки - этот тип данных возникает, когда собранные значения начинают влиять на исходный процесс. Есть примеры с раздуванием оценок и пузырями на рынке акций. Плюс можно вспомнить квантовую физику, где само измерение влияет на состояние системы:)
12) Информационная ассиметрия - этот тип данных возникает, когда у разных участников взаимодействия существуют свои наборы данных. Акерлоф, Спенс и Стиглиц в 2001 году получили Нобелевскую премию по экономике за работы по исследованию рынков с ассиметрией информации (они исследовали рынок подержанных автомобилей "лимонов")
13) Намеренно затемненные данные - здесь речь про предумышленный отбор определенных фактов для скрытия информации и манипуляции фактами для обмана или мошенничества
14) Фальшивые и синтетические данные - такие данные создаются искусственно, например, для мошенничества. Интересно, что сделать качественные синтетические данные сложно, но реально при помощи симуляции процессов.
15) Экстраполяция за пределы ваших данных - данные обычно используются для построения моделей. Эти модели нормально работают в границах тех данных, что мы видели. А вот выходя за границы мы получаем эту проблему с экстраполяцией. Тут опять приводится пример с шаттлом Challenger.
В общем, знать про эти типы темных данных полезно, а еще полезнее почитать книгу и услышать интересные истории факапов с данными из первых рук.
#Management #Data #Math #Statistics
Продолжая рассказ про темные данные, которые я начал в прошлом посте, в этом я хотел рассказать про классы темных данных, которые выделяет Дэвид Хэнд, член Британской академии, президент Королевского статистического общества.
1) Данные, о которых мы знаем, что они отсутствуют - это "известные неизвестные", которые возникают, когда мы знаем, что в данных есть проблемы, скрывающие значения, которые могли быть записаны
2) Данные, о которых мы не знаем, что они отсутствуют - это "неизвестные неизвестные". Тут мы даже не знаем, что нам не хватает каких-то данных. В книге рассказывает про катастрофу Challenger, где принимающим решения не хватало информации о поведении уплотнительных колец при холодной погоде, но они об этом и не знали
3) Выборочные факты - к таким проблемам приводит плохой набор критериев для включения в выборку или ошибочное применение разумных критериев. Также сюда можно отнести p-hacking, который состоит в проведении большого количества статистических тестов, но рассказе только о тех, что были успешны
4) Самоотбор - этот вариант является подтипом предыдущего типа темных данных, а именно выборочных фактов. Он проявляется, когда людям дают самим решать что включать в результаты опроса, а что нет. У отсутствующих данных могут быть системные отличия от тех, что все-таки были внесены.
5) Неизвестный определяющий фактор - тут старая как мир история про то, что корреляция не является причинно-следственной связью. Тут же автор вспоминает про парадокс Симпсона
6) Данные, которые могли бы существовать (контрфактуальные данные) - это данные, которые мы смогли бы увидеть, если бы предприняли какие-то другие действия или наблюдали бы за происходящим при других условиях.
7) Данные, меняющиеся со временем - одни данные могут перестать регистрироваться за пределами периода наблюдений, другие - потому что изменилась природа. В итоге, время может скрывать данные разными путями.
😍 Неверно определяемые данные - определение данных может меняться со временем, чтобы лучше соответствовать своему предмету и назначению. Это может вызывать проблемы в интерпретации временных рядов, так как сам характер данных меняется.
9) Обобщение данных - здесь идет речь о том, когда мы вместо данных сохраняем какие-то их параметры: среднее, медиану, средне-квадратичное отклонение и так далее. Так мы теряем часть информации из данных
10) Ошибки измерения и неопределенность - этот тип данных про погрешность измерений, а также при конвертации данных из разных форматов.
11) Искажение обратной связи и уловки - этот тип данных возникает, когда собранные значения начинают влиять на исходный процесс. Есть примеры с раздуванием оценок и пузырями на рынке акций. Плюс можно вспомнить квантовую физику, где само измерение влияет на состояние системы:)
12) Информационная ассиметрия - этот тип данных возникает, когда у разных участников взаимодействия существуют свои наборы данных. Акерлоф, Спенс и Стиглиц в 2001 году получили Нобелевскую премию по экономике за работы по исследованию рынков с ассиметрией информации (они исследовали рынок подержанных автомобилей "лимонов")
13) Намеренно затемненные данные - здесь речь про предумышленный отбор определенных фактов для скрытия информации и манипуляции фактами для обмана или мошенничества
14) Фальшивые и синтетические данные - такие данные создаются искусственно, например, для мошенничества. Интересно, что сделать качественные синтетические данные сложно, но реально при помощи симуляции процессов.
15) Экстраполяция за пределы ваших данных - данные обычно используются для построения моделей. Эти модели нормально работают в границах тех данных, что мы видели. А вот выходя за границы мы получаем эту проблему с экстраполяцией. Тут опять приводится пример с шаттлом Challenger.
В общем, знать про эти типы темных данных полезно, а еще полезнее почитать книгу и услышать интересные истории факапов с данными из первых рук.
#Management #Data #Math #Statistics
Telegram
Книжный куб
Темные данные (Dark Data. Why What We Don’t Know Is Even More Important Than What We Do) (Рубрика #Management) (Part I)
Недавно я прочитал эту книгу Дэвида Хэнда, члена Британской академии, президента Королевского статистического общества. Меня заинтересовал…
Недавно я прочитал эту книгу Дэвида Хэнда, члена Британской академии, президента Королевского статистического общества. Меня заинтересовал…
👍7🔥5❤2😍1