Лінейная (аг | рэг) рэсія
1.35K subscribers
84 photos
3 files
139 links
Пра даныя і як іх прыстасаваць да штодзённасці

Мяне можна знайсці

У твітары: https://twitter.com/aliaksandr_k
Англ: https://twitter.com/unfriendlydata
На лінкачы: https://www.linkedin.com/in/aliaksandr-kazlou-b5a86411b/
Ці ў тг: @shurackapalieski
Download Telegram
Доказная медыцына ці як навучыцца правяраць выпісаныя лекі, ч. 1

#science #health #everyday

У руках медыкаў я адчуваю сябе даволі бездапаможна: асіметрыя паміж жаданнем быць здаровым і здольнасцю кантраляваць сітуацыю стварае добрую глебу для трывожнасці. Мне проста гэта не падабаецца. Як не падабаецца лятаць (я ведаю, што яно працуе, але не ведаю як) ці чытаць “палітычных экспертаў” (я ведаю, што гэта істотна і ведаю, што яно не працуе).

Таксама я ведаю, што такія асіметрыі непазбежныя. Істотнасць сферы патрабуе глыбокай спецыялізацыі, ствараючы разрыў у ведах паміж спецыялістам і мной, вымушае мяне рабіць некамфортны выбар - чапляцца за рэшткі кантролю ці даверыць сябе інстытуту медыцыны.

Але медыцына бывае розная. Як і любы інстытут, яна можа мець лакальную спецыфіку і абсалютна дакладна мае чалавечую: у сацыя-эканамічна-навуковых цэнтрах лечаць лепш, чым на перэферыях, а людзьмі пануе сквапнасць.

У 2005 годзе John P. A. Ioannidis апублікаваў артыкул пад назвай Why Most Published Research Findings Are False. Аргумент аўтара заключны ў тым, што фінансавыя, кар’ерныя і іншыя інтарэсы не павінны перасякацца з акадэмічнымі. Але яны перасякаюцца і ў вялікай ступені. Часта фінансаванне і кар’ерны рост навукоўцаў залежыць ад колькасці публікацый. Таксама часта навуковыя часопісы аддаюць перавагу даследванням, у якіх сцвярджаецца даказанасць модных, нечаканых, захапляючых ці хайповых гіпотэз. Гэта вымушае навукоўцаў імкнуцца да eye-catching findings, што з’яўляецца эквівалентам навуковага выкавырвання разынак з булкі. Жаданне фармакалагічных кампаній, каб іх лекі выглядалі лепш, увогуле не патрабуе асаблівага абмеркавання.

Наколькі моцна гэтыя развагі стасуюцца з рэальнасцю можна зразумець на наступным прыкладзе. 41% з найлепшых (прэстыжныя часопісы, шырока цытаваныя) медыцынскіх даследванняў за апошнія 13 год былі “з дастатковасцю” абвергнутыя, калі каманда аўтара паспрабавала іх рэплікаваць. Сярод даследванняў: “вітамін Е зніжае рызыку сардэчных захворванняў”, “штодзённы прыём аспірыну зніжае рызыку сардэчнага прыступу і інстульту” і г.д.

Дадзены феномен цяпер вядомы пад назвай p-hacking ці, больш агульна, replication crisis і пра гэта не размаўляе толькі лянівы. Вячэрняе шоў Last Week Tonight нават прысвяціла гэтаму спецыяльны эпізод. Калі нешта з’яўляецца настолькі папулярным топікам у навуковых колах, што трапляе ў вячэрнія шоў - самы час звярнуць на гэта ўвагу.

Іронія сітуацыі заключана ў тым, што людзі, блізкія да навукі, не проста даўно пра гэта ведаюць, а здольныя даволі лёгка адгадваць, рэплікуецца тое ці іншае даследванне прачытаўшы толькі агульнае апісанне. У мяне, напрыклад, атрымалася набіць 24 з 30 у гэтым квізе. Ён тычыцца псіхалогіі, але няма падставаў лічыць, што ў іншых дысцыплінах сітуацыя не будзе аналагічнай.

Цяпер пра беларускую спецыфіку. Мне падаецца рацыянальным праводзіць мост паміж replication crisis і выпісанымі лекамі наступным чынам. Па-першае, калі ёсць у свеце, тады ёсць і ў Беларусі. Па-другое, няма падставы лічыць, што лічбы для Беларусі будуць лепш. Па-трэцяе, паміж тэрапеўтамі ў паліклініцы і рынкам навуковых публікацый таксама існуе пэўны разрыў ведаў (маё падазрэнне ў тым, што заўважны). Па-чацвёртае, я паняцця не маю, як у Беларусі працуе фармакалагічны рынак.

Усё гэта вымусіла мяне выпрацаваць шэраг правіл, з дапамогай якіх я арыентуюся ў незнаёмай і істотнай сферы беларускай медыцыны: якасць існуючай доказнай базы, моцнасць патэнцыйнага дызайну, праўдападобнасць эфекту, час і рэсурсы.
Доказная медыцына ці як навучыцца правяраць выпісаныя лекі, ч. 2

Першая частка - https://t.me/linearaggression/3

#science #health #everyday

Якасць існуючай доказнай базы: я карыстаюся Сochrane library і PubMed, якія служаць карыснай справе сістэматызацыі доказнай медыцыны. Пры праверцы прэпарата ці актыўнага рэчыва трэба звяртаць увагу на колькасць публікацый, іх незалежнасць (розныя людзі/лабараторыі/арганізацыі/краіны), моцнасць дызайну (пра гэта ніжэй) і ацэнку эфектыўнасці (калі ёсць на Cochrane). Шмат публікацый, розныя крыніцы, тысячы чалавек і RCT (randomized control trial) - добры аб’ём доказнай базы. Cochrane не ведае, што гэта, PubMed ведае 1.5 стромныя публікацыі на машыннай ангельскай, гугл з неабходнасцю прыводзіць на рускамоўныя сайты - дрэнны аб’ём доказнай базы.

Моцнасць дызайну даследвання: Пытанне, якое трэба сабе задаваць, гэта можна ці не правесці эксперымент. Калі можна, тады арыентуемся на RCT з вялікай колькасцю пацыентаў. Моцнасць эксперымента ў тым, што ўздеянне напрамую кантралюецца: мы самі дзелім людзей на кантрольную і эксперыментальную групы. Усё максімальна экспліцытна і транспарэнтна. Калі правесці эксперымент нельга, тады надзейней усяго ігнараваць вынікі такіх даследванняў, бо спроба размежаваць прычынна-следчы эфект і карэляцыю без кантролю за ўздзеяннем амаль не мае шанцаў на поспех. Для прыкладу, практычна немагчыма арганізаваць RCT для вывучэння доўгатэрміновых эфектаў дыеты, бо каштоўнасці гуманізм, а таксама крымінальнае заканадаўства забараняе дзяліць людзей на дзве вялікія групы, гвалтоўна карміць адных “фіялетавай садавінай”, у другой прынцыпова яе забараняць. Менавіта таму даследванні ў сферах кшталту дыеталогіі - поўнае, бязбожнае пекла, ступені бессаромнасці ў якой пазайздросцяць некаторыя фармакалагічныя кампаніі. І менавіта таму некаторыя даследчыкі выступаюць за поўнае ігнараванне неэксперыментальных даследванняў.

Праўдападобнасць эфекту: гэта пра тое, наколькі абсурдным з’яўляецца заяўлены ў даследванні эфект, спроба фільтрацыі “выкавырвання разынак з булкі” і неабмежаванага хайпу, пра якія я пісаў вышэй. Якая верагоднасць , што 10 хвілін у суткі праведзеныя з хатняй жывёлай змяншаюць верагоднасць інсульту на 30%? Вельмі нізкая, бо пры такой магнітудзе эфекту (30% - гэта вельмі шмат) ў такой простай і відавочнай працэдуры, пра гэты эфект вы б чыталі не ў навуковым часопісе, а даведаліся б ад вашай бабулі, калі б вам стукнула 27. Інакш кажучы - занадта добра, каб быць праўдай. З іншага богу, арганізаваць даследванне, каб такі эфект “знайсці” даволі проста. Калі загугліць “Bem 2011 Feeling the future”, можна пабачыць, як людзі даказваюць з дапамогай статыстыкі і эксперыментаў тэлепатычныя здольнасці. З коцікамі, відавочна, яшчэ прасцей.

Час і рэсурсы: адна справа, гэта кансультацыя бацькоў апасля чарговага наведвання профільнага спецыялісту на прадмет 10 выпісаных прэпаратаў, але зусім іншая - сур’ёзная, рэзкая хвароба, калі час на штудаванне метадалагічнай літаратуры можа проста адсутнічаць. Тут, як і агулам, кожны вырашае сам для сябе.

—————————————————————————-

Case-study на прыкладзе прэпарату thiotriazolinum:

1) Cochrane пра такую рэч не ведае, на PubMed 2 рускамоўных артыкулы з адным аўтарам і даследванне літоўцаў на машых.
2) Пра моцнасць дызайна ў публікацыях казаць складана, бо публікацый, па-сутнасці, няма.
3) Праўдападобнасць эфекту - з апісання прэпарата выцякае, што ён дапамагае у комплексным лячэнні ішэмічнай хваробы сэрца: інфаркту міякарда, стэнакардыі; сардэчных арытмій; хранічнага гепатыту фіброзу печані, цырозу печані. Тобок, у даволі шырокім, не заўсёды звязаным і вельмі распаўсюджаным спісе праблем.
4) З улікам таго, што прэпарат звычайна выпісваюць як “падтрымліваючы”, разабрацца з ім час ёсць

У выніку, мы маем прэпарат, які ў моц шырыні сферы выкарыстання павінен мець папулярнасць і камерцыйны поспех. Праблема ў тым, што аналагічныя поспехі з пункту гледжання доказнай медыцыны для дадзенага прэпарата адсутнічаюць.
Пра pay gap, справядлівую аплату працы, мацярынства і капіталізм, ч. 1

#statistics #politics

Апошнім часам можна назіраць шмат гендэрных спрэчак: Алабама і аборты, жанчыны ў IT, нюдсы і гвалт. Але асаблівым чынам мяне раздражняюць дэбаты пра pay gap. Раздражняюць мяне яны таму, што сукупнымі намаганнямі чалавецтва на гэтую тэму зроблена заўважная колькасць якасных, інфарматыўных даследванняў. Але людзі хочуць пакладацца на эмоцыі. Альбо эксплуатаваць эмоцыі іншых людзей. Бо няроўная эмацыйная ўключанасць бакоў з’яўляецца пладавітай глебай для інтэрнэт-срачаў, стымулюе веру ў неэмацыйную аб’ектыўнасць сваіх аргументаў. І калі чалавек ўпэўнены, што ягонае меркаванне вострае, як нож, крамяное, як марозная раніца, што ягоное меркаванне ўсім неабходна пачуць, мы можам назіраць інтэрнэт спрэчкі неабсяжнай даўжыні. Спрэчкі, дзе пад ціскам інтэрнэт-экспертызы, мемасаў і школьнага цынізму губляюцца нясмелыя спробы сказаць: звярніце ўвагу на фактычныя дадзеныя, гэта важна. Таму будзем звяртаць увагу на фактычныя дадзеныя. Гэта важна.

Размаўляць будзем пра unadjusted pay gap (звязаны тэрмін - unconditional mean), adjusted pay gap (conditional mean), мацярынства, выбар прафесій і перакосы позняга капіталізму.

Пачнем з (un)adjusted pay gap. Пад unadjusted pay gap маецца на ўвазе любое прамое параўнанне сярэдняга заробку паміж рознымі групамі. Калі мы чытаем, што сярэдні заробак мужчын у Беларусі на 30% вышэй сярэдняга заробку жанчын – гэта пра unadjusted pay gap. Пад adjusted pay gap разумецца карэкцыя на чыннікі, якія таксама маюць уплыў на заробак. Напрыклад: адукацыя, прафесія, стаж. Калі мы чытаем, што мужчыны і жанчыны адной прафесіі, аднога стажу і адукацыі атрымліваць аднолькавы заробак, мы чытаем пра adjusted pay gap.

Як правіла, у тых краінах, па якіх ёсць надзейная і шырокая статыстыка (што карэлюе з узроўнем развіцця), adjusted pay gap нашмат меншы, чым unadjusted pay gap. У некаторых выпадках ён калянулявы. Прычым, найбольш істотнымі чыннікамі, якія тлумачаць розніцу ў заробках з’яўляюцца выбар прафесіі і мацярынства (гэты факт пакуль запомнім). Тобок, неабраныя шлюбам свежыя выпускнікі PhD праграм па біялогіі ў ЗША атрымліваць аднолькавы заробак, будзь яны хлопцам ці дзяўчынай.

Праблема ў тым, як мы інтэрпрэтуем розніцу паміж двума вымярэннямі pay gap’а. Адзін лагер інтэрпрэтуе калянулявы adjusted pay gap як доказ таго, што грамадства дастаткова эгалітарнае і справядлівае. Іншая інтэрпрэтуюць гэта як нейкі survival bias – дзяўчынкі, якім ў дзяцінстве адмаўлялі ў канструктурах на карысць лялек, каго вучылі, як правільна ўсміхацца мужчынам, мелі меншую верагоднасць нават пачаць разважаць пра тэхнічныя спецыяльнасці з добрым заробкам. Тыя, каму пашчасціла гэтага пазбегнуць – большую. Дзіцячых гісторый пра лялькі і какетлівыя ўсміханні мужчынам я чуў ад хлопцаў непрапарцыйна менш. У гэтым і падвох.

Яшчэ большы падвох у выбары прафесіі і гадаванні дзяцей. Даследванні рэгулярна дэманструюць , што найбольш моцнае пенальці за мацярынства (спасылка і спасылка) ў тых сферах, дзе цаніцца здольнасць працаваць гнуткія, ірэгулярных гадзіны. Шмат з высокааплочваемых прац менавіта такія. Хочацца быць маладым і перспектыўным юрыстам, які рады і гатовы зніжаць параною кліента ў 2 гадзіны ночы? Тімлідам, які прывязаны да графіку на іншым баку планеты? Ну ці проста ахвота перапрацоўваць і сыходзіць з офісу, каб заўважыла кіраўніцтва? - Здай дзіцёнка ў дзіцячы дом. Ці бацькам. Праблема ў тым, што самаадданых бацькоў на ўсіх не хопіць. Дзіцячых дамоў, дарэчы, таксама.

Прамежкавыя высновы: у развітых краінах adjusted pay gap вельмі нізкі, але складаней яго атрымаць высокім чым нізкім, тады як unadjusted pay gap шмат у чым тлумачыцца пенальці за мацярынства.
Пра pay gap, справядлівую аплату працы, мацярынства і капіталізм, ч. 1

Першая частка - https://t.me/linearaggression/5

#statistics #politics

Зараз самы час паразмаўляць пра тое, наколькі такі стан рэчаў лічацца прымальным. Так, нават у развітых краінах назіраецца трэнд на жаданне жанчын сядзець дома з дзецьмі. Больш за тое, кожная трэцяя амерыканская жанчына ўскладае віну за немагчымасць рэалізацыі такога сцэнара на сваіх партнёраў. Улічваючы менш развітыя ў плане гендэрнай роўнасці краіны, сярэдняя лічба працуючых жанчын на планеце складае 39% ад агульнай колькасці працуючых.

Тобок, жанчыны абіраюць ці вымушаныя не працаваць. Але іх можна зразумець - мацярынства выціскае іх у менш аплачваемыя сектары эканомікі. Больш за тое, існуе пэўная карэляцыя паміж нізкай аплатай працы і тым, што Cal Newport назваў “shallow work” - павярхоўныя, маркотныя абавязкі па перакладанні папер і адказаў на емэйлы. Абавязкі, якія складаюць падмурак феномену bullshit jobs, здольных пераўтварыць маладых і амбіцыёзных у каментатараў тутбая і анлайнера. Тобок, жанчыны не толькі атрымліваюць менш грошаў, але таксама менш задавальнення ад працы, менш радасці ад пачуцця самарэалізацыі. І абіраюць замест гэтага дзяцей і вольны час. Не можа быць.

Уявім для параўнання, што на мужчын больш не ціснуць нормы патрыярхальнага грамадства. Больш за тое – у іх ёсць рэалістычная опцыя дэлегацыі сваіх фінансавых патрэбаў: армія састарэлых, забяспечаных геяў, ці наскрайняк роба-камунізм. Мне падаецца, апраўдана было б чакаць росту дармаецкіх настрояў таксама сярод мужчын. Канешне, апроч тых, хто рашуча накіраваны культываваць у офісах свой гемарой. No kink shaming intended.

Таксама тое пенальці, якое нясуць жанчыны за гадаванне дзяцей можа быць адной з падстаў зніжэння нараджальнасці. Пры наяўнасці такога пенальці, а таксама высокай ступені разводаў, жаданне жанчын як мага болей кар’ерна рэалізавацца перад завядзенням дзяцей і хутчэй вярнуцца на рынак працы - гэта наўпрост хэджаване рызыкаў і спроба палепшыць даўгатэрміновую фінансавую стабільнасць.

Актыўныя спробы змагацца са стэрыятыпамі пра “прынцэс”, “попросіте девушку нарісовать велосіпед” і “тыжебудущаямать” - гэта ўжо знаёмая дадзенасць. Куды менш знаёмы, але, як мы толькі што высветлілі, вельмі істотны вугал дэбатаў - гэта пра гнуткія гадзіны і сучасныя карпаратыўныя нормы кшталту “перапрацоўвае - добры супрацоўнік”. Трансфармацыя гэтых нормаў і пераход на больш гнуткія графікі працы здольная істотным чынам знізіць pay gap і павысіць агульную эканамічную прадуктыўнасць. Таму што, калі нам блізкія ідэі Адама Сміта, мы хочам бачыць больш роўныя ўмовы для рэалізацыі сваіх талентаў. І той факт, што нехта таленавіты будзе наказаны за жаданне мець дзяцей ніякім чынам не прыносіць грамадству карысць.

Часам можна пачуць аргумент пра тое, што калі жанчына сапраўды таленавітая, яна нягледзячы на сэксізм і патрыярхальныя інстытуты, апасля дэкрэту і двух дзяцей будзе спаборнічаць з мужчынамі на роўных. Гэта аргумент з разраду забегаў на 100 метраў у басейне з гаўном. Тэарэтычна, калі ты сапраўды хочаш, можна і ў ім паказваць уражваючыя секунды. Проста бегчы не па калена ў гаўне куды прасцей і прыемней. Толькі і ўсяго.
Пра дрэнныя даследванні, няўважлівых даследчыкаў, клікбэйт і адзінокіх жанчын

#statistics #everyday

За апошнія некалькі дзён можна было натыкнуцца на інфармацыю пра даследванне аб тым, што “незамужныя жанчыны - самая шчаслівая група насельніцтва”. Навіну падхапілі беларускія інфармацыйных парталы: тутбай, куку, сіцідог. Таксама, навіна выклікала шмат агрэсіўных срачаў у твітэры і фб (лінкаў не будзе).

Паразмаўляем пра дрэнныя даследванні, няўважлівых даследчыкаў, клікбэйт, а таксама пра тое, чаму схільнасць шукаць падтрымкі сваіх нарматыўных пазіцый ў эмпірычных, навуковых даследваннях - не самая лепшая ідэя.

Пачнем з апошняга. У грамадстве існуе звычка апеляваць да аўтарытэта навукі. Само па сабе гэта добра - навуковыя даследванні з’яўляюцца добрым метадам вырашэння эмпірычных пытанняў. Але навука не адказвае на нарматыўныя пытанні і нам усім трэба адвыкаць яе такім чынам выкарыстоўваць. Вам абсалютна не трэба даследванне пра тое, што адзінокія больш шчаслівыя, калі вы адзінокія і шчаслівыя. І абсалютна дакладна не трэба бегчы развадзіцца, калі вы такое даследванне пабачылі. Не трэба чакаць даследванняў пра тое, што геі маюць правы, жанчына - чалавек, а келіх віна ў дзень зніжае рызыку сардэчных захворванняў. Проста накаціце віна.

Цяпер пра канкрэтнае даследванне. Агулам, плыня happiness research - рэч даволі маргінальная. Шмат хто не ўспрымае яе ўсур’ёз. Але гэтае даследванне выдзяляецца нават на фоне. Ягоны асноўны тэзіс, “незамужныя жанчыны больш шчаслівыя”, базуецца на тым факце, што замужныя больш шчаслівыя толькі тады, калі супруг побач, а калі адсутнічае (“spouse is absent”) - рэзка робяцца больш няшчаснымі.

Камічнасць сітуацыі ў тым, што аўтары карысталіся не сваімі дадзенымі, а дадзенымі American Time Use Survey. І інтэрпрэтавалі графу “spouse is absent” менавіта так - як тое, што супруг зараз знаходзіцца не побач (“spouse wasn't in the room when the question was asked"). Правільная інтэрпрэтацыя гэтай графы - супруг жыве асобна (“spouse isn't in the household”). Тобок, аўтары насамрэч параўналі незамужных жанчын з замужнымі, але ад якіх сыйшоў муж. Наўмысна не прыдумаеш.

Гэта ўсё даволі відавочна, калі проста паглядзець на дадзеныя (яны публічна даступныя): усяго ў апытанні 91690 чалавек са статусам “Married”, прычым толькі 2737 - са статусам “partner in the houshold: none” (каля 3%), тады як для людзей са статусам “Divorced” гэтая лічба складае 90%. Для тых, хто ведае R (карысная рэч, раю ўсім), код для атрымання лічбаў ніжэй:

library(atus)
library(tidyverse)
atus::atuscps %>%
inner_join(., atus::atusresp) %>%
group_by(marital, partner_hh) %>%
summarize(cnt = n())


Таксама выглядае, што шмат хто спрабуе зрабіць з гэтага і падобных даследванняў кіраўніцтва да дзення. Гэта дрэнная ідэя. Як з пункту гледжання навуковай метадалогіі, так і з пункту гледжання штодзённай практыкі - сямейны статус не раздаецца выпадкова ў лабараторыі сямейных статусаў. Сямейны статус абіраецца, кожным чалавекам, сыходзячы з непарыўнай прасціны асабістай гісторыі. Узровень шчасця, натуральна, таксама звязаны з асабістасцю гісторыі, калі толькі вам не падаецца, што вы можаце ўзгадаць, як пахне карбамазепін і прэпараты літыя.

Мы ведаем, што карэляцыя не роўная прычынна-следчай сувязі. Зараз самы час ужыць веды на практыцы. Будзем карыстацца карэляцыямі для прыняцця рашэнняў аб істотных інтэрвенцыях. Чаму даследчыкам шчасця можна, а нам нельга. Для пачатку, трэба адмовіцца ад абязбольваючых – тыя, хто іх прымае, як правіла больш няшчасныя ў моманце, чым тыя, хто не. Цяжкія і доўгія медыцынскія працэдуры я б таксама адмяніў – ні для каго не сакрэт, што людзі, якія на іх ходзяць, жывуць крыху карацей і крыху горш. Бесчалавечая практыка рассякання па вуліцах пажарных машын павінна сыйсці – нават дзіцёнку вядома, што гратэскны і насмешлівы гук пажарнай сірэны цягне за сабой сум, горач і боль. Вершынёй нашага рэфарматарскага трыўмфу стане прымусовае пратэзаванне шырокіх колаў насельніцтва – як паказвае жыццё, усе, хто чакалі пратэзаў, былі ім вельмі радыя. Thank you for the Nobel Prize.
Пра правалы, статыстыку, машнные навучанне, індустрыю і акадэмію. Частка 1

Выпадковы выдаліў, перазаліваю

#statistics #machinelearning

Правалы - гэта неад'емная, мабыць ключавая частка развіцця навукі, ды і ўвогуле развіцця. Вакол гэтай ідэі існуе шмат добрых канцэптаў, напрыклад - failure CV. Але я хачу распавесці не проста пра няўдачы, а пра канкрэтны трэш ва ўжыванні статыстыкі і пабудове статыстычных мадэляў: у акадэміі, а таксама ў індустрыі.

З акадэміяй у гэтым плане вельмі проста, бо ўсё задакументавана. З індустрыяй нашмат больш складана, бо бізнэс-спецыфіка, NDA, а таксама жаданне абмежаваць рэпутацыйныя выдаткі. Таму пачнем з індустрыі. Частка гэтых гісторый - хутчэй за ўсё байкі. Частка - абсалютна рэальныя і я нават ведаю ўдзельнікаў. Істотна, аднак, што кожная з іх магла здарыцца з аднолькавай верагоднасцю і магчыма здаралася неаднойчы.

З улікам таго, што пра “AI failures” пішуць шмат, а ад гісторый кшталту “напужаны Цукенберг закрыў АІ праэкт, таму што нейронкі стварылі сваю сакрэтную мову” у мяне пачынае балець галава, распавядаць я буду пра банальныя, чалавечыя, прыземленыя індустрыйныя правалы.

Большасць фэйлаў ў машынным навучанні добра апісваецца анекдотам пра “хачу сабе танк на ўсю спіну – гатова – а чаму так хутка? – а хулі там чатыры літары”. Таму першая байка – пра савецкія/расійскія і амерыканскія танкі. Алгарытм павінен быў навучыцца іх адрозніваць. Працаваў добра, але ўпарта класіфікаваў новыя расійскія мадэлі як амерыканскія. Разбор паказаў, што фота савецкіх танкаў былі горшай якасці, што алгарытм паспяхова і вывучыў. Альтэрнатыўная версія гэтай байкі: алгарытм вучылі адрозніваць танкі, замаскіраваныя ў лесе, ад проста фота лясных масіваў, але два тыпы фота былі зробленыя ў розныя дні, таму алгарытм вырашыў, што прасцей замест танкаў адрозніваць воблачнасць.

Наступная байка - пра алгарытм, які павінен адрозніваць хаскі ад ваўкоў. Спрабуючы ўявіць сабе практычны сэнс такога алгарытму, я прыйшоў да высновы, што мець магчымасць адрозніць хаскі ад воўка смартфонам, у лесе, ноччу, калі нешта рыкае ў метры ад цябе ў цемры – гэта сапраўды карысна і шматабяцальна. Гісторыя ў тым, што алгарытм паказаў сябе вельмі добра, апроч рэдкіх кейсаў, дзе расава чыстыя хаскі ўпарта класіфікаваліся як ваўкі. На ўсіх гэтых анамальных фота хаскі былі на снезе. І ўсе ваўкі ў датасэце былі на снезе. Дэталёвы разбор паказаў, што алгартым наўпрост навучыўся адрозніваць белы фон на фота.

Зараз шырокую папулярнасць набываюць разнастайныя мабільныя дадаткі на мяжы “медыцыны і AI”. Адна апка абяцала адрозніваць здаровую і хворую скуру па фота з камеры. Але пры першых real life выпрабаваннях алгарытм праваліўся. Як высветлілася, якасць класіфікатара ў істотнай прапорцыі базавалася на здольнасці вызначыць на фота лінейку. Каб зразумець чаму, можна паглядзець на фота па запыце "identifying red spots".

Яшчэ адна гісторыя – пра амбіцыёзны стартап аўтаматычнай дапамогі ў прыняцці медыцынскіх рашэнняў. У людзей ёсць магчымасць насмяяцца з абсурдных карэляцый. У няшчасных робатаў – не. Таму, апасля серыі плоскіх калькуляцый, алгарытм параіў медыкам перастаць адпраўляць людзей на хіміятэрапію, бо пацыенты апасля яе часцяком паміралі. Усё па першым законе робататэхнікі Азімава.

Мая ўлюбленая гісторыя - пра каманду пачынаючых дата сайнцістаў, якія распрацавалі алгарытм прадказання адтоку кліентаў у наступным месяцы. Алгарытм меў “99% дакладнасці”, а прэзентацыя ўтрымлівала невыносную колькасць словаў Artificial і Intelligence. Старыя каманды CRM і аналітыкаў моцна напружыліся і іх можна зразумець – робаты забіраюць працу, “скураныя мяшкі не патрэбныя”, вось гэта ўсё. Як апынулася, найбольш моцнай фічой для прадказання ў новым алгарытме была “колькасць дзён без аплаты”. Сам факт адтоку кліента па бізнэс-правілах, якія пачынаючых будавацеляў робатаў цікавілі мала, вызначаўся як “90 дзён без аплаты”. Тобок, 90 дзён без аплаты ідэальна прадказвала 90 дзён без аплаты. Як і менш 59 дзён без аплаты ідэальна прадказвала адсутнасць адтоку, бо алгарытм прадказваў на месяц наперад. Ваісціну, неабмежаваныя магчымасці.
Пра правалы, статыстыку, машнные навучанне, індустрыю і акадэмію. Частка 2

Першая частка
- https://t.me/linearaggression/9

#statistics #science

Абяцаў працягнуць першую частку, але не пра індустрыю, а акадэмію. Пачнем з даследвання пра power poses. Сутнасць ідэі ў тым, што прыняццё т.з. power poses - рукі ў бокі, шырока пастаўленыя ногі, картаны на дзевяноста градусаў - змяняе гарманальны фон і робіць людзей больш упэўненымі.

Даследванне настолькі папулярнае, што пад адпаведным TED talk на ютубе 16 міліёнаў праглядаў, а брытанскія Торы адаптавалі гэтую стратэгію для сваіх публічных выступаў. Апошняе, дарэчы, выглядае абсалютна прэкрасна. Таксама, у галоўнай аўтаркі, Amy Cuddy, атрымалася напісаць на падставе даследвання папулярную кнігу, амазонаўскі рэйтынг якой на дадзены момант складае 4.4 з 5, а кніга мае 527 водгукаў.

Праблема ў тым, што эксперымент праводзіўся на 42 чалавеках. Не на 4200 і нават не на 420 - на 42 чалавеках. Калі гэта выглядае абсурдным, я спяшаюся вас папярэдзіць - значная частка даследванняў па псіхалогіі мае нават меншыя выбаркі.

Не дзіва, што калі іншая каманда паспрабавала паўтарыць даследванне, але на большай выбарцы, у іх нічога не атрымалася. Падрабязны статыстычна агляд арыгінальнага даследвання і рэплікацыі можна прачытаць тут.

Нашмат далей пайшоў дактарант паліталогіі з UCLA, Michael LaCour. Ён апублікаваў даследванне, як кароткая размова з геямі перманента змяншае гамафобію. Паспяхова атрымаў сваё PhD, здолеў апублікаваць даследванне ў Science і нават атрымаў пазіцыю ў Прынстане.

Іншым дактарантам было зайздрасна і яны вырашылі паўтарыць поспех. Шэраг далейшых разбораў паказаў, што даследванне не проста памылковае - яго не было. Тобок, LaCour прыдумаў грант, прыдумаў даследванне, прыдумаў людзей, якія яго праводзілі, стварыў фэйкавыя дадзеныя, гадамі пра гэта хлусіў і здолеў апублікавацца ў Science - топавым навуковым часопісе.

Як потым апынулася, большую частку свайго CV ён таксама выдумаў - гранты, даследванні, выдуманыя ўзнагароды і перамогі ў конкурсах. Наколькі я памятаю, народ дакапаўся да фальсіфікацый нават у ягонай бакалаўрскай. Ці дайшоў крыжовы паход да фактаў фальсіфікацыі аплікацыі ў дзіцячы садок мне не вядома.

Апасля гэтага LaСour знік, але ўсплыў праз год як “data scientist / visualization specialist" са сваім сайтам і брэндам. Увы, мае букмаркі на ягоныя працы даўно бітыя, але я памятаю, што візуалізацыі там былі проста топавыя. З іншага боку, правярнуць такую аферу неверагодна складана, а значыць чалавек далёка не бесталентны. Не здзіўлюся, калі ён скончыць якім-небудзь лабістам у Вашынгтоне - моцны талент і нямоцныя маральныя абмежаванні з’яўляюцца каштоўным рэсурам.

Але прыкладам сапраўднага правалу я лічу вядомы сярод эканамістаў log(NAICS) артыкул. Аўтар будаваў фінансавую мадэль і ўключыў лагарыфм ад NAICS у якасці адной са сваім пераменных. Справа ў тым, што NAICS, альбо North American Industry Classification System, з’ўляецца намінальным індэксам, у якога няма ніякай кардынальнасці і адносінаў парадку. Тобок, індэкс 111211 (вырошчванне бульбы) не з’яўляецца на 100095 пунктаў большым за індэкс 11116 (вырошчванне рысу). У гэтых “пунктаў” увогуле няма фізічнага сэнсу.

Больш за ўсё дастаўляе, што аўтар ўзяў ад яго лагарыфм, што з’яўляецца стандартнай працэдурай падгону размеркаванняў у лінейных мадэлях. Тобок, чалавек над ім разважаў.

Магчыма, мала хто б звярнуў на гэтую паперу ўвагу, калі б не той факт, што за яе аўтар атрымаў Edwin Elton Prize for Bes Job-Market Paper in Finance, а таксама падтрымку свайго навуковага кіраўніка, па сумяшчальніцтве - Нобелеўскага лаўрэата. Зараз аўтар - Assistant Professor у Гарвардзе. Such academia much meritocracy wow.