Лінейная (аг | рэг) рэсія
1.3K subscribers
85 photos
3 files
140 links
Пра даныя і як іх прыстасаваць да штодзённасці

Мяне можна знайсці

У твітары: https://twitter.com/aliaksandr_k
Англ: https://twitter.com/unfriendlydata
Ці ў тг: @shurackapalieski
Download Telegram
Доказная медыцына ці як навучыцца правяраць выпісаныя лекі, ч. 1

#science #health #everyday

У руках медыкаў я адчуваю сябе даволі бездапаможна: асіметрыя паміж жаданнем быць здаровым і здольнасцю кантраляваць сітуацыю стварае добрую глебу для трывожнасці. Мне проста гэта не падабаецца. Як не падабаецца лятаць (я ведаю, што яно працуе, але не ведаю як) ці чытаць “палітычных экспертаў” (я ведаю, што гэта істотна і ведаю, што яно не працуе).

Таксама я ведаю, што такія асіметрыі непазбежныя. Істотнасць сферы патрабуе глыбокай спецыялізацыі, ствараючы разрыў у ведах паміж спецыялістам і мной, вымушае мяне рабіць некамфортны выбар - чапляцца за рэшткі кантролю ці даверыць сябе інстытуту медыцыны.

Але медыцына бывае розная. Як і любы інстытут, яна можа мець лакальную спецыфіку і абсалютна дакладна мае чалавечую: у сацыя-эканамічна-навуковых цэнтрах лечаць лепш, чым на перэферыях, а людзьмі пануе сквапнасць.

У 2005 годзе John P. A. Ioannidis апублікаваў артыкул пад назвай Why Most Published Research Findings Are False. Аргумент аўтара заключны ў тым, што фінансавыя, кар’ерныя і іншыя інтарэсы не павінны перасякацца з акадэмічнымі. Але яны перасякаюцца і ў вялікай ступені. Часта фінансаванне і кар’ерны рост навукоўцаў залежыць ад колькасці публікацый. Таксама часта навуковыя часопісы аддаюць перавагу даследванням, у якіх сцвярджаецца даказанасць модных, нечаканых, захапляючых ці хайповых гіпотэз. Гэта вымушае навукоўцаў імкнуцца да eye-catching findings, што з’яўляецца эквівалентам навуковага выкавырвання разынак з булкі. Жаданне фармакалагічных кампаній, каб іх лекі выглядалі лепш, увогуле не патрабуе асаблівага абмеркавання.

Наколькі моцна гэтыя развагі стасуюцца з рэальнасцю можна зразумець на наступным прыкладзе. 41% з найлепшых (прэстыжныя часопісы, шырока цытаваныя) медыцынскіх даследванняў за апошнія 13 год былі “з дастатковасцю” абвергнутыя, калі каманда аўтара паспрабавала іх рэплікаваць. Сярод даследванняў: “вітамін Е зніжае рызыку сардэчных захворванняў”, “штодзённы прыём аспірыну зніжае рызыку сардэчнага прыступу і інстульту” і г.д.

Дадзены феномен цяпер вядомы пад назвай p-hacking ці, больш агульна, replication crisis і пра гэта не размаўляе толькі лянівы. Вячэрняе шоў Last Week Tonight нават прысвяціла гэтаму спецыяльны эпізод. Калі нешта з’яўляецца настолькі папулярным топікам у навуковых колах, што трапляе ў вячэрнія шоў - самы час звярнуць на гэта ўвагу.

Іронія сітуацыі заключана ў тым, што людзі, блізкія да навукі, не проста даўно пра гэта ведаюць, а здольныя даволі лёгка адгадваць, рэплікуецца тое ці іншае даследванне прачытаўшы толькі агульнае апісанне. У мяне, напрыклад, атрымалася набіць 24 з 30 у гэтым квізе. Ён тычыцца псіхалогіі, але няма падставаў лічыць, што ў іншых дысцыплінах сітуацыя не будзе аналагічнай.

Цяпер пра беларускую спецыфіку. Мне падаецца рацыянальным праводзіць мост паміж replication crisis і выпісанымі лекамі наступным чынам. Па-першае, калі ёсць у свеце, тады ёсць і ў Беларусі. Па-другое, няма падставы лічыць, што лічбы для Беларусі будуць лепш. Па-трэцяе, паміж тэрапеўтамі ў паліклініцы і рынкам навуковых публікацый таксама існуе пэўны разрыў ведаў (маё падазрэнне ў тым, што заўважны). Па-чацвёртае, я паняцця не маю, як у Беларусі працуе фармакалагічны рынак.

Усё гэта вымусіла мяне выпрацаваць шэраг правіл, з дапамогай якіх я арыентуюся ў незнаёмай і істотнай сферы беларускай медыцыны: якасць існуючай доказнай базы, моцнасць патэнцыйнага дызайну, праўдападобнасць эфекту, час і рэсурсы.
Доказная медыцына ці як навучыцца правяраць выпісаныя лекі, ч. 2

Першая частка - https://t.me/linearaggression/3

#science #health #everyday

Якасць існуючай доказнай базы: я карыстаюся Сochrane library і PubMed, якія служаць карыснай справе сістэматызацыі доказнай медыцыны. Пры праверцы прэпарата ці актыўнага рэчыва трэба звяртаць увагу на колькасць публікацый, іх незалежнасць (розныя людзі/лабараторыі/арганізацыі/краіны), моцнасць дызайну (пра гэта ніжэй) і ацэнку эфектыўнасці (калі ёсць на Cochrane). Шмат публікацый, розныя крыніцы, тысячы чалавек і RCT (randomized control trial) - добры аб’ём доказнай базы. Cochrane не ведае, што гэта, PubMed ведае 1.5 стромныя публікацыі на машыннай ангельскай, гугл з неабходнасцю прыводзіць на рускамоўныя сайты - дрэнны аб’ём доказнай базы.

Моцнасць дызайну даследвання: Пытанне, якое трэба сабе задаваць, гэта можна ці не правесці эксперымент. Калі можна, тады арыентуемся на RCT з вялікай колькасцю пацыентаў. Моцнасць эксперымента ў тым, што ўздеянне напрамую кантралюецца: мы самі дзелім людзей на кантрольную і эксперыментальную групы. Усё максімальна экспліцытна і транспарэнтна. Калі правесці эксперымент нельга, тады надзейней усяго ігнараваць вынікі такіх даследванняў, бо спроба размежаваць прычынна-следчы эфект і карэляцыю без кантролю за ўздзеяннем амаль не мае шанцаў на поспех. Для прыкладу, практычна немагчыма арганізаваць RCT для вывучэння доўгатэрміновых эфектаў дыеты, бо каштоўнасці гуманізм, а таксама крымінальнае заканадаўства забараняе дзяліць людзей на дзве вялікія групы, гвалтоўна карміць адных “фіялетавай садавінай”, у другой прынцыпова яе забараняць. Менавіта таму даследванні ў сферах кшталту дыеталогіі - поўнае, бязбожнае пекла, ступені бессаромнасці ў якой пазайздросцяць некаторыя фармакалагічныя кампаніі. І менавіта таму некаторыя даследчыкі выступаюць за поўнае ігнараванне неэксперыментальных даследванняў.

Праўдападобнасць эфекту: гэта пра тое, наколькі абсурдным з’яўляецца заяўлены ў даследванні эфект, спроба фільтрацыі “выкавырвання разынак з булкі” і неабмежаванага хайпу, пра якія я пісаў вышэй. Якая верагоднасць , што 10 хвілін у суткі праведзеныя з хатняй жывёлай змяншаюць верагоднасць інсульту на 30%? Вельмі нізкая, бо пры такой магнітудзе эфекту (30% - гэта вельмі шмат) ў такой простай і відавочнай працэдуры, пра гэты эфект вы б чыталі не ў навуковым часопісе, а даведаліся б ад вашай бабулі, калі б вам стукнула 27. Інакш кажучы - занадта добра, каб быць праўдай. З іншага богу, арганізаваць даследванне, каб такі эфект “знайсці” даволі проста. Калі загугліць “Bem 2011 Feeling the future”, можна пабачыць, як людзі даказваюць з дапамогай статыстыкі і эксперыментаў тэлепатычныя здольнасці. З коцікамі, відавочна, яшчэ прасцей.

Час і рэсурсы: адна справа, гэта кансультацыя бацькоў апасля чарговага наведвання профільнага спецыялісту на прадмет 10 выпісаных прэпаратаў, але зусім іншая - сур’ёзная, рэзкая хвароба, калі час на штудаванне метадалагічнай літаратуры можа проста адсутнічаць. Тут, як і агулам, кожны вырашае сам для сябе.

—————————————————————————-

Case-study на прыкладзе прэпарату thiotriazolinum:

1) Cochrane пра такую рэч не ведае, на PubMed 2 рускамоўных артыкулы з адным аўтарам і даследванне літоўцаў на машых.
2) Пра моцнасць дызайна ў публікацыях казаць складана, бо публікацый, па-сутнасці, няма.
3) Праўдападобнасць эфекту - з апісання прэпарата выцякае, што ён дапамагае у комплексным лячэнні ішэмічнай хваробы сэрца: інфаркту міякарда, стэнакардыі; сардэчных арытмій; хранічнага гепатыту фіброзу печані, цырозу печані. Тобок, у даволі шырокім, не заўсёды звязаным і вельмі распаўсюджаным спісе праблем.
4) З улікам таго, што прэпарат звычайна выпісваюць як “падтрымліваючы”, разабрацца з ім час ёсць

У выніку, мы маем прэпарат, які ў моц шырыні сферы выкарыстання павінен мець папулярнасць і камерцыйны поспех. Праблема ў тым, што аналагічныя поспехі з пункту гледжання доказнай медыцыны для дадзенага прэпарата адсутнічаюць.
Пра pay gap, справядлівую аплату працы, мацярынства і капіталізм, ч. 1

#statistics #politics

Апошнім часам можна назіраць шмат гендэрных спрэчак: Алабама і аборты, жанчыны ў IT, нюдсы і гвалт. Але асаблівым чынам мяне раздражняюць дэбаты пра pay gap. Раздражняюць мяне яны таму, што сукупнымі намаганнямі чалавецтва на гэтую тэму зроблена заўважная колькасць якасных, інфарматыўных даследванняў. Але людзі хочуць пакладацца на эмоцыі. Альбо эксплуатаваць эмоцыі іншых людзей. Бо няроўная эмацыйная ўключанасць бакоў з’яўляецца пладавітай глебай для інтэрнэт-срачаў, стымулюе веру ў неэмацыйную аб’ектыўнасць сваіх аргументаў. І калі чалавек ўпэўнены, што ягонае меркаванне вострае, як нож, крамяное, як марозная раніца, што ягоное меркаванне ўсім неабходна пачуць, мы можам назіраць інтэрнэт спрэчкі неабсяжнай даўжыні. Спрэчкі, дзе пад ціскам інтэрнэт-экспертызы, мемасаў і школьнага цынізму губляюцца нясмелыя спробы сказаць: звярніце ўвагу на фактычныя дадзеныя, гэта важна. Таму будзем звяртаць увагу на фактычныя дадзеныя. Гэта важна.

Размаўляць будзем пра unadjusted pay gap (звязаны тэрмін - unconditional mean), adjusted pay gap (conditional mean), мацярынства, выбар прафесій і перакосы позняга капіталізму.

Пачнем з (un)adjusted pay gap. Пад unadjusted pay gap маецца на ўвазе любое прамое параўнанне сярэдняга заробку паміж рознымі групамі. Калі мы чытаем, што сярэдні заробак мужчын у Беларусі на 30% вышэй сярэдняга заробку жанчын – гэта пра unadjusted pay gap. Пад adjusted pay gap разумецца карэкцыя на чыннікі, якія таксама маюць уплыў на заробак. Напрыклад: адукацыя, прафесія, стаж. Калі мы чытаем, што мужчыны і жанчыны адной прафесіі, аднога стажу і адукацыі атрымліваць аднолькавы заробак, мы чытаем пра adjusted pay gap.

Як правіла, у тых краінах, па якіх ёсць надзейная і шырокая статыстыка (што карэлюе з узроўнем развіцця), adjusted pay gap нашмат меншы, чым unadjusted pay gap. У некаторых выпадках ён калянулявы. Прычым, найбольш істотнымі чыннікамі, якія тлумачаць розніцу ў заробках з’яўляюцца выбар прафесіі і мацярынства (гэты факт пакуль запомнім). Тобок, неабраныя шлюбам свежыя выпускнікі PhD праграм па біялогіі ў ЗША атрымліваць аднолькавы заробак, будзь яны хлопцам ці дзяўчынай.

Праблема ў тым, як мы інтэрпрэтуем розніцу паміж двума вымярэннямі pay gap’а. Адзін лагер інтэрпрэтуе калянулявы adjusted pay gap як доказ таго, што грамадства дастаткова эгалітарнае і справядлівае. Іншая інтэрпрэтуюць гэта як нейкі survival bias – дзяўчынкі, якім ў дзяцінстве адмаўлялі ў канструктурах на карысць лялек, каго вучылі, як правільна ўсміхацца мужчынам, мелі меншую верагоднасць нават пачаць разважаць пра тэхнічныя спецыяльнасці з добрым заробкам. Тыя, каму пашчасціла гэтага пазбегнуць – большую. Дзіцячых гісторый пра лялькі і какетлівыя ўсміханні мужчынам я чуў ад хлопцаў непрапарцыйна менш. У гэтым і падвох.

Яшчэ большы падвох у выбары прафесіі і гадаванні дзяцей. Даследванні рэгулярна дэманструюць , што найбольш моцнае пенальці за мацярынства (спасылка і спасылка) ў тых сферах, дзе цаніцца здольнасць працаваць гнуткія, ірэгулярных гадзіны. Шмат з высокааплочваемых прац менавіта такія. Хочацца быць маладым і перспектыўным юрыстам, які рады і гатовы зніжаць параною кліента ў 2 гадзіны ночы? Тімлідам, які прывязаны да графіку на іншым баку планеты? Ну ці проста ахвота перапрацоўваць і сыходзіць з офісу, каб заўважыла кіраўніцтва? - Здай дзіцёнка ў дзіцячы дом. Ці бацькам. Праблема ў тым, што самаадданых бацькоў на ўсіх не хопіць. Дзіцячых дамоў, дарэчы, таксама.

Прамежкавыя высновы: у развітых краінах adjusted pay gap вельмі нізкі, але складаней яго атрымаць высокім чым нізкім, тады як unadjusted pay gap шмат у чым тлумачыцца пенальці за мацярынства.
Пра pay gap, справядлівую аплату працы, мацярынства і капіталізм, ч. 1

Першая частка - https://t.me/linearaggression/5

#statistics #politics

Зараз самы час паразмаўляць пра тое, наколькі такі стан рэчаў лічацца прымальным. Так, нават у развітых краінах назіраецца трэнд на жаданне жанчын сядзець дома з дзецьмі. Больш за тое, кожная трэцяя амерыканская жанчына ўскладае віну за немагчымасць рэалізацыі такога сцэнара на сваіх партнёраў. Улічваючы менш развітыя ў плане гендэрнай роўнасці краіны, сярэдняя лічба працуючых жанчын на планеце складае 39% ад агульнай колькасці працуючых.

Тобок, жанчыны абіраюць ці вымушаныя не працаваць. Але іх можна зразумець - мацярынства выціскае іх у менш аплачваемыя сектары эканомікі. Больш за тое, існуе пэўная карэляцыя паміж нізкай аплатай працы і тым, што Cal Newport назваў “shallow work” - павярхоўныя, маркотныя абавязкі па перакладанні папер і адказаў на емэйлы. Абавязкі, якія складаюць падмурак феномену bullshit jobs, здольных пераўтварыць маладых і амбіцыёзных у каментатараў тутбая і анлайнера. Тобок, жанчыны не толькі атрымліваюць менш грошаў, але таксама менш задавальнення ад працы, менш радасці ад пачуцця самарэалізацыі. І абіраюць замест гэтага дзяцей і вольны час. Не можа быць.

Уявім для параўнання, што на мужчын больш не ціснуць нормы патрыярхальнага грамадства. Больш за тое – у іх ёсць рэалістычная опцыя дэлегацыі сваіх фінансавых патрэбаў: армія састарэлых, забяспечаных геяў, ці наскрайняк роба-камунізм. Мне падаецца, апраўдана было б чакаць росту дармаецкіх настрояў таксама сярод мужчын. Канешне, апроч тых, хто рашуча накіраваны культываваць у офісах свой гемарой. No kink shaming intended.

Таксама тое пенальці, якое нясуць жанчыны за гадаванне дзяцей можа быць адной з падстаў зніжэння нараджальнасці. Пры наяўнасці такога пенальці, а таксама высокай ступені разводаў, жаданне жанчын як мага болей кар’ерна рэалізавацца перад завядзенням дзяцей і хутчэй вярнуцца на рынак працы - гэта наўпрост хэджаване рызыкаў і спроба палепшыць даўгатэрміновую фінансавую стабільнасць.

Актыўныя спробы змагацца са стэрыятыпамі пра “прынцэс”, “попросіте девушку нарісовать велосіпед” і “тыжебудущаямать” - гэта ўжо знаёмая дадзенасць. Куды менш знаёмы, але, як мы толькі што высветлілі, вельмі істотны вугал дэбатаў - гэта пра гнуткія гадзіны і сучасныя карпаратыўныя нормы кшталту “перапрацоўвае - добры супрацоўнік”. Трансфармацыя гэтых нормаў і пераход на больш гнуткія графікі працы здольная істотным чынам знізіць pay gap і павысіць агульную эканамічную прадуктыўнасць. Таму што, калі нам блізкія ідэі Адама Сміта, мы хочам бачыць больш роўныя ўмовы для рэалізацыі сваіх талентаў. І той факт, што нехта таленавіты будзе наказаны за жаданне мець дзяцей ніякім чынам не прыносіць грамадству карысць.

Часам можна пачуць аргумент пра тое, што калі жанчына сапраўды таленавітая, яна нягледзячы на сэксізм і патрыярхальныя інстытуты, апасля дэкрэту і двух дзяцей будзе спаборнічаць з мужчынамі на роўных. Гэта аргумент з разраду забегаў на 100 метраў у басейне з гаўном. Тэарэтычна, калі ты сапраўды хочаш, можна і ў ім паказваць уражваючыя секунды. Проста бегчы не па калена ў гаўне куды прасцей і прыемней. Толькі і ўсяго.
Пра дрэнныя даследванні, няўважлівых даследчыкаў, клікбэйт і адзінокіх жанчын

#statistics #everyday

За апошнія некалькі дзён можна было натыкнуцца на інфармацыю пра даследванне аб тым, што “незамужныя жанчыны - самая шчаслівая група насельніцтва”. Навіну падхапілі беларускія інфармацыйных парталы: тутбай, куку, сіцідог. Таксама, навіна выклікала шмат агрэсіўных срачаў у твітэры і фб (лінкаў не будзе).

Паразмаўляем пра дрэнныя даследванні, няўважлівых даследчыкаў, клікбэйт, а таксама пра тое, чаму схільнасць шукаць падтрымкі сваіх нарматыўных пазіцый ў эмпірычных, навуковых даследваннях - не самая лепшая ідэя.

Пачнем з апошняга. У грамадстве існуе звычка апеляваць да аўтарытэта навукі. Само па сабе гэта добра - навуковыя даследванні з’яўляюцца добрым метадам вырашэння эмпірычных пытанняў. Але навука не адказвае на нарматыўныя пытанні і нам усім трэба адвыкаць яе такім чынам выкарыстоўваць. Вам абсалютна не трэба даследванне пра тое, што адзінокія больш шчаслівыя, калі вы адзінокія і шчаслівыя. І абсалютна дакладна не трэба бегчы развадзіцца, калі вы такое даследванне пабачылі. Не трэба чакаць даследванняў пра тое, што геі маюць правы, жанчына - чалавек, а келіх віна ў дзень зніжае рызыку сардэчных захворванняў. Проста накаціце віна.

Цяпер пра канкрэтнае даследванне. Агулам, плыня happiness research - рэч даволі маргінальная. Шмат хто не ўспрымае яе ўсур’ёз. Але гэтае даследванне выдзяляецца нават на фоне. Ягоны асноўны тэзіс, “незамужныя жанчыны больш шчаслівыя”, базуецца на тым факце, што замужныя больш шчаслівыя толькі тады, калі супруг побач, а калі адсутнічае (“spouse is absent”) - рэзка робяцца больш няшчаснымі.

Камічнасць сітуацыі ў тым, што аўтары карысталіся не сваімі дадзенымі, а дадзенымі American Time Use Survey. І інтэрпрэтавалі графу “spouse is absent” менавіта так - як тое, што супруг зараз знаходзіцца не побач (“spouse wasn't in the room when the question was asked"). Правільная інтэрпрэтацыя гэтай графы - супруг жыве асобна (“spouse isn't in the household”). Тобок, аўтары насамрэч параўналі незамужных жанчын з замужнымі, але ад якіх сыйшоў муж. Наўмысна не прыдумаеш.

Гэта ўсё даволі відавочна, калі проста паглядзець на дадзеныя (яны публічна даступныя): усяго ў апытанні 91690 чалавек са статусам “Married”, прычым толькі 2737 - са статусам “partner in the houshold: none” (каля 3%), тады як для людзей са статусам “Divorced” гэтая лічба складае 90%. Для тых, хто ведае R (карысная рэч, раю ўсім), код для атрымання лічбаў ніжэй:

library(atus)
library(tidyverse)
atus::atuscps %>%
inner_join(., atus::atusresp) %>%
group_by(marital, partner_hh) %>%
summarize(cnt = n())


Таксама выглядае, што шмат хто спрабуе зрабіць з гэтага і падобных даследванняў кіраўніцтва да дзення. Гэта дрэнная ідэя. Як з пункту гледжання навуковай метадалогіі, так і з пункту гледжання штодзённай практыкі - сямейны статус не раздаецца выпадкова ў лабараторыі сямейных статусаў. Сямейны статус абіраецца, кожным чалавекам, сыходзячы з непарыўнай прасціны асабістай гісторыі. Узровень шчасця, натуральна, таксама звязаны з асабістасцю гісторыі, калі толькі вам не падаецца, што вы можаце ўзгадаць, як пахне карбамазепін і прэпараты літыя.

Мы ведаем, што карэляцыя не роўная прычынна-следчай сувязі. Зараз самы час ужыць веды на практыцы. Будзем карыстацца карэляцыямі для прыняцця рашэнняў аб істотных інтэрвенцыях. Чаму даследчыкам шчасця можна, а нам нельга. Для пачатку, трэба адмовіцца ад абязбольваючых – тыя, хто іх прымае, як правіла больш няшчасныя ў моманце, чым тыя, хто не. Цяжкія і доўгія медыцынскія працэдуры я б таксама адмяніў – ні для каго не сакрэт, што людзі, якія на іх ходзяць, жывуць крыху карацей і крыху горш. Бесчалавечая практыка рассякання па вуліцах пажарных машын павінна сыйсці – нават дзіцёнку вядома, што гратэскны і насмешлівы гук пажарнай сірэны цягне за сабой сум, горач і боль. Вершынёй нашага рэфарматарскага трыўмфу стане прымусовае пратэзаванне шырокіх колаў насельніцтва – як паказвае жыццё, усе, хто чакалі пратэзаў, былі ім вельмі радыя. Thank you for the Nobel Prize.
Пра правалы, статыстыку, машнные навучанне, індустрыю і акадэмію. Частка 1

Выпадковы выдаліў, перазаліваю

#statistics #machinelearning

Правалы - гэта неад'емная, мабыць ключавая частка развіцця навукі, ды і ўвогуле развіцця. Вакол гэтай ідэі існуе шмат добрых канцэптаў, напрыклад - failure CV. Але я хачу распавесці не проста пра няўдачы, а пра канкрэтны трэш ва ўжыванні статыстыкі і пабудове статыстычных мадэляў: у акадэміі, а таксама ў індустрыі.

З акадэміяй у гэтым плане вельмі проста, бо ўсё задакументавана. З індустрыяй нашмат больш складана, бо бізнэс-спецыфіка, NDA, а таксама жаданне абмежаваць рэпутацыйныя выдаткі. Таму пачнем з індустрыі. Частка гэтых гісторый - хутчэй за ўсё байкі. Частка - абсалютна рэальныя і я нават ведаю ўдзельнікаў. Істотна, аднак, што кожная з іх магла здарыцца з аднолькавай верагоднасцю і магчыма здаралася неаднойчы.

З улікам таго, што пра “AI failures” пішуць шмат, а ад гісторый кшталту “напужаны Цукенберг закрыў АІ праэкт, таму што нейронкі стварылі сваю сакрэтную мову” у мяне пачынае балець галава, распавядаць я буду пра банальныя, чалавечыя, прыземленыя індустрыйныя правалы.

Большасць фэйлаў ў машынным навучанні добра апісваецца анекдотам пра “хачу сабе танк на ўсю спіну – гатова – а чаму так хутка? – а хулі там чатыры літары”. Таму першая байка – пра савецкія/расійскія і амерыканскія танкі. Алгарытм павінен быў навучыцца іх адрозніваць. Працаваў добра, але ўпарта класіфікаваў новыя расійскія мадэлі як амерыканскія. Разбор паказаў, што фота савецкіх танкаў былі горшай якасці, што алгарытм паспяхова і вывучыў. Альтэрнатыўная версія гэтай байкі: алгарытм вучылі адрозніваць танкі, замаскіраваныя ў лесе, ад проста фота лясных масіваў, але два тыпы фота былі зробленыя ў розныя дні, таму алгарытм вырашыў, што прасцей замест танкаў адрозніваць воблачнасць.

Наступная байка - пра алгарытм, які павінен адрозніваць хаскі ад ваўкоў. Спрабуючы ўявіць сабе практычны сэнс такога алгарытму, я прыйшоў да высновы, што мець магчымасць адрозніць хаскі ад воўка смартфонам, у лесе, ноччу, калі нешта рыкае ў метры ад цябе ў цемры – гэта сапраўды карысна і шматабяцальна. Гісторыя ў тым, што алгарытм паказаў сябе вельмі добра, апроч рэдкіх кейсаў, дзе расава чыстыя хаскі ўпарта класіфікаваліся як ваўкі. На ўсіх гэтых анамальных фота хаскі былі на снезе. І ўсе ваўкі ў датасэце былі на снезе. Дэталёвы разбор паказаў, што алгартым наўпрост навучыўся адрозніваць белы фон на фота.

Зараз шырокую папулярнасць набываюць разнастайныя мабільныя дадаткі на мяжы “медыцыны і AI”. Адна апка абяцала адрозніваць здаровую і хворую скуру па фота з камеры. Але пры першых real life выпрабаваннях алгарытм праваліўся. Як высветлілася, якасць класіфікатара ў істотнай прапорцыі базавалася на здольнасці вызначыць на фота лінейку. Каб зразумець чаму, можна паглядзець на фота па запыце "identifying red spots".

Яшчэ адна гісторыя – пра амбіцыёзны стартап аўтаматычнай дапамогі ў прыняцці медыцынскіх рашэнняў. У людзей ёсць магчымасць насмяяцца з абсурдных карэляцый. У няшчасных робатаў – не. Таму, апасля серыі плоскіх калькуляцый, алгарытм параіў медыкам перастаць адпраўляць людзей на хіміятэрапію, бо пацыенты апасля яе часцяком паміралі. Усё па першым законе робататэхнікі Азімава.

Мая ўлюбленая гісторыя - пра каманду пачынаючых дата сайнцістаў, якія распрацавалі алгарытм прадказання адтоку кліентаў у наступным месяцы. Алгарытм меў “99% дакладнасці”, а прэзентацыя ўтрымлівала невыносную колькасць словаў Artificial і Intelligence. Старыя каманды CRM і аналітыкаў моцна напружыліся і іх можна зразумець – робаты забіраюць працу, “скураныя мяшкі не патрэбныя”, вось гэта ўсё. Як апынулася, найбольш моцнай фічой для прадказання ў новым алгарытме была “колькасць дзён без аплаты”. Сам факт адтоку кліента па бізнэс-правілах, якія пачынаючых будавацеляў робатаў цікавілі мала, вызначаўся як “90 дзён без аплаты”. Тобок, 90 дзён без аплаты ідэальна прадказвала 90 дзён без аплаты. Як і менш 59 дзён без аплаты ідэальна прадказвала адсутнасць адтоку, бо алгарытм прадказваў на месяц наперад. Ваісціну, неабмежаваныя магчымасці.
Пра правалы, статыстыку, машнные навучанне, індустрыю і акадэмію. Частка 2

Першая частка
- https://t.me/linearaggression/9

#statistics #science

Абяцаў працягнуць першую частку, але не пра індустрыю, а акадэмію. Пачнем з даследвання пра power poses. Сутнасць ідэі ў тым, што прыняццё т.з. power poses - рукі ў бокі, шырока пастаўленыя ногі, картаны на дзевяноста градусаў - змяняе гарманальны фон і робіць людзей больш упэўненымі.

Даследванне настолькі папулярнае, што пад адпаведным TED talk на ютубе 16 міліёнаў праглядаў, а брытанскія Торы адаптавалі гэтую стратэгію для сваіх публічных выступаў. Апошняе, дарэчы, выглядае абсалютна прэкрасна. Таксама, у галоўнай аўтаркі, Amy Cuddy, атрымалася напісаць на падставе даследвання папулярную кнігу, амазонаўскі рэйтынг якой на дадзены момант складае 4.4 з 5, а кніга мае 527 водгукаў.

Праблема ў тым, што эксперымент праводзіўся на 42 чалавеках. Не на 4200 і нават не на 420 - на 42 чалавеках. Калі гэта выглядае абсурдным, я спяшаюся вас папярэдзіць - значная частка даследванняў па псіхалогіі мае нават меншыя выбаркі.

Не дзіва, што калі іншая каманда паспрабавала паўтарыць даследванне, але на большай выбарцы, у іх нічога не атрымалася. Падрабязны статыстычна агляд арыгінальнага даследвання і рэплікацыі можна прачытаць тут.

Нашмат далей пайшоў дактарант паліталогіі з UCLA, Michael LaCour. Ён апублікаваў даследванне, як кароткая размова з геямі перманента змяншае гамафобію. Паспяхова атрымаў сваё PhD, здолеў апублікаваць даследванне ў Science і нават атрымаў пазіцыю ў Прынстане.

Іншым дактарантам было зайздрасна і яны вырашылі паўтарыць поспех. Шэраг далейшых разбораў паказаў, што даследванне не проста памылковае - яго не было. Тобок, LaCour прыдумаў грант, прыдумаў даследванне, прыдумаў людзей, якія яго праводзілі, стварыў фэйкавыя дадзеныя, гадамі пра гэта хлусіў і здолеў апублікавацца ў Science - топавым навуковым часопісе.

Як потым апынулася, большую частку свайго CV ён таксама выдумаў - гранты, даследванні, выдуманыя ўзнагароды і перамогі ў конкурсах. Наколькі я памятаю, народ дакапаўся да фальсіфікацый нават у ягонай бакалаўрскай. Ці дайшоў крыжовы паход да фактаў фальсіфікацыі аплікацыі ў дзіцячы садок мне не вядома.

Апасля гэтага LaСour знік, але ўсплыў праз год як “data scientist / visualization specialist" са сваім сайтам і брэндам. Увы, мае букмаркі на ягоныя працы даўно бітыя, але я памятаю, што візуалізацыі там былі проста топавыя. З іншага боку, правярнуць такую аферу неверагодна складана, а значыць чалавек далёка не бесталентны. Не здзіўлюся, калі ён скончыць якім-небудзь лабістам у Вашынгтоне - моцны талент і нямоцныя маральныя абмежаванні з’яўляюцца каштоўным рэсурам.

Але прыкладам сапраўднага правалу я лічу вядомы сярод эканамістаў log(NAICS) артыкул. Аўтар будаваў фінансавую мадэль і ўключыў лагарыфм ад NAICS у якасці адной са сваім пераменных. Справа ў тым, што NAICS, альбо North American Industry Classification System, з’ўляецца намінальным індэксам, у якога няма ніякай кардынальнасці і адносінаў парадку. Тобок, індэкс 111211 (вырошчванне бульбы) не з’яўляецца на 100095 пунктаў большым за індэкс 11116 (вырошчванне рысу). У гэтых “пунктаў” увогуле няма фізічнага сэнсу.

Больш за ўсё дастаўляе, што аўтар ўзяў ад яго лагарыфм, што з’яўляецца стандартнай працэдурай падгону размеркаванняў у лінейных мадэлях. Тобок, чалавек над ім разважаў.

Магчыма, мала хто б звярнуў на гэтую паперу ўвагу, калі б не той факт, што за яе аўтар атрымаў Edwin Elton Prize for Bes Job-Market Paper in Finance, а таксама падтрымку свайго навуковага кіраўніка, па сумяшчальніцтве - Нобелеўскага лаўрэата. Зараз аўтар - Assistant Professor у Гарвардзе. Such academia much meritocracy wow.
Па-моднаму ці па-багатаму: дэманстратыўнае спажыванне, айфоны, крэдыты і эканамічная тэорыя (контр)сігналінгу

#statistics #everyday

Насамрэч, мы не ведаем, наколькі актыўна, ці актыўна адносна іншых краін беларусы набываюць айфоны ў крэдыт. Як і не ведаем, наколькі распаўсюджаныя іншыя формы дэманстратыўнага спажывання. Будзем сыходзіць з таго, што “айфон у крэдыт” даўно ёсць часткай мясцовага фальклёру; феноменам, які разам з “папіцот”, “паўкабана”, “Вільня-Беласток” і іншымі апісвае заўважную частку нашай рэчаіснасці. І з ім цікава разабрацца.

Існуе шмат эмпірычных падцверджанняў таму, што выдаткі могуць стымулявацца проста публічнасцю і імкненнем да статуснасці. Тобок, калі грашовы дабрабыт успрымаецца як маркер высокага сацыяльнага статусу, а выдаткі бачныя іншым людзям, людзі перастаюць шкадаваць грошаў. Гэтым тлумачыцца не толькі феномен дэманстратыўнага спажывання, але і такія рэчы, як, напрыклад, дабрачыннасць.

Залежнасці, аднак, не настолькі простыя. Па-першае, сацыяльны статус - рэч адносная. І часам людзей больш цікавяць адносныя, а не абсалютныя рэчы: напрыклад, карэляцыя паміж задаволенасцю жыццём і абсалютным заробкам менш, чым карэляцыя паміж задаволенасцю жыццём і заробкам адносна тваіх суседзяў. Па-другое, у сучасных грамадствах, з улікам іх памеру і высокай ступені індывідуалізму, сказаць who is who даволі складана. Таму мы часта карыстаемся асацыяцыямі і стэрыятыпамі.

Каб зразумець, як усё гэта працуе, можна паглядзець на розніцу ў спажыванні паміж расавымі групамі ў ЗША. Чорныя і лацінасы аддаюць большую частку сваіх бюджэтаў на visible goods (айфоны, плафоны, залатыя ланцугі). Але карэляцыя паміж дэманстратыўным спажываннем і расай існуе толькі на першы погляд. Яна знікае, калі ўлічваць у аналізе сярэдні заробак рэферэнтнай групы - той групы людзей, з якой цябе асацыююць іншыя.

Інакш кажучы, калі ты бедны і чорны, а ўсе навокал лічаць чорных беднымі, ёсць стымулы ставіць на тачку залатыя дыскі і рабіць выгляд, што дэма з тваім рэпам добра прадалося. З іншага боку, калі ты чорны, але з району, дзе жыве шмат паспяховых чорных, можна спакойна перасаджвацца на Форд Эдж. З белымі будзе тая ж самая гісторыя.

Занудную эканамічную тэорыю і матэматычныя мадэлі можна глянуць тут. Мы ж будзем карыстацца сапраўднымі навуковымі канцэптамі: “Fake it till you make it” супраць “Too cool for school”. Калі шмат хто сігналіць праз дэманстратыўнае спажыванне, людзі з насамрэч высокім статусам могуць ад такога спажывання адмаўляцца, каб іх не пераблыталі. Натуральна, такая стратэгія робіцца прывабнай з пашырэннем крыніц інфармацыі пра іх высокі сацыяльны статус.

Тобок, калі ты - беларускі айцішнік і беларускае грамадства ведае, колькі зарабляюць айцшнікі (анлайнер, тутбай і куку не даюць беларусам забыць), магчыма, у цябе няма асаблівых стымулаў сігналізаваць свой заробак праз дэманстрацыю новага айфона. Магчыма, катэгорыя айцшнікаў з бруднай галавой і дзіркамі ў бруках зусім не патрабуе вашага спачування, а з’яўляюцца homo economicus, рацыянальнымі агентамі без стомы і кагнітыўных скажэнняў, якія проста контр-сігналізуюць.

Яшчэ лепш залежнасць паміж дэманстратыўным спажываннем і інфармацыяй можна прасачыць на блізкім беларусам прыкладзе крэдытаў на вяселле, праўда ў Індыі. Калі жаніх - з іншай, далёкай вёскі, пра якую мала чаго вядома, бацькі нявесткі закатваюць больш шыкоўныя вяселлі. Гіпотэза ў тым, што такім чынам бацькі спрабуюць прасігналізаваць высокі статус кавалера, пра якога іхнім суседзям мала чаго вядома. Чым менш вядома, тым менш карэляцыі з рэальным “статусам” жаніха. Пры гэтым, такія практыкі больш распаўсюджаныя ў бедных вёсках.

Дарэчы, аб'ём выдаткаў на вяселле ў Індыі можа дасягаць 6 гадавых заробкаў сям'і. Беларусам ёсць куды расці.
7 Amazing Facts About Top Sites About Science,Technology, Philosophy in Under 10 Minutes Can Make You a Millionaire the Government Doesn't Want You To Know

#everyday

Добрай нядзелі, кацяняты. Зрабіў для вас падборку сайтаў, каб чытаць, калі вы больш не можаце бачыць клікбэйты пра АІ, плачаце ад артыкулаў з назвамі кшталту "Top 10 something...", у вас выцякаюць вочы ад артыкулаў на анлайнеры, ці вы проста вырашылі падцягнуць сваю ангельскую.

Aeon.co – часопіс, які складаецца з нататак сярэдняй даўжыні, а таксама вялікіх эсэ ад прафесіяналаў у розных сферах. Створаны і падтрымліваецца акадэмікамі альбо людзьмі з сур’ёзным акадэмічным бэкграўндам. Кажуць яны пра сябе наступнае: “We ask the big questions and find the freshest, most original answers, provided by leading thinkers on science, philosophy, society and the arts” і гэтае апісанне не вельмі далёкае ад рэчаіснасці. Існуе на данатах, таму ніякага клікбэйта – толькі шчырыя і бясплатныя спробы распаўсюджваць веды. Большасць матэрыялаў, якія мне трапляліся, былі высокай якасці.

Nautil.us - навуковы часопіс, які "combines the sciences, culture and philosophy into a single story." Па канцэпцыі нечым нагадвае Aeon, што адразу робіць яго вартым увагі. У часопіса ёсць непаўторная атмасфера, ад якой хочацца пераглядаць Contact, альбо ляцець у адкрытым космасе пад Still Corners - The Trip. Асноўны мінус - бясплатна даюць прачытаць толькі абмежаваную колькасць артыкулаў у месяц. З іншага боку, гадавая падпіска зараз усяго 24$, якія вы інакш усё роўна аддаціце на чарговы анлайн курс па діджытал маркетынгу.

Longform.org – падборка лонгрыдаў, якія лічацца пэўнай часткай журналісцкага кам’юніці прыкладамі майстэрства ў напісанні тэкстаў. Калісьці мне яго параіў чалавек, які зараз піша артыкулы для Washington Post. Яму дакладна дапамагло

Thebrowser.com – ідэя, падобная на longform, дзе рэдактары абіраюць лепшыя 5 артыкулаў за дзень. Існуе платнае падпіска, толькі я да гэтага часу не разабраўся навошта. Яго чытае Дэвід Брукс, у якога спецыфічныя палітычныя погляды і ўяўленні пра тое, як існуе сусвет, але, магчыма, найбольш моцны публіцыстычны стыль сярод папулярных калумністаў

Wired.com – добры і даволі стары часопіс пра тое, як тэхналогіі змяняюць жыццё. Зараз, па-сутнасці, вялікі навінавы партал з налётам гікавасці. Часам бываюць пытанні да якасці інфармацыі, але як крыніца штодзённай інфармацыі - цалкам ок. З іншага боку, адначасова яны здольныя публікаваць абсалютныя шэдэўры публіцыстыкі. Бясплатны доступ абмежаваны, існуе платная падпсіка.

Technologyreview.com - нечым нагадавае wired, з той розніцай, што фокус тут толькі на тэхналогіі і калісьці часопіс належыў MIT. Зараз куды больш арыентаваны на шырокую аўдыторыю, з усімі плюсамі і мінусамі. Заўважнай асаблівасцю з’яўляецца фокус на экалагічным актывізме, таму калі вам патрэбныя новы ідэі для срачаў на тэму ў фэйсбуках і твітэрах, гэта добры выбар.

Quantamagazine.org - Калі вам спадабаліся Aeon ці Nautilus, але вам хацелася б больш увагі на матэматыку, тэарэтычную фізіку, кампутарныя навукі і менш на ўсё астатняе, дадзены часопіс падыходзіць. Аднак, у адрозненні ад таго ж Aeon большасць артыкулаў напісаная журналістамі, а не навукоўцамі. Што, канешне, не абавязкова дрэнна
Пра беларускі фэйсбук, малпаў, сантыметры, эканамічную няроўнасць і ўважлівасць

#everyday

Уявім сабе вельмі асцярожную малпу міліён год таму. Яна пастаянна бачыла драпежнікаў у афрыканскім гушчары, чым моцна раздражняла сваіх калег - іншых малпачак. “Ты проста бачыш патэрны ў рандомых дадзеных” - казалі яны ёй з дапамогай гукаў і крыкаў рознага дыяпазону і гучнасці. Дададзім у гэтую гісторыю шаблязубага тыгра. Шанцаў, што асцярожная малпа перадала нам свае гены куды больш, чым шанцаў, што менш асцярожныя малпы бегаюць хучэй за тыгра. Так тлумачыцца беспрэцэдэнтная здольнасць людзей бачыць патэрны ва ўсім, чым толькі можна. Ну, ці амаль так.

У беларускім фэйсбуку, на старонцы Сяргея Чалага, на днях з’явіўся прэкрасны прыклад таго, як людзі спрабуюць патлумачыць проста шум у дадзеных. Для тых, хто адмаўляецца кавырацца ў беларускім фэйсбуку, перакажу сутнасць гісторыі. Ourworldindata мае ў сваёй базе дадзеных наступны графік змены сярэдняга росту людзей цягам гісторыі. У ім ёсць забаўны артэфакт - каля 1450 год д.н.э. людзі рэзка зрабіліся заўважна больш высокімі, а потым зноў пачалі быць нізкімі.

Малпа бачыць патэрн - малпа тлумачыць. Мой асабісты фаварыт сярод тамашніх гіпотэз гэта гвалтоўная акупацыя хомасапіенс неандэртальцамі, што і выклікала рэзкі рост наступных пакаленняў. У 1450 годзе да нашай эры. З іншага боку, калі б я, будучы мікенскім войнам каціў на сваёй калясніцы ў 1450 годзе д.н.э. і сустрэў неандэртальца, не ведаю, як б павялі сябе мае сантыметры. Але большасць тамашніх гіпотэз зводзіцца да выбуху вулкана. Прыдумаць, як канкрэтна гэта павінна было стымуляваць рост - тое яшчэ ментальнае практыкаванне.

Цяпер звярнем увагу на шкілетаў, мумій, эканамічную няроўнасць і сантыметры. Так склалася, што калі пры раскопках знаходзяць пахаванні высокастатусных асобаў, іх косткі часта больш чым у суседніх пахаваннях. І гэтаму ёсць даволі простае тлумачэнне: высокі статус дазваляе пазбегнуць голаду і дрэннай дыеты, асабліва ў дзяцінстве, што істотным чынам паўплывае на далейшы рост арганізму. Калі проста: багатыя - жэрлі, бедныя - галадалі.

Да фэйсбучных дэбатаў гэта тычыцца даволі дэтэктыўным чынам. Калі паглядзець, дзе ourworldindata узялі дадзеныя, можна зразумець, што яны проста візуалізавалі таблічку з Hermanussen (2003). Пры гэтым, зрабілі памылку нават у даце публікацыі, што ўжо намякае. Таблічка таксама не арыгінальная, а ўзятая з Angel (1984). Узятая таксама не цалкам, бо на 1450 BC прыведзеныя дадзеныя (і гэта ключавы факт) па Royal, але не прыведзеныя дадзеныя па Commoners, якія на 6.4 сантыметры ніжэй. Тое, што там дадзеныя толькі па пары індывідаў можна зразумець па адсутнасці estimated population density, што і лагічна - адкуль density ў пары шкілетаў з аднаго кургана.

У адпаведнасці, ніякага “аўтлаера” у 1450 ВС, канешне, няма – ёсць неакуратная праца з дадзенымі і шэраг паступовых памылак, якія і прывялі да публікацыі папулярнага, але памылковага графіка. Поўны і правільны варыянт можна глянуць у Boix & Rosenbluth (2014), а менавіта – Figure 1 і Table 3

З ростам аб’ёму даступных дадзеных, было б карысным прывіваць людзям культуру працы з імі. З іншага боку, ёсць меркаванне, што нашым продкам малпачкам было цікавей уяўляць захапляючыя патэрны ў афрыканскім гушчары, а не маркотна кавырацца ў зямлі палкай-капалкай. Так што fair enough.