Лінейная (аг | рэг) рэсія
1.21K subscribers
89 photos
3 files
144 links
Пра даныя і як іх прыстасаваць да штодзённасці

Мяне можна знайсці

У твітары: https://twitter.com/aliaksandr_k
Англ: https://twitter.com/unfriendlydata
Ці ў тг: @shurackapalieski
Download Telegram
Накацілі панядзелкавую каву?

Тады паразмаўляем пра яе (каву) і ментальнае здароўе. Дакладней, пра даследаванне, якое спрабавалі рэкламаваць у твітары месяц таму і чаму прыйшлося рэкламу выдаліць

Зрабілі наступнае: узялі 150 тысяч брытанцаў, задавалі ім пытанні пра тое, колькі і якой кавы яны спажываюць, аналагічна апытвалі пра ментальнае здароўе і потым будавалі графік (гл. скрыншот). З якога зрабілі выснову, што трэба рэкамендаваць шырокай публіцы піць 2-3 кубкі кавы ў дзень. Бо на графіках пабачылі т.з. J-крывую: у тых, хто не п'е каву і ў тых, хто п'еш больш чым 2-3 кубкі вышэйшая рызыка мець праблемы з менталачкай

"Карэляцыя не роўная прычынна-следчай сувязі", "self-selection bias", "не эксперымент а даныя назірання!" — гэта думкі, якія павінныя з'яўляцца пасля прачытання папярэдняга абзацу. Натуральна, частка людзей не п'е каву праз праблемы са здароўем, у тым ліку ментальным — каб не адчуваць павышанай турботы. Яшчэ натуральней, што людзі, якія спажываюць 10 кубкаў у дзень, маюць павышаную рызыку

Але мая праблема з графікам не толькі ў гэтым. Па-першае, "зніжэнне" рызыкі банальна цяжкавата разглядзець на графіку — яно, выглядае, каля 10%. Па-другое, нават тыя весельчакі, якія гасяцца 10-12 кубкамі, маюць толькі ў ~1.5 - 2 разоў павышаную рызыку. Кажучы проста, карэляцыйны ўплыў кавы не настолькі вялікі, каб раптам пераходзіць на 2-3 кубкі ў дзень, калі вы каву да гэтага не пілі

Забаўна, што такія рэкамендацыі праходзяць фільтр медыцынскіх публікацый, але не праходзяць у твітары: у рэплаі набягае мільён эканамістаў, дата сайцністаў, медыкаў з іншых галін і агулам людзей, знаёмых са статыстыкай і пачынаюць над аўтарамі ўгараць
😁36👍11🔥9❤‍🔥1🤔1
Апошнія гады McKinsey рэгулярна публікуе даследаванні пра тое, як diversity паляпшае фінансавыя паказчыкі кампаній

У адным з іх, яны памералі ступень этнічнай разнастайнасці кіраўніцтва кампаній, узялі найбольш разнастайныя 25%, найменш разнастайныя 25%, параўналі іх і прыйшлі да высновы, што "Diversity Wins"

Народ спрабаваў атрымаць даныя, каб пераправерыць аналіз, але McKinsey даныя публікаваць адмовіліся і нават не назвалі фірмы, якія ў аналіз трапілі

У адказ гэтыя рабяты сабралі свой датасэт, дзе ёсць інфармацыя па кожнай з 500 кампаній з S&P500 і паўтарылі аналіз McKinsey

Высновы? Да ладна, нібыты вы першы дзень мой канал чытаеце — нічога паўтарыць не атрымалася, канешне ж. Усе метрыкі статыстычна нязначныя, а адзіная значная, рост вырукчкі, наадварот лепей у найменш этнічна разнастайных 25%

Класіка класічная, нефільтраваная
😁68👍93🌚2🤨2💔1
На мінулым тыдні выйшаў артыкул, які ўзбудзіў некалькіх маіх знаёмых і навуковую супольнасць агулам

12 - 5 тысяч год таму 7 розных папуляцый на планеце незалежна перайшлі ад качэўніцтва і збіральніцтва да сельскай гаспадаркі. Мы дрэнна разумеем чаму. Аўтар артыкулу сцвярджае, што вінаваты ў гэтым ішапланецяне пазаземныя сілы

Аргумент будуецца ад таго, што існуюць аседлыя плямёны без сельскай гаспадаркі. Іх аб'ядноўвае сезоннасць асноўнай крыніцы калорый. Напрыклад, патэрны міграцыі рыбы: ловім, спажываем, рэшту сушым/солім/вэндзім, перажываем год да наступнай міграцыі, нікуды не рухаемся. А ад аседлага ладу жыцця да сельскай гаспадаркі рукой падаць

Што магло такога здарыцца 10-12 тысяч год таму, каб у розных рэгіёнах планеты ўзнікла патрэба захоўваць ежу? Адказ аўтара ў тым, што пасля апошняга ледніковага перыяду павялічылася сезоннасць клімату ў межах 30-40 градусаў шыраты. У гэтага ёсць некалькі астранамічных прычын, напрыклад прыцяжэнне Юпітэра (гл. таксама тут)

Гэта прывяло да даволі цёплага лета і зацяжнай, халоднай зімы. На шырокіх тэрыторыях, ад якой качэўніцтвам не ўцекчы. Што вымусіла люзей ад качэўніцтва адмовіцца і пачаць захоўваць ежу, каб зіму перажыць

Кожны дадатковы градус розніцы ў тэмпературах паміж сезонамі карэлюе з узнікненнем сельскай гаспадаркі на 150-200 год раней. На скрыншоце два графікі, дзе ўзнікненне сельскай гаспадаркі (па гарызанталі) супастаўляецца з тэмпературнай сезоннасцю і сезоннасцю асадкаў

Наколькі гэта слушная папера я не ведаю. Што захапляльная, гэта дакладна. Вось шыкоўны твітар-трэд з падрабязным тлумачэннем ад аўтара, вось прэпрынт артыкула ў вольным доступе
👍35😱9🤔7
Назіраю за цікавым срачам дыскусіяй пра ўкраінскую мову і метадалогію

На днях выйшаў артыкул "Першокласники Києва не розуміють 40% почутого на уроках, бо майже не знають української". Метадалогію даследавання раскрытыкавалі (напрыклад тут), аўтар паспрабаваў адбіцца (напрыклад тут)

Сутнасць даследавання:

1. Памералі слоўнікавы запас украінскай. Там шматступенная працэдура, але актыўны запас вымяраецца так: паказваюць прадмет, просяць яго назваць, замяраюць % адказаў украінскай ("стеля" vs "потолок")
2. Распавялі дзецям гісторыю
3. Паразмаўлялі з дзецьмі пра яе і замералі, % які дзеці зразумелі (уяўляю, што можна вельмі па-рознаму гэта замераць)
4. Памералі карэляцыі паміж, напрыклад, актыўным слоўнікавым запасам і % зразумелага

Сутнасць спрэчкі:

1. У выбарцы 34 дзіцёнкі. Аўтар адказвае, што яны не ўсё расшыфравалі і будзе 60. Margin of error 13-17%, што шмат, але не робіць аналіз цалкам невалідным
2. Аўтар кажа, што яны правялі падобнае даследаванне ў кіеўскіх садках і там выбарка была ў 220 дзяцей. 85% з якіх назвалі менш 33% прадметаў па-украінску. І гэты факт прастымуляваў іх правесці даследаванне ў першых класах
3. Класічнае "карэляцыі не ёсць прычынна-следчая сувязь!". Па мне, прэтэнзія неасэнсаваная — паспрабуйце ўявіць сусвет, дзе памер слоўнікавага запасу не паўплывае на разуменне мовы
4. Памер карэляцый. Ён 0.72. Тобок, 0.72^2 = 52% варыяцыі ў разуменні ўкраінскай можа быць "патлумачана" памерам слоўнікавага запасу. Наколькі гэта мапіцца ў фразу "...бо майже не знають української" — тое яшчэ пытанне. "Часткова праз тое" было б лепшай фармулёўкай

Маё асабістае стаўленне: а) выбаркі ў 34 назіранні — заўсёды дрэнна б) лепшае валоданне мовай натуральна вядзе да лепшага засваення матэрыялу в) таму не разумею метафізчнай значнасці таго, які там канкрэтна каэф дэтэрмінацыі. Ёсць праблема, яе трэба выпраўляць

У каменты кіну спіс словаў, праз якія замяралі. Можаце сябе праверыць. Я ведаю ўсе, апроч аднаго. Як гэта, быць лепшым за больш чым 85% 5-гадовых дзяцей у Кіеве? Адказваю: прыемна
😁359👍72😭1
Пра што сёння пісаць як не пра рынак працы

Год таму я распавядаў, што ў Швецыі IQ, замераны ў арміі, даволі лінейна прадказвае заробак у 34-45 год: чым вышэй IQ, тым больш заробак пазней у жыцці

Нядаўна гэты вынік паспяхова паўтарылі ў Фінляндыі і Нарвегіі (каля 450.000 чалавек для кожнай краіны). Прачытаем графікі разам на прыкладзе Фінляндыі: калі ў вас медыянны IQ (0 па вертыкалі), у вас медыянны заробак (50% па гарызанталі); Калі IQ у вас вышэй, чым у ~85% насельніцтва (1 стандартная дэвіяцыя па вертыкалі), вы ўваходзіце ў топ ~5% па заробку (95% па гарызанталі). І г.д.

Аўтары кажуць, што варыяцыя IQ у вышэйшых працэнтылях менш, чым у ніжэйшых. Кажучы проста, сярод тых, хто зарабляе мала, хапае людзей з высокім IQ. Людзей з нізкім IQ сярод ультразараблятараў заўважна менш

Таму калі любіце паплакацца, што былі надзвычай разумным дзіцёнкам, але лёс абыйшоўся з вамі несправядліва — можаце цяпер гэта рабіць і з дапамогай даных
😁41😭15👍92🔥1🌚1
Платформа interviewing.io правяла эксперымент, каб высветліць, наколькі тэхнічныя рэкрутары у ІТ здольныя ацэньваць кандыдатаў

76 рэкрутараў, 30 рэзюме на кожнага, 2.200 ацэнак у суме. Некаторых кандыдатаў ацэньвала некалькі рэкрутараў

Высновы:

1. Рэкрутары ацэньвалі імавернасць таго, што кандыдат пройдзе тэхнічнае інтэрв'ю на платформе. З тых, каму яны далі 0-5% шанец, 47% паспяхова прайшлі інтэрв'ю. А з тых, каму яны далі 95-100% шанец, 64% прайшлі інтэрв'ю. Кажучы проста, якую б імавернасць яны не паставілі, шанец прайсці інтэрв'ю быў каля 50% (лінія на графіку ляжыць амаль гарызантальна)

2. Для тых кандыдатаў, якіх ацэньвалі больш за аднаго рэкрутара, сярэдняя розніца паміж ацэнкамі складала 41 працэнтны пункт

Гэта не першае падобнае даследаванне і тычыцца не толькі ІТ

Ёсць такая кніга, Bullshit jobs. Напісаная яна ўльтралевым антраполагам і чытаць яе натуральна немагчыма. Але пачалася яна з аднайменнага эсэ і з ім рэкамендую азнаёміцца. Я сам з паловай пасылаў не згодны, але прынамсі каб ведаць адкуль тэрмін пайшоў
👍23😁11🔥6🤔2
Мой любімы падкасцер, Эндрю Губерман

Распавёў тут, што шанец жанчыны зацяжарыць, калі спрабаваць, роўны 20% у месяц. І таму калі спрабаваць паўгады — зацяжарыш з шанцам 120%

Як вам, жанчыны, жывецца ў сусвеце, дзе шанцы перавышаюць 100%? Трымайцеся

Правільны адказ дарэч 1 - 0.8^6 = ~74%
😁5410🤯4🏆3🤔2🗿1
Лінейная (аг | рэг) рэсія
Мой любімы падкасцер, Эндрю Губерман Распавёў тут, што шанец жанчыны зацяжарыць, калі спрабаваць, роўны 20% у месяц. І таму калі спрабаваць паўгады — зацяжарыш з шанцам 120% Як вам, жанчыны, жывецца ў сусвеце, дзе шанцы перавышаюць 100%? Трымайцеся Правільны…
^ народ з гісторыі парваўся і пабёг пераправяраць ягоныя паперы на прадмет памылак. Аўтыстаў з ведамі статыстыкі ў інтэрнэтах агулам больш чым папулярных падкасцераў

І яны там канешне ж ёсць. Напрыклад у паперы пра "cyclic sighing" — тэхніку дыхання, якую ён прасоўвае і якая "працуе лепш чым медытацыя"

Калі глянуць на таблу (6 радок), бачым, у перакладзе на простую мову, што чым больш чалавек практыкуе гэтую тэхніку, тым лепшы эфект. Эфект вельмі статыстычна значны (p < 0.01)

Праблема ў тым, што калі глянуць на давяральныя інтэрвалы, яны перасякаюць нуль. Гэта абсурд матэматычны, так не бывае, але і з практычнага пункту гледжання абсурд: калі вы сцвярджаеце, што нешта мае моцны пазітыўны эфект, хацелася б, каб давяральны інтэрвал не ўключаў рэгіён з негатыўнымі эфектамі. Лагічна? Лагічна
😁13🤔21👍1🎅1
Люблю патэрны ў даных пра якія нічога не ведаю. Трэніруе інтуіцыю

Напрыклад колькасць серыйных забойцаў у ЗША. У 80-ыя быў 7-14разовы ўсплёск, адносна 1950-ых ці 2010-ых

Чаму так у мяне не было ідэй, таму сабраў гіпотэзы ад людзей, якія у гэтым разбіраюцца:

Пра рост:
1. Будаўніцтва аўтамагістраляў спросціла перасоўванне і зрабіла скаладней звязаць забойствы праз адлегласць. Магло незаўважна набіраць тэмп і да 60ых
2. Разам з тым, развіццё крыміналістыкі дапамагло гэта заўважыць, канцэптуалізаваць "серыйных забойцаў" як феномен
3. Распаўсюд ТБ і масмедыя агулам прасунуў серыйных забойцаў у навінавы авангард. Сыходзячы з дапушчэння, што ім гэта падабалася, маем дадатковы стымул
4. Свінец. На другім графіку бачым пік канцэнтрацыі свінца ў крыві амерыканцаў ў 80-ыя. Ёсць даныя пра моцную карэляцыю паміж атрчуваннем свінцом у дзяцінстве і схільнасцю да гвалту

Пра падзенне:
1. Яшчэ большае развіццё крыміналістыкі, прафайлінга, ДНК тэстаў, а таксама камеры зрабілі забойствы імпрэзай куды больш складанай. Гэта, імаверна, асноўная прычына
2. Грамадства вырашыла, што труціць дзяцей свінцом не самая яскравая ідэя
🔥30👍13
Добрай раніцы. Распавяду смешнае

За апошні пару тыдняў было апублікавана тры гучныя мета-аналізы: пра лячэнне дэпрэсіі грыбамі, пра эксперыменты з трывожным разладам і лячэнне дэпрэсіі карыпразінам

Што аб’ядноўвае гэтыя даследаванні? Яны ўсе зрабілі адную і тую ж статыстычную памылку: пераблыталі стандартную памылку са стандрартнай дэвіяцыяй. Што гэта значыць распавядаць не буду, гэта нудна. Але распавяду, да чаго гэта прывяло

А прывяло гэта да таго, што эфекты, якія яны знайшлі, была ў разы завышаныя: у паперы пра эфектыўнасць грыбоў на ~500%, у паперы пра турботу на ~300% і ў паперы пра дэпрэсію і карыпразін на ~2000%

Яшчэ раз: за ~2 тыдні выходзіць 3 даследаванні з элементарнай статыстычнай памылкай, якія прапускаюць і аўтары і рэв’юверы, але якія за пару дзён знаходзяць у твітары (тут ці тут)

Так і жывем
😁25🤯18👍4😢3🌚31
Цікавае пра грошы і бяздомных

У Дэнверы адной групе бяздомных год выплочвалі 1.000$ у месяц, другой — адной сумай накінулі 6.500$ са старту і кожны месяц выплочвалі па 500$ дадатковых

Кантрольнай групе выплочвалі па 50$ у месяц. Думаю, вырашылі што хоць нейкая сума патрэбная, каб яны не разбегліся за год эксперыменту — потым не знойдзеш і даныя не збярэш

Усе 806 чалавек без ментальных захворванняў

Праз год ~60% з першай групы знайшлі жытло, ~60% з другой і ў трэцяй групе таксама ~60% знайшлі сабе жытло

З аднаго боку, я глянуў мясцовы арэндны рынак і там толькі 16% прапаноў ніжэй 1000$/месяц. Ну і "я ўдзельнічаю ў даследаванні" не самая пераканаўчая крыніца заробку для лэндлордаў. З іншага боку, 12 штук — гэта даволі шмат, я б чакаў хоць нейкага пазітыўнага эфекту
🤔36👍5🌚51
Сумавалі? Будзе жыццесцвярджальны, восеньскі пост. Пра карцінкі

Спачатку мне было лянота пісаць пра падробку даных у даследаванні пра Альцгеймер. Адна з уплывовых папер у галіне, 2006 году, пра т.з. Aβ*56, з высокай імавернасцю ўтрымлівае выдуманыя даныя

Потым было лянота пісаць пра падробку даных у даследаваннях па Альцгеймеры і Паркінсоне. Адным з найбольш цытуймых навукоўцаў на планеце. Падазраюць 132 даследаванні з 1997 па 2023. Гадавы бюджэт ягонага дэпартаменту — 2.6 мільярды

Потым пабачыў навіну пра тое, што Нобелеўскі лаўрэат 2019 году, які вывучаў Альцгеймер шмат чаго, у тым ліку ракавыя хваробы, таксама фальсіфікаваў даныя. Адкліканыя ўжо 13 ягоных даследаванняў, апошняе з часопісу Cancer Research

Ну і вырашыў, што час вас парадаваць. Ведаеце, што забаўнае? Яны трапіліся праз +/- адное і тое ж — копіпасцілі адныя і тыя ж выявы з розных папер пра розныя эксперыменты, падганяючы іх мінімальна пад патрэбныя высновы. Па-просту, пацанам было лянота кожны раз выдумляць новыя фэйкавыя даныя

Гідрыруйцеся і не хварэйце
🤯48🫡9😁8🥰2🤬21👍1🌚1
Lanced Digit Health апублікаваў вынікі маштабнага клінічнага даследавання пра AI і анкалогію — на 100.000 удзельніц

Для адной групы выкарыстоўвалі AI-асістэнт пры мамаграфіі, для другой карысталася стандартнымі метадамі

Вынікі? На 28% больш выяўленых выпадкаў рака без істотнага росту false positives ("анкалогіі няма але дыягнастуем"). У лічбах гэта 6.4 дыягнаставаных выпадкі на 1000 шведак супраць 5.0 у кантрольнай групе.

На фоне slop навін пра чарговы чат-бот, грэе мне душу
🔥60👌8👍4🌚1
Пра эгалітарны беларускі фэйсбук

Знайшоў забаўны датасэт пра "Cross-Gender Friending Ratio". Індэкс роўны 1 значыць, што ў краіне і мужчыны і жанчыны ў сярэднім маюць аднолькавы % жанчын у сябрах. Менш аднаго -- у жанчын у сябрах большы % жанчын. Чым бліжэй да нуля тым больш гэты гендерны разрыў

Беларусь на мапе ёсць анамаліяй і падобная размеркаваннем больш на Германію, чым на суседзяў. Падазраю праз тое, што ФБ сацсетка ў РБ непапулярная і аўдыторыя там спецыфічная адносна ўсяго насельніцтва
32🌚14👍3💯2
Прэзентацыя OpenAI з параўнаннем GPT-5 супраць іншых мадэляў

Адпраўляецца ў капілку маіх любімых візуаліцый
😁1067👍2💅2😢1
Чао-какао

Прачытаю вось тут лекцыю пра даныя і алгарытмы, калі раптам вы "ва ўзросце да 30 гадоў (госпадзі як балюча) з досведам працы ў медыя, аналітыцы ці даследаваннях" — падавайцеся, дэдлайн 22 верасня (уключна)
🔥202🙏2😢1
Цікавая прэзентацыя пра наш дэмаграфічны лёс і фертыльнасць ад Jesús Fernández-Villaverde, "вядучага эксперта па дэмаграфіі"

- Фертыльнасць падае нашмат хутчэй чым усе чакалі
- Глабальная фертыльнасць імаверна ўжо ніжэй узроўню узнаўлення з 2023 году
- Падзенне паскорылася ў раёне 2014
- Middle-income краіны пакутваюць больш за ўсіх: у Мексіцы, Тунісе, Тайландзе, ці Турцыі з Бразіліяй фертыльнасць ужо ніжэй чым напрыклад у ЗША
- ААН працягвае рабіць выгляд што не ўсё так страшна, закладаючы ў свае прагнозы масавы "адскок" — рост фертыльнасці назад "with an expectation of continued progress toward gender equality and women’s empowerment and improving social and economic opportunities.

Не памятаю, у якой прэзентацыі я гэта бачыў, але ў размовах пра "адскок" часам прыводзяць прыклад Беларусі, дзе з ~2004 па 2016 сапраўды на 40% вырасла фертыльнасць а цяпер падае ударнымі тэмпамі

Таксама трымайце цікавую візуалізацыю
🙈12🤔8😭6👍53🎉3👀2🍾1