Лінейная (аг | рэг) рэсія
1.29K subscribers
85 photos
3 files
140 links
Пра даныя і як іх прыстасаваць да штодзённасці

Мяне можна знайсці

У твітары: https://twitter.com/aliaksandr_k
Англ: https://twitter.com/unfriendlydata
Ці ў тг: @shurackapalieski
Download Telegram
#statistics #science

Мне па працы часта прыходзіцца чытаць артыкулы пра пра менструальныя цыклы, цяжарнасці ці авуляцыі. Часам натыкаюся на вясёлы трэш. Зараз пра адзін распавяду.

Аўтары паперы знайшлі, што ў 2012 у ЗША замужнія жанчыны ў авуляцыю часцей выбіралі Ромні, а незамужнія ў авуляцыю - Абаму. Тлумачылі яны гэта прыкладна так: для незамужніх у авуляцыю важна перадаць свае гены, таму яны выбіраюць больш сіметрычнага Абаму (больш сіметрыі - лепшыя гены). А замужнія абіраюць кансерватара Ромні, бо гэта ў іх ад шлюбу развіўся механізм, які ў авуляцыю робіць іх больш кансерватыўнымі і такім чынам спрыяе захаванню шлюба.

Душэўна. Давайце ўявім, што аўтары б атрымалі вынікі наадварот - незамужнія ў авуляцыю галасуюць за кансерватараў, замужнія ў авуляцыю - за лібералаў. Прыдумаць такой якасці “тлумачэнне” - 2 хвіліны: “незамужнія выбіраюць у авуляцыю кансерватараў, бо шукаюць больш маскулінных партнёраў, а замужнія галасуюць за лібералаў, бо цяжар сямейнага быту робіць усялякія ліберальныя каштоўнасці, у тым ліку - вольныя сексуальныя паводзіны, больш прывабнымі”. Ну ці прыдумайце свой варыянт. Прыдумляць іх можна хоць да ночы.

Я гэта да чаго. Ёсць шмат прычын лічыць, што гэтае даследаванне - шум. Калі паварочаць любы шум - па рознаму вызначаць фертыльнае акно, паглядзець не на шлюбы, а на заробак, ці лакацыю і г.д. - шум пачне складацца ў патэрны. Якія патэрны мы б там не пабачылі, мы б заўсёды здолелі прыдумаць ім тлумачэнне.
#belarus #statistics

Прынёс вам малавядомае (як мне падаецца) апытанне беларускай моладзі. Наколькі я ведаю, у яго быў спецыфічны рэкрутынг, могуць быць скосы ў бок моладзі больш актыўнай. Але пачытаць было цікава. Парачка вясёлых фактаў:

• Для прыхільнікаў улады дзеці з’яўляюцца непараўнальна большай каштоўнасцю, чым для праціўнікаў.
• Апазіцыйная моладзь хоча ў Балта-Чарнаморскі Саюз нават больш, чым у ЕС.
Сябар гісторык зрабіў свой першы статыстычны прагноз. У мяне няма да чаго прыдрацца:

• Расейская імперыя была 196 гадоў (ад 1721 да 1917)
• Савок быў 69 гадоў (ад 1922 да 1991), тобок 35% ад тэрміну РІ
• Калі працягнуць трэнд, то пуцінская рашка павінна працягнуць 24 гады (ад 1999 да 2023)

Добрай усім пятніцы, кацяняты
#statistics #everyday

Падзялюся самым нечаканым кавалкам статыстычнай інфармацыі, пра які ведаю. Расцяжка перад фізічнай актыўнасцю не зніжае верагоднасць траўмы.

Звычайна спасылаюцца на 2 паперы. У першай, 2004 году, мета-аналіз 6 эксперыментаў на амерыканскіх футбалістах, вайскоўцах у трэнажорках і г.д. Ніякага эфекту ад расцяжкі.

У другой, 2014, мета-аналіз ужо большы - 25 даследаванняў, 26.610 удзельнікаў, 3.464 траўмы. Тут ужо і баскетбол, і футбол, чаго хош. Сілавыя трэніроўкі дапамагаюць зніжаць траўмы, практыкаванні на баланс і каардынацыю - дапамагаюць, расцяжка - зноў не дапамагае.

Як з гэтым жыць? Даволі проста. Я расцягваюся, бо мне падабаецца расцягвацца. Неверагодна. Расцягвацца таксама карысна, калі хочацца сабе лепшую расцяжку. Таксама неверагодна. Праблемы ўзнікаюць тады, калі па 20 хвілін дрыфтаваць па трэнажорцы на сваім масажным ролеры перад цяжкай станавай, у спадзяванні, што гэта ўратуе вашую спіну.
#statistics #belarus

Чалавек тут паспрабаваў прыкінуць, колькі твітаў па-беларуску публікуецца ў дзень. Атрымалася каля 4.000. Метадалогія апісаная тут.

Колькі твітаў у дзень прыходзіцца на аднаго карыстальніка падлічыць складана, вельмі залежыць ад групы. Ёсць лічба ў 2.6 твітаў на дзень. 4.000/2.6 = 1538 унікальных беларускамоўных карыстальнікаў у дзень.

Пры гэтым, усяго ў краіне каля 147.000 карыстальнікаў твітэра. Гэта тыя, да каго можна дабрацца рэкламай, на думку твітэра. Але колькі ў гэтай лічбе канкрэтна актыўных, колькі піша кожны дзень і г.д. сказаць цяжка.
#belarus

У сувязі з апошнімі навінамі, пакажу вам забаўную статыстыку з далёкага 2012.

Напэўна шмат хто чуў пра тое, што Беларусь некалькі год займала першае месца ў свеце па колькасці шэнгенаў на душу насельніцтва. У першай таблічцы гэта і бачна - гіганцкі адрыў ад суседзяў, да і ўсіх астатніх.

Мала хто ведае, што Беларусь пры гэтым трымала 4 месца ў свеце (з канца) па колькасці адмоваў у візах. Гэта другая табліца. Менш адмаўлялі толькі жыхарам Бахрэйна, Амана і Трынідада і Табага. Я праўда не ведаю, але падазраю, што там проста мала іх выдавалі - аля “залатыя візы” для шэйхаў.

Пры гэтым, большасць адмоваў беларусам была праз недахоп фінансавых сродкаў - 2351 выпадак у 2011. А праз фальшывыя дакументы - 2.

Гэта ўсё зараз не вельмі важна. Але важна ўмець складаць ідэнтычнасць з дробных фактаў. Факт у тым, што беларусы былі самымі цывілізаванымі з т.з. “трэціх краін” - акропалісы не грамілі, дакументы адказна рыхтавалі, арганізаванымі чэргамі вярталіся дадому. Чым, у тым ліку, еўрапейцы актыўна карысталіся ў сваіх эканамічных інтарэсах.
#statistics

Леанардачка наш Дзі Капрыа разышоўся з чарговай 25-гадовай. Чым зрабіў унёсак у маю любімую візуалізацыю (карцінка першая).

Пытанне, якое ўсіх не пакідае - ці сапраўды ён прынцыпова не сустракаецца з жанчынамі, якім за 25. Зараз мы будзем на яго адказваць.

Адказваць будзем просценькай сімуляцыяй. Сфармуем выпадковую выбарку з 8 стартавых узростаў як у ягоных пасій (18 - 25 год), возьмем вось гэтае апытанне, адтуль возьмем 381 пару, якія разышліся, выпадкова возьмем 8 значэнняў працягласці іхніх стасункаў, складзём узросты і працягласці стасункаў. Паўторым мерапрыемства 100.000 разоў і падлічым, у якім працэнце выпадкаў усе стасункі скончыліся, калі пасіям было 25 ці менш.

Гэтая сімуляцыя базуецца на спрошчаных дапушчэннях. Па-першае, што дадзеныя звычайных людзей можна экстрапаляваць на зорак. Па-другое, што працягласць стасункаў не залежыць ад узросту і іншых сацыядэмаграфічных характарыстык. Гетэра і гома, хлопчыкі і дзяўчынкі - усё ў адной кучы. Гэтыя дапушэнні, канешне, занадта простыя. Каму хочацца ўгарэць і ўдасканаліць, вось код сімуляцыі.

Верагоднасць разысціся выпадковым чынам з 8 жанчынамі запар, пакуль ім 25 ці менш, калі ты нармальны чалавек - 3.37%. Верагоднасці для розных узростаў на другім графіку.
#belarus #statistics

Другі дзень крычу з дадзеных пра веру ў астралогію і "іногда не до законов", можаце і вы пакрычаць. Залежнасць знайшла каманда майго сябра, сацыёлага Філіпа Біканава, які нарэшце завёў сабе канал. Там больш падрабязнасцяў.

Добрай усім пятніцы
#belarus #statistics

У Chatham House выйшла чарговая, здаецца 11-ая хваля апытанняў гарадскога насельніцтва Беларусі. Папярэдняя была ў чэрвені.

З цікавага:
• Ваяваць на баку расіі ўсё яшчэ хоча 3%
• Мінімальна падае падтрымка расіі ў вайне супраць Украіны, з 33% да 30%
• Расце колькасць тых, хто расію не падтрымлівае - з 43% да 45%
• Назіраецца падзенне па ўсіх слупах крамлёўскага наратыву: менш людзей верыць, што войска рф не бамбіць мірных жыхароў, менш верыць ва ўдзел беларускай арміі, больш людзей лічаць вайну бессэнсоўнай.

Тэндэнцыі ў правільным кірунку, але не рэвалюцыйныя па памеры. З чым яны звязаныя - сказаць складана. Падазраю, што барацьба з каларадам на свежым паветры і адсутнасць на дачах тэлевізара мае тэрапеўтычны эфект. З іншага боку, апытанне за жнівень і людзі яшчэ навіны пра Ізюм і Балаклею не бачылі.
#statistics #health

Давайце патлумачу, чаму я ігнарую такія даследаванні.

Гэта карэляцыйнае даследаванне (альбо observational study). Усе чулі пра “карэляцыя - не прычынна-следчая сувязь”. Магчыма здаровыя людзі больш схільныя да шпацыраў. Магчыма дысцыплінаваныя людзі а) схільныя да шпацыраў б) у астатнім сочаць за сваім здароўем дысцыплінавана. Ну і г.д.

Окей. Але калі эксперымент мы правесці не можам (ніхто не пагодзіцца хадзіць 5 год па 10.000 крокаў, таму што яму завучкі ў халатах так сказалі), магчыма і ад такіх даследаванняў ёсць карысць?

Я не ўпэўнены. Вы напэўна чулі пра “добры” (HDL) халестэрын. З карэляцыйных даследаванняў мы ведалі, што ён бароніць сэрца. Такіх даследаванняў дзясяткі, калі не сотні. Гэта быў навуковы кансэнсус. Што здарылася пры першых рандамізаваных клінічных эксперыментах? Правільна, мы не знайшлі ніякай сувязі паміж HDL халестэрынам і здароўем сэрца. І такіх прыкладаў шмат. Калі я не магу давяраць вынікам цэлай батарэі карэляцыйных даследаванняў, як я магу давяраць вынікам аднаго? У мяне на гэты конт ёсць больш тэарэтычны артыкул.

Я не хачу сказаць, што фізічная актыўнасць не спрыяе вашаму здароўю. Канешне спрыяе. Мне проста для гэтай высновы не патрэбнае такое даследаванне. У мяне для гэтага ёсць вынікі тысяч эксперыментаў і мудрасць пакаленняў, таксама вядомая як "шо ты ў хаце ўсё сядзіш схадзі на вуліцу пабегай"
У твітэры здарылася чарговая драма. 30 тысяч лайкаў, не жарты. Нехта Махамед адаслаў на пост-док (акадэмічная пазіцыя такая пасля дактарантуры) 200 CV. 100 - як Махамед, а ў 100 - замяніў на “заходняе” імя. У першым выпадку атрымаў 17 адказаў, ніводнага станоўчага, у другім - 87 адказаў, 54 станоўчых.

Выглядае гэта занадта падазрона. І вось чаму.

Расавая дыскрымінацыя пры прыёме на працу існуе. І даследаванняў, у тым ліку з маніпуляцыяй CV, існуе вялікая колькасць. У мета-аналізе існуючай літаратуры па Штатах, белыя кандыдаты атрымліваюць на 36% больш адказаў чым чорныя і на 24% больш, чым лацінасы. У нашага таварыша задыскрымінавалі на 400%. Прычым не тэхаскія шахцёры, а акадэмікі - людзі пераважна ліберальных, левых поглядаў. Пра працэнты станоўчых адказаў я ўжо маўчу.

І справа не ў тым, што гэтыя 400% у некалькі разоў больш, чым ацэнкі з 26 даступных нам эксперыментаў. Справа ў тым, што калі б мы ў нейкай сферы маглі б эксперыментам атрымаць такія вынікі, пра расізм у гэтай сферы ведалі б усе: акадэмікі, вашая бабуля, Грышка Азаронак б пра гэта распавядаў у сваёй перадачы і г.д.

Арыгінальныя твіты па стане на сёння ўжо выдаленыя. Ну, хоць так.
#statistics

Такое не ўсім будзе цікава. Але я фанат інтэрактыўных візуалізацый, а гэтая візуалізацыя - мастацкі твор. Да таго ж, канал называецца лінейная (рэ)грэсія.

Калі вы даўно хацелі зразумець, ці аднавіць веды пра тое, як працуе лінейная рэгрэсія, лепш часу не знайсці. Візуалізацыі іншых канцэптаў у машынным навучанні там таксама ёсць, настолькі ж чароўныя.

https://mlu-explain.github.io/linear-regression/
Пазнаёмлю вас з зоркай OnlyFans, якая цяпер не менш вядомая дата сайнцістка. Ладна, менш - дата сайнс людзей пакуль не настолькі ўзбуджае.

Наколькі я разумею, яна сваімі сіламі праводзіць тыя даследаванні, якія ёй самой цікавыя. Як арыстакраты 19 стагоддзя. У асноўным пра сэкс і наркотыкі. Таксама радуе, што яна з сям’і евангельскіх хрысціян-фундаменталістаў. Класіка.

Апошняе яе даследаванне - пра табу і сэксуальныя фантазіі, з разбіўкай па гендары. Трэнд даволі банальны - чым больш тэма табуяваная, тым менш яна папулярная.

Але ёсць і некалькі анамальна папулярных тэм для свайго ўзроўню табуяванасці - верхні правы вугал. З вясёлага, асіметрычна моцна мужчын узбуджаюць “вельмі нізкія людзі”. А жанчын - пярэварацень.

Вось тут графік у максімальнай рэзалюцыі. Добрых усім выходных!
Screenshot 2022-09-29 at 20.21.56.png
376.3 KB
Зрабіў графік з размеркаваннем літар па пазіцыі ў словах. Дадзеныя - з артыкулаў на беларускай вікіпедыі. Код на гітхабе - тут.
Я не давяраю дадзеным Андрэя Вардамацкага.

Адразу два дысклэймеры: калі б Вардамаці апублікаваў дадзеныя, дзе беларусы былі малайцы, я б гэты пост не напісаў; Я яго асабіста не ведаю, у мяне няма канфлікту інтарэсаў.

Па-першае, ягоныя прэзентацыі дрэнна аформленыя. Гэта тычыцца як стылю, так і больш факталагічных рэчаў - у пытанні пра ўдзел беларускага войска ў вайне дадзеныя за май не б’юцца ў 100%. Калі сумы кшталту 99.9% ці 100.1% тлумачацца памылкай акруглення, 99.6% для трох катэгорый - не.

Чаму я лічу гэта важным? Досвед. Калі я падымаю свой уласны аналіз, які я рабіў у мінулым і бачу, што ён аформлены дрэнна, я апрыёры менш яму давяраю. Бо карэляцыя паміж якасцю афармлення і факталагічнымі памылкамі заўважная. У мяне, у маіх калег майго ўзроўню, у джуноў, у тэставых заданнях пры прыёме на працу, у акадэмічных паперах - паўсюль.

Па-другое, ягоныя дадзеныя не публічныя. Іншыя людзі не могуць знайсці там памылкі. У Chatham House (CH), напрыклад, дадзеныя публічныя.

Канкрэтна гэтыя лічбы дрэнна карэлююць з дадзенымі СН. І гэта мой самы слабы аргумент. Па-першае, СН праводзіла свае апытанні не ў тыя ж даты, што і Вардамацкі. Па-другое, пытанні яны задаюць не ідэнтычныя. Па-трэцяе, у іх прынцыпова розныя выбаркі - тэлефоннікі супраць інтэрнэт-панэляў. У адпаведнасці, мой аналіз будуецца на дапушчэннях, якія я не магу эфектыўна абараніць. Я падзялюся, але ўспрымайце яго з вялікім скепсісам.

Тэзіс Вардамацкага наступны: Якому з бакоў узброенага канфлікту вы больш спачуваеце?» У траўні Украіне спачувалі 50,3% апытаных, а ўжо ў верасні — 33,9%. Расеі ў траўні спачувалі 21,1% рэспандэнтаў, а ў верасні — 32%.

Цяпер параўнаем з дадзенымі СН.

1.  Возьмем пытанне “Как вы в целом относитесь к России?”. Добра ці ў асноўным добра: чэрвень -> жнівень, з 70.9% да 71.2%. Дрэнна ці ў асноўным дрэнна: чэрвень -> жнівень, з 19.7% да 20.7%. Вардамацкі: спачуванне расіі ў канфлікце, май -> верасень, з 21.1% да 32%

2. Возьмем пытанне “Как вы в целом относитесь к Украине?”. Добра ці ў асноўным добра: чэрвень -> жнівень, з 67.3% да 68.3%. Дрэнна ці ў асноўным дрэнна: чэрвень -> жнівень, з 17.8% да 17.5%. Вардамацкі: спачуванне Украіне ў канфлікце, май -> верасень, з 50.3% да 33.9%

Можаце неяк узгадніць у галаве гэтыя дадзеныя? Я не магу. Глянуў яшчэ на два пытанні, а менавіта "Вы поддерживаете или не поддерживаете военные действия российских войск на территории Украины?" і “Что следует сделать Беларуси в контексте военных действий между Россией и Украиной сейчас?”.

Атрымліваецца дзіўна:

СН:
• Украіну любім крыху больш, расію любімы крыху больш, але расію і ненавідзім крыху больш
• Ваенныя дзеянні расіі падтрымліваем крыху менш (-3.3 пп)
• У плане дзеянняў РБ, крыху больш хочам выступаць на баку расіі (+1.8 пп)

Вардамацкі:
• Поўны калапс па ўсіх франтах, розніцы па 10-20 пп

Варыянтаў, як узгадніць гэта паміж сабой, я бачу тры:

1. Гэта непараўнальныя пытанні і перыяды
2. Выбаркі прынцыпова розныя, перасякаюцца слаба
3. У кагосьці з іх - памылкі ў аналізе. Калі ставіць грошы на тое, у каго - у СН ці Вардамацкага, мае грошы на Вардамацкім

P.S. - пакуль пісаў, на Зеркало выйшаў артыкул з такім ж аргументамі
Паразмаўляў з калегам і знаёмымі-сацыёлагамі пра ўчорашняга Вардамацкага. Вырашыў падсумаваць у сціслай форме, каб паставіць акцэнты:

1. Падзенне спачування да Украіны на 16.4 пп за 4 месяцы - гэта вельмі шмат. Не значыць, што такога не можа быць. Значыць, што ступень “сюрпрызнасці” гэтых дадзеных - высокая
2. У дадзеных СН за аналагічны перыяд нічога такога не назіраецца. Я паспрабаваў знайсці ў іхняй прэзентацыі максімальную абсалютную розніцу па ўсіх пытаннях, звязаных з вайной, расіяй і Украінай. За ўсе перыяды яна - 21 пп. Гэта падзенне жадання заставацца ў АДКБ, з 63% у лістападзе 2020 да 42% у чэрвені 2022. Спатрэбілася амаль 2 гады, Казахстан, вайна з Украінай, каб абраніць адказ на пытанне на 21 пп. Калі казаць пра стаўленне да расіі - максімальная розніца была 15 пп - падзенне з лістапада 2021 па красавік 2022
3. Дадзеныя не публічныя. З прыватных размоў я чуў, што Вардамацкі не распавядае, як напрыклад узважаная ягоная выбарка ці нават пра тое, у якія даты яна збіралася. Калі ён не хоча дзяліцца з калегамі, чаму ўсім астатнім яму давяраць?
4. Пра абыякавасць да афармлення і памылкі ў прэзентацыі я ўжо казаў. Памылкі робяць усе. Факт таго, што ў яго сумы ў 100% не б’юцца аўтаматычна не значыць, што ён дадзеныя ад рукі малюе. Проста змяншае давер.
5. Што магло выклікаць такі тэктанічны шыфт з мая па верасень пакуль ніхто не прыдумаў. Прынамсі, з маіх знаёмых

Не бачу сэнсу цалкам адкідаць гэтыя дадзеныя, бачу сэнс надаваць ім самую мінімальную вагу. Прынамсі да лепшага тлумачэння
Як часта даследчыкі нас падманваюць?

Гучыць смешна, але калі іх апытаць ананімна, яны шмат у чым прызнаюцца. Вядома як мінімум 12 такіх апытанняў, з 2012 па 2022 год. У твітэры іх сабралі ў адзін графік. У асноўным псіхолагі, але ёсць і іншыя дысцыпліны. Па маіх прыкідках, сумарна там адказы ~5.000-7.000 навукоўцаў. Будзем глядзець толькі на максімальныя лічбы па кожнай катэгорыі, бо а) мне лянота падлічваць сярэднія б) вядома, што людзі спрабуюць выглядаць лепш, чым яны ёсць нават у ананімных апытаннях.

Як і як часта нам хлусяць даследчыкі:

• Прамая фальсіфікацыя даных, калі яны малююцца ад рукі - 10% даследчыкаў
• Спроба замаскіраваць праблемы з аналізам, якія ставяць пад пытанне высновы аўтараў - 24% даследчыкаў
• Выкіданне даных, якія не падыходзяць пад гіпотэзу - 43% даследчыкаў
• Падгонка пад адказ, калі перабіраюць даныя, знаходзяць патэрн, пастфактум прыдумляюць гіпотэзу, якая б гэты патэрн “тлумачыла”, а потым робяць выгляд, што спачатку прыдумалі гіпотэзу, а потым даказалі яе данымі - 54% даследчыкаў
• Выбарачны рэпорцінг вынікаў, калі паказваюць толькі тое, што падыходзіць пад гіпотэзу аўтараў, а астатні аналіз апускаюць - 64% даследчыкаў

Мой любімы слоган 2020 году: СА-БАЧ-КУ TRUST THE SCIENCE!