Лінейная (аг | рэг) рэсія – Telegram

Лінейная (аг | рэг) рэсія

@linearaggression

1.29K subscribers

85 photos

3 files

140 links

Пра даныя і як іх прыстасаваць да штодзённасці

Мяне можна знайсці

У твітары: https://twitter.com/aliaksandr_k
Англ: https://twitter.com/unfriendlydata
Ці ў тг: @shurackapalieski

Download Telegram

About

Blog

Apps

Platform

Лінейная (аг | рэг) рэсія

1.29K subscribers

Лінейная (аг | рэг) рэсія

Даследчыкі навучыліся з дапамогай LLM (ваш ChatGPT) атрымліваць 95% карэляцыю з этычнымі ацэнкамі, якія ў сярэднім дае чалавек. Шкала наступная: -4 — вельмі неэтычна, 4 — вельмі этычна.

Адказы на пытанні, якія вас даўно хвалявалі, па версіі GPT4:

1. Чалавек спрабуе адчыніць вокны ў маршрутцы бо яму спякотна і не хапае паветра
2. Чалавек спрабуе зачыніць вокны ў маршрутцы каб яго не прадула

0.12 vs -0.12

3. Хлопец прапанаваў заплаціць за каву пасля спаткання з дзяўчынай
4. Хлопец прапанаваў падзяліць рахунак за каву пасля спаткання з дзяўчынай

1.12 vs 0.12

5. Падчас пратэстаў супраць рэпрэсій, людзі залазілі на лавачку ў абутку
6. Падчас пратэстаў супраць рэпрэсій, людзі здымалі абутак перад тым, як залезці на лавачку

-0.76 vs 1.84

7. Чалавек шануе лакальную мову, але размаўляе на мове суседняй імперыялістычнай краіны
8. Чалавек шануе лакальную мову і перайшоў на яе з мовы суседняй імперыялістычнай краіны

0.12 vs 1.52

На выказванні "Чалавек — агентура, але не маргінэз" GPT4 паламаўся і не здолеў даць ацэнку

2.9K views15:51

Лінейная (аг | рэг) рэсія

Вырашыў праверыць, дзе ў нас самая беларусізаваная эміграцыя

1. Даныя па чатах узяў адсюль. Толькі буйныя чаты з 1000+ удзельнікаў
2. У кожным чаце браў паведамленні ад удзельнікаў за сакавік-травень 2023
3. Мову вызначаў праз гэтую бібліятэку. Так, ёсць памылкі
4. Прапорцыя падлічаная ад агульная колькасці паведамленняў за гэты перыяд

Калі я нейкія чацікі ўпусціў, можаце напісаць мне ў каментарыі

*PS - па вертыкалі гэта прапорцыі, тобок 0.2 = 20%

5.4K viewsedited 18:56

Лінейная (аг | рэг) рэсія

Дзе людзі знаходзяць сваё каханне

Даныя па ЗША з 1940 па 2017 год. Цікавыя трэнды:

• 40% пар у 2017 сустрэліся анлайн
• Колькасць людзей якія пачалі сустракацца ў школе ўпала з ~28 да 5%. Думаю, згуляла ролю развіццё кантрацэпцыі і агульны трэнд на больш познія шлюбы. Школьным парачкам цяпер прасцей распадацца
• З 1960-ых па 2000-ыя гэтае падзенне кампенсавалася сустрэчамі ў каледжы. 21 стагоддзе, аднак, каледжы таксама не пашкадавала - падзенне з 10 да 4%
• З 2000-ых пачынаюць падзенне знаёмствы на працы. Магчыма згулялі ролю больш строгія карпаратыўныя палітыкі
• Таксама з 2000-ых пачынаюць упэўнена расці знаёмствы ў барах і рэстарацыях. Я лічу, што значная частка гэтага росту — людзі, якія пазнаёміліся анлайн, але пазначаюць месцы першага спаткання як месцы знаёмства
• Падзенне знаёмстваў праз царкву і сям’ю. Тут таксама ўсё зразумела.

2.7K views13:42

Лінейная (аг | рэг) рэсія

Я ўжо тлумачыў, чаму скептычна стаўлюся да даных Вардамацкага

Адна уласцівасць ягоных даных, якая мяне весяліць — гэта працэнты, якія не б’юцца ў 100% на ступень, якую нельга патлумачыць акругленнем.

Вось і зноў. На гэтым графіку за снежань 2021 былі згубленыя цэлыя 5%. У іншых перыядах сітуацыя часам не меней драматычная.

Гіпотэза, якая можа прыйсці да галавы – ёсць катэгорыя назіранняў, якую дропнулі, забылі паказаць на графіку і не сталі пералічваць працэнты. Чаму гэта малапраўдападобная гіпотэза можна зразумець, уважліва пачытаўшы графік.

Яшчэ раз. Памылкі ў аналізе даных робяць усе, гэта нармальна. Што ненармальна, гэта іхняя колькасць і пастаянства ў прэзентацыях Вардамацкага

2.5K viewsedited 16:21

Лінейная (аг | рэг) рэсія

Дзеля справы развіцця беларускага сегменту тг каналаў,

Дзялюся парачкай калянавуковых, калястатыстычных і адукацыйных каналаў

🔸adu.place

Канал пра адукацыйныя магчымасці для беларускай моладзі

🔸Вось, што я знайшоў у Вікіпэдыі

Канал пра рандомныя цікавыя факты з інтэрнэтаў. У тым ліку пра графікі, графікі я паважаю

🔸Адвечна думка🤔/Adwieczna dumka🤔

Канал аб філасофіі, сацыялогіі і беларускай літаратуры.

🔸Arte et humanitate

Пра выяўленчае мастацтва. Мала чаго ведаю пра мастацтвы, дапамагае мне адчуць сябе не прамым як слуп аналізатараў лічбаў, а чалавекам цывілізаваным, культурным

2.0K views14:11

Лінейная (аг | рэг) рэсія

У беларускай сацыялогіі мяне турбуюць не толькі даныя Вардамацкага.

Вы маглі сустракаць апытанні Chatham House — пра падтрымку вайны ва Ўкраіне і г.д.

Ужо год з іхнімі выбаркамі адбываецца трансфармацыя, а менаівта расце колькасць людзей сталага ўзросту і падае колькасць усіх астатніх. Даволі драматычна — з 14% да 24%. Па іншых сацыя-дэмаграфічных паказчыках назіраецца падобнае, проста не настолькі драматычнае.

Праблема ці гэта? На маю думку — так. У СМІ часта абмяркоўваюць змены ў некалькі працэнтных пунктаў. Калі адказ на пытанне змяніўся на 3 працэнтныя пункты, а колькасць пенсіянераў у выбарцы — на 10, у мяне няма ўпэўненасці, што дынаміка, якую я бачу, не тлумачыцца (няхай і часткова) дэмаграфічнай трансфармацыяй іхніх выбарак. Так, даныя ў іх пераўзважаныя, каб быць больш падобнымі на дэмаграфію краіны. Але можна і выбарку ў 90% пенсіянераў пераўзважыць, было б жаданне. Фундаментальную праблему гэта не вырашае.

Тым не меней, яны вялікія малайцы, што выкладаюць свае данныя ў публічны доступ. У адрозненні ад іншых нашых сацыяльных вучоных.

Код для пабудовы графіка — тут.

2.2K viewsedited 18:13

Лінейная (аг | рэг) рэсія

Працягваю сачыць за прыгодамі даных Вардамацага. Бачу, што паспрабавалі выправіць. Бачу, што не атрымалася.

Вырашыў дапамагчы рабятам, інакш гэта доўга будзе цягнуцца. Калі ў каго-небудзь ёсць знаёмыя ў "Беларускай аналітычнай майстэрні" — перадайце, калі ласка

2.2K views17:32

Лінейная (аг | рэг) рэсія

Як мянялася псіхалагічнае здароўе старшакласнікаў у залежнасці ад палітычнай арыентацыі

Гісторыя даволі простая: прыкладна да 2010-ых ліберальныя школьнікі і школьнікі кансерватыўныя адчувалі сябе аднолькава. А пасля 2010, у ліберальных старшакласнікаў пачынаюцца заўважныя праблемы з менталачкай.

Ну напрыклад: у 2000 годзе, прыкладна 20% усіх школьнікаў лічылі, што жыццё бессэнсоўнае. У 2020 годзе, кансерватыўныя старшакласнікі засталіся на 20%, а ліберальныя дабраліся да 40%. Аналагічна па амаль усіх пытаннях.

Чаму менавіта 2010? Цяжка сказаць. Напрыклад, гэта перыяд масавага выбуху сацыяльных сетак і смартфонаў.

У мяне заняло пэўны час знайсці, адкуль гэтыя даныя. Я на 80% упэўнены, што адсюль

2.1K viewsedited 11:29

Лінейная (аг | рэг) рэсія

Адна з маіх любіх гісторый пра паводзіны людзей і статыстыку —яна пра рост мужчын на сайтах і прыладах для знаёмстваў.

Чытаем першы графік: у Bumble мужчыны з ростам 6 футаў (~183 см) трапляюць у дыяпазон пошуку ~60% жанчын. А вось мужчыны на прыступку ніжэй, 5'11 (гэта на ~2.5 см менш) — ужо толькі 30%. Аналагічна, толькі ў іншы бок, пры пераходзе ад 6'11 да 7.

Чытаем другі графік: рост, які пазначаюць самі мужчыны (блакітная плошча) супраць рэальнага размеркавання росту мужчын (чырвоная лінія). Тое, што пазначаны рост заўважна вышэй сярэдняга па краіне гэта ладна — мабыць анлайн-дэйтынгам займаюцца больш высокія мужчыны. Што забаўна, гэта правал у ростах, які пачынаецца пасля 5'9 (~175 см) і скончваецца пікам роўна на 6 футах.

Як кажуць эканамісты: попыт, прапанова і асіметрыя інфармацыі.

Таксама рэкамендаваў б амерыканскім мужчынам крыху ніжэй 6 футаў пераязджаць у краіны з метрычнай сістэмай — упэўнены, што там пералом прыходзіцца на 180 санціметраў. Прыгожыя лікі — гэта важна.

2.1K views11:13

Лінейная (аг | рэг) рэсія

Паўтары гады таму я вам распавядаў, як зорка Ted Talks фальсіфікаваў даныя сваіх эксперыментаў. Але гісторыя робіцца яшчэ лепш.

У паперы, пра якую ідзе размова, насамрэч некалькі эксперыментаў. З рознымі аўтарамі. І вось ускрылася, што ў адным з эксперыментаў, які быў праведзены іншай аўтаркай, таксама фальсіфікавалі даныя.

Яшчэ раз: у адной і той жа навуковай паперы, якая аналізуе несумленнасць, ёсць некалькі незалежных эксперыментаў, у кожным з якіх фальсіфікавалі даныя.

На гэтым смешнае не заканчваецца. Злавілі прафесарку Гарварда за руку роўна такім ж чынам, як папярэдняга фальсіфікатара — праз аналіз даных у эксэль-файлах. З іх бачна, што яна рукамі дадала туды новых удзельнікаў і змяніла ім значэнні пераменных так, каб атрымаць вынікі на карысць сваёй гіпотэзы.

Робіцца ці гэтая гісторыя яшчэ лепш? Канешне. Яна вырашыла падаць на рабят, якія выкрылі фальсіфікацыю, у суд. Сума пытання — 25 мільёнаў. Я пагартаў па дыяганалі пазоў і адна з яе асноўных прэтэнзій у тым, што рабяты, якія выкрылі фальсіфікацыі — мужчыны. Каб не было адчування, што я жартую, я прымацаваў скрыншот.

А некаторыя яшчэ лічаць, што акадэмія — гэта нудна.

1.8K viewsedited 09:10

Лінейная (аг | рэг) рэсія

Мой любімы аргумент у калянавуковых дэбатах — “гэта не можа быць праўдай таму што не можа быць праўдай”.

Гучыць не вельмі акадэмічна, га? Сачыце за рукамі. У 2011 годзе была апублікаваная папера пра суддзяў і ўмоўна-датэрміновае вызваленне з турмаў. Апынулася, што напачатку працы яны выносяць станоўчыя вердыкты ў 65% выпадкаў. А перад самым абедам — толькі ў 5%! А пасля абеду зноў вяртаюцца роўна на 65%! Гіпотэза, якую прыдумалі аўтары, прыгожая ў сваёй банальнасці: суддзі проста галодныя перад абедам. Галодныя і злыя.

На аўтараў адразу накінуліся крытыкі. Нехта рабіў сімуляцыі, нехта шукаў памылкі ў аналізе, нехта рабіў свой. Памылкі знайшлі, альтэрнатыўныя тлумачэнні прыдумалі, усё як мае быць. Але больш за ўсё мне спадабалася лінія разважання Daniel Lakens:

• Падзенне з 65 да 5% — гіганцкае, 13-кратнае
• Памер гэтага эфекту, у стандартызаваных статыстычных адзінках, амаль роўны розніцы паміж ростам мужчын і жанчын
• Калі вы запытаецеся ў сваёй бабулі хто вышэйшы — мужчыны ці жанчыны, бабуля будзе ведаць адказ
• Таму, такі моцны эфект могуць мець толькі трывіяльныя факты: факты, пра якія мы не толькі ў курсе, а вакол якіх пабудаванае нашае грамадства
• А раз пра галодных суддзяў (і спецыялістаў іншых прафесій) бабуля не ў курсе, эфект не можа быць настолькі вялікім

Падзенне ўсё яшчэ можа прысутнічаць, натуральна. Проста не да 5%, скажам, а да 55%. Гэта ўсё яшчэ цікава, проста мае іншыя практычныя наступствы.

1.7K views09:03

Лінейная (аг | рэг) рэсія

Добрай раніцы

Народ у Аўстраліі хацеў змагацца з падлеткавай цяжарнасцю. Школьніц з 57 школ рандамізавалі ў кантрольную і эксперыментальную групу, эксперыментальную запісалі на "віртуальны сімулятар немаўля" — камп’ютарную праграму, якая знаёміць школьніц з цяжарам мацярынства. І сачылі за імі да 20 год.

Праграма не проста не спрацавала. Праграма спрацавала наадварот: у эксперыментальнай групе нарадзілася на 77% больш дзяцей.

У твітэры народ угарае, што можна раскаціць праграму на ўсе школы і перамагчы дэмаграфічны крызіс. Графік адтуль ж.

2.2K viewsedited 07:26

Лінейная (аг | рэг) рэсія

Ці сварыліся з вамі праз тое, што вы хутка крочыце? Ці выказвалі вам прэтэнзіі за зруйнаваны шпацыр? Узрадуйцеся.

Хуткасць карэлюе з IQ. Тыя, хто крочыць хутчэй усіх разумнейшыя за тых, хто ледзь пляцецца. На 16 балаў. 16 — гэта даволі шмат, больш за стандартную дэвіяцыю.

Таксама, ваш IQ ва ўзросце 3 год карэлюе з тым, як хутка вы будзеце хадзіць у 45 год. Чым больш — тым хутчэй.

Выбарка са 938 чалавек, з Новай Зеландыі, за якімі сачылі ад нараджэння да 45 год.

Association of Neurocognitive and Physical Function With Gait Speed in Midlife

This 5-decade cohort study of a New Zealand population examines whether slow gait speed in middle age is associated with accelerated biological aging, as well as poor neurocognitive functioning in childhood and cognitive decline from childhood to middle age.

2.1K views13:05

Лінейная (аг | рэг) рэсія

https://t.me/balzam1906/2578

Тэкст: "Вучоныя сцвярджаюць, што дастаткова ўсяго 2337 крокаў у дзень, каб знізіць рызыку смерці ад сардэчна-сасудзістых захворванняў"

Рэальнасць:
1. Аўтары мета-аналізу пабілі колькасць крокаў на 4 кварцілі
2. Узялі самы ніжні, 2337 крокаў, і адносна яго разлічылі зніжэнне рызыкі супраць 3982, 6661 і 10143 крокаў
3. Гэта зроблена проста для зручнасці
3. З гэтага ніяк не выцякае, што 2337 крокаў у дзень дастаткова. "Дастаткова" тут увогуле неасэнсаваная катэгорыя
4. Што відавочна з графіку з гэтага ж даследавання — там і 100 крокаў "дастаткова", каб знізіць рызыку (адносна 0 крокаў)

Вучоныя абвяргаюць многія правілы здаровага ладу жыцця, якія здаваліся аксіёмамі

Новыя даследаванні сведчаць аб тым, што для прафілактыкі захворванняў не трэба піць 2 літры вады ці рабіць 10 тысяч крокаў. Усё нашмат прасцей.

Сабралі для вас вынікі.

2.1K views09:37

Лінейная (аг | рэг) рэсія

Рабяты паспрабавалі разабрацца, чаму мадэлі GPT не ўмеюць у арыфметыку. Аргумент добра вядомы: гэта хутчэй запамінанне, чым шматкрокавае кампазіцыйнае разважанне.

Эмпірычныя аргументы такія:

• Калі перамнажаць двузначныя лікі, 99% адказаў правільныя. 0% адказаў правільныя, калі перамнажаць пяцізначныя лікі (гл. скрыншот). Што ў некаторай ступені карэлюе з чаканай колькасцю прыкладаў у Інтэрнэце.
• Калі папрасіць патлумачыць, як нейронка прыйшла да адказу, атрымліваецца наступнае: 82.3 % правільных адказаў мелі прынамсі адну памылку ў пакрокавых развагах, што не перашкодзіла даць правільны адказ. Таму што прыкладаў канчатковых адказаў значна больш, чым прыкладаў пакрокавых падлікаў.

1.7K views10:21

Лінейная (аг | рэг) рэсія

8 год таму быў апублікаваны гэты легендарны графік. Ён пра так званы крызіс рэплікацыі. Зараз я вам пра яго распавяду, каб вы маглі шчагаляць гэтымі ведамі перад сябрамі, у твітэры і ў іншых лёсавызначальных сітуацыях

Што прыдумалі:
• Узялі 100 эксперыментаў з вядучых навуковых часопісаў па псіхалогіі
• І рэплікавалі іх: тобок паўтарылі эксперымент, але набралі ў яго больш людзей
• І паглядзелі, наколькі атрымліваецца арыгінальныя вынікі паўтарыць

Што пабачылі:
• У сярэднім, рэплікаваны эфект у два разы менш, чым арыгінальны. Тобок, калі сцвярджалася, што медытацыя зніжае стрэс у 60% выпадках, трэба чакаць эфекту толькі ў 30%
• Самая горшая сітуацыя ў сацыяльнай псіхалогіі — даследаваннях пра стэрыятыпы, рамантычныя стасункі, групавы статус і г.д. Там рэплікаваны эфект у 3 разы менш, чым арыгінальны
• Прыкладна 15% эфектаў былі ў супрацьлеглым накірунку ад арыгінальнага, як б калі медытацыя павялічвала стрэс
• Суб'ектыўная ацэнка важнасці эксперыментаў, а таксама вопытнасці і прафесіяналізму эксперыментатараў не карэлюе з паспяховасцю рэплікацый
• Што карэлюе, дык гэта сюрпрызнасць арыгінальных высноваў — чым больш яны сюрпрызныя, тым менш шанцаў на паспяховую рэплікацыю

Як чытаць графік:
• Па гарызанталі арыгінальны эфект, па вертыкалі — з рэплікацый. Калі кропка ляжыць на дыяганалі, значыцца памеры эфекту ідэнтычныя і ў арыгінале і ў рэплікацыі. Калі ніжэй дыяганалі — у арыгінале эфект быў больш і наадварот. Калі ніжэй за гарызантальную лінію — эфекты ў розных накірунках.

2.2K viewsedited 09:13

Лінейная (аг | рэг) рэсія

Натыкнуўся на цікавы трэд аб тым, як з дапамогай эканамічных мадэляў спрабуюць адшукаць згубленыя старажытныя гарады

Логіка наступная:
• Узялі 12.000 запісаў асірыйскіх купцоў: каму, адкуль, чаго і колькі прадалі-купілі. Размова пра бронзавы век
• Пабудавалі гравітацыйную мадэль, якую выкарыстоўваюць сучасныя эканамісты. Ідэя ў тым, што аб'ём гандлю вызначаецца памерам эканомік і фізічнай дыстанцыяй
• Пратэставалі гэтую радасць наступным чынам: па чарзе "гублялі" кожны з 15 вядомых старажытных гарадоў і рэканструявалі лакацыю з дапамогай мадэлі. Атрымалася сярэдняя памылка ў 40 кіламетраў
• Для гарадоў, якія сустракаюцца ў запісах, але якія зажаваў ход гісторыі, зрабілі гэтай мадэллю прадказанні
• Я не спецыяліст у археалогіі, але падаецца, што 40 км — гэта ўсё яшчэ шмат. Аўтары абяцаюць кааперыравацца з гісторыкамі і шукаць

Арыгінальная папера

2.7K views15:27

Лінейная (аг | рэг) рэсія

Пытанне: Салі (дзяўчынка) мае 3 братоў. У кожнага брата па 2 сястры. Колькі сясцёр у Салі?

У арыгінале: Sally (a girl) has 3 brothers. Each brother has 2 sisters. How many sisters does Sally have?

Адказваюць 60 вялікіх моўных мадэялў, у тым ліку GPT4, Palm2 і іншыя state-of-the-art мадэлі.

Вынікі? Ніводнага правільнага адказу з 60

AI ! AI ! AI !

https://benchmarks.llmonitor.com/sally

Asking models: Sally (a girl) has 3 brothers. Each brother has 2 sisters. How many sisters does Sally have?

2.6K views14:36

Лінейная (аг | рэг) рэсія

Прыветы

У мяне выйшаў артыкул на дэвбай пра тое, як укаціцца ў аналіз даных. Там мае парады рознай ступені карыснасці і шмат карысных матэрыялаў. Спадзяюся, каму-небудзь з вас дапаможа

https://devby.io/blogs/posts/data-analysis

Як самастойна вывучыць аналіз дадзеных? Парады ад Lead Data Scientist

Дата-аналітыкі — адныя з найбольш запатрабаваных ІТ-спецыялістаў цяпер. Як увайсці ў прафесію? Распавяду пра свой досвед, падзялюся карыснымі рэсурсамі для самастойнага вывучэння і як паспяхова прайсці інтэрв’ю на першую працу.

3.0K views14:51