Лінейная (аг | рэг) рэсія
1.29K subscribers
85 photos
3 files
140 links
Пра даныя і як іх прыстасаваць да штодзённасці

Мяне можна знайсці

У твітары: https://twitter.com/aliaksandr_k
Англ: https://twitter.com/unfriendlydata
Ці ў тг: @shurackapalieski
Download Telegram
Студзень - час актывізацыі пралескаў у трэнажорках, тобок нас з вамі. Таму, паразмаўляем пра бялкі і як іх есці, каб раслі мышцы. Вакол тэмы шмат міфаў і гарадскіх легенд, будзем разбірацца разам.

Самы вялікі мета-аналіз, які я знайшоў, сцвярджае, што ўплыў спажывання бялку на павелічэнне мышачнай масы памяншаецца пасля таго, як спажыванне перавышае 1.3 г/кг масы цела/суткі. Карысць усё роўна ёсць, проста не такая моцная. Самы вялікі эфект людзі назіраюць пры пераходзе з ~0.5 г/кг на 1 г/кг.

У гэтым аглядзе сцвярджаецца, што асаблівай розніцы, калі пхаць у сябе бялок, няма - перад трэніроўкай, гадзіну пасля, ці дзве гадзіны пасля. Прынамсі, калі мы глядзім на рост мышцаў на дыстанцыі, скажам у 10 тыдняў (адно з даследаванняў у аглядзе).

Як дадатковы аргумент можна спаслацца на гэтае даследаванне. Адна група спажывала бялок роўнымі порцыямі ўвесь дзень, другая - 66% з яго за вячэрай. У ім усяго 14 чалавек, я стараюся такія даследаванні ў канал не цягаць. Але яны набралі выбарку падобных людзей, сачылі за імі 8 тыдняў і не знайшлі розніцы. Можам сысціся на тым, што ў даследаванні на 14 чалавек розніцу разглядзець не атрымалася. Агулам, у суседніх даследаваннях вынікі падобныя.

Высновы я зрабіў наступныя. Варта імкнуцца да ~1.3 г/кг бялку. Не атрымалася - нічога страшнага. Аблівацца пратэінавым шэйкам прама ў распранальні трэнажоркі не варта. Агулам, якасная, збалансаваная дыета і задавальненне ад жыцця - больш важна, чым дакладны таймінгі ці грамы. Калі толькі вы не прафесійны атлет, ці 40-гадовы мужык, які спрабуе сваёй новай фітнэс-ідэнтычнасцю закрыць экзістэнцыяльную дзірку ў сэрцы.
Пабачыў цікавы твітэр-трэд. Ён пра даследаванне 186 амерыканскіх блізнятак і тое, наколькі старымі яны выглядаюць па ацэнках іншых людзей. Раз блізняты аднаяйкавыя, генетычныя фактары выключаныя - застаецца толькі лайфстайл: кураць ці яны, як моцна п’юць, ці чытаюць беларускія навіны і іншыя рэчы, якія могуць састарыць чалавека.

Мяне зацікавіла курэнне. Атрымліваецца, што 10 год актыўнага курэння дакідваюць +2.5 гады. Не выглядае, як шмат. Але гэта самы моцны, самы статыстычна значны чыннік. Астатнія чыннік - колькасць сонца, алкаголь, індэкс масы цела - паўплываюць яшчэ менш.

Я пачаў шукаць падобныя даследаванні. Але ва ўсіх, што знайшоў, гісторыя распавядаецца такая ж: як толькі мы кантралюем генетычныя фактары, фактары паводзінаў не драматычна паўплываюць на тое, як мы выглядаем.

Паглядзім на падобнае даследаванне на блізнятах з Даніі. Нас цікавіць максімальная розніца ў ацэнках узросту паміж 52 парамі аднаяйкавых блізнятаў. Максімальная розніца была 5 год: адна жанчына 68 год выглядала на 63, як блізнятка - роўна на свае 68. Агулам аўтары сцвярджаюць, што тое, наколькі вы выглядаеце, на 61% абумоўлена генетыкай.

У наступным даследаванні людзі спрабавалі адгадаць узрост 173 белых жанчын. Рэальны сярэдні ўзрост быў 45.9, адгаданы - 44.9. Жанчыны выглядалі ў сярэднім на год маладзейшымі, тобок. Самая вялікая розніца паміж рэальным і адгаданым сярэднім узростам, якую я тут знайшоў - каля 10-12 год. У ацэнках людзей да 35 памыляюцца ў сярэднім на 5 год, у ацэнках людзей 35-50 год - на 6.6, за 50 - на 6.8 год.

Высновы: калі давяраць гэтым даным, то ў сярэднім у ацэнцы вашага ўзросту пасля 50 будуць памыляцца на 6.8 год - у 55 могуць даць 48, могуць - 62. Пры гэтым, 61% гэтай памылкі абумоўлены вашай генетыкай. Калі б вы жылі ў Даніі і ў вас была б аднаяйкавая блізнятка, у вас было б вельмі мала шанцаў ва ўзросце 68 год выглядаць на >5 год маладзейшай за яе.
Раз мы на хвалі хайпу да нейронак, GPT-3, ChatGPT і г.д., давайце распавяду пра нашага суайчынніка, без якога ўся гэтая гісторыя не здарылася б.

Завуць яго Дзмітрый Багданаў, ён з Гомеля і прыдумаў механізм “attention” альбо “увагі”. Вось ягоны артыкул, які працытаваны 27.000 разоў, вось ягонае інтэрв’ю.

Паспрабую проста патлумачыць, што канкрэтна ён прыдумаў. Пабудаваць нейронку, якая будзе генерыраваць тэкст, не складана: даем ёй уводныя даныя з N сімвалаў і просім прадказаць N+1 сімвал. Вось як выглядае тэкст, згенерыраваны такой нейронкай, навучанай на тэкстах Караткевіча:

"а майка цяліцыга не было можа таком да выкрывага да стаў на ног, сяброў у такой стале па думкі і далёкага на караской адразу пад яго да стаялола страшны адна з нашкат.”

Нешта ёсць, але слабенька. Можна лепш – скарміць ёй больш тэкстаў, даўжэй яе трэніраваць – але інтуітыўна зразумела, што вучыцца прадказваць наступны сімвал – гэта занадта нізкі ўзровень абстракцыі і таму неэфектыўны.

Далей народ спрабаваў прадказваць цэлыя словы. Працавала лепш, але не ідэальна. Праблема тут у тым, што сэнс пэўнага слова можа залежыць не ад папярэдняга слова, а ад слова напачатку сказа ці ўвогуле ў іншым сказе. А вучацца яны ўсё роўна крок за крокам, слова за словам.

Дзмітрый прыдумаў, як гэта абыйсці і даць магчымасць нейронкам вывучваць складныя сэнсавыя залежнасць у тэкстах. Назваў ён гэта “механізмам увагі” - кажучы проста, гэта матэматычны апарат, які дазваляе нейронцы аналізаваць словы ў камбінацыі з іншымі словамі ў тэксце, групамі. Звяртаць увагу на кантэкст і ігнараваць тыя часткі тэксту, якія для кантэксту няважныя.

Уявіце пераклад сказу:

Ты мая рыбка, ты мая пцічка, раньшэ работала в школе цехничкай

Пры перакладзе слова “рыбка”, на слова “работала” такая нейронка зверне больш увагі, а слова “раньшэ” праігнаруе, бо слова “работала” дае дадатковы кантэкст - размова пра асобу жаночага роду.

Бонус такога падыходу яшчэ і ў тым, што нейронку не трэба вучыць крок за крокам, можна гэта рабіць у паралелі, што і дазволіла скарміць тэрабайты тэкстаў у GPT-3, пра які мы чуем з кожнага праса апошнія месяцы
Апошні тыдзень шмат хто абмяркоўвае гэты графік: залежнасць заробку ад кагнітыўных здольнасцяў. Вось артыкул, вось абмеркаванне ў твітэры.

Гэта даныя са Швецыі. Даныя для шведскіх мужчын, якія праходзілі абавязковую службу ў арміі. Перад пачаткам службы шведы здаюць тэст на кагнітыўныя здольнасці, падобны на тэст IQ. Далей, з дапамогай шведскай падатковай, былі ўзятыя даныя па заробку гэтых мужчын, калі ім было ўжо 35-45 год. За гэты 11-гадовы перыяд браўся сярэдні заробак. Выбарка атрымалася ў 59.387 чалавек. Далей, канкрэтна на гэтым графіку ўсіх разбілі на працэнты. У адпаведнасці, у кожным перцэнтылі каля 540 чалавек - выбарка салідная.

Першы факт, які кідаецца ў вочы, гэта тое, наколькі залежнасць манатонная ад ніжніх ~20% да верхніх 10% па заробку. Папросту, чым лепей ты здаў кагнітыўны тэст у 18-19 год, тым больш у цябе заробак цягам 35-45 год.

Другі факт, які кідаецца ў вочы, гэта тое, што пасля верхніх 10% па заробку, гэта ў раёне 60.000 еўра гадавых, кагнітыўныя здольнасці перастаюць гуляць ролю: бачна пэўнае плато і нават падзенне ў апошніх перцэнтылях. Але ўсё адно, гэтае плато знаходзіцца высока на шкале кагнітыўных здольнасцяў.
Бег працуе ў два разы лепш, чым антыдэпрэсанты (мабыць)

Такую выснову можна зрабіць, прачытаўшы новы мета-аналіз пра фізічныя нагрузкі і дэпрэсію. Але не ўсё настолькі проста. Давайце разбірацца.

Нагадаю, мета-аналіз – гэта калі бяруць розныя эксперыменты на адну тэму і спрабуюць іх падсумаваць. Пра антыдэпрэсанты мета-аналізаў таксама хапае, таму можна іх параўнаць з фізічнымі нагрузкамі.

Пра антыдэпрэсанты я ўжо распавядаў тут. Калі ў вас, напрыклад, 25 з 52 балаў па шкале дэпрэсіі Гамільтана, антыдэпрэсанты ў сярэднім дапамогуць вам на 12 балаў - тобок апусціцца з 25 да 13. А плацэба - на 10 балаў. Карацей кажучы, антыдэпрэсанты працуюць на 2-3 балы лепш, чым плацэба. А вось у фізічных практыкаванняў перавага над кантрольнай групай у 4.7 балы. Лепш, чым у антыдэпрэсантаў.

Праблема ў тым, што ў эксперыментах пра антыдэпрэсанты банальна больш людзей. У 10 разоў, у сярэднім, чым у эксперыментах пра фізічныя нагрузкі. Да таго ж, як правіла ў эксперыментах з антыдэпрэсантамі кантрольнай групе даюць плацэба. А вось з фізічнымі нагрузкамі плацэба асабліва не прыдумаеш. У некаторых з гэтых эксперыментаў кантрольная група нічога ўвогуле не рабіла - сядзела дома. Таму, эксперыменты пра антыдэпрэсанты лепшай якасці.

Што мы маем па выніку: калі глядзець на голыя лічбы, фізічныя практыкаванні працуюць у 2 разы “лепш”, чым антыдэпрэсанты. Але гэта даследаванні горшай якасці, чым пра антыдэпрэсанты.

Яшчэ парачку цікавых фактаў:

— Групавыя трэніроўкі зніжаюць дэпрэсію больш, чым індывідуальныя
— З трэнерам - больш, чым самастойныя
— Бег - больш, чым сілавыя
Заробак амерыканцаў у залежнасці ад паходжання продкаў. Звярніце ўвагу на самае верхняе значэнне

Як спявалі РСП: "Еду я на ровары, а ў кармане долары"
Пакуль мы гуляемся з ChatGPT, рабяты вучаць нейрасетку чытаць думкі.

Ідэя, калі тлумачыць проста: бяром парачку чалавек, паказваем ім 10.000 карцінак, даныя мазгавой актыўнасці збіраем праз фМРТ. Далей на ўваход нейронкі падаем даныя фМРТ, а ў якасці значэнняў, якія трэба прадказаць - карцінкі і вывучваем сувязі.

Пасля таго, як мадэль навучылі, удзельнікам эксперыменту паказваем 982 карцінкі, а мадэллю карыстаемся ў якасці “дэкодара” даных з фМРТ. Прыклады на скрыншоце: першая калонка - арыгінальныя карцінкі, усе наступныя - рэканструкцыя з фМРТ для чатырох удзельнікаў даследавання.

Да паперы пакуль ёсць пэўныя метадалагічныя пытанні, але выглядае забаўна.
А як вы карыстаецеся нейрасеткамі?

Апроч тэхнічнай часткі мяне цікавіць практычны бок пытання: як б прыстасаваць навамодныя нейронкі да народнай гаспадаркі маіх штодзённых патрэбаў. Падзялюся прыкладамі

Я вучу Midjourney генерыраваць мне дызайны інтэр'ераў. Ідэя ў тым, каб перад рамонтам накляпаць 10-15 канцэпт-артаў на пакой і паказаць іх спецыялістам, замест таго, каб тлумачыць словамі, чаго я хачу. На карцінках два прыклады. Першы промпт: “прасторная сталовая ў стылі Праванс у блакітных колерах”. Другі: “спальня, хайтэк, мінімалізм, чорна-бела-шэрыя колеры”

Таксама спрабую навучыць яе маляваць татуіроўкі. Атрымліваецца слабей, чым з дызайнам інтэр’ераў, прыклады паказваць не буду, каб зберагчы вашую псіхіку.

Карыстаюся ChatGPT для таго, каб правіць свае тэксты англійскай. Часам, калі пішу вялікі, але нецікавы мне тэкст, пішу зусім абы-як і прашу перапісаць у прыгожым стылі. Перажываю, што аблянуюся і развучуся пісаць, але такая цана прагрэсу.

Ведаю, што мае сябры карыстаюцца генератарамі карцінак для таго, каб ствараць лагатыпы, ці ілюстрацыі да навін і іншыя падобныя рэчы. Выглядае зручна.

Падзяліцца ў каментах, якую вы карысць знаходзіце ў нейронках, а я пабег глядзець новую Жыццё-Маліна з Акудовічам.
Гуляўся ўвесь вечар з GPT-4:

1. Усё яшчэ блытае крыху з украінскай, блытае склоны і стварае англіцызмы.
2. Але агулам разумее беларускую куды лепш, чым GPT-3.
3. Лічыць беларусаў непахіснымі аптымістамі.
Не паспеў выйсці GPT-4, як выйшла 5 версія Midjourney. Ну штош:

1. Канстанцін Астрожскі
2. Стэфан Баторый
3. Эмілія Плятэр
4. Бона Сфорца

(Усё з партрэтаў, даступных у гугле)
Забаўны аналіз эфекту латарэй. Выйграць можна розныя сумы, аналіз прывязаны да ~140.000$ для зручнасці. Даныя са Швецыі.

Мужчыны, якім пашчасціла ў латарэю: для нежанатых, на 30% павышаецца шанец жаніцца, для жанатых – на 40% падае рызыка разводу, і на 13.5% павялічваецца колькасць дзяцей.

Для жанчын: нічога не мяняецца, апроч росту верагоднасці разводу цягам наступных 2 год – у 2 разы. Але на разводы цягам 10 год эфекту няма. Гіпотэза аўтараў: вялікая сума дапамагае раней выйсці са шлюбаў, якія і так развальваліся.
Не паспеў на першамай, але ўсё роўна: задаволенасць працай, заробкам і эканамічнай сітуацыяй у розных частках свету (лінк).

Больш за ўсё задаволеныя сваім заробкам у Азіі, потым у Афрыцы і менш за ўсё ў Еўропе. Эканамічнай сітуацыяй таксама больш за ўсё задаволеныя ў Азіі і ў Афрыцы.

Не дай бог вам жыць і працаваць у Еўропе, карацей.
Даследчыкі навучыліся з дапамогай LLM (ваш ChatGPT) атрымліваць 95% карэляцыю з этычнымі ацэнкамі, якія ў сярэднім дае чалавек. Шкала наступная: -4 — вельмі неэтычна, 4 — вельмі этычна.

Адказы на пытанні, якія вас даўно хвалявалі, па версіі GPT4:

1. Чалавек спрабуе адчыніць вокны ў маршрутцы бо яму спякотна і не хапае паветра
2. Чалавек спрабуе зачыніць вокны ў маршрутцы каб яго не прадула

0.12 vs -0.12

3. Хлопец прапанаваў заплаціць за каву пасля спаткання з дзяўчынай
4. Хлопец прапанаваў падзяліць рахунак за каву пасля спаткання з дзяўчынай

1.12 vs 0.12

5. Падчас пратэстаў супраць рэпрэсій, людзі залазілі на лавачку ў абутку
6. Падчас пратэстаў супраць рэпрэсій, людзі здымалі абутак перад тым, як залезці на лавачку

-0.76 vs 1.84

7. Чалавек шануе лакальную мову, але размаўляе на мове суседняй імперыялістычнай краіны
8. Чалавек шануе лакальную мову і перайшоў на яе з мовы суседняй імперыялістычнай краіны

0.12 vs 1.52

На выказванні "Чалавек — агентура, але не маргінэз" GPT4 паламаўся і не здолеў даць ацэнку
Вырашыў праверыць, дзе ў нас самая беларусізаваная эміграцыя

1. Даныя па чатах узяў адсюль. Толькі буйныя чаты з 1000+ удзельнікаў
2. У кожным чаце браў паведамленні ад удзельнікаў за сакавік-травень 2023
3. Мову вызначаў праз гэтую бібліятэку. Так, ёсць памылкі
4. Прапорцыя падлічаная ад агульная колькасці паведамленняў за гэты перыяд

Калі я нейкія чацікі ўпусціў, можаце напісаць мне ў каментарыі

*PS - па вертыкалі гэта прапорцыі, тобок 0.2 = 20%
Дзе людзі знаходзяць сваё каханне

Даныя па ЗША з 1940 па 2017 год. Цікавыя трэнды:

• 40% пар у 2017 сустрэліся анлайн
• Колькасць людзей якія пачалі сустракацца ў школе ўпала з ~28 да 5%. Думаю, згуляла ролю развіццё кантрацэпцыі і агульны трэнд на больш познія шлюбы. Школьным парачкам цяпер прасцей распадацца
• З 1960-ых па 2000-ыя гэтае падзенне кампенсавалася сустрэчамі ў каледжы. 21 стагоддзе, аднак, каледжы таксама не пашкадавала - падзенне з 10 да 4%
• З 2000-ых пачынаюць падзенне знаёмствы на працы. Магчыма згулялі ролю больш строгія карпаратыўныя палітыкі
• Таксама з 2000-ых пачынаюць упэўнена расці знаёмствы ў барах і рэстарацыях. Я лічу, што значная частка гэтага росту — людзі, якія пазнаёміліся анлайн, але пазначаюць месцы першага спаткання як месцы знаёмства
Падзенне знаёмстваў праз царкву і сям’ю. Тут таксама ўсё зразумела.
Я ўжо тлумачыў, чаму скептычна стаўлюся да даных Вардамацкага

Адна уласцівасць ягоных даных, якая мяне весяліць — гэта працэнты, якія не б’юцца ў 100% на ступень, якую нельга патлумачыць акругленнем.

Вось і зноў. На гэтым графіку за снежань 2021 былі згубленыя цэлыя 5%. У іншых перыядах сітуацыя часам не меней драматычная.

Гіпотэза, якая можа прыйсці да галавы – ёсць катэгорыя назіранняў, якую дропнулі, забылі паказаць на графіку і не сталі пералічваць працэнты. Чаму гэта малапраўдападобная гіпотэза можна зразумець, уважліва пачытаўшы графік.

Яшчэ раз. Памылкі ў аналізе даных робяць усе, гэта нармальна. Што ненармальна, гэта іхняя колькасць і пастаянства ў прэзентацыях Вардамацкага