Data&Knowledge

Неплохой лектор и курс по нейронкам:
https://www.youtube.com/playlist?list=PLlb7e2G7aSpT1ntsozWmWJ4kGUsUs141Y

👍2

250 views10:44

Рассуждения про параметрические и непараметрические тесты, как части generalized linear models:
https://lindeloev.github.io/tests-as-linear/

lindeloev.github.io

Common statistical tests are linear models (or: how to teach stats)

333 views22:22

Data&Knowledge

О нормальном распределении вышла статья на хабре: https://habr.com/ru/articles/730936/

Хабр

Нормально разбираемся в Нормальном распределении

Всем привет. Это пост про интуитивное понимание Нормального распределения. Обычный курс теории вероятностей проходит следующим образом. Сначала вам даются понятные и относительно простые концепции....

👍1

527 views20:50

Data&Knowledge

О перспективах в области Large-Language Models, или еще не все задачи решены с ChatGPT: https://arxiv.org/pdf/2305.12544.pdf

314 viewsedited 22:15

Data&Knowledge

Пусть у нас пока совсем не активно тут, но всё равно буду рад увидеть обратную связь:
https://forms.gle/3JmmDDZN5RU8vdgW8

Google Docs

Форма обратной связи (Q2.2023)

311 views10:41

Data&Knowledge

https://media.licdn.com/dms/image/D4D22AQF6A7OFmTHhOw/feedshare-shrink_1280/0/1686831627527?e=1690416000&v=beta&t=7uzq2P-btBh9idaV-b-lQpKixpAz3vGUrwZvybZVPSU

👍2

330 views09:12

Data&Knowledge

Открытая книга по глубокому обучению:
https://udlbook.github.io/udlbook/

350 viewsedited 06:49

Data&Knowledge

Начинается новый сезон треков на ods.ai:
https://ods.ai/events/course_season_autumn_23

191 viewsedited 15:48

Data&Knowledge

Тем, кто проходил статистику на степике, будет, вероятно известен правильный ответ, но, тем не менее, опрос.

Профессор Бамблдорф провел эксперимент, проанализировал данные и сказал: «95%-ный доверительный интервал для среднего лежит в интервале от 0.1 до 0.4». Какие из приведенных ниже утверждений являются правильными (т.е. логически следуют из результата, полученного профессором), а какие -- нет? Правильными могут быть все утверждения, некоторые, одно, а может не быть вообще.

168 views13:56

Data&Knowledge

Какие из приведенных ниже утверждений являются правильными (т.е. логически следуют из результата, полученного профессором), а какие -- нет?

Anonymous Poll

31%

Вероятность того, что истинное среднее больше 0 — как минимум 95%

38%

Вероятность того, что истинное среднее равно нулю, меньше 5%

31%

«Нуль-гипотеза» о том, что истинное среднее равно 0, скорее всего неверна

69%

Вероятность того, что истинное среднее находится в интервале от 0.1 до 0.4 — 95%

63%

Мы можем быть на 95% уверены в том, что истинное среднее лежит между 0.1 и 0.4

56%

Если повторить эксперимент много раз, в 95% случаях истинное среднее было между 0.1 и 0.4

19%

Нет правильного ответа

16 voters212 views13:56

Data&Knowledge

А ответ на этот опрос можно прочитать в статье: http://thinkcognitive.org/ru/blog/golova-professora-bambldorfa

THINK COGNITIVE, THINK SCIENCE

Голова профессора Бамблдорфа | THINK COGNITIVE, THINK SCIENCE

Часто считается, что доверительные интервалы интерпретируются проще и корректнее, чем результаты так называемых тестов проверки нуль-гипотез (NHST). Так

246 views13:56

Data&Knowledge

Статья о неправильных представления о p-value:
https://sixsigmadsi.com/wp-content/uploads/2020/10/A-Dirty-Dozen-Twelve-P-Value-Misconceptions.pdf

223 views12:37

Data&Knowledge

Многие слышали про эту великую работу, но не многие её читали:
https://www.york.ac.uk/depts/maths/histstat/student.pdf
Это работа Уильяма Госсета, в которой он предложил метод работы с выборками малого размера. Подробное и доступное описание работы можно увидеть в этой статье:
http://www.lhs.kennyiams.com/FilesAPStats/2nd%20Sem/23D%20students%20t%20model%20article%20summary.pdf

👍1

222 viewsedited 21:32

Data&Knowledge

Я поработал немного со сверточными сетями и понял, что я уже ничего особо не помню и нужно освежить знания. Еще и начальник дал задание начать делать семантическую разметку текста. Поэтому я немного пораскинул мозгами и решил освежить свои знания по обработке текста курсом со степика: https://stepik.org/course/54098/
Предлагаю пройти вместе за пару месяцев.

228 viewsedited 21:26

Data&Knowledge

Я сделал класс по прохождению курса по обработке текста: https://stepik.org/join-class/72e95a3dee0ae04dac7d9b14bca82c595f2224f0
Не знаю как пойдет, курс не самый простой. Но мне в любом случае это надо пройти, может кто-то захочет страдать вместе.
До конца следующей недели предлагаю втянуться и пройти самый первый модуль.

Stepik: online education

Образовательная платформа — Stepik. Выберите подходящий вам онлайн-курс из более чем 20 тысяч и начните получать востребованные навыки.

👍1

2.37K viewsedited 19:49

Data&Knowledge

Напоминаю, что у нас тут началось совместное прохождение курса по анализу текстов:
https://stepik.org/course/54098
Вот класс для совместного прохождения: https://stepik.org/join-class/72e95a3dee0ae04dac7d9b14bca82c595f2224f0
Курс занятный, не самый простой.

305 views20:05

Data&Knowledge

Итак, сегодня начинается вторая неделя курса по обработке текста: https://stepik.org/course/54098/
Тема этой недели: векторные модели текста и классификация длинных текстов.

2.51K views17:25

Data&Knowledge

С подставного аккаунта @embdene просят денег. Это не я, можете спокойно жаловаться в службу поддержки или игнорировать.

204 views10:56

Data&Knowledge

Я тут налегаю на свою диссертацию, и как-то оказалось, что мне не хватает материала. Поэтому решил написать короткую статью про то, как связаны, к примеру, внимательность и отношение к приватности. Получается, надо оценить связь между несколькими конструктами (внимание, отношение к приватности и др). А чтобы это сделать, можно использовать structural equation modeling. Наткнулся на бесплатный гайд по SEM для языка R. На первых порах читается легко: https://link.springer.com/chapter/10.1007/978-3-030-80519-7_1

SpringerLink

An Introduction to Structural Equation Modeling

Structural equation modeling is a multivariate data analysis method for analyzing complex relationships among constructs and indicators. To estimate structural equation models, researchers generally draw on two methods: covariance-based SEM (CB-SEM) and partial…

👍1

197 viewsedited 22:24

Data&Knowledge

Оказывается, выделяют два типа недостающих данных: MACR (missing completely at random) и MAR (missing at random). В первом случае данные не введены пользователем...совершенно случайно, к примеру, по невнимательности или из-за ошибки интернет-соединения. А у второго случая есть ещё одно название: Missing at Random, conditionally. В этом случае пользователь по какой-то причине не хочет вводить данные, и сам этот факт как-то привязан к какой-то переменной (может быть и неизмеренной). К примеру, люди с очень высокой зарплатой могут не желать вводить о ней данные, но при этом они могут указать принадлежность к высшему классу. Разные техники применяются для работы с такими данными.
https://www.theanalysisfactor.com/mar-and-mcar-missing-data/

The Analysis Factor

Missing at Random, Completely?

Two missing data mechanisms have confusing names: MCAR (Missing Completely at Random) and MAR (Missing at Random). What's the difference?

👍4

203 views15:42

Data&Knowledge

Обычно факторный анализ позволяет выявить общий фактор у нескольких переменных. К примеру, если мы сделали опрос с вопросами про доверие к врачам, неуверенность в себе и восприимчивости к новостям, мы можем попробовать обнаружить некий фактор, который частично объяснит эти три переменных. Иными словами, изменчивость этих трех переменных может быть частично объяснена изменчивостью какой-то другой (скрытой) переменной.
При факторном анализе мы интересуемся оценкой дисперсий и корреляций. Интересно, что в некоторых случаях, можно получить отрицательные дисперсии и корреляции больше единицы (чего быть не должно). Этот феномен называется Кейс Хейвуда (Heywood Case). Обычно это происходит из-за неправильной структуры модели.
Я нашел пару статей неначального уровня по этому поводу. Буду рад, если кто дополнит.
https://www.researchgate.net/publication/228937678_Testing_Negative_Error_Variances_Is_a_Heywood_Case_a_Symptom_of_Misspecification

ResearchGate

(PDF) Testing Negative Error Variances: Is a Heywood Case a Symptom of Misspecification?

PDF | Abstract Heywood cases, or negative variance estimates, are a common occurrence in factor analysis and latent variable structural equation models.... | Find, read and cite all the research you need on ResearchGate

235 views13:54

About

Blog

Apps

Platform