Неплохой лектор и курс по нейронкам:
https://www.youtube.com/playlist?list=PLlb7e2G7aSpT1ntsozWmWJ4kGUsUs141Y
https://www.youtube.com/playlist?list=PLlb7e2G7aSpT1ntsozWmWJ4kGUsUs141Y
👍2
Рассуждения про параметрические и непараметрические тесты, как части generalized linear models:
https://lindeloev.github.io/tests-as-linear/
https://lindeloev.github.io/tests-as-linear/
lindeloev.github.io
Common statistical tests are linear models (or: how to teach stats)
О нормальном распределении вышла статья на хабре: https://habr.com/ru/articles/730936/
Хабр
Нормально разбираемся в Нормальном распределении
Всем привет. Это пост про интуитивное понимание Нормального распределения. Обычный курс теории вероятностей проходит следующим образом. Сначала вам даются понятные и относительно простые концепции....
👍1
О перспективах в области Large-Language Models, или еще не все задачи решены с ChatGPT: https://arxiv.org/pdf/2305.12544.pdf
Пусть у нас пока совсем не активно тут, но всё равно буду рад увидеть обратную связь:
https://forms.gle/3JmmDDZN5RU8vdgW8
https://forms.gle/3JmmDDZN5RU8vdgW8
Google Docs
Форма обратной связи (Q2.2023)
Открытая книга по глубокому обучению:
https://udlbook.github.io/udlbook/
https://udlbook.github.io/udlbook/
Тем, кто проходил статистику на степике, будет, вероятно известен правильный ответ, но, тем не менее, опрос.
Профессор Бамблдорф провел эксперимент, проанализировал данные и сказал: «95%-ный доверительный интервал для среднего лежит в интервале от 0.1 до 0.4». Какие из приведенных ниже утверждений являются правильными (т.е. логически следуют из результата, полученного профессором), а какие -- нет? Правильными могут быть все утверждения, некоторые, одно, а может не быть вообще.
Профессор Бамблдорф провел эксперимент, проанализировал данные и сказал: «95%-ный доверительный интервал для среднего лежит в интервале от 0.1 до 0.4». Какие из приведенных ниже утверждений являются правильными (т.е. логически следуют из результата, полученного профессором), а какие -- нет? Правильными могут быть все утверждения, некоторые, одно, а может не быть вообще.
Какие из приведенных ниже утверждений являются правильными (т.е. логически следуют из результата, полученного профессором), а какие -- нет?
Anonymous Poll
31%
Вероятность того, что истинное среднее больше 0 — как минимум 95%
38%
Вероятность того, что истинное среднее равно нулю, меньше 5%
31%
«Нуль-гипотеза» о том, что истинное среднее равно 0, скорее всего неверна
69%
Вероятность того, что истинное среднее находится в интервале от 0.1 до 0.4 — 95%
63%
Мы можем быть на 95% уверены в том, что истинное среднее лежит между 0.1 и 0.4
56%
Если повторить эксперимент много раз, в 95% случаях истинное среднее было между 0.1 и 0.4
19%
Нет правильного ответа
А ответ на этот опрос можно прочитать в статье: http://thinkcognitive.org/ru/blog/golova-professora-bambldorfa
THINK COGNITIVE, THINK SCIENCE
Голова профессора Бамблдорфа | THINK COGNITIVE, THINK SCIENCE
Часто считается, что доверительные интервалы интерпретируются проще и корректнее, чем результаты так называемых тестов проверки нуль-гипотез (NHST). Так
Статья о неправильных представления о p-value:
https://sixsigmadsi.com/wp-content/uploads/2020/10/A-Dirty-Dozen-Twelve-P-Value-Misconceptions.pdf
https://sixsigmadsi.com/wp-content/uploads/2020/10/A-Dirty-Dozen-Twelve-P-Value-Misconceptions.pdf
Многие слышали про эту великую работу, но не многие её читали:
https://www.york.ac.uk/depts/maths/histstat/student.pdf
Это работа Уильяма Госсета, в которой он предложил метод работы с выборками малого размера. Подробное и доступное описание работы можно увидеть в этой статье:
http://www.lhs.kennyiams.com/FilesAPStats/2nd%20Sem/23D%20students%20t%20model%20article%20summary.pdf
https://www.york.ac.uk/depts/maths/histstat/student.pdf
Это работа Уильяма Госсета, в которой он предложил метод работы с выборками малого размера. Подробное и доступное описание работы можно увидеть в этой статье:
http://www.lhs.kennyiams.com/FilesAPStats/2nd%20Sem/23D%20students%20t%20model%20article%20summary.pdf
👍1
Я поработал немного со сверточными сетями и понял, что я уже ничего особо не помню и нужно освежить знания. Еще и начальник дал задание начать делать семантическую разметку текста. Поэтому я немного пораскинул мозгами и решил освежить свои знания по обработке текста курсом со степика: https://stepik.org/course/54098/
Предлагаю пройти вместе за пару месяцев.
Предлагаю пройти вместе за пару месяцев.
Я сделал класс по прохождению курса по обработке текста: https://stepik.org/join-class/72e95a3dee0ae04dac7d9b14bca82c595f2224f0
Не знаю как пойдет, курс не самый простой. Но мне в любом случае это надо пройти, может кто-то захочет страдать вместе.
До конца следующей недели предлагаю втянуться и пройти самый первый модуль.
Не знаю как пойдет, курс не самый простой. Но мне в любом случае это надо пройти, может кто-то захочет страдать вместе.
До конца следующей недели предлагаю втянуться и пройти самый первый модуль.
Stepik: online education
Образовательная платформа — Stepik. Выберите подходящий вам онлайн-курс из более чем 20 тысяч и начните получать востребованные навыки.
👍1
Напоминаю, что у нас тут началось совместное прохождение курса по анализу текстов:
https://stepik.org/course/54098
Вот класс для совместного прохождения: https://stepik.org/join-class/72e95a3dee0ae04dac7d9b14bca82c595f2224f0
Курс занятный, не самый простой.
https://stepik.org/course/54098
Вот класс для совместного прохождения: https://stepik.org/join-class/72e95a3dee0ae04dac7d9b14bca82c595f2224f0
Курс занятный, не самый простой.
Итак, сегодня начинается вторая неделя курса по обработке текста: https://stepik.org/course/54098/
Тема этой недели: векторные модели текста и классификация длинных текстов.
Тема этой недели: векторные модели текста и классификация длинных текстов.
С подставного аккаунта @embdene просят денег. Это не я, можете спокойно жаловаться в службу поддержки или игнорировать.
Я тут налегаю на свою диссертацию, и как-то оказалось, что мне не хватает материала. Поэтому решил написать короткую статью про то, как связаны, к примеру, внимательность и отношение к приватности. Получается, надо оценить связь между несколькими конструктами (внимание, отношение к приватности и др). А чтобы это сделать, можно использовать structural equation modeling. Наткнулся на бесплатный гайд по SEM для языка R. На первых порах читается легко: https://link.springer.com/chapter/10.1007/978-3-030-80519-7_1
SpringerLink
An Introduction to Structural Equation Modeling
Structural equation modeling is a multivariate data analysis method for analyzing complex relationships among constructs and indicators. To estimate structural equation models, researchers generally draw on two methods: covariance-based SEM (CB-SEM) and partial…
👍1
Оказывается, выделяют два типа недостающих данных: MACR (missing completely at random) и MAR (missing at random). В первом случае данные не введены пользователем...совершенно случайно, к примеру, по невнимательности или из-за ошибки интернет-соединения. А у второго случая есть ещё одно название: Missing at Random, conditionally. В этом случае пользователь по какой-то причине не хочет вводить данные, и сам этот факт как-то привязан к какой-то переменной (может быть и неизмеренной). К примеру, люди с очень высокой зарплатой могут не желать вводить о ней данные, но при этом они могут указать принадлежность к высшему классу. Разные техники применяются для работы с такими данными.
https://www.theanalysisfactor.com/mar-and-mcar-missing-data/
https://www.theanalysisfactor.com/mar-and-mcar-missing-data/
The Analysis Factor
Missing at Random, Completely?
Two missing data mechanisms have confusing names: MCAR (Missing Completely at Random) and MAR (Missing at Random). What's the difference?
👍4
Обычно факторный анализ позволяет выявить общий фактор у нескольких переменных. К примеру, если мы сделали опрос с вопросами про доверие к врачам, неуверенность в себе и восприимчивости к новостям, мы можем попробовать обнаружить некий фактор, который частично объяснит эти три переменных. Иными словами, изменчивость этих трех переменных может быть частично объяснена изменчивостью какой-то другой (скрытой) переменной.
При факторном анализе мы интересуемся оценкой дисперсий и корреляций. Интересно, что в некоторых случаях, можно получить отрицательные дисперсии и корреляции больше единицы (чего быть не должно). Этот феномен называется Кейс Хейвуда (Heywood Case). Обычно это происходит из-за неправильной структуры модели.
Я нашел пару статей неначального уровня по этому поводу. Буду рад, если кто дополнит.
https://www.researchgate.net/publication/228937678_Testing_Negative_Error_Variances_Is_a_Heywood_Case_a_Symptom_of_Misspecification
При факторном анализе мы интересуемся оценкой дисперсий и корреляций. Интересно, что в некоторых случаях, можно получить отрицательные дисперсии и корреляции больше единицы (чего быть не должно). Этот феномен называется Кейс Хейвуда (Heywood Case). Обычно это происходит из-за неправильной структуры модели.
Я нашел пару статей неначального уровня по этому поводу. Буду рад, если кто дополнит.
https://www.researchgate.net/publication/228937678_Testing_Negative_Error_Variances_Is_a_Heywood_Case_a_Symptom_of_Misspecification
ResearchGate
(PDF) Testing Negative Error Variances: Is a Heywood Case a Symptom of Misspecification?
PDF | Abstract Heywood cases, or negative variance estimates, are a common occurrence in factor analysis and latent variable structural equation models.... | Find, read and cite all the research you need on ResearchGate