Data&Knowledge

Тем, кто проходил статистику на степике, будет, вероятно известен правильный ответ, но, тем не менее, опрос.

Профессор Бамблдорф провел эксперимент, проанализировал данные и сказал: «95%-ный доверительный интервал для среднего лежит в интервале от 0.1 до 0.4». Какие из приведенных ниже утверждений являются правильными (т.е. логически следуют из результата, полученного профессором), а какие -- нет? Правильными могут быть все утверждения, некоторые, одно, а может не быть вообще.

168 views13:56

Data&Knowledge

Какие из приведенных ниже утверждений являются правильными (т.е. логически следуют из результата, полученного профессором), а какие -- нет?

Anonymous Poll

31%

Вероятность того, что истинное среднее больше 0 — как минимум 95%

38%

Вероятность того, что истинное среднее равно нулю, меньше 5%

31%

«Нуль-гипотеза» о том, что истинное среднее равно 0, скорее всего неверна

69%

Вероятность того, что истинное среднее находится в интервале от 0.1 до 0.4 — 95%

63%

Мы можем быть на 95% уверены в том, что истинное среднее лежит между 0.1 и 0.4

56%

Если повторить эксперимент много раз, в 95% случаях истинное среднее было между 0.1 и 0.4

19%

Нет правильного ответа

16 voters212 views13:56

Data&Knowledge

А ответ на этот опрос можно прочитать в статье: http://thinkcognitive.org/ru/blog/golova-professora-bambldorfa

THINK COGNITIVE, THINK SCIENCE

Голова профессора Бамблдорфа | THINK COGNITIVE, THINK SCIENCE

Часто считается, что доверительные интервалы интерпретируются проще и корректнее, чем результаты так называемых тестов проверки нуль-гипотез (NHST). Так

246 views13:56

Data&Knowledge

Статья о неправильных представления о p-value:
https://sixsigmadsi.com/wp-content/uploads/2020/10/A-Dirty-Dozen-Twelve-P-Value-Misconceptions.pdf

223 views12:37

Data&Knowledge

Многие слышали про эту великую работу, но не многие её читали:
https://www.york.ac.uk/depts/maths/histstat/student.pdf
Это работа Уильяма Госсета, в которой он предложил метод работы с выборками малого размера. Подробное и доступное описание работы можно увидеть в этой статье:
http://www.lhs.kennyiams.com/FilesAPStats/2nd%20Sem/23D%20students%20t%20model%20article%20summary.pdf

👍1

222 viewsedited 21:32

Data&Knowledge

Я поработал немного со сверточными сетями и понял, что я уже ничего особо не помню и нужно освежить знания. Еще и начальник дал задание начать делать семантическую разметку текста. Поэтому я немного пораскинул мозгами и решил освежить свои знания по обработке текста курсом со степика: https://stepik.org/course/54098/
Предлагаю пройти вместе за пару месяцев.

228 viewsedited 21:26

Data&Knowledge

Я сделал класс по прохождению курса по обработке текста: https://stepik.org/join-class/72e95a3dee0ae04dac7d9b14bca82c595f2224f0
Не знаю как пойдет, курс не самый простой. Но мне в любом случае это надо пройти, может кто-то захочет страдать вместе.
До конца следующей недели предлагаю втянуться и пройти самый первый модуль.

Stepik: online education

Образовательная платформа — Stepik. Выберите подходящий вам онлайн-курс из более чем 20 тысяч и начните получать востребованные навыки.

👍1

2.37K viewsedited 19:49

Data&Knowledge

Напоминаю, что у нас тут началось совместное прохождение курса по анализу текстов:
https://stepik.org/course/54098
Вот класс для совместного прохождения: https://stepik.org/join-class/72e95a3dee0ae04dac7d9b14bca82c595f2224f0
Курс занятный, не самый простой.

305 views20:05

Data&Knowledge

Итак, сегодня начинается вторая неделя курса по обработке текста: https://stepik.org/course/54098/
Тема этой недели: векторные модели текста и классификация длинных текстов.

2.51K views17:25

Data&Knowledge

С подставного аккаунта @embdene просят денег. Это не я, можете спокойно жаловаться в службу поддержки или игнорировать.

204 views10:56

Data&Knowledge

Я тут налегаю на свою диссертацию, и как-то оказалось, что мне не хватает материала. Поэтому решил написать короткую статью про то, как связаны, к примеру, внимательность и отношение к приватности. Получается, надо оценить связь между несколькими конструктами (внимание, отношение к приватности и др). А чтобы это сделать, можно использовать structural equation modeling. Наткнулся на бесплатный гайд по SEM для языка R. На первых порах читается легко: https://link.springer.com/chapter/10.1007/978-3-030-80519-7_1

SpringerLink

An Introduction to Structural Equation Modeling

Structural equation modeling is a multivariate data analysis method for analyzing complex relationships among constructs and indicators. To estimate structural equation models, researchers generally draw on two methods: covariance-based SEM (CB-SEM) and partial…

👍1

197 viewsedited 22:24

Data&Knowledge

Оказывается, выделяют два типа недостающих данных: MACR (missing completely at random) и MAR (missing at random). В первом случае данные не введены пользователем...совершенно случайно, к примеру, по невнимательности или из-за ошибки интернет-соединения. А у второго случая есть ещё одно название: Missing at Random, conditionally. В этом случае пользователь по какой-то причине не хочет вводить данные, и сам этот факт как-то привязан к какой-то переменной (может быть и неизмеренной). К примеру, люди с очень высокой зарплатой могут не желать вводить о ней данные, но при этом они могут указать принадлежность к высшему классу. Разные техники применяются для работы с такими данными.
https://www.theanalysisfactor.com/mar-and-mcar-missing-data/

The Analysis Factor

Missing at Random, Completely?

Two missing data mechanisms have confusing names: MCAR (Missing Completely at Random) and MAR (Missing at Random). What's the difference?

👍4

203 views15:42

Data&Knowledge

Обычно факторный анализ позволяет выявить общий фактор у нескольких переменных. К примеру, если мы сделали опрос с вопросами про доверие к врачам, неуверенность в себе и восприимчивости к новостям, мы можем попробовать обнаружить некий фактор, который частично объяснит эти три переменных. Иными словами, изменчивость этих трех переменных может быть частично объяснена изменчивостью какой-то другой (скрытой) переменной.
При факторном анализе мы интересуемся оценкой дисперсий и корреляций. Интересно, что в некоторых случаях, можно получить отрицательные дисперсии и корреляции больше единицы (чего быть не должно). Этот феномен называется Кейс Хейвуда (Heywood Case). Обычно это происходит из-за неправильной структуры модели.
Я нашел пару статей неначального уровня по этому поводу. Буду рад, если кто дополнит.
https://www.researchgate.net/publication/228937678_Testing_Negative_Error_Variances_Is_a_Heywood_Case_a_Symptom_of_Misspecification

ResearchGate

(PDF) Testing Negative Error Variances: Is a Heywood Case a Symptom of Misspecification?

PDF | Abstract Heywood cases, or negative variance estimates, are a common occurrence in factor analysis and latent variable structural equation models.... | Find, read and cite all the research you need on ResearchGate

235 views13:54

Data&Knowledge

condition in fa.pdf

165.3 KB

Testing_Negative_Error_Variances_Is_a_Heywood_Case.pdf

568.1 KB

233 views13:54

Data&Knowledge

Кстати, если вы хотите выучить R, то у R есть библиотека, которая вас учит языку. Библиотека называется swirl.
Чтобы её использовать, надо установить R, желательно установить R Studio, установить библиотеку swirl и запустить её. Готово! Вам будет предложено несколько заданий, которые проведут вас через основы R.
https://swirlstats.com/students.html

Swirlstats

swirl | Students

:computer: swirl's official website

👍4

281 views20:02

Data&Knowledge

Неплохая вводная статья про LLM: https://habr.com/ru/articles/768844/

Хабр

Раскрывая секреты LLM: руководство по основным понятиям больших языковых моделей без хайпа

AI-хайп, честно говоря, слегка задолбал. Кажется, что все вокруг только и делают, что внедряют в продукт как можно больше AI фичей, поднимают миллионы на оболочку для ChatGPT, осваивают сто первый...

260 views08:34

Data&Knowledge

(2009) Handbook on ontologies.pdf

9 MB

Хочу поделиться неплохой, но специализированной книжкой про представление знаний, иными словами, про онтологии. Через некоторые главы продираться не так уж и просто, но мне понравилось, что немало информации собрано в одном месте.

#ontology #symbolic #semantic_web #reasoning

221 views19:15

Data&Knowledge

Ну и небольшой опрос: а вы когда-нибудь пользовались онтологиями или графами знаний (knowledge graphs)?

Anonymous Poll

15 voters223 views19:16

Data&Knowledge

О планах на 2024 год.

В общем, планов у меня громадьё. Времени на сопровождение групп всё меньше, но есть несколько вещей, которые хотелось бы сделать: разобраться в нескольких темах и сделать пару прикладных штук.

1. Разобрать основные темы по статистике. Хочется в доступной манере в виде серии блог-постов изложить самые основы: критерий хи-квадрат, т-тест, анова, линейные регрессии, линейные модели, критерии согласия, непараметрические критерии. Мне понравился стиль изложения у Карпова, но сам я хочу сделать по своей методологии в виде серии постов.
2. Сделать обзор по технологиям представления знаний. То, что редко используется в прикладном анализе. Хочу обозреть дескриптивные и модальные логики, RDF(s), OWL, SHACL, графы знаний, онтологии. Мне кажется, в большинстве областей это не очень перспективно, но кажется забавной штукой - может когда-нибудь пригодится.
3. Погрузиться в мир Natural Language Processing. Мне интересны и классические методы NLP, и более современные, включая LLM. Более того, я собираюсь немного углубиться в лингвистику. Кстати, может еще и бота сделаю, который будет следить за участниками чатов.
4. Обозреть когнитивную сторону представления знаний. Моя диссертация в немалой части опирается на когнитивную психология. В ближайший год я планирую изучить несколько аспектов когнитивистики: как знания представляются в нашей памяти, какие тексты нам легче воспринимать и почему, как происходит обработка языка в мозгу и т.д.
5. Сделать приложение для работы с информацией. Меня жутко раздражает работать с существующими операционными системами: куча файлов, папок, постоянно забываешь, где что лежит, постоянно теряется контекст работы. Я уже довольно долгое время изучаю технологии semantic desktop, надеюсь, что к концу 2024 года у меня будет какой-то рабочий прототип.

В общем, планов много. Успокаивает, что всем вышеперечисленным я планирую заниматься практически фул-тайм. В следующем году я не планирую каких-то вовлекающих активностей, типа опросов или совместного прохождения курсов. Я собираюсь в удобном мне темпе выкладывать как крупные материалы, к примеру, уроки по статистике, так и мелкие заметки, к примеру, о том, как мозг обрабатывает разные типы концепций. Если будет фидбек, мне будет приятно. Но даже без фидбека мне интересно разобрать все эти темы.

👍6🎉2

218 viewsedited 20:29

Data&Knowledge

Разметка аналоговых заметок.

Вообще, я тут недавно озаботился проблемой, а как же обмениваться информацией между цифровым и аналоговым миром, к примеру, компьютером и блокнотом.
С компьютером-то всё понятно - пиши заметки, делай теги и будет тебе счастье. А как легко переносить заметки из блокнота в компьютер? Простые распознавалки текста не дадут большого результата: придется вносить много исправлений, добавлять много разметки и тегов, особенно, для таблиц и картинок. И я пришел к интересной идее: а почему бы не сделать язык разметки для аналоговых заметок? Сейчас проиллюстрирую.
К примеру, хотим мы сделать запись о человеке, чтобы она сразу считалась в наш органайзер. Размечаем её начало и конец специальным значком (как скобками), если надо используем теги (квадратные скобки), делаем саму запись внутри этих значком, у открывающего значка можно написать название заметки (имени человека). Потом просто наводим камеру для распознавания с открытым приложением для заметок. Точно так же можем ввести значки для обозначения текстовых заметок, изображений и таблиц (см. фото).
Удивительно, но при таком ведении заметок, появляется большая удовлетворенность от их создания - когда ставишь закрывающий тэг, ощущаешь, что создал что-то новое законченное.

#notes #analog_markup #заметки

200 views21:50

About

Blog

Apps

Platform