Тем, кто проходил статистику на степике, будет, вероятно известен правильный ответ, но, тем не менее, опрос.
Профессор Бамблдорф провел эксперимент, проанализировал данные и сказал: «95%-ный доверительный интервал для среднего лежит в интервале от 0.1 до 0.4». Какие из приведенных ниже утверждений являются правильными (т.е. логически следуют из результата, полученного профессором), а какие -- нет? Правильными могут быть все утверждения, некоторые, одно, а может не быть вообще.
Профессор Бамблдорф провел эксперимент, проанализировал данные и сказал: «95%-ный доверительный интервал для среднего лежит в интервале от 0.1 до 0.4». Какие из приведенных ниже утверждений являются правильными (т.е. логически следуют из результата, полученного профессором), а какие -- нет? Правильными могут быть все утверждения, некоторые, одно, а может не быть вообще.
Какие из приведенных ниже утверждений являются правильными (т.е. логически следуют из результата, полученного профессором), а какие -- нет?
Anonymous Poll
31%
Вероятность того, что истинное среднее больше 0 — как минимум 95%
38%
Вероятность того, что истинное среднее равно нулю, меньше 5%
31%
«Нуль-гипотеза» о том, что истинное среднее равно 0, скорее всего неверна
69%
Вероятность того, что истинное среднее находится в интервале от 0.1 до 0.4 — 95%
63%
Мы можем быть на 95% уверены в том, что истинное среднее лежит между 0.1 и 0.4
56%
Если повторить эксперимент много раз, в 95% случаях истинное среднее было между 0.1 и 0.4
19%
Нет правильного ответа
А ответ на этот опрос можно прочитать в статье: http://thinkcognitive.org/ru/blog/golova-professora-bambldorfa
THINK COGNITIVE, THINK SCIENCE
Голова профессора Бамблдорфа | THINK COGNITIVE, THINK SCIENCE
Часто считается, что доверительные интервалы интерпретируются проще и корректнее, чем результаты так называемых тестов проверки нуль-гипотез (NHST). Так
Статья о неправильных представления о p-value:
https://sixsigmadsi.com/wp-content/uploads/2020/10/A-Dirty-Dozen-Twelve-P-Value-Misconceptions.pdf
https://sixsigmadsi.com/wp-content/uploads/2020/10/A-Dirty-Dozen-Twelve-P-Value-Misconceptions.pdf
Многие слышали про эту великую работу, но не многие её читали:
https://www.york.ac.uk/depts/maths/histstat/student.pdf
Это работа Уильяма Госсета, в которой он предложил метод работы с выборками малого размера. Подробное и доступное описание работы можно увидеть в этой статье:
http://www.lhs.kennyiams.com/FilesAPStats/2nd%20Sem/23D%20students%20t%20model%20article%20summary.pdf
https://www.york.ac.uk/depts/maths/histstat/student.pdf
Это работа Уильяма Госсета, в которой он предложил метод работы с выборками малого размера. Подробное и доступное описание работы можно увидеть в этой статье:
http://www.lhs.kennyiams.com/FilesAPStats/2nd%20Sem/23D%20students%20t%20model%20article%20summary.pdf
👍1
Я поработал немного со сверточными сетями и понял, что я уже ничего особо не помню и нужно освежить знания. Еще и начальник дал задание начать делать семантическую разметку текста. Поэтому я немного пораскинул мозгами и решил освежить свои знания по обработке текста курсом со степика: https://stepik.org/course/54098/
Предлагаю пройти вместе за пару месяцев.
Предлагаю пройти вместе за пару месяцев.
Я сделал класс по прохождению курса по обработке текста: https://stepik.org/join-class/72e95a3dee0ae04dac7d9b14bca82c595f2224f0
Не знаю как пойдет, курс не самый простой. Но мне в любом случае это надо пройти, может кто-то захочет страдать вместе.
До конца следующей недели предлагаю втянуться и пройти самый первый модуль.
Не знаю как пойдет, курс не самый простой. Но мне в любом случае это надо пройти, может кто-то захочет страдать вместе.
До конца следующей недели предлагаю втянуться и пройти самый первый модуль.
Stepik: online education
Образовательная платформа — Stepik. Выберите подходящий вам онлайн-курс из более чем 20 тысяч и начните получать востребованные навыки.
👍1
Напоминаю, что у нас тут началось совместное прохождение курса по анализу текстов:
https://stepik.org/course/54098
Вот класс для совместного прохождения: https://stepik.org/join-class/72e95a3dee0ae04dac7d9b14bca82c595f2224f0
Курс занятный, не самый простой.
https://stepik.org/course/54098
Вот класс для совместного прохождения: https://stepik.org/join-class/72e95a3dee0ae04dac7d9b14bca82c595f2224f0
Курс занятный, не самый простой.
Итак, сегодня начинается вторая неделя курса по обработке текста: https://stepik.org/course/54098/
Тема этой недели: векторные модели текста и классификация длинных текстов.
Тема этой недели: векторные модели текста и классификация длинных текстов.
С подставного аккаунта @embdene просят денег. Это не я, можете спокойно жаловаться в службу поддержки или игнорировать.
Я тут налегаю на свою диссертацию, и как-то оказалось, что мне не хватает материала. Поэтому решил написать короткую статью про то, как связаны, к примеру, внимательность и отношение к приватности. Получается, надо оценить связь между несколькими конструктами (внимание, отношение к приватности и др). А чтобы это сделать, можно использовать structural equation modeling. Наткнулся на бесплатный гайд по SEM для языка R. На первых порах читается легко: https://link.springer.com/chapter/10.1007/978-3-030-80519-7_1
SpringerLink
An Introduction to Structural Equation Modeling
Structural equation modeling is a multivariate data analysis method for analyzing complex relationships among constructs and indicators. To estimate structural equation models, researchers generally draw on two methods: covariance-based SEM (CB-SEM) and partial…
👍1
Оказывается, выделяют два типа недостающих данных: MACR (missing completely at random) и MAR (missing at random). В первом случае данные не введены пользователем...совершенно случайно, к примеру, по невнимательности или из-за ошибки интернет-соединения. А у второго случая есть ещё одно название: Missing at Random, conditionally. В этом случае пользователь по какой-то причине не хочет вводить данные, и сам этот факт как-то привязан к какой-то переменной (может быть и неизмеренной). К примеру, люди с очень высокой зарплатой могут не желать вводить о ней данные, но при этом они могут указать принадлежность к высшему классу. Разные техники применяются для работы с такими данными.
https://www.theanalysisfactor.com/mar-and-mcar-missing-data/
https://www.theanalysisfactor.com/mar-and-mcar-missing-data/
The Analysis Factor
Missing at Random, Completely?
Two missing data mechanisms have confusing names: MCAR (Missing Completely at Random) and MAR (Missing at Random). What's the difference?
👍4
Обычно факторный анализ позволяет выявить общий фактор у нескольких переменных. К примеру, если мы сделали опрос с вопросами про доверие к врачам, неуверенность в себе и восприимчивости к новостям, мы можем попробовать обнаружить некий фактор, который частично объяснит эти три переменных. Иными словами, изменчивость этих трех переменных может быть частично объяснена изменчивостью какой-то другой (скрытой) переменной.
При факторном анализе мы интересуемся оценкой дисперсий и корреляций. Интересно, что в некоторых случаях, можно получить отрицательные дисперсии и корреляции больше единицы (чего быть не должно). Этот феномен называется Кейс Хейвуда (Heywood Case). Обычно это происходит из-за неправильной структуры модели.
Я нашел пару статей неначального уровня по этому поводу. Буду рад, если кто дополнит.
https://www.researchgate.net/publication/228937678_Testing_Negative_Error_Variances_Is_a_Heywood_Case_a_Symptom_of_Misspecification
При факторном анализе мы интересуемся оценкой дисперсий и корреляций. Интересно, что в некоторых случаях, можно получить отрицательные дисперсии и корреляции больше единицы (чего быть не должно). Этот феномен называется Кейс Хейвуда (Heywood Case). Обычно это происходит из-за неправильной структуры модели.
Я нашел пару статей неначального уровня по этому поводу. Буду рад, если кто дополнит.
https://www.researchgate.net/publication/228937678_Testing_Negative_Error_Variances_Is_a_Heywood_Case_a_Symptom_of_Misspecification
ResearchGate
(PDF) Testing Negative Error Variances: Is a Heywood Case a Symptom of Misspecification?
PDF | Abstract Heywood cases, or negative variance estimates, are a common occurrence in factor analysis and latent variable structural equation models.... | Find, read and cite all the research you need on ResearchGate
Кстати, если вы хотите выучить R, то у R есть библиотека, которая вас учит языку. Библиотека называется swirl.
Чтобы её использовать, надо установить R, желательно установить R Studio, установить библиотеку swirl и запустить её. Готово! Вам будет предложено несколько заданий, которые проведут вас через основы R.
https://swirlstats.com/students.html
Чтобы её использовать, надо установить R, желательно установить R Studio, установить библиотеку swirl и запустить её. Готово! Вам будет предложено несколько заданий, которые проведут вас через основы R.
https://swirlstats.com/students.html
Swirlstats
swirl | Students
:computer: swirl's official website
👍4
Неплохая вводная статья про LLM: https://habr.com/ru/articles/768844/
Хабр
Раскрывая секреты LLM: руководство по основным понятиям больших языковых моделей без хайпа
AI-хайп, честно говоря, слегка задолбал. Кажется, что все вокруг только и делают, что внедряют в продукт как можно больше AI фичей, поднимают миллионы на оболочку для ChatGPT, осваивают сто первый...
(2009) Handbook on ontologies.pdf
9 MB
Хочу поделиться неплохой, но специализированной книжкой про представление знаний, иными словами, про онтологии. Через некоторые главы продираться не так уж и просто, но мне понравилось, что немало информации собрано в одном месте.
#ontology #symbolic #semantic_web #reasoning
#ontology #symbolic #semantic_web #reasoning
Ну и небольшой опрос: а вы когда-нибудь пользовались онтологиями или графами знаний (knowledge graphs)?
Anonymous Poll
13%
Да
80%
Нет
7%
Посмотреть ответы
О планах на 2024 год.
В общем, планов у меня громадьё. Времени на сопровождение групп всё меньше, но есть несколько вещей, которые хотелось бы сделать: разобраться в нескольких темах и сделать пару прикладных штук.
1. Разобрать основные темы по статистике. Хочется в доступной манере в виде серии блог-постов изложить самые основы: критерий хи-квадрат, т-тест, анова, линейные регрессии, линейные модели, критерии согласия, непараметрические критерии. Мне понравился стиль изложения у Карпова, но сам я хочу сделать по своей методологии в виде серии постов.
2. Сделать обзор по технологиям представления знаний. То, что редко используется в прикладном анализе. Хочу обозреть дескриптивные и модальные логики, RDF(s), OWL, SHACL, графы знаний, онтологии. Мне кажется, в большинстве областей это не очень перспективно, но кажется забавной штукой - может когда-нибудь пригодится.
3. Погрузиться в мир Natural Language Processing. Мне интересны и классические методы NLP, и более современные, включая LLM. Более того, я собираюсь немного углубиться в лингвистику. Кстати, может еще и бота сделаю, который будет следить за участниками чатов.
4. Обозреть когнитивную сторону представления знаний. Моя диссертация в немалой части опирается на когнитивную психология. В ближайший год я планирую изучить несколько аспектов когнитивистики: как знания представляются в нашей памяти, какие тексты нам легче воспринимать и почему, как происходит обработка языка в мозгу и т.д.
5. Сделать приложение для работы с информацией. Меня жутко раздражает работать с существующими операционными системами: куча файлов, папок, постоянно забываешь, где что лежит, постоянно теряется контекст работы. Я уже довольно долгое время изучаю технологии semantic desktop, надеюсь, что к концу 2024 года у меня будет какой-то рабочий прототип.
В общем, планов много. Успокаивает, что всем вышеперечисленным я планирую заниматься практически фул-тайм. В следующем году я не планирую каких-то вовлекающих активностей, типа опросов или совместного прохождения курсов. Я собираюсь в удобном мне темпе выкладывать как крупные материалы, к примеру, уроки по статистике, так и мелкие заметки, к примеру, о том, как мозг обрабатывает разные типы концепций. Если будет фидбек, мне будет приятно. Но даже без фидбека мне интересно разобрать все эти темы.
В общем, планов у меня громадьё. Времени на сопровождение групп всё меньше, но есть несколько вещей, которые хотелось бы сделать: разобраться в нескольких темах и сделать пару прикладных штук.
1. Разобрать основные темы по статистике. Хочется в доступной манере в виде серии блог-постов изложить самые основы: критерий хи-квадрат, т-тест, анова, линейные регрессии, линейные модели, критерии согласия, непараметрические критерии. Мне понравился стиль изложения у Карпова, но сам я хочу сделать по своей методологии в виде серии постов.
2. Сделать обзор по технологиям представления знаний. То, что редко используется в прикладном анализе. Хочу обозреть дескриптивные и модальные логики, RDF(s), OWL, SHACL, графы знаний, онтологии. Мне кажется, в большинстве областей это не очень перспективно, но кажется забавной штукой - может когда-нибудь пригодится.
3. Погрузиться в мир Natural Language Processing. Мне интересны и классические методы NLP, и более современные, включая LLM. Более того, я собираюсь немного углубиться в лингвистику. Кстати, может еще и бота сделаю, который будет следить за участниками чатов.
4. Обозреть когнитивную сторону представления знаний. Моя диссертация в немалой части опирается на когнитивную психология. В ближайший год я планирую изучить несколько аспектов когнитивистики: как знания представляются в нашей памяти, какие тексты нам легче воспринимать и почему, как происходит обработка языка в мозгу и т.д.
5. Сделать приложение для работы с информацией. Меня жутко раздражает работать с существующими операционными системами: куча файлов, папок, постоянно забываешь, где что лежит, постоянно теряется контекст работы. Я уже довольно долгое время изучаю технологии semantic desktop, надеюсь, что к концу 2024 года у меня будет какой-то рабочий прототип.
В общем, планов много. Успокаивает, что всем вышеперечисленным я планирую заниматься практически фул-тайм. В следующем году я не планирую каких-то вовлекающих активностей, типа опросов или совместного прохождения курсов. Я собираюсь в удобном мне темпе выкладывать как крупные материалы, к примеру, уроки по статистике, так и мелкие заметки, к примеру, о том, как мозг обрабатывает разные типы концепций. Если будет фидбек, мне будет приятно. Но даже без фидбека мне интересно разобрать все эти темы.
👍6🎉2
Разметка аналоговых заметок.
Вообще, я тут недавно озаботился проблемой, а как же обмениваться информацией между цифровым и аналоговым миром, к примеру, компьютером и блокнотом.
С компьютером-то всё понятно - пиши заметки, делай теги и будет тебе счастье. А как легко переносить заметки из блокнота в компьютер? Простые распознавалки текста не дадут большого результата: придется вносить много исправлений, добавлять много разметки и тегов, особенно, для таблиц и картинок. И я пришел к интересной идее: а почему бы не сделать язык разметки для аналоговых заметок? Сейчас проиллюстрирую.
К примеру, хотим мы сделать запись о человеке, чтобы она сразу считалась в наш органайзер. Размечаем её начало и конец специальным значком (как скобками), если надо используем теги (квадратные скобки), делаем саму запись внутри этих значком, у открывающего значка можно написать название заметки (имени человека). Потом просто наводим камеру для распознавания с открытым приложением для заметок. Точно так же можем ввести значки для обозначения текстовых заметок, изображений и таблиц (см. фото).
Удивительно, но при таком ведении заметок, появляется большая удовлетворенность от их создания - когда ставишь закрывающий тэг, ощущаешь, что создал что-то новое законченное.
#notes #analog_markup #заметки
Вообще, я тут недавно озаботился проблемой, а как же обмениваться информацией между цифровым и аналоговым миром, к примеру, компьютером и блокнотом.
С компьютером-то всё понятно - пиши заметки, делай теги и будет тебе счастье. А как легко переносить заметки из блокнота в компьютер? Простые распознавалки текста не дадут большого результата: придется вносить много исправлений, добавлять много разметки и тегов, особенно, для таблиц и картинок. И я пришел к интересной идее: а почему бы не сделать язык разметки для аналоговых заметок? Сейчас проиллюстрирую.
К примеру, хотим мы сделать запись о человеке, чтобы она сразу считалась в наш органайзер. Размечаем её начало и конец специальным значком (как скобками), если надо используем теги (квадратные скобки), делаем саму запись внутри этих значком, у открывающего значка можно написать название заметки (имени человека). Потом просто наводим камеру для распознавания с открытым приложением для заметок. Точно так же можем ввести значки для обозначения текстовых заметок, изображений и таблиц (см. фото).
Удивительно, но при таком ведении заметок, появляется большая удовлетворенность от их создания - когда ставишь закрывающий тэг, ощущаешь, что создал что-то новое законченное.
#notes #analog_markup #заметки