Я тут налегаю на свою диссертацию, и как-то оказалось, что мне не хватает материала. Поэтому решил написать короткую статью про то, как связаны, к примеру, внимательность и отношение к приватности. Получается, надо оценить связь между несколькими конструктами (внимание, отношение к приватности и др). А чтобы это сделать, можно использовать structural equation modeling. Наткнулся на бесплатный гайд по SEM для языка R. На первых порах читается легко: https://link.springer.com/chapter/10.1007/978-3-030-80519-7_1
SpringerLink
An Introduction to Structural Equation Modeling
Structural equation modeling is a multivariate data analysis method for analyzing complex relationships among constructs and indicators. To estimate structural equation models, researchers generally draw on two methods: covariance-based SEM (CB-SEM) and partial…
👍1
Оказывается, выделяют два типа недостающих данных: MACR (missing completely at random) и MAR (missing at random). В первом случае данные не введены пользователем...совершенно случайно, к примеру, по невнимательности или из-за ошибки интернет-соединения. А у второго случая есть ещё одно название: Missing at Random, conditionally. В этом случае пользователь по какой-то причине не хочет вводить данные, и сам этот факт как-то привязан к какой-то переменной (может быть и неизмеренной). К примеру, люди с очень высокой зарплатой могут не желать вводить о ней данные, но при этом они могут указать принадлежность к высшему классу. Разные техники применяются для работы с такими данными.
https://www.theanalysisfactor.com/mar-and-mcar-missing-data/
https://www.theanalysisfactor.com/mar-and-mcar-missing-data/
The Analysis Factor
Missing at Random, Completely?
Two missing data mechanisms have confusing names: MCAR (Missing Completely at Random) and MAR (Missing at Random). What's the difference?
👍4
Обычно факторный анализ позволяет выявить общий фактор у нескольких переменных. К примеру, если мы сделали опрос с вопросами про доверие к врачам, неуверенность в себе и восприимчивости к новостям, мы можем попробовать обнаружить некий фактор, который частично объяснит эти три переменных. Иными словами, изменчивость этих трех переменных может быть частично объяснена изменчивостью какой-то другой (скрытой) переменной.
При факторном анализе мы интересуемся оценкой дисперсий и корреляций. Интересно, что в некоторых случаях, можно получить отрицательные дисперсии и корреляции больше единицы (чего быть не должно). Этот феномен называется Кейс Хейвуда (Heywood Case). Обычно это происходит из-за неправильной структуры модели.
Я нашел пару статей неначального уровня по этому поводу. Буду рад, если кто дополнит.
https://www.researchgate.net/publication/228937678_Testing_Negative_Error_Variances_Is_a_Heywood_Case_a_Symptom_of_Misspecification
При факторном анализе мы интересуемся оценкой дисперсий и корреляций. Интересно, что в некоторых случаях, можно получить отрицательные дисперсии и корреляции больше единицы (чего быть не должно). Этот феномен называется Кейс Хейвуда (Heywood Case). Обычно это происходит из-за неправильной структуры модели.
Я нашел пару статей неначального уровня по этому поводу. Буду рад, если кто дополнит.
https://www.researchgate.net/publication/228937678_Testing_Negative_Error_Variances_Is_a_Heywood_Case_a_Symptom_of_Misspecification
ResearchGate
(PDF) Testing Negative Error Variances: Is a Heywood Case a Symptom of Misspecification?
PDF | Abstract Heywood cases, or negative variance estimates, are a common occurrence in factor analysis and latent variable structural equation models.... | Find, read and cite all the research you need on ResearchGate
Кстати, если вы хотите выучить R, то у R есть библиотека, которая вас учит языку. Библиотека называется swirl.
Чтобы её использовать, надо установить R, желательно установить R Studio, установить библиотеку swirl и запустить её. Готово! Вам будет предложено несколько заданий, которые проведут вас через основы R.
https://swirlstats.com/students.html
Чтобы её использовать, надо установить R, желательно установить R Studio, установить библиотеку swirl и запустить её. Готово! Вам будет предложено несколько заданий, которые проведут вас через основы R.
https://swirlstats.com/students.html
Swirlstats
swirl | Students
:computer: swirl's official website
👍4
Неплохая вводная статья про LLM: https://habr.com/ru/articles/768844/
Хабр
Раскрывая секреты LLM: руководство по основным понятиям больших языковых моделей без хайпа
AI-хайп, честно говоря, слегка задолбал. Кажется, что все вокруг только и делают, что внедряют в продукт как можно больше AI фичей, поднимают миллионы на оболочку для ChatGPT, осваивают сто первый...
(2009) Handbook on ontologies.pdf
9 MB
Хочу поделиться неплохой, но специализированной книжкой про представление знаний, иными словами, про онтологии. Через некоторые главы продираться не так уж и просто, но мне понравилось, что немало информации собрано в одном месте.
#ontology #symbolic #semantic_web #reasoning
#ontology #symbolic #semantic_web #reasoning
Ну и небольшой опрос: а вы когда-нибудь пользовались онтологиями или графами знаний (knowledge graphs)?
Anonymous Poll
13%
Да
80%
Нет
7%
Посмотреть ответы
О планах на 2024 год.
В общем, планов у меня громадьё. Времени на сопровождение групп всё меньше, но есть несколько вещей, которые хотелось бы сделать: разобраться в нескольких темах и сделать пару прикладных штук.
1. Разобрать основные темы по статистике. Хочется в доступной манере в виде серии блог-постов изложить самые основы: критерий хи-квадрат, т-тест, анова, линейные регрессии, линейные модели, критерии согласия, непараметрические критерии. Мне понравился стиль изложения у Карпова, но сам я хочу сделать по своей методологии в виде серии постов.
2. Сделать обзор по технологиям представления знаний. То, что редко используется в прикладном анализе. Хочу обозреть дескриптивные и модальные логики, RDF(s), OWL, SHACL, графы знаний, онтологии. Мне кажется, в большинстве областей это не очень перспективно, но кажется забавной штукой - может когда-нибудь пригодится.
3. Погрузиться в мир Natural Language Processing. Мне интересны и классические методы NLP, и более современные, включая LLM. Более того, я собираюсь немного углубиться в лингвистику. Кстати, может еще и бота сделаю, который будет следить за участниками чатов.
4. Обозреть когнитивную сторону представления знаний. Моя диссертация в немалой части опирается на когнитивную психология. В ближайший год я планирую изучить несколько аспектов когнитивистики: как знания представляются в нашей памяти, какие тексты нам легче воспринимать и почему, как происходит обработка языка в мозгу и т.д.
5. Сделать приложение для работы с информацией. Меня жутко раздражает работать с существующими операционными системами: куча файлов, папок, постоянно забываешь, где что лежит, постоянно теряется контекст работы. Я уже довольно долгое время изучаю технологии semantic desktop, надеюсь, что к концу 2024 года у меня будет какой-то рабочий прототип.
В общем, планов много. Успокаивает, что всем вышеперечисленным я планирую заниматься практически фул-тайм. В следующем году я не планирую каких-то вовлекающих активностей, типа опросов или совместного прохождения курсов. Я собираюсь в удобном мне темпе выкладывать как крупные материалы, к примеру, уроки по статистике, так и мелкие заметки, к примеру, о том, как мозг обрабатывает разные типы концепций. Если будет фидбек, мне будет приятно. Но даже без фидбека мне интересно разобрать все эти темы.
В общем, планов у меня громадьё. Времени на сопровождение групп всё меньше, но есть несколько вещей, которые хотелось бы сделать: разобраться в нескольких темах и сделать пару прикладных штук.
1. Разобрать основные темы по статистике. Хочется в доступной манере в виде серии блог-постов изложить самые основы: критерий хи-квадрат, т-тест, анова, линейные регрессии, линейные модели, критерии согласия, непараметрические критерии. Мне понравился стиль изложения у Карпова, но сам я хочу сделать по своей методологии в виде серии постов.
2. Сделать обзор по технологиям представления знаний. То, что редко используется в прикладном анализе. Хочу обозреть дескриптивные и модальные логики, RDF(s), OWL, SHACL, графы знаний, онтологии. Мне кажется, в большинстве областей это не очень перспективно, но кажется забавной штукой - может когда-нибудь пригодится.
3. Погрузиться в мир Natural Language Processing. Мне интересны и классические методы NLP, и более современные, включая LLM. Более того, я собираюсь немного углубиться в лингвистику. Кстати, может еще и бота сделаю, который будет следить за участниками чатов.
4. Обозреть когнитивную сторону представления знаний. Моя диссертация в немалой части опирается на когнитивную психология. В ближайший год я планирую изучить несколько аспектов когнитивистики: как знания представляются в нашей памяти, какие тексты нам легче воспринимать и почему, как происходит обработка языка в мозгу и т.д.
5. Сделать приложение для работы с информацией. Меня жутко раздражает работать с существующими операционными системами: куча файлов, папок, постоянно забываешь, где что лежит, постоянно теряется контекст работы. Я уже довольно долгое время изучаю технологии semantic desktop, надеюсь, что к концу 2024 года у меня будет какой-то рабочий прототип.
В общем, планов много. Успокаивает, что всем вышеперечисленным я планирую заниматься практически фул-тайм. В следующем году я не планирую каких-то вовлекающих активностей, типа опросов или совместного прохождения курсов. Я собираюсь в удобном мне темпе выкладывать как крупные материалы, к примеру, уроки по статистике, так и мелкие заметки, к примеру, о том, как мозг обрабатывает разные типы концепций. Если будет фидбек, мне будет приятно. Но даже без фидбека мне интересно разобрать все эти темы.
👍6🎉2
Разметка аналоговых заметок.
Вообще, я тут недавно озаботился проблемой, а как же обмениваться информацией между цифровым и аналоговым миром, к примеру, компьютером и блокнотом.
С компьютером-то всё понятно - пиши заметки, делай теги и будет тебе счастье. А как легко переносить заметки из блокнота в компьютер? Простые распознавалки текста не дадут большого результата: придется вносить много исправлений, добавлять много разметки и тегов, особенно, для таблиц и картинок. И я пришел к интересной идее: а почему бы не сделать язык разметки для аналоговых заметок? Сейчас проиллюстрирую.
К примеру, хотим мы сделать запись о человеке, чтобы она сразу считалась в наш органайзер. Размечаем её начало и конец специальным значком (как скобками), если надо используем теги (квадратные скобки), делаем саму запись внутри этих значком, у открывающего значка можно написать название заметки (имени человека). Потом просто наводим камеру для распознавания с открытым приложением для заметок. Точно так же можем ввести значки для обозначения текстовых заметок, изображений и таблиц (см. фото).
Удивительно, но при таком ведении заметок, появляется большая удовлетворенность от их создания - когда ставишь закрывающий тэг, ощущаешь, что создал что-то новое законченное.
#notes #analog_markup #заметки
Вообще, я тут недавно озаботился проблемой, а как же обмениваться информацией между цифровым и аналоговым миром, к примеру, компьютером и блокнотом.
С компьютером-то всё понятно - пиши заметки, делай теги и будет тебе счастье. А как легко переносить заметки из блокнота в компьютер? Простые распознавалки текста не дадут большого результата: придется вносить много исправлений, добавлять много разметки и тегов, особенно, для таблиц и картинок. И я пришел к интересной идее: а почему бы не сделать язык разметки для аналоговых заметок? Сейчас проиллюстрирую.
К примеру, хотим мы сделать запись о человеке, чтобы она сразу считалась в наш органайзер. Размечаем её начало и конец специальным значком (как скобками), если надо используем теги (квадратные скобки), делаем саму запись внутри этих значком, у открывающего значка можно написать название заметки (имени человека). Потом просто наводим камеру для распознавания с открытым приложением для заметок. Точно так же можем ввести значки для обозначения текстовых заметок, изображений и таблиц (см. фото).
Удивительно, но при таком ведении заметок, появляется большая удовлетворенность от их создания - когда ставишь закрывающий тэг, ощущаешь, что создал что-то новое законченное.
#notes #analog_markup #заметки
Наткнулся тут на сборник гайдов по изучению data science, много ссылок с комментариями:
https://github.com/HorusHeresyHeretic/ReadMe
https://github.com/HorusHeresyHeretic/ReadMe
GitHub
GitHub - HorusHeresyHeretic/ReadMe: Тот самый [гайд от подписчика по изучению Data Science] из FAQ чата python_beginners это мануал…
Тот самый [гайд от подписчика по изучению Data Science] из FAQ чата python_beginners это мануал по подготовке к изучению учебных материалов учебного курса ODS RTFM - HorusHeresyHeretic/ReadMe
Я всё дальше погружаюсь в нору t-test. Нашел интересное видео 13-летней давности: https://www.youtube.com/watch?v=3OrCvZLMEek
Человек коротко описывает четыре распределения. Мне интересно, исходит ли требование к нормальному распределению средних из самой формулы т-статистики. Так же как раз в числителе среднее, которое и должно быть распределено нормально. Надо будет опять почитать работу Стьюдента (Госсета), ЦПТ и доказательства сходимости t-распределения к нормальному.
Человек коротко описывает четыре распределения. Мне интересно, исходит ли требование к нормальному распределению средних из самой формулы т-статистики. Так же как раз в числителе среднее, которое и должно быть распределено нормально. Надо будет опять почитать работу Стьюдента (Госсета), ЦПТ и доказательства сходимости t-распределения к нормальному.
YouTube
6 Inference I: What is a chi square and F distribution? What is a T distribution?
Statistical inference: Why use a z, t, F, or chi square distribution? In part I, you can see where these come from. In Part J we look at some common statistical tests, and you get to see why they have a particular distribution.
Link to the next video:…
Link to the next video:…
Статья на википедии про распределение выборочного среднего:
https://en.wikipedia.org/wiki/Sampling_distribution
Распределение выборочного среднего зависит от:
- распределения в генеральной совокупности,
- процедуры выборки,
- размера выборки.
Даже если распределение генеральной совокупности ненормальное, то распределение выборки может быть близким к нормальному.
Для примерного установления распределения выборки можно использовать бутстрэп, метод Монте-Карло или положиться на асимптотическое распределение (https://en.wikipedia.org/wiki/Asymptotic_distribution).
https://en.wikipedia.org/wiki/Sampling_distribution
Распределение выборочного среднего зависит от:
- распределения в генеральной совокупности,
- процедуры выборки,
- размера выборки.
Даже если распределение генеральной совокупности ненормальное, то распределение выборки может быть близким к нормальному.
Для примерного установления распределения выборки можно использовать бутстрэп, метод Монте-Карло или положиться на асимптотическое распределение (https://en.wikipedia.org/wiki/Asymptotic_distribution).
Wikipedia
Sampling distribution
probability distribution of a sample statistic
Иными словами, на мой взгляд, мы можем использовать t-test, когда более менее уверены, что распределение генеральной совокупности близко к нормальному. Я думаю, что это можно установить несколькими способами:
1. Убедиться, что не было ошибок при формировании выборок. Эти ошибки могут убрать нормальность.
2. Проверить для начала, а не нормальна ли сама выборка. Посмотреть на коэффициенты ассиметрии (skewness) и эксцесса (kurtosis). Думаю, можно и проверить тестами Шапиро-Уилка или Колмогорова-Смирнова.
3. Проверить методом бутстрэпа на нормальность распределения выборочных средних.
Не очень-то густые инсайты. Теперь осталось понять требование к гомогенности дисперсий.
1. Убедиться, что не было ошибок при формировании выборок. Эти ошибки могут убрать нормальность.
2. Проверить для начала, а не нормальна ли сама выборка. Посмотреть на коэффициенты ассиметрии (skewness) и эксцесса (kurtosis). Думаю, можно и проверить тестами Шапиро-Уилка или Колмогорова-Смирнова.
3. Проверить методом бутстрэпа на нормальность распределения выборочных средних.
Не очень-то густые инсайты. Теперь осталось понять требование к гомогенности дисперсий.
Итак, теперь про равенство дисперсий. Одно из предположений т-критерия Стьюдента состоит в том, что выборочные дисперсии равны. Кажется очевидным, что перед использование теста, необходимо проверить выборки на это самое равенство. Если же дисперсии не равны, то можно отказаться от т-теста Стьюдента в пользу т-теста Уэльча для выборок с разными дисперсиями. Почему же это нужно?
Оказывается, т-критерий Стьюдента начинает плохо себя вести, когда и размеры, и дисперсии выборок отличаются. Особенно ему плохеет, когда большая выборка имеет меньшую дисперсию. В таких ситуациях и рекомендуется использовать т-критерий Уэлча. А чтобы узнать, равны ли дисперсии, раньше предлагалось использовать тесты равенства дисперсий, к примеру, тест Левене.
Получается, что необходимо использовать тест Левене, а потом выбирать подходящий т-критерий? И тут всё становится слегка запутанным. Как и многие статистические тесты, тест Левене имеет свою мощность. Получается, он тоже с некоторой долей вероятности может допускать ошибки первого и второго рода. И в этот момент оказывается, что выигрыш от использования теста Левене и выбора более подходящего варианта из тестов Стьюдента и Уэлча не перекрывает выигрыш от просто постоянного использования т-критерия Уэлча (который работает слегка хуже на выборках одинакового размера с одинаковой дисперсией).
Практические выводы:
1. Т-критерий Стьюдента можно более-менее безопасно использовать при равных выборках или когда бОльшая выборка имеет пропорционально бОльшую дисперсию.
2. Можно просто постоянно использовать т-критерий Уэлча, особенно если выборки разного размера.
#t_test #т_критерий
Оказывается, т-критерий Стьюдента начинает плохо себя вести, когда и размеры, и дисперсии выборок отличаются. Особенно ему плохеет, когда большая выборка имеет меньшую дисперсию. В таких ситуациях и рекомендуется использовать т-критерий Уэлча. А чтобы узнать, равны ли дисперсии, раньше предлагалось использовать тесты равенства дисперсий, к примеру, тест Левене.
Получается, что необходимо использовать тест Левене, а потом выбирать подходящий т-критерий? И тут всё становится слегка запутанным. Как и многие статистические тесты, тест Левене имеет свою мощность. Получается, он тоже с некоторой долей вероятности может допускать ошибки первого и второго рода. И в этот момент оказывается, что выигрыш от использования теста Левене и выбора более подходящего варианта из тестов Стьюдента и Уэлча не перекрывает выигрыш от просто постоянного использования т-критерия Уэлча (который работает слегка хуже на выборках одинакового размера с одинаковой дисперсией).
Практические выводы:
1. Т-критерий Стьюдента можно более-менее безопасно использовать при равных выборках или когда бОльшая выборка имеет пропорционально бОльшую дисперсию.
2. Можно просто постоянно использовать т-критерий Уэлча, особенно если выборки разного размера.
#t_test #т_критерий
Может кому-то это будет интересно и здесь. Для меня удивительно, что вычислительная сложность, которую мы обычно ассоциируем с алгоритмами, играет важную роль и в представлении знаний. К примеру, не так много людей знают, что кроме P и NP классов сложности, есть еще и PSPACE, EXPTIME, NEXPTIME, EXPSPACE. И разрешимость многих логик (дескриптивных, модальных), о которых я буду писать позже, лежит как раз за пределами NP.
В книге же по алгоритмам Бхаргавы таких сложностей нет. Там разбираются самые основы простым языком. Поэтому, если вы хотите погрузиться в мир алгоритмов, эта книга станет хорошим началом пути.
В книге же по алгоритмам Бхаргавы таких сложностей нет. Там разбираются самые основы простым языком. Поэтому, если вы хотите погрузиться в мир алгоритмов, эта книга станет хорошим началом пути.
Forwarded from Учим Питон
А не начать ли нам книжный клуб? :D
А начать. И начнем мы с того, что нужно знать каждому программисту - алгоритмы. Если коротко, то алгоритм - это последовательность действий, решающая определенную задачу за конечно время. И хороший программист должен знать, как оценивать эффективность алгоритмов, как создавать эффективные алгоритмы и какие алгоритмы используются в его инструментах.
И начнем мы с книги для начинающих:
Бхаргава А. - Грокаем алгоритмы. Иллюстрированное пособие для программистов и любопытствующих
План таков:
1. Заполучить книгу (купить, скачать из файлов ВК и т.д.)
2. Каждую неделю читать одну главу.
Итак, начинаем сегодня с главы "1. Знакомство с алгоритмами". Читаем её до следующих выходных. В конце следующей недели я сделаю небольшую выжимку по главе и подготовлю опрос.
Вопросы можно задавать в нашем чате в телеграмме: https://t.me/learnpythonforfun_chat.
#книжный_клуб #алгоритмы
А начать. И начнем мы с того, что нужно знать каждому программисту - алгоритмы. Если коротко, то алгоритм - это последовательность действий, решающая определенную задачу за конечно время. И хороший программист должен знать, как оценивать эффективность алгоритмов, как создавать эффективные алгоритмы и какие алгоритмы используются в его инструментах.
И начнем мы с книги для начинающих:
Бхаргава А. - Грокаем алгоритмы. Иллюстрированное пособие для программистов и любопытствующих
План таков:
1. Заполучить книгу (купить, скачать из файлов ВК и т.д.)
2. Каждую неделю читать одну главу.
Итак, начинаем сегодня с главы "1. Знакомство с алгоритмами". Читаем её до следующих выходных. В конце следующей недели я сделаю небольшую выжимку по главе и подготовлю опрос.
Вопросы можно задавать в нашем чате в телеграмме: https://t.me/learnpythonforfun_chat.
#книжный_клуб #алгоритмы
Telegram
Учим Питон (Чат)
Курс с нуля: https://stepik.org/course/58852/
Курсы для прохождения: https://docs.google.com/document/d/1N-SxSRbe5eaV3z4BEknNVB1G7EKgtfdgVmTyy-q95fY/edit?usp=sharing
Правила: https://vk.com/@learnpythonforfun-pravila-gruppy-i-chatov
Курсы для прохождения: https://docs.google.com/document/d/1N-SxSRbe5eaV3z4BEknNVB1G7EKgtfdgVmTyy-q95fY/edit?usp=sharing
Правила: https://vk.com/@learnpythonforfun-pravila-gruppy-i-chatov
Кстати, а кто-нибудь помнит, что мы начинали проходить курс по статистике? Ну ладно, я начинал. Вот он: https://stepik.org/course/76
В общем, прошлая тема была t-test. В какой-то мере мы с ней разобрались, следующая тема qq-плот. Как мне кажется, я нашел шикарный материал по этой теме.
В общем, прошлая тема была t-test. В какой-то мере мы с ней разобрались, следующая тема qq-плот. Как мне кажется, я нашел шикарный материал по этой теме.