Data&Knowledge – Telegram

Data&Knowledge

@datascienceforfun

130 subscribers

25 photos

21 files

160 links

Работаем с данными

Download Telegram

About

Blog

Apps

Platform

130 subscribers

Я тут налегаю на свою диссертацию, и как-то оказалось, что мне не хватает материала. Поэтому решил написать короткую статью про то, как связаны, к примеру, внимательность и отношение к приватности. Получается, надо оценить связь между несколькими конструктами (внимание, отношение к приватности и др). А чтобы это сделать, можно использовать structural equation modeling. Наткнулся на бесплатный гайд по SEM для языка R. На первых порах читается легко: https://link.springer.com/chapter/10.1007/978-3-030-80519-7_1

An Introduction to Structural Equation Modeling

Structural equation modeling is a multivariate data analysis method for analyzing complex relationships among constructs and indicators. To estimate structural equation models, researchers generally draw on two methods: covariance-based SEM (CB-SEM) and partial…

👍1

197 viewsedited 22:24

Оказывается, выделяют два типа недостающих данных: MACR (missing completely at random) и MAR (missing at random). В первом случае данные не введены пользователем...совершенно случайно, к примеру, по невнимательности или из-за ошибки интернет-соединения. А у второго случая есть ещё одно название: Missing at Random, conditionally. В этом случае пользователь по какой-то причине не хочет вводить данные, и сам этот факт как-то привязан к какой-то переменной (может быть и неизмеренной). К примеру, люди с очень высокой зарплатой могут не желать вводить о ней данные, но при этом они могут указать принадлежность к высшему классу. Разные техники применяются для работы с такими данными.
https://www.theanalysisfactor.com/mar-and-mcar-missing-data/

The Analysis Factor

Missing at Random, Completely?

Two missing data mechanisms have confusing names: MCAR (Missing Completely at Random) and MAR (Missing at Random). What's the difference?

👍4

203 views15:42

Обычно факторный анализ позволяет выявить общий фактор у нескольких переменных. К примеру, если мы сделали опрос с вопросами про доверие к врачам, неуверенность в себе и восприимчивости к новостям, мы можем попробовать обнаружить некий фактор, который частично объяснит эти три переменных. Иными словами, изменчивость этих трех переменных может быть частично объяснена изменчивостью какой-то другой (скрытой) переменной.
При факторном анализе мы интересуемся оценкой дисперсий и корреляций. Интересно, что в некоторых случаях, можно получить отрицательные дисперсии и корреляции больше единицы (чего быть не должно). Этот феномен называется Кейс Хейвуда (Heywood Case). Обычно это происходит из-за неправильной структуры модели.
Я нашел пару статей неначального уровня по этому поводу. Буду рад, если кто дополнит.
https://www.researchgate.net/publication/228937678_Testing_Negative_Error_Variances_Is_a_Heywood_Case_a_Symptom_of_Misspecification

(PDF) Testing Negative Error Variances: Is a Heywood Case a Symptom of Misspecification?

PDF | Abstract Heywood cases, or negative variance estimates, are a common occurrence in factor analysis and latent variable structural equation models.... | Find, read and cite all the research you need on ResearchGate

235 views13:54

condition in fa.pdf

Testing_Negative_Error_Variances_Is_a_Heywood_Case.pdf

233 views13:54

Кстати, если вы хотите выучить R, то у R есть библиотека, которая вас учит языку. Библиотека называется swirl.
Чтобы её использовать, надо установить R, желательно установить R Studio, установить библиотеку swirl и запустить её. Готово! Вам будет предложено несколько заданий, которые проведут вас через основы R.
https://swirlstats.com/students.html

swirl | Students

:computer: swirl's official website

👍4

281 views20:02

Неплохая вводная статья про LLM: https://habr.com/ru/articles/768844/

Раскрывая секреты LLM: руководство по основным понятиям больших языковых моделей без хайпа

AI-хайп, честно говоря, слегка задолбал. Кажется, что все вокруг только и делают, что внедряют в продукт как можно больше AI фичей, поднимают миллионы на оболочку для ChatGPT, осваивают сто первый...

260 views08:34

(2009) Handbook on ontologies.pdf

Хочу поделиться неплохой, но специализированной книжкой про представление знаний, иными словами, про онтологии. Через некоторые главы продираться не так уж и просто, но мне понравилось, что немало информации собрано в одном месте.

#ontology #symbolic #semantic_web #reasoning

221 views19:15

Ну и небольшой опрос: а вы когда-нибудь пользовались онтологиями или графами знаний (knowledge graphs)?

Anonymous Poll

Посмотреть ответы

15 voters223 views19:16

О планах на 2024 год.

В общем, планов у меня громадьё. Времени на сопровождение групп всё меньше, но есть несколько вещей, которые хотелось бы сделать: разобраться в нескольких темах и сделать пару прикладных штук.

1. Разобрать основные темы по статистике. Хочется в доступной манере в виде серии блог-постов изложить самые основы: критерий хи-квадрат, т-тест, анова, линейные регрессии, линейные модели, критерии согласия, непараметрические критерии. Мне понравился стиль изложения у Карпова, но сам я хочу сделать по своей методологии в виде серии постов.
2. Сделать обзор по технологиям представления знаний. То, что редко используется в прикладном анализе. Хочу обозреть дескриптивные и модальные логики, RDF(s), OWL, SHACL, графы знаний, онтологии. Мне кажется, в большинстве областей это не очень перспективно, но кажется забавной штукой - может когда-нибудь пригодится.
3. Погрузиться в мир Natural Language Processing. Мне интересны и классические методы NLP, и более современные, включая LLM. Более того, я собираюсь немного углубиться в лингвистику. Кстати, может еще и бота сделаю, который будет следить за участниками чатов.
4. Обозреть когнитивную сторону представления знаний. Моя диссертация в немалой части опирается на когнитивную психология. В ближайший год я планирую изучить несколько аспектов когнитивистики: как знания представляются в нашей памяти, какие тексты нам легче воспринимать и почему, как происходит обработка языка в мозгу и т.д.
5. Сделать приложение для работы с информацией. Меня жутко раздражает работать с существующими операционными системами: куча файлов, папок, постоянно забываешь, где что лежит, постоянно теряется контекст работы. Я уже довольно долгое время изучаю технологии semantic desktop, надеюсь, что к концу 2024 года у меня будет какой-то рабочий прототип.

В общем, планов много. Успокаивает, что всем вышеперечисленным я планирую заниматься практически фул-тайм. В следующем году я не планирую каких-то вовлекающих активностей, типа опросов или совместного прохождения курсов. Я собираюсь в удобном мне темпе выкладывать как крупные материалы, к примеру, уроки по статистике, так и мелкие заметки, к примеру, о том, как мозг обрабатывает разные типы концепций. Если будет фидбек, мне будет приятно. Но даже без фидбека мне интересно разобрать все эти темы.

👍6🎉2

218 viewsedited 20:29

Разметка аналоговых заметок.

Вообще, я тут недавно озаботился проблемой, а как же обмениваться информацией между цифровым и аналоговым миром, к примеру, компьютером и блокнотом.
С компьютером-то всё понятно - пиши заметки, делай теги и будет тебе счастье. А как легко переносить заметки из блокнота в компьютер? Простые распознавалки текста не дадут большого результата: придется вносить много исправлений, добавлять много разметки и тегов, особенно, для таблиц и картинок. И я пришел к интересной идее: а почему бы не сделать язык разметки для аналоговых заметок? Сейчас проиллюстрирую.
К примеру, хотим мы сделать запись о человеке, чтобы она сразу считалась в наш органайзер. Размечаем её начало и конец специальным значком (как скобками), если надо используем теги (квадратные скобки), делаем саму запись внутри этих значком, у открывающего значка можно написать название заметки (имени человека). Потом просто наводим камеру для распознавания с открытым приложением для заметок. Точно так же можем ввести значки для обозначения текстовых заметок, изображений и таблиц (см. фото).
Удивительно, но при таком ведении заметок, появляется большая удовлетворенность от их создания - когда ставишь закрывающий тэг, ощущаешь, что создал что-то новое законченное.

#notes #analog_markup #заметки

200 views21:50

200 views21:50

Как вам идея?

Anonymous Poll

Такое уже есть (напишу в комментариях)

Это не будет работать (напишу в комментариях)

Посмотреть ответы

21 voters221 views21:53

Наткнулся тут на сборник гайдов по изучению data science, много ссылок с комментариями:
https://github.com/HorusHeresyHeretic/ReadMe

GitHub - HorusHeresyHeretic/ReadMe: Тот самый [гайд от подписчика по изучению Data Science] из FAQ чата python_beginners это мануал…

Тот самый [гайд от подписчика по изучению Data Science] из FAQ чата python_beginners это мануал по подготовке к изучению учебных материалов учебного курса ODS RTFM - HorusHeresyHeretic/ReadMe

1.25K viewsedited 10:29

Я всё дальше погружаюсь в нору t-test. Нашел интересное видео 13-летней давности: https://www.youtube.com/watch?v=3OrCvZLMEek

Человек коротко описывает четыре распределения. Мне интересно, исходит ли требование к нормальному распределению средних из самой формулы т-статистики. Так же как раз в числителе среднее, которое и должно быть распределено нормально. Надо будет опять почитать работу Стьюдента (Госсета), ЦПТ и доказательства сходимости t-распределения к нормальному.

6 Inference I: What is a chi square and F distribution? What is a T distribution?

Statistical inference: Why use a z, t, F, or chi square distribution? In part I, you can see where these come from. In Part J we look at some common statistical tests, and you get to see why they have a particular distribution.

Link to the next video:…

209 views14:56

Статья на википедии про распределение выборочного среднего:
https://en.wikipedia.org/wiki/Sampling_distribution

Распределение выборочного среднего зависит от:
- распределения в генеральной совокупности,
- процедуры выборки,
- размера выборки.

Даже если распределение генеральной совокупности ненормальное, то распределение выборки может быть близким к нормальному.

Для примерного установления распределения выборки можно использовать бутстрэп, метод Монте-Карло или положиться на асимптотическое распределение (https://en.wikipedia.org/wiki/Asymptotic_distribution).

Sampling distribution

probability distribution of a sample statistic

163 views10:53

Иными словами, на мой взгляд, мы можем использовать t-test, когда более менее уверены, что распределение генеральной совокупности близко к нормальному. Я думаю, что это можно установить несколькими способами:
1. Убедиться, что не было ошибок при формировании выборок. Эти ошибки могут убрать нормальность.
2. Проверить для начала, а не нормальна ли сама выборка. Посмотреть на коэффициенты ассиметрии (skewness) и эксцесса (kurtosis). Думаю, можно и проверить тестами Шапиро-Уилка или Колмогорова-Смирнова.
3. Проверить методом бутстрэпа на нормальность распределения выборочных средних.

Не очень-то густые инсайты. Теперь осталось понять требование к гомогенности дисперсий.

161 views11:00

Итак, теперь про равенство дисперсий. Одно из предположений т-критерия Стьюдента состоит в том, что выборочные дисперсии равны. Кажется очевидным, что перед использование теста, необходимо проверить выборки на это самое равенство. Если же дисперсии не равны, то можно отказаться от т-теста Стьюдента в пользу т-теста Уэльча для выборок с разными дисперсиями. Почему же это нужно?

Оказывается, т-критерий Стьюдента начинает плохо себя вести, когда и размеры, и дисперсии выборок отличаются. Особенно ему плохеет, когда большая выборка имеет меньшую дисперсию. В таких ситуациях и рекомендуется использовать т-критерий Уэлча. А чтобы узнать, равны ли дисперсии, раньше предлагалось использовать тесты равенства дисперсий, к примеру, тест Левене.

Получается, что необходимо использовать тест Левене, а потом выбирать подходящий т-критерий? И тут всё становится слегка запутанным. Как и многие статистические тесты, тест Левене имеет свою мощность. Получается, он тоже с некоторой долей вероятности может допускать ошибки первого и второго рода. И в этот момент оказывается, что выигрыш от использования теста Левене и выбора более подходящего варианта из тестов Стьюдента и Уэлча не перекрывает выигрыш от просто постоянного использования т-критерия Уэлча (который работает слегка хуже на выборках одинакового размера с одинаковой дисперсией).

Практические выводы:
1. Т-критерий Стьюдента можно более-менее безопасно использовать при равных выборках или когда бОльшая выборка имеет пропорционально бОльшую дисперсию.
2. Можно просто постоянно использовать т-критерий Уэлча, особенно если выборки разного размера.

#t_test #т_критерий

188 viewsedited 10:16

Может кому-то это будет интересно и здесь. Для меня удивительно, что вычислительная сложность, которую мы обычно ассоциируем с алгоритмами, играет важную роль и в представлении знаний. К примеру, не так много людей знают, что кроме P и NP классов сложности, есть еще и PSPACE, EXPTIME, NEXPTIME, EXPSPACE. И разрешимость многих логик (дескриптивных, модальных), о которых я буду писать позже, лежит как раз за пределами NP.
В книге же по алгоритмам Бхаргавы таких сложностей нет. Там разбираются самые основы простым языком. Поэтому, если вы хотите погрузиться в мир алгоритмов, эта книга станет хорошим началом пути.

145 views12:55

Forwarded from Учим Питон

А не начать ли нам книжный клуб? :D

А начать. И начнем мы с того, что нужно знать каждому программисту - алгоритмы. Если коротко, то алгоритм - это последовательность действий, решающая определенную задачу за конечно время. И хороший программист должен знать, как оценивать эффективность алгоритмов, как создавать эффективные алгоритмы и какие алгоритмы используются в его инструментах.

И начнем мы с книги для начинающих:
Бхаргава А. - Грокаем алгоритмы. Иллюстрированное пособие для программистов и любопытствующих
План таков:
1. Заполучить книгу (купить, скачать из файлов ВК и т.д.)
2. Каждую неделю читать одну главу.

Итак, начинаем сегодня с главы "1. Знакомство с алгоритмами". Читаем её до следующих выходных. В конце следующей недели я сделаю небольшую выжимку по главе и подготовлю опрос.
Вопросы можно задавать в нашем чате в телеграмме: https://t.me/learnpythonforfun_chat.

#книжный_клуб #алгоритмы

Учим Питон (Чат)

Курс с нуля: https://stepik.org/course/58852/

Курсы для прохождения: https://docs.google.com/document/d/1N-SxSRbe5eaV3z4BEknNVB1G7EKgtfdgVmTyy-q95fY/edit?usp=sharing

Правила: https://vk.com/@learnpythonforfun-pravila-gruppy-i-chatov

69 views12:55

Кстати, а кто-нибудь помнит, что мы начинали проходить курс по статистике? Ну ладно, я начинал. Вот он: https://stepik.org/course/76
В общем, прошлая тема была t-test. В какой-то мере мы с ней разобрались, следующая тема qq-плот. Как мне кажется, я нашел шикарный материал по этой теме.

220 views12:12