Data&Knowledge
130 subscribers
25 photos
21 files
160 links
Работаем с данными
Download Telegram
О перспективах в области Large-Language Models, или еще не все задачи решены с ChatGPT: https://arxiv.org/pdf/2305.12544.pdf
Пусть у нас пока совсем не активно тут, но всё равно буду рад увидеть обратную связь:
https://forms.gle/3JmmDDZN5RU8vdgW8
Открытая книга по глубокому обучению:
https://udlbook.github.io/udlbook/
Начинается новый сезон треков на ods.ai:
https://ods.ai/events/course_season_autumn_23
Тем, кто проходил статистику на степике, будет, вероятно известен правильный ответ, но, тем не менее, опрос.

Профессор Бамблдорф провел эксперимент, проанализировал данные и сказал: «95%-ный доверительный интервал для среднего лежит в интервале от 0.1 до 0.4». Какие из приведенных ниже утверждений являются правильными (т.е. логически следуют из результата, полученного профессором), а какие -- нет? Правильными могут быть все утверждения, некоторые, одно, а может не быть вообще.
Статья о неправильных представления о p-value:
https://sixsigmadsi.com/wp-content/uploads/2020/10/A-Dirty-Dozen-Twelve-P-Value-Misconceptions.pdf
Многие слышали про эту великую работу, но не многие её читали:
https://www.york.ac.uk/depts/maths/histstat/student.pdf
Это работа Уильяма Госсета, в которой он предложил метод работы с выборками малого размера. Подробное и доступное описание работы можно увидеть в этой статье:
http://www.lhs.kennyiams.com/FilesAPStats/2nd%20Sem/23D%20students%20t%20model%20article%20summary.pdf
👍1
Я поработал немного со сверточными сетями и понял, что я уже ничего особо не помню и нужно освежить знания. Еще и начальник дал задание начать делать семантическую разметку текста. Поэтому я немного пораскинул мозгами и решил освежить свои знания по обработке текста курсом со степика: https://stepik.org/course/54098/
Предлагаю пройти вместе за пару месяцев.
Я сделал класс по прохождению курса по обработке текста: https://stepik.org/join-class/72e95a3dee0ae04dac7d9b14bca82c595f2224f0
Не знаю как пойдет, курс не самый простой. Но мне в любом случае это надо пройти, может кто-то захочет страдать вместе.
До конца следующей недели предлагаю втянуться и пройти самый первый модуль.
👍1
Напоминаю, что у нас тут началось совместное прохождение курса по анализу текстов:
https://stepik.org/course/54098
Вот класс для совместного прохождения: https://stepik.org/join-class/72e95a3dee0ae04dac7d9b14bca82c595f2224f0
Курс занятный, не самый простой.
Итак, сегодня начинается вторая неделя курса по обработке текста: https://stepik.org/course/54098/
Тема этой недели: векторные модели текста и классификация длинных текстов.
С подставного аккаунта @embdene просят денег. Это не я, можете спокойно жаловаться в службу поддержки или игнорировать.
Я тут налегаю на свою диссертацию, и как-то оказалось, что мне не хватает материала. Поэтому решил написать короткую статью про то, как связаны, к примеру, внимательность и отношение к приватности. Получается, надо оценить связь между несколькими конструктами (внимание, отношение к приватности и др). А чтобы это сделать, можно использовать structural equation modeling. Наткнулся на бесплатный гайд по SEM для языка R. На первых порах читается легко: https://link.springer.com/chapter/10.1007/978-3-030-80519-7_1
👍1
Оказывается, выделяют два типа недостающих данных: MACR (missing completely at random) и MAR (missing at random). В первом случае данные не введены пользователем...совершенно случайно, к примеру, по невнимательности или из-за ошибки интернет-соединения. А у второго случая есть ещё одно название: Missing at Random, conditionally. В этом случае пользователь по какой-то причине не хочет вводить данные, и сам этот факт как-то привязан к какой-то переменной (может быть и неизмеренной). К примеру, люди с очень высокой зарплатой могут не желать вводить о ней данные, но при этом они могут указать принадлежность к высшему классу. Разные техники применяются для работы с такими данными.
https://www.theanalysisfactor.com/mar-and-mcar-missing-data/
👍4
Обычно факторный анализ позволяет выявить общий фактор у нескольких переменных. К примеру, если мы сделали опрос с вопросами про доверие к врачам, неуверенность в себе и восприимчивости к новостям, мы можем попробовать обнаружить некий фактор, который частично объяснит эти три переменных. Иными словами, изменчивость этих трех переменных может быть частично объяснена изменчивостью какой-то другой (скрытой) переменной.
При факторном анализе мы интересуемся оценкой дисперсий и корреляций. Интересно, что в некоторых случаях, можно получить отрицательные дисперсии и корреляции больше единицы (чего быть не должно). Этот феномен называется Кейс Хейвуда (Heywood Case). Обычно это происходит из-за неправильной структуры модели.
Я нашел пару статей неначального уровня по этому поводу. Буду рад, если кто дополнит.
https://www.researchgate.net/publication/228937678_Testing_Negative_Error_Variances_Is_a_Heywood_Case_a_Symptom_of_Misspecification