Data&Knowledge
130 subscribers
25 photos
21 files
160 links
Работаем с данными
Download Telegram
О будущем канала

tl;dr: изменение названия и контент-план.

У нас в канале и чате, как это можно легко заметить, нет большой активности. Вряд ли это получится исправить - у меня не так много времени остается на ведение этого канала. И тем не менее, небольшой апдейт.
Так как я работаю в исследовательской библиотеке, то и контент будет соответствующий. В ближайшие месяцы:
- прохождение того же курса Карпова по статистике и выкладывание моих конспектов
- инструменты для работы с данными: визуализация, инструменты для работы с большими данными
- материалы по представлению знаний: графовые представления, triple-stores, онтологии и логики.

Материалы будут появляться не часто, вряд ли чаще раза в неделю. Изменится и название группы, чтобы лучше соответствовать:
Data Science Club -> Data&Knowledge
👍13
Немногие знают, но помимо википедии существует еще и ресурс, где хранятся структурированные знания в виде концептов-триплетов. К примеру:
(Казань, численность-населения, 1243500)
В таком виде хранится очень много информации, её можно найти по адресу wikidata.org. Общее название таких технологий хранения знаний: semantic web.

Интереснее то, что хранением информации всё не ограничивается. Оказывается, в семантической паутине есть целый ряд технологий для работы с информацией. К примеру, есть целый свой язык запросов, который называется SPARQL. Он отдаленно похож на SQL, но оперирует на триплетах. Давайте посмотрим на примере:
SELECT ?city 
WHERE
{
?city has_population 2000.
}

Такое запрос вводит переменную city и возвращает все концепты, у которых население 2000 человек. К примеру, из этого набора:
(Чуповка, has_population, 546)
(Капивник, has_population, 2000)
(Лопопон, has_population, 3332)
(Воскма, has_population, 2000)
Будут выведены только Капивник и Воскма.

А вот мой короткий код, показывающий, как в викидате по введеному названию найти семантическую сущность для города, его GeoName Id и численность его населения:
https://colab.research.google.com/drive/13XKDzOkjG17zfPGy8Dnnqrcv4C4dO7F4?usp=sharing
👍6
Небольшая рекламнопросветительская статья про huggingface:
https://towardsdatascience.com/whats-hugging-face-122f4e7eb11a
а тут на русском:
https://habr.com/ru/post/704592/
Неплохой лектор и курс по нейронкам:
https://www.youtube.com/playlist?list=PLlb7e2G7aSpT1ntsozWmWJ4kGUsUs141Y
👍2
Рассуждения про параметрические и непараметрические тесты, как части generalized linear models:
https://lindeloev.github.io/tests-as-linear/
О перспективах в области Large-Language Models, или еще не все задачи решены с ChatGPT: https://arxiv.org/pdf/2305.12544.pdf
Пусть у нас пока совсем не активно тут, но всё равно буду рад увидеть обратную связь:
https://forms.gle/3JmmDDZN5RU8vdgW8
Открытая книга по глубокому обучению:
https://udlbook.github.io/udlbook/
Начинается новый сезон треков на ods.ai:
https://ods.ai/events/course_season_autumn_23
Тем, кто проходил статистику на степике, будет, вероятно известен правильный ответ, но, тем не менее, опрос.

Профессор Бамблдорф провел эксперимент, проанализировал данные и сказал: «95%-ный доверительный интервал для среднего лежит в интервале от 0.1 до 0.4». Какие из приведенных ниже утверждений являются правильными (т.е. логически следуют из результата, полученного профессором), а какие -- нет? Правильными могут быть все утверждения, некоторые, одно, а может не быть вообще.
Статья о неправильных представления о p-value:
https://sixsigmadsi.com/wp-content/uploads/2020/10/A-Dirty-Dozen-Twelve-P-Value-Misconceptions.pdf
Многие слышали про эту великую работу, но не многие её читали:
https://www.york.ac.uk/depts/maths/histstat/student.pdf
Это работа Уильяма Госсета, в которой он предложил метод работы с выборками малого размера. Подробное и доступное описание работы можно увидеть в этой статье:
http://www.lhs.kennyiams.com/FilesAPStats/2nd%20Sem/23D%20students%20t%20model%20article%20summary.pdf
👍1
Я поработал немного со сверточными сетями и понял, что я уже ничего особо не помню и нужно освежить знания. Еще и начальник дал задание начать делать семантическую разметку текста. Поэтому я немного пораскинул мозгами и решил освежить свои знания по обработке текста курсом со степика: https://stepik.org/course/54098/
Предлагаю пройти вместе за пару месяцев.
Я сделал класс по прохождению курса по обработке текста: https://stepik.org/join-class/72e95a3dee0ae04dac7d9b14bca82c595f2224f0
Не знаю как пойдет, курс не самый простой. Но мне в любом случае это надо пройти, может кто-то захочет страдать вместе.
До конца следующей недели предлагаю втянуться и пройти самый первый модуль.
👍1
Напоминаю, что у нас тут началось совместное прохождение курса по анализу текстов:
https://stepik.org/course/54098
Вот класс для совместного прохождения: https://stepik.org/join-class/72e95a3dee0ae04dac7d9b14bca82c595f2224f0
Курс занятный, не самый простой.
Итак, сегодня начинается вторая неделя курса по обработке текста: https://stepik.org/course/54098/
Тема этой недели: векторные модели текста и классификация длинных текстов.