Data&Knowledge – Telegram

Data&Knowledge

@datascienceforfun

130 subscribers

25 photos

21 files

160 links

Работаем с данными

Download Telegram

About

Blog

Apps

Platform

130 subscribers

О будущем канала

tl;dr: изменение названия и контент-план.

У нас в канале и чате, как это можно легко заметить, нет большой активности. Вряд ли это получится исправить - у меня не так много времени остается на ведение этого канала. И тем не менее, небольшой апдейт.
Так как я работаю в исследовательской библиотеке, то и контент будет соответствующий. В ближайшие месяцы:
- прохождение того же курса Карпова по статистике и выкладывание моих конспектов
- инструменты для работы с данными: визуализация, инструменты для работы с большими данными
- материалы по представлению знаний: графовые представления, triple-stores, онтологии и логики.

Материалы будут появляться не часто, вряд ли чаще раза в неделю. Изменится и название группы, чтобы лучше соответствовать:
Data Science Club -> Data&Knowledge

👍13

238 viewsedited 10:43

Немногие знают, но помимо википедии существует еще и ресурс, где хранятся структурированные знания в виде концептов-триплетов. К примеру:
(Казань, численность-населения, 1243500)
В таком виде хранится очень много информации, её можно найти по адресу wikidata.org. Общее название таких технологий хранения знаний: semantic web.

Интереснее то, что хранением информации всё не ограничивается. Оказывается, в семантической паутине есть целый ряд технологий для работы с информацией. К примеру, есть целый свой язык запросов, который называется SPARQL. Он отдаленно похож на SQL, но оперирует на триплетах. Давайте посмотрим на примере:

SELECT ?city 
WHERE 
{
  ?city has_population 2000. 
}

Такое запрос вводит переменную city и возвращает все концепты, у которых население 2000 человек. К примеру, из этого набора:
(Чуповка, has_population, 546)
(Капивник, has_population, 2000)
(Лопопон, has_population, 3332)
(Воскма, has_population, 2000)
Будут выведены только Капивник и Воскма.

А вот мой короткий код, показывающий, как в викидате по введеному названию найти семантическую сущность для города, его GeoName Id и численность его населения:
https://colab.research.google.com/drive/13XKDzOkjG17zfPGy8Dnnqrcv4C4dO7F4?usp=sharing

SPARQLing.ipynb

Colaboratory notebook

👍6

1.11K views21:55

Небольшая рекламнопросветительская статья про huggingface:
https://towardsdatascience.com/whats-hugging-face-122f4e7eb11a
а тут на русском:
https://habr.com/ru/post/704592/

341 views22:39

Вводная статья про машинное обучение на графах: https://towardsdatascience.com/graph-machine-learning-an-overview-c996e53fab90

Graph Machine Learning: An Overview

Key concepts for getting started

👍1

270 views10:36

Неплохой лектор и курс по нейронкам:
https://www.youtube.com/playlist?list=PLlb7e2G7aSpT1ntsozWmWJ4kGUsUs141Y

👍2

250 views10:44

Рассуждения про параметрические и непараметрические тесты, как части generalized linear models:
https://lindeloev.github.io/tests-as-linear/

lindeloev.github.io

Common statistical tests are linear models (or: how to teach stats)

333 views22:22

О нормальном распределении вышла статья на хабре: https://habr.com/ru/articles/730936/

Нормально разбираемся в Нормальном распределении

Всем привет. Это пост про интуитивное понимание Нормального распределения. Обычный курс теории вероятностей проходит следующим образом. Сначала вам даются понятные и относительно простые концепции....

👍1

527 views20:50

О перспективах в области Large-Language Models, или еще не все задачи решены с ChatGPT: https://arxiv.org/pdf/2305.12544.pdf

314 viewsedited 22:15

Пусть у нас пока совсем не активно тут, но всё равно буду рад увидеть обратную связь:
https://forms.gle/3JmmDDZN5RU8vdgW8

Форма обратной связи (Q2.2023)

311 views10:41

https://media.licdn.com/dms/image/D4D22AQF6A7OFmTHhOw/feedshare-shrink_1280/0/1686831627527?e=1690416000&v=beta&t=7uzq2P-btBh9idaV-b-lQpKixpAz3vGUrwZvybZVPSU

👍2

330 views09:12

Открытая книга по глубокому обучению:
https://udlbook.github.io/udlbook/

350 viewsedited 06:49

Начинается новый сезон треков на ods.ai:
https://ods.ai/events/course_season_autumn_23

191 viewsedited 15:48

Тем, кто проходил статистику на степике, будет, вероятно известен правильный ответ, но, тем не менее, опрос.

Профессор Бамблдорф провел эксперимент, проанализировал данные и сказал: «95%-ный доверительный интервал для среднего лежит в интервале от 0.1 до 0.4». Какие из приведенных ниже утверждений являются правильными (т.е. логически следуют из результата, полученного профессором), а какие -- нет? Правильными могут быть все утверждения, некоторые, одно, а может не быть вообще.

168 views13:56

Какие из приведенных ниже утверждений являются правильными (т.е. логически следуют из результата, полученного профессором), а какие -- нет?

Anonymous Poll

Вероятность того, что истинное среднее больше 0 — как минимум 95%

Вероятность того, что истинное среднее равно нулю, меньше 5%

«Нуль-гипотеза» о том, что истинное среднее равно 0, скорее всего неверна

Вероятность того, что истинное среднее находится в интервале от 0.1 до 0.4 — 95%

Мы можем быть на 95% уверены в том, что истинное среднее лежит между 0.1 и 0.4

Если повторить эксперимент много раз, в 95% случаях истинное среднее было между 0.1 и 0.4

Нет правильного ответа

16 voters212 views13:56

А ответ на этот опрос можно прочитать в статье: http://thinkcognitive.org/ru/blog/golova-professora-bambldorfa

THINK COGNITIVE, THINK SCIENCE

Голова профессора Бамблдорфа | THINK COGNITIVE, THINK SCIENCE

Часто считается, что доверительные интервалы интерпретируются проще и корректнее, чем результаты так называемых тестов проверки нуль-гипотез (NHST). Так

246 views13:56

Статья о неправильных представления о p-value:
https://sixsigmadsi.com/wp-content/uploads/2020/10/A-Dirty-Dozen-Twelve-P-Value-Misconceptions.pdf

223 views12:37

Многие слышали про эту великую работу, но не многие её читали:
https://www.york.ac.uk/depts/maths/histstat/student.pdf
Это работа Уильяма Госсета, в которой он предложил метод работы с выборками малого размера. Подробное и доступное описание работы можно увидеть в этой статье:
http://www.lhs.kennyiams.com/FilesAPStats/2nd%20Sem/23D%20students%20t%20model%20article%20summary.pdf

👍1

222 viewsedited 21:32

Я поработал немного со сверточными сетями и понял, что я уже ничего особо не помню и нужно освежить знания. Еще и начальник дал задание начать делать семантическую разметку текста. Поэтому я немного пораскинул мозгами и решил освежить свои знания по обработке текста курсом со степика: https://stepik.org/course/54098/
Предлагаю пройти вместе за пару месяцев.

228 viewsedited 21:26

Я сделал класс по прохождению курса по обработке текста: https://stepik.org/join-class/72e95a3dee0ae04dac7d9b14bca82c595f2224f0
Не знаю как пойдет, курс не самый простой. Но мне в любом случае это надо пройти, может кто-то захочет страдать вместе.
До конца следующей недели предлагаю втянуться и пройти самый первый модуль.

Stepik: online education

Образовательная платформа — Stepik. Выберите подходящий вам онлайн-курс из более чем 20 тысяч и начните получать востребованные навыки.

👍1

2.37K viewsedited 19:49

Напоминаю, что у нас тут началось совместное прохождение курса по анализу текстов:
https://stepik.org/course/54098
Вот класс для совместного прохождения: https://stepik.org/join-class/72e95a3dee0ae04dac7d9b14bca82c595f2224f0
Курс занятный, не самый простой.

305 views20:05

Итак, сегодня начинается вторая неделя курса по обработке текста: https://stepik.org/course/54098/
Тема этой недели: векторные модели текста и классификация длинных текстов.

2.51K views17:25