Data&Knowledge – Telegram

Data&Knowledge

@datascienceforfun

130 subscribers

25 photos

21 files

160 links

Работаем с данными

Download Telegram

About

Blog

Apps

Platform

130 subscribers

Еще я начал планировать, как сделать научный канал про продуктивность. И внезапно оказалось, что тщательная подготовка видео по любой теме будет занимать 2-3 месяца. Оказалось, что немалая часть каналов по продуктивности только прикрывается научностью. Авторы выдвигают некий тезис, находят пару тройку статей, подтверждающих его, приправляют собственным опытом...и всё. Толкового обзора там нет, ведь толковые обзоры делать крайне трудозатратно. Так и получается, что мы живем в обществе с гигантскими объемами доступной информации, но из-за экономических реалий у нас нет возможности извлечь максимальную пользу из этой информации. Печально.

171 views17:24

И напоследок. Если вам по какой-то причине интересна философия науки, то могу порекомендовать книжку

Philosophy of Science: A Very Short Introduction by Samir Okasha

Она несложная и описывает основные вехи в развитии философии науки. Я не нашел в ней каких-то серьезных неточностей или упущений, хотя кому-то она может показаться слегка поверхностной.

175 viewsedited 17:28

Предлагаю желающим поиграться с заданиями с семинаров из курса по NLP.
Первое такое задание: https://stepik.org/lesson/247966/step/10?unit=220078
Так надо сначала скачать их библиотечку: https://github.com/sic-rus-ai/stepik-dl-nlp/tree/master

В той же папке есть ноутбук с кодом: task2_word_embeddings.ipynb. Предлагаю поработать над этой штукой до конца недели, а потом поделиться результатами. Единственное "но", код для gensim модели в моем окужении не работает, но он для экспериментов особо и не нужен. В видео к семинару дается краткое объяснение, что делает код.

Stepik: online education

Семинар: рецепты еды и Word2Vec на PyTorch

174 viewsedited 15:22

Планы на следующий год

Итак, 2024 год подходит к концу. Год получился каким-то скомканным, многое из задуманного так и не удалось осуществить. И тем не менее, я бы хотел поделиться новыми планами на 2025 год.

1. Пройти курс по NLP.
В ближайшие два месяца мне бы хотелось завершить курс со степика по NLP (https://stepik.org/course/54098). Хотелось бы поглубже погрузиться во всё это, а потом попробовать сделать некий прототип для изучения языка с AI.

2. Начать проходить высшую математику.
Может быть это и прозвучит странно, но для меня это высокоприоритетная задача. Оказалось, что математика является не только основанием для data science, но и базой для того, чтобы заниматься серьезной наукой. В общем, мне хочется, чтобы математика и логика стали для меня удобными инструментами. Я думаю, что до начала середины года получится начать пару курсов.

3. Написать статей и заметок.
Планирую написать несколько заметок и статей о логике, о восприятии контекста и информации в компьютере. Еще хочется завершить заметки по основным статистическим тестам. Ничего не обещаю, но очень хочу это сделать.

4. Пройти курс по обработке изображений.
Какой курс проходить, я пока не знаю, но жена недавно подкинула мне интересную идею. Если коротко, то мне надо будет по 2D-изображению строить 3D-персонажа из заготовленных кусков. Соответственно, сгенерированный персонаж должен быть похож на изначальное изображение.

5. Поучаствовать в хакатонах.
Мне надо развивать софт- и хард-скиллы, поэтому участие в хакатонах кажется логичным следующим шагом. Надеюсь, что летом-осенью всерьез приступлю к этому делу.

Вот такие вот планы. Я надеюсь, что в следующем году у меня уже получится защититься. Мне разрешили целый год не работать и посвятить его всему тому, что я перечислил выше. Надеюсь, это будет весело.

Всех с наступающим Новым Годом 🎉🎉🎉

👍1

172 viewsedited 11:46

А у меня есть прикладная задачка из области UX. Представьте, что у нас есть VR-игра. У нас есть датчики роста, микрофон и тд. Есть проблема: так как игра бесплатная, то туда заходит слишком много детей. Из-за этого взрослые с деньгами уходят из игры. Как решить эту проблему?
Чтобы разграничить детей и взрослых, мы можем создавать отдельные сессии.

147 viewsedited 21:10

Задачка с небольшим подвохом.

Это задачка может помочь понять научный метод и тестирование гипотез.
Имеется четыре карты, половина каждой из которых замаскирована (наложена черная маска). Какие маски нужно снять, чтобы узнать, правда ли, что если на карточке есть круг слева, то и справа есть круг?

183 views00:01

Какие маски нужно снять, чтобы узнать, правда ли, что если на карточке есть круг слева, то и справа есть круг?

Anonymous Quiz

Посмотреть ответы

32 voters164 views00:01

Небольшая идея. Было бы круто сделать иметь сервис для корректирования оценки после накрученных отзывов. К примеру, пусть у нас два товара со средними отзывами:

Товар 1:
Отл. ————————
Хор. —————
Удв. —
Плх. ——

Товар 2:
Отл. ———
Хор. ————
Удв. ———
Плх. —

Кажется, что у первого товара гораздо больше хороших и отличных отзывов, значит, и товар лучше. Однако, можно заметить, что у первого товара и плохих отзывов больше. Более того, у него плохих отзывов больше, чем удовлетворительных. То есть люди часто были сильно недовольны товаром. Получается, если отбросить вероятно покупные отзывы у товара 1, то товар 2 будет выглядеть лучше.

В общем, интересно создать модель, которая по частотам хороших-плохих отзывов будет выставлять скорректированную оценку товару.

155 views14:21

Друзья, можете пройти опрос на 5 минут?
Я тут подумываю попробовать делать ютюб-видео о продуктивности на основе научных статей, хочу узнать, какие темы людям более интересны.

https://forms.gle/sR4gJqZKqVGpXTQD9

Потом зашарю тут ответы.

П.С. Ссылка обновлена.

122 viewsedited 16:26

А я тут нашел прикольную книжку по power analysis (анализ статистической мощности). Мощность - это такая штука, которая говорит нам о способности теста выявить статистически значимую разницу, если она действительно существует. Связанное понятие - effect size (размер эффекта?) - такая штука, которая показывает величину воздействия независимой переменной на зависимую (к примеру, курения сигарет на рак легких).
В общем, начал читать книжку, она на английском, но пока что читается довольно легко:
Statistical Power Analysis for the Behavioral Sciences
Routledge, 2nd, 1988
Jacob Cohen

https://annas-archive.org/md5/aaa90371cd9c588dc5530cfeb909f3f2

annas-archive.org

Statistical Power Analysis for the Behavioral Sciences - Anna’s Archive

Jacob Cohen

Statistical Power Analysis is a nontechnical guide to power analysis in research planning that provi

Routledge

158 viewsedited 12:04

Игра нас обманывает?

Небольшая задача на подумать. Я тут недавно начал играть в одну карточную игру. В ней надо строить свою башню и разрушать башню противника. При этом делать это надо за карты, каждая карта тратит определенный вид ресурсов. У каждого игрока есть показатели добычи этих ресурсов, которые могут менять во время игры при помощи карт с соответствующими возможностями. Ресурсов три типа и, соответственно, три типа карт. Карт разных типов в колоде практически одинаковое количество. После вытаскивания очередной карты, она возвращается в колоду.

Я заметил, что иногда очень сложно отстроить свою башню или разрушить башню противника. Я стал считать.

Ситуация первая.
6 ходов подряд выпадала карта одного типа ресурсов.

Ситуация вторая.
10 ходов подряд не выпадает карта одного типа ресурсов.

Ситуация третья.
При минимальной башне мне не выпадают карты на отстройку башни.

Подкручена ли раздача карта? Как можно убедиться в этом?

171 views14:06

Я сделал небольшой анализ опроса о том, какие видео на тему продуктивности больше нравятся людям. Для желающих, там есть небольшое домашнее задание:
https://colab.research.google.com/drive/1MjXCaO3fZxgnzySRzjzdb-AWUBHnAOEG?usp=sharing

Анализ опроса.ipynb

122 viewsedited 11:39

Пройти курс по NLP

Напомню, что одна из моих целей на год - пройти курс по NLP на степике. Курс оказался не супер, как по мне, но он предоставляет какой-то план действий. В общем, я решил потихоньку его продолжать, а здесь хочу поделиться материалами, которые я буду использовать для прохождения.

https://stepik.org/course/54098/ - собственно, сам курс.

https://www.youtube.com/playlist?list=PLAqhIrjkxbuWI23v9cThsA9GvCAUhRvKZ - отличный ютюб-плэйлист по нейронным сетям, у этого же автора есть материалы по LLM.

https://web.stanford.edu/~jurafsky/slp3/ - часто рекоммендуемый курс от Стэнфордского университету.

https://d2l.ai/ - одна из лучших книжек по глубокому обучению, люди её очень советуют.
https://annas-archive.org/md5/dd7d63a1003b7907b199d4f9cce0a62e - Deep Learning by Ian Goodfellow & Yoshua Bengio & Aaron Courville - еще одна неплохая фундаментальная книжка.

В общем, ресурсы у нас есть, потихоньку продолжаем ~~страдать~~ изучать 🥲

151 views18:08

Поучаствовать в хакатоне

У нас в университете снова организуют хакатон: https://bbdc.csl.uni-bremen.de/de/2025-2/professional-track/
В моем треке надо будет проанализировать финансовые данные и выявить фрод. А не поучаствовать ли? С одной стороны, у меня не так много времени и всё уже распланировано наперед. С другой же стороны, это неплохая возможность познакомиться с временными моделями типа ARIMA и реккурентными нейросетями. У нас и книжки есть, вот одна по временным рядам:
Forecasting : principles and practice by Rob J Hyndman, George Athanasopoulos, Spyros G. Makridakis, Steven C. Wheelwright (https://annas-archive.org/md5/c1ae783fdf246ee5e7e15bcb06b5ba44)
Пожалуй, можно попробовать 😊

Professional Track - BBDC

tada, neues logo!

133 viewsedited 10:26

Март - отличный месяц, чтобы пройти семинар по простым векторным представлениям слов (https://stepik.org/lesson/247966/step/1?unit=220078).
Я тут собрал некоторые статьи по word2vec, fasttext, glove, lexvec, wordrank.

Stepik: online education

Семинар: рецепты еды и Word2Vec на PyTorch

103 views12:18

1506.02761v4.pdf

1607.01759v3.pdf

1607.04606v2.pdf

1301.3781v3.pdf

155 views12:19