Data&Knowledge
130 subscribers
25 photos
21 files
160 links
Работаем с данными
Download Telegram
И напоследок. Если вам по какой-то причине интересна философия науки, то могу порекомендовать книжку

Philosophy of Science: A Very Short Introduction by Samir Okasha


Она несложная и описывает основные вехи в развитии философии науки. Я не нашел в ней каких-то серьезных неточностей или упущений, хотя кому-то она может показаться слегка поверхностной.
Предлагаю желающим поиграться с заданиями с семинаров из курса по NLP.
Первое такое задание: https://stepik.org/lesson/247966/step/10?unit=220078
Так надо сначала скачать их библиотечку: https://github.com/sic-rus-ai/stepik-dl-nlp/tree/master

В той же папке есть ноутбук с кодом: task2_word_embeddings.ipynb. Предлагаю поработать над этой штукой до конца недели, а потом поделиться результатами. Единственное "но", код для gensim модели в моем окужении не работает, но он для экспериментов особо и не нужен. В видео к семинару дается краткое объяснение, что делает код.
Планы на следующий год

Итак, 2024 год подходит к концу. Год получился каким-то скомканным, многое из задуманного так и не удалось осуществить. И тем не менее, я бы хотел поделиться новыми планами на 2025 год.

1. Пройти курс по NLP.
В ближайшие два месяца мне бы хотелось завершить курс со степика по NLP (https://stepik.org/course/54098). Хотелось бы поглубже погрузиться во всё это, а потом попробовать сделать некий прототип для изучения языка с AI.

2. Начать проходить высшую математику.
Может быть это и прозвучит странно, но для меня это высокоприоритетная задача. Оказалось, что математика является не только основанием для data science, но и базой для того, чтобы заниматься серьезной наукой. В общем, мне хочется, чтобы математика и логика стали для меня удобными инструментами. Я думаю, что до начала середины года получится начать пару курсов.

3. Написать статей и заметок.
Планирую написать несколько заметок и статей о логике, о восприятии контекста и информации в компьютере. Еще хочется завершить заметки по основным статистическим тестам. Ничего не обещаю, но очень хочу это сделать.

4. Пройти курс по обработке изображений.
Какой курс проходить, я пока не знаю, но жена недавно подкинула мне интересную идею. Если коротко, то мне надо будет по 2D-изображению строить 3D-персонажа из заготовленных кусков. Соответственно, сгенерированный персонаж должен быть похож на изначальное изображение.

5. Поучаствовать в хакатонах.
Мне надо развивать софт- и хард-скиллы, поэтому участие в хакатонах кажется логичным следующим шагом. Надеюсь, что летом-осенью всерьез приступлю к этому делу.

Вот такие вот планы. Я надеюсь, что в следующем году у меня уже получится защититься. Мне разрешили целый год не работать и посвятить его всему тому, что я перечислил выше. Надеюсь, это будет весело.

Всех с наступающим Новым Годом 🎉🎉🎉
👍1
А у меня есть прикладная задачка из области UX. Представьте, что у нас есть VR-игра. У нас есть датчики роста, микрофон и тд. Есть проблема: так как игра бесплатная, то туда заходит слишком много детей. Из-за этого взрослые с деньгами уходят из игры. Как решить эту проблему?
Чтобы разграничить детей и взрослых, мы можем создавать отдельные сессии.
Задачка с небольшим подвохом.

Это задачка может помочь понять научный метод и тестирование гипотез.
Имеется четыре карты, половина каждой из которых замаскирована (наложена черная маска). Какие маски нужно снять, чтобы узнать, правда ли, что если на карточке есть круг слева, то и справа есть круг?
Какие маски нужно снять, чтобы узнать, правда ли, что если на карточке есть круг слева, то и справа есть круг?
Anonymous Quiz
13%
A
3%
A и B
34%
A и C
25%
A и D
0%
B и C
3%
B и D
3%
C
19%
Посмотреть ответы
Небольшая идея. Было бы круто сделать иметь сервис для корректирования оценки после накрученных отзывов. К примеру, пусть у нас два товара со средними отзывами:

Товар 1:
Отл. ————————
Хор. —————
Удв. —
Плх. ——

Товар 2:
Отл. ———
Хор. ————
Удв. ———
Плх. —

Кажется, что у первого товара гораздо больше хороших и отличных отзывов, значит, и товар лучше. Однако, можно заметить, что у первого товара и плохих отзывов больше. Более того, у него плохих отзывов больше, чем удовлетворительных. То есть люди часто были сильно недовольны товаром. Получается, если отбросить вероятно покупные отзывы у товара 1, то товар 2 будет выглядеть лучше.

В общем, интересно создать модель, которая по частотам хороших-плохих отзывов будет выставлять скорректированную оценку товару.
Друзья, можете пройти опрос на 5 минут?
Я тут подумываю попробовать делать ютюб-видео о продуктивности на основе научных статей, хочу узнать, какие темы людям более интересны.

https://forms.gle/sR4gJqZKqVGpXTQD9

Потом зашарю тут ответы.

П.С. Ссылка обновлена.
А я тут нашел прикольную книжку по power analysis (анализ статистической мощности). Мощность - это такая штука, которая говорит нам о способности теста выявить статистически значимую разницу, если она действительно существует. Связанное понятие - effect size (размер эффекта?) - такая штука, которая показывает величину воздействия независимой переменной на зависимую (к примеру, курения сигарет на рак легких).
В общем, начал читать книжку, она на английском, но пока что читается довольно легко:
Statistical Power Analysis for the Behavioral Sciences
Routledge, 2nd, 1988
Jacob Cohen

https://annas-archive.org/md5/aaa90371cd9c588dc5530cfeb909f3f2
Игра нас обманывает?

Небольшая задача на подумать. Я тут недавно начал играть в одну карточную игру. В ней надо строить свою башню и разрушать башню противника. При этом делать это надо за карты, каждая карта тратит определенный вид ресурсов. У каждого игрока есть показатели добычи этих ресурсов, которые могут менять во время игры при помощи карт с соответствующими возможностями. Ресурсов три типа и, соответственно, три типа карт. Карт разных типов в колоде практически одинаковое количество. После вытаскивания очередной карты, она возвращается в колоду.

Я заметил, что иногда очень сложно отстроить свою башню или разрушить башню противника. Я стал считать.

Ситуация первая.
6 ходов подряд выпадала карта одного типа ресурсов.

Ситуация вторая.
10 ходов подряд не выпадает карта одного типа ресурсов.

Ситуация третья.
При минимальной башне мне не выпадают карты на отстройку башни.

Подкручена ли раздача карта? Как можно убедиться в этом?
Я сделал небольшой анализ опроса о том, какие видео на тему продуктивности больше нравятся людям. Для желающих, там есть небольшое домашнее задание:
https://colab.research.google.com/drive/1MjXCaO3fZxgnzySRzjzdb-AWUBHnAOEG?usp=sharing
Пройти курс по NLP

Напомню, что одна из моих целей на год - пройти курс по NLP на степике. Курс оказался не супер, как по мне, но он предоставляет какой-то план действий. В общем, я решил потихоньку его продолжать, а здесь хочу поделиться материалами, которые я буду использовать для прохождения.

https://stepik.org/course/54098/ - собственно, сам курс.

https://www.youtube.com/playlist?list=PLAqhIrjkxbuWI23v9cThsA9GvCAUhRvKZ - отличный ютюб-плэйлист по нейронным сетям, у этого же автора есть материалы по LLM.

https://web.stanford.edu/~jurafsky/slp3/ - часто рекоммендуемый курс от Стэнфордского университету.

https://d2l.ai/ - одна из лучших книжек по глубокому обучению, люди её очень советуют.
https://annas-archive.org/md5/dd7d63a1003b7907b199d4f9cce0a62e - Deep Learning by Ian Goodfellow & Yoshua Bengio & Aaron Courville - еще одна неплохая фундаментальная книжка.

В общем, ресурсы у нас есть, потихоньку продолжаем страдать изучать 🥲
Поучаствовать в хакатоне

У нас в университете снова организуют хакатон: https://bbdc.csl.uni-bremen.de/de/2025-2/professional-track/
В моем треке надо будет проанализировать финансовые данные и выявить фрод. А не поучаствовать ли? С одной стороны, у меня не так много времени и всё уже распланировано наперед. С другой же стороны, это неплохая возможность познакомиться с временными моделями типа ARIMA и реккурентными нейросетями. У нас и книжки есть, вот одна по временным рядам:
Forecasting : principles and practice by Rob J Hyndman, George Athanasopoulos, Spyros G. Makridakis, Steven C. Wheelwright (https://annas-archive.org/md5/c1ae783fdf246ee5e7e15bcb06b5ba44)
Пожалуй, можно попробовать 😊
Март - отличный месяц, чтобы пройти семинар по простым векторным представлениям слов (https://stepik.org/lesson/247966/step/1?unit=220078).
Я тут собрал некоторые статьи по word2vec, fasttext, glove, lexvec, wordrank.
Кстати, я скоро ведь собираюсь снова взяться за математику. Нашел интересную книжку:
No Bullshit Guide to Linear Algebra by Ivan Savov

https://github.com/iamyifan/COMP6670_Introduction_to_Machine_Learning/blob/main/No%20Bullshit%20Guide%20to%20Linear%20Algebra.pdf

А еще нашел такую книжку:
Mathematics for Machine Learning by M. P. Deisenroth, A. A. Faisal, C. S. Ong

https://annas-archive.org/md5/9f54f0970d1b181eaf21529c1f47a8e3

С изучением математики есть две загвоздки. Первая - в чем вести конспекты, чтобы к ним потом можно было сравнительно легко вернуться (пока что вариант: Obsidian + Ink Plugin). Вторая - составить план изучения математики, чтобы с упражнениями и доказательством теорем.
👍3