Data&Knowledge
130 subscribers
25 photos
21 files
160 links
Работаем с данными
Download Telegram
А я тут нашел прикольную книжку по power analysis (анализ статистической мощности). Мощность - это такая штука, которая говорит нам о способности теста выявить статистически значимую разницу, если она действительно существует. Связанное понятие - effect size (размер эффекта?) - такая штука, которая показывает величину воздействия независимой переменной на зависимую (к примеру, курения сигарет на рак легких).
В общем, начал читать книжку, она на английском, но пока что читается довольно легко:
Statistical Power Analysis for the Behavioral Sciences
Routledge, 2nd, 1988
Jacob Cohen

https://annas-archive.org/md5/aaa90371cd9c588dc5530cfeb909f3f2
Игра нас обманывает?

Небольшая задача на подумать. Я тут недавно начал играть в одну карточную игру. В ней надо строить свою башню и разрушать башню противника. При этом делать это надо за карты, каждая карта тратит определенный вид ресурсов. У каждого игрока есть показатели добычи этих ресурсов, которые могут менять во время игры при помощи карт с соответствующими возможностями. Ресурсов три типа и, соответственно, три типа карт. Карт разных типов в колоде практически одинаковое количество. После вытаскивания очередной карты, она возвращается в колоду.

Я заметил, что иногда очень сложно отстроить свою башню или разрушить башню противника. Я стал считать.

Ситуация первая.
6 ходов подряд выпадала карта одного типа ресурсов.

Ситуация вторая.
10 ходов подряд не выпадает карта одного типа ресурсов.

Ситуация третья.
При минимальной башне мне не выпадают карты на отстройку башни.

Подкручена ли раздача карта? Как можно убедиться в этом?
Я сделал небольшой анализ опроса о том, какие видео на тему продуктивности больше нравятся людям. Для желающих, там есть небольшое домашнее задание:
https://colab.research.google.com/drive/1MjXCaO3fZxgnzySRzjzdb-AWUBHnAOEG?usp=sharing
Пройти курс по NLP

Напомню, что одна из моих целей на год - пройти курс по NLP на степике. Курс оказался не супер, как по мне, но он предоставляет какой-то план действий. В общем, я решил потихоньку его продолжать, а здесь хочу поделиться материалами, которые я буду использовать для прохождения.

https://stepik.org/course/54098/ - собственно, сам курс.

https://www.youtube.com/playlist?list=PLAqhIrjkxbuWI23v9cThsA9GvCAUhRvKZ - отличный ютюб-плэйлист по нейронным сетям, у этого же автора есть материалы по LLM.

https://web.stanford.edu/~jurafsky/slp3/ - часто рекоммендуемый курс от Стэнфордского университету.

https://d2l.ai/ - одна из лучших книжек по глубокому обучению, люди её очень советуют.
https://annas-archive.org/md5/dd7d63a1003b7907b199d4f9cce0a62e - Deep Learning by Ian Goodfellow & Yoshua Bengio & Aaron Courville - еще одна неплохая фундаментальная книжка.

В общем, ресурсы у нас есть, потихоньку продолжаем страдать изучать 🥲
Поучаствовать в хакатоне

У нас в университете снова организуют хакатон: https://bbdc.csl.uni-bremen.de/de/2025-2/professional-track/
В моем треке надо будет проанализировать финансовые данные и выявить фрод. А не поучаствовать ли? С одной стороны, у меня не так много времени и всё уже распланировано наперед. С другой же стороны, это неплохая возможность познакомиться с временными моделями типа ARIMA и реккурентными нейросетями. У нас и книжки есть, вот одна по временным рядам:
Forecasting : principles and practice by Rob J Hyndman, George Athanasopoulos, Spyros G. Makridakis, Steven C. Wheelwright (https://annas-archive.org/md5/c1ae783fdf246ee5e7e15bcb06b5ba44)
Пожалуй, можно попробовать 😊
Март - отличный месяц, чтобы пройти семинар по простым векторным представлениям слов (https://stepik.org/lesson/247966/step/1?unit=220078).
Я тут собрал некоторые статьи по word2vec, fasttext, glove, lexvec, wordrank.
Кстати, я скоро ведь собираюсь снова взяться за математику. Нашел интересную книжку:
No Bullshit Guide to Linear Algebra by Ivan Savov

https://github.com/iamyifan/COMP6670_Introduction_to_Machine_Learning/blob/main/No%20Bullshit%20Guide%20to%20Linear%20Algebra.pdf

А еще нашел такую книжку:
Mathematics for Machine Learning by M. P. Deisenroth, A. A. Faisal, C. S. Ong

https://annas-archive.org/md5/9f54f0970d1b181eaf21529c1f47a8e3

С изучением математики есть две загвоздки. Первая - в чем вести конспекты, чтобы к ним потом можно было сравнительно легко вернуться (пока что вариант: Obsidian + Ink Plugin). Вторая - составить план изучения математики, чтобы с упражнениями и доказательством теорем.
👍3
Как я учу немецкий или минимизация страданий

Мне не нравится учить немецкий. Мне не интересны немецкие шоу, с людьми я общаюсь на английском, моя мотивация примерно около нуля. Поэтому я для себя выработал суперсистему изучения языка, которая подойдет и для английского.

Итак, во-первых, я выделил, что я хочу учить: грамматику, погружение в язык и производство языка (говорение/письмо). Во-вторых, необходим принцип интервального повторения. Я почитал литературу по преподаванию языка и узнал, что длина этих интервалов не сильно-то и важна. Важнее, чтобы повторение было.

1. Грамматика. По грамматике я скачал учебник. В учебнике сначала идет объяснение теории, а потом идут упражнения.

Лайфхак 1. Я купил планшет и теперь я могу выполнять упражнения прямо в пдфке (использую приложение xournal++). Это мегаудобно: не надо постоянно переключаться между учебником и тетрадкой, переписывать ненужные предложения - я просто заполняю пробелы в учебнике. Важно: к учебнику должны быть ответы, чтобы была возможность самопроверки.

Лайфхак 2. У меня есть табличка интервального повторения. К примеру, сегодня я читаю теорию по 1 теме и выполняю из неё часть упражнений. Через неделю я возвращаюсь к этой теме, повторяю теорию, делаю еще немного упражнений. И это работает! Через неделю я лучше понимаю материал, замечаю, что что-то не усвоилось, лучше делаю упражнения.

Лайфхак 3. У меня в учебнике короткие темы и упражнения. Это важно, потому что тогда на прохождение одной темы можно выделить всего 15 минут. Есть свободных 15 минут? Можно быстренько пройти очередную тему или повторить уже пройденное.

2. Погружение в язык. Мне неинтересны немецкие шоу. Многие блогеры мне тоже неинтересны, да и говорят они слишком быстро. Я решил смотреть мультфильмы.

Лайфхак 1. Я смотрю мультфильмы, которые мне были интересны в детстве или которые я недавно смотрел будучи взрослым (аниме): Скуби-Ду, Черепашки Ниндзя, Инспектор Гаджет, K-On!. Их можно смотреть в свободное время, улавливая общий смысл и лишь временами останавливаясь перевести непонятное слово.

3. Генерация языка. Здесь все просто - я скачал учебник для своего уровня, прохожу управжнения, а тексты даю на проверку ChatGPT. Он мне даёт какие-то исправления, так потихоньку и учу.

А какие лайфхаки используете вы? 😀
Так выглядит моя табличка изучения тем по грамматике. Я хочу проходить каждую тему по три раза. В первый период я первично прохожу тему, во второй и третий - повторяю уже пройденные темы (планировалось, что я смогу делать три периода в день - я был юн и наивен!). К примеру, сегодня (20 марта) я прошел тему 40 и повторил тему 17. Следующими моими шагами будет повторение тем 29 и 18.
А так выглядит учебник в моем приложении для работы с пдф. Сверху можно увидеть кусок теории. Синим я вписывал свои ответы и перевод незнакомых слов. Красным я исправлял ответы по ответам для учебника. Снизу видно упражнение, к которому я вернусь когда-нибудь позже.
О прохождении математики

Я собираюсь потихоньку начинать проходить матанализ и алгебру. У меня есть ощущение, что мне будет трудно составить расписание прохождения конкретных тем или курсов на степике. Я думаю, что я буду просто объявлять очередную тему и делиться по ней материалами. Я надеюсь, что вы не возлагали больших планов на совместное прохождение 😀

P. S. Кажется, что канал стал неким дневником моих хаотичных похождений в мире математики, логики и обучения.

P. P. S. Кстати, о хаотичности - а вы слышали о числах Чёрча? Недавно узнал о них, и мне они прямо понравились!
О хакатонах

Я тут потихоньку стал записываться на всякие хакатоны, чтобы развивать свой скилл. И тут есть две сложности. Первая - хакатоны часто проводятся для студентов. Вчера я был на одном околохакатоне, и там были только пара человек моего возраста. Большая же часть - студенты 20-22 года. Мероприятие было посвящено основанию стартапа мигрантами, а студентам за участие в нем давались баллы. В общем, было приятно сходить туда, пообщаться, но мне не хватало людей с опытом.
Вторая же сложность была для меня довольно неожиданной - в Германии мне пока что довольно трудно находить хакатоны по реальным кейсам. Их просто мало. Я нашел несколько сайтов, где можно мониторить хакатоны (https://www.eventbrite.de, https://www.meetup.com, https://events.ccc.de/en/calendar/), но я ожидал от Германии большего.
В общем, я буду продолжать свое погружение в хакатоны. Если вы хотите поучаствовать в хакатонах вместе (к примеру, онлайн), то можете смело звать меня, я могу исследовать юзеров, работать над концептуализацией и немного быть дата аналитиком.
Стартап-тусовка и "реальные проблемы"

Итак, я сходил на одну стартап-тусовку, где реальные компании рассказывали о своих реальных проблема. Была выпивка и было общение. Единственное, чего не хватало, так это реальных перспективных проблем, которые было бы интересно порешать. Ну, давайте я вам перечислю представленные проблемы компаний.

1. Создать цифрового клона уходящего на пенсию сотрудника. У компании есть опытный сотрудник-эксперт и она надеется, что можно будет вытянуть его знания в некую цифровую модель на основе ЛЛМ так, что позже её можно будет спрашивать вместо этого сотрудника. Понятное дело, эту систему хотят распространить на всех сотрудников. Мне эта проблема не особо понравилась, кажется, что невозможно вытянуть экспертные знания из сотрудника, да и продавать такую систему будет сложно, ведь она не генерирует прибыли компаниям.
2. Создать систему мониторинга характеристик труб. Трубы расширяются, ходят вверх-вниз, а потом и лопаются. Компания хочет, чтобы ей создали и датчики, и систему аналитики и мониторинга, чтобы она могла продавать трубы дороже. Мне показалось, что задача довольно прямолинейная и не очень интересная.
3. Создать мониторчики для почтовых ящиков.
Компания создает домофоны, где сразу высвечиваются имена жильцов (в Германии имена жильцов обычно написаны на дверных звонках у подъезда и на почтовых ящиках у подъезда). Компания считает, что было бы круто сделать и мониторчики для почтовых ящиков, мол, при выезде будет легко поменять фамилию на мониторчике. Мне кажется, что приклеить новую бумажку и сейчас довольно легко, перспектив не вижу.
4. Придумать способ утилизации тканевых обрезков (хе-хе).
Компания производит что-то большое и тканевое, у неё остаются обрезки, она хочет их как-то использовать (продавать и меньше платить за утилизацию). Придумайте сами, что с этим делать.
5. Придумать, что делать с собранными данными о потреблении электричества фермерами.
Компания установила измерители потребления электроэнергии у фермеров, чтобы помочь им тратить меньше. У них есть данные. Они могут ими поделиться. Что хотите с этими данными, то и делайте. Я не очень понял, как сделать решение, которое позволит фермерам получать больше прибыли на основе таких данных, нужно глубоко погружаться в общение с фермерами.
6. Предотвращение фрода.
У банка много фрода, банк хочет систему антифрода. Мне кажется, они пришли туда для галочки, потому что у них точно есть антифрод отделы.

П.С. Следующее стартап мероприятие пройдет через 2 недели, там в командах будем думать, как решать всякие проблемы. Интересно посмотреть, будут ли представлены там какие-либо из этих проблем.
Еще одна стартап-сходка и правила посещения таковых

В общем, я снова сходил на стартап-ивент. В этом посте я коротко опишу свой опыт и подытожу все уроками на будущее. Я был два дня из трех, и наша команда заняла второе место. Почему только два дня, а не три? Потому что это была пустая трата времени, но обо всем по порядку.

В ходе этого ивента нам было предложено разработать идеи для стартапов, составить некий бизнес-план. Сначала самые отважные участники предлагали свои идеи для будущих стартапов, потом за идеи голосовали, а затем капитаны с победившими идеями формировали команды. После трех дней был конкурс презентаций. Я съездил на мероприятие, чтобы посмотреть, что там происходит, поэтому своих идей не предлагал, а присоединился к команде.

Первое, что бросилось в глаза - большая часть идей крайне слабы: приложение для откладывания на пенсию, доставка стирки в/из прачечной, смарт-часы без привязки к облаку, но с ИИ. Я кое-как смог выбрать себе идею для работы над ней - изготовление автоматически подстраиваемых очков для пожилых людей. Кстати, тот, кто идею предложил, тоже оказался русским.

Работа над бизнес-планом для изготовления очков была довольно странной. Во-первых, в команде люди не особо понимали, что такое пресбиопия (потеря эластичности хрусталика и, как следствие, ухудшение зрения). Во-вторых, никто из нас никогда не работал ни с линзами, ни с электроникой для линз. В общем, без особой экспертизы в очкостроении мы пытались придумать, какую проблему и для кого мы будем решать. Под конец второго дня выяснилось, что уже существует, как минимум два производителя решений с подходом, который хотели предложить мы. В общем, второй день я досидел до ужина и покинул мероприятие.

Вынесенные уроки.

1. Идти надо с четким пониманием того, зачем идешь.
Если идешь как лидер группы, то надо понимать, что ты предлагаешь и кого ты ищешь. Нужно делать так, что и участники понимали, какую проблему они решают, как они станут богатыми и/или изменят мир, если присоединятся к тебе.

2. Идея должна быть уже достаточно исследованной.
Нужно предлагать уже проверенную идея, неплохо иметь и прототип. Такое мероприятие должно быть, вероятно, нацелено на раскрытие слабых сторон в идее, чтобы её можно было лучше подготовить для презентаций инвесторам.