Data&Knowledge – Telegram

Data&Knowledge

@datascienceforfun

130 subscribers

25 photos

21 files

160 links

Работаем с данными

Download Telegram

About

Blog

Apps

Platform

130 subscribers

Статябрь окончен.

Я решил окончить статябрь: последние темы либо не слишком значимы (проверка на нормальность), либо уже частично пройдены в других разделах (F test), либо достаточно сложны, чтобы уложиться в один день (дни 25, 26, 30). Из оставшихся я рекомендую самостоятельно ознакомиться с Cohen's kappa, потому что он вводит новую достаточно интересную концепцию в статистике.

Давайте подведем итог. В течение 24 дней я с разным успехом готовил материал по статистическим методам и понятиям. Из плюсов — я повторил и лучше понял все эти тесты. Из минусов — пожалуй, было крайне сложно подготавливать что-то осмысленное за 1-2 часа: хотелось показать и интуицию теста, и крутые примеры, и формулы — на все это просто не хватало времени. Отдельно хочу отметить, что хотелось бы, чтобы весь пост был в телеграме: чтобы человеку не надо было выключаться из потока и переключаться на сторонний ресурс. Думаю, это проблему можно решить публикацией материала в виде серии картинок.

Я думаю, что в следующий статябрь у нас будет чуть меньше тем, и длиться он будет месяца два. Тогда, основываясь на материалах этого месяца, я надеюсь, что получится найти крутые примеры и разобрать формулы.

В общем, я настроен оптимистично. Ну а в ноябре мы примемся за машинное обучение 🙂

#статябрь #статябрь2025 #statober #statober2025

👍3🎉2

153 viewsedited 09:00

Learning Machine Learning

Итак, мы начинаем наше путешествие в мир машинного обучения. Формат обучения будет такой. В первый день я даю ссылки на материалы и задачи. А через дней несколько делюсь своим конспектом и решением. Задать вопросы можно в чатах тг или в комментариях.

Чат в тг по python: https://t.me/learnpythonforfun_chat
Чат в тг по данным: https://t.me/datascienceforfun_chat

Учим Питон (Чат)

Курс с нуля: https://stepik.org/course/58852/

Курсы для прохождения: https://docs.google.com/document/d/1N-SxSRbe5eaV3z4BEknNVB1G7EKgtfdgVmTyy-q95fY/edit?usp=sharing

Правила: https://vk.com/@learnpythonforfun-pravila-gruppy-i-chatov

🎉3

572 views10:16

Data&Knowledge pinned «Learning Machine Learning Список тем на следующие два месяца по машинному обучению. Планирую на каждую тему подготовить небольшой ноутбук с примерами на Python. Если вы знаете крутые ресурсы по ML с задачками, датасетами или теорией - делитесь в комментариях…»

10:17

Learning Machine Learning. Линейная регрессия.

Наша первая тема - один из самых простых и самых важных алгоритмов машинного обучения. Через несколько дней я выложу свой конспект, а пока - материалы:

Объяснение: https://www.youtube.com/watch?v=_PlC8Niun7U
Задача: предсказать цену дома на датасете https://www.kaggle.com/datasets/camnugent/california-housing-prices

Примеры решения можно найти во вкладке Code по запросу Linear regression. И там надо будет разбираться 🙈

Буду рад вопросам и ответам в комментариях.

#LearningMachineLearning2025 #LearningMachineLearning

Лекция 8. Линейная регрессия

https://compscicenter.ru/

Линейный регрессионный анализ. Модель, интерпретация оценок коэффициентов, множественный коэффициент детерминации. Интерпретация множественного коэффициента детерминации, ограничения на область его применения. Выявление наиболее…

👍1

646 viewsedited 11:08

Как у вас успехи с линейной регрессией?

В прохождении машинного обучения я на одну тему выделил пять часов. Мне казалось, что линейная регрессия довольно простая тема - мы пытаемся апроксимировать наблюдения "линией", находим, какие коэффициенты факторы наиболее сильно влияют на некую целевую переменную. В общем, я думал, что с ней будет довольно просто. Но я начал читать и понял, что половину вещей я забыл или не знал. Вот вам несколько вопросов, которые не дают мне сейчас покоя:
- Что такое коллинеарность и как её находить в данных?
- Как использовать остатки для проверки?
- Как использовать коэффициент детерминации для нахождения коллинеарности?
- Какие нелинейные преобразования можно использовать над данными?
- Какие есть функции правдоподобия для подбора наиболее подходящей прямой или плоскости?
- В чем их преимущества и недостатки?
- Как определяется значимость коэффициентов линейной регрессии и доверительные интервалы?
- Какая статистика используется для нахождения значимости коэффициентов и почему?
В общем, пяти часов не хватает даже на линейную регрессию😀

👍1

124 views22:30

Практика по линейной регрессии.

Я вам тут накидал небольшой ноутбук, чтобы было легче начать анализировать. Если вы посмотрели видео из прошлого поста, то у вас начнут появляться вопросы. Ответы на некоторые из них можно найти в книжке "Введение в статистическое обучение с примерами на языке Python" от
Гарет Джеймс и др. Я нашел её здесь: https://annas-archive.org/md5/e9d11665dbd051585a2eff1f58407de5

Задача: предсказать цену дома на датасете https://www.kaggle.com/datasets/camnugent/california-housing-prices

Мой ноутбук: https://colab.research.google.com/drive/1yPCY4O6fLEXsjzJ02Vj6oc3mBLsaPk2y?usp=sharing

annas-archive.org

Введение в статистическое обучение с примерами на языке Python - Anna’s Archive

Гарет Джеймс, Даниела Уиттен, Тревор Хасти, Роберт Тибширани, Джонатан Тейлор

В этой книге доступным языком описывается все разнообразие форм статистического обучения. Рассматрив

ДМК Пресс

👍1

598 views20:39

Learning Machine Learning. Регрессия с регуляризацией (Ridge, Lasso).

Первая и вторая темы нашего прохождения сильно связаны между собой. На этой неделе мы начинаем изучать регрессию с регуляризацией.

Короткое объяснение: https://www.youtube.com/watch?v=C98SRCZfgkk
Задача все та же: предсказать цену дома на датасете https://www.kaggle.com/datasets/camnugent/california-housing-prices
Теперь необходимо посмотреть, как регулризация влияет на получаемое решение.

Буду рад вопросам и ответам в комментариях.

#LearningMachineLearning2025 #LearningMachineLearning

Ридж и LASSO регрессия

Второй способ борьбы с мультиколлинеарностью – это включение штрафа в сумму наименьших квадратов. Соответственно, мы минимизируем непросто сумму квадратов остатков, а мы минимизируем сумму квадратов остатков плюс штраф за слишком большие коэффициенты. Мы…

👍1

637 views11:20

Очередной стартап-хакатон.

Я тут сходил на очередной стартап-хакатон, теперь на тему космоса. Снова в течение трёх дней нам надо было сначала разделиться на команды, а затем разработать идею. Идеи были у людей разные, я выделю те, которые победили:

🥉3 место. Запуск спутников вокруг Луны,
🥈2 место. Уборка космического мусора с помощью роя дронов/спутников,
🥇1 место. AI-ассистент для помощи в разработке hardware.

У нашей команды была следующая идея: делать разметку фотографий Земли прямо на спутнике. Иными словами, если мы на спутнике обнаружили возгорание в лесу, то мы сразу отправляем короткое сообщение 'ОГОНЬ' + координаты вместо долгой передачи самого снимка. Если коротко, то у нас не получилось разработать эту идею в хорошую презентацию. Основная причина: мы не смогли наладить внутрикомандное взаимодействие.

Зато я извлек очередной урок: команда может быть эффективной, только если у неё эмпатичный и компетентный лидер.

#стартап #хакатон

👍1

115 views19:55

Опасный анализ данных

Помните, пару месяцев назад я опубликовал в чате призыв помочь с исследованием от одного из участников группы? История получила неожиданное продолжение.

В общем, человеку в качестве курсового проекта нужно было выявить факторы, влияющие на отчисляемость студентов. Мы почитали литературу и решили следующее:
1. Поскольку на отчисляемость сильнее всего влияет успеваемость, то мы будем исследовать факторы, влияющие непосредственно на успеваемость.
2. Факторы для проверки мы выбрали из литературы: мотивация учащегося, доступность онлайн-материалов и т.д.
3. Для анализа мы решили использовать линейную регрессию.
Мы подобрали 18 факторов, собрали около 30 ответов (из запланированных 180) и начали анализ. Всё шло по плану, пока не произошло неожиданное вмешательство.

Тут надо сделать короткое отступление. Цель этого проекта: решение реальной проблемы. ВУЗ пытается сделать хорошее дело, давая студентам решать "с нуля" настоящие задачи. Студенты сами выбирают метод решения, ищут литературу, сами анализируют и предлагают решение на основе данных.

Каково же было наше удивление, когда после нескольких дней сбора ответов, нам написал один из преподавателей, по совместительству куратор. Он попросил поменять формулировки некоторых вопросов, касающихся восприятия преподавателей и вуза. При этом вопросы были безобидными, самым "острым" был следующий: "В какой степени вы согласны со следующим утверждением: Преподаватели оказывают должное признание усилиям и достижениям студентов." Куратор отдельно указал, что предполагается преследовать чисто "учебную цель" и не пытаться оценивать университет и сотрудников.

Получилась забавная ситуация: нужно решить реальную задачу, но не забывать, что это учебная задача. Двойная же ирония в том, что эта ремарка делает проблему еще ближе к реальной жизни: такой комментарий вполне можно услышать от руководителя любого уровня, когда он недоволен каким-то вопросом в опросе.

Вопрос: Как бы вы отреагировали на такую ситуацию, если бы это был ваш проект? Как грамотно решать подобные вопросы при проведении опросов для реальных задач?

144 views17:32

Идея на следующий стартап-хакатон

Я же решил, что хочу в апреле пойти на стартап-хакатон уже со своей идеей. И есть одна идея, которая фактически вряд ли реализуема, но очень меня привлекает:

На основе данных с разных сенсоров (смарт-часы, ЭЭГ, давление, опросы пользователя) оценивать состояние здоровья пользователя. На основе этих данных:
- давать рекомендации пользователю по диете и упражнениям,
- предоставлять рекомендации, к какому врачу обратиться,
- давать врачу краткую выжимку о проблемах пользователя.

Проблема кажется очень сложной, поэтому готовиться решать её начну уже сейчас. Итак, кто знает хорошие книжки по анализу медицинских данных? 🤓

188 views17:30

Планы на 2026 год.

В этот раз список будет довольно коротким:

1. Найти работу. Моя учеба закончена, поэтому я активно учу немецкий и ищу вакансии. Хотелось бы найти позицию в академии, но если не получится, то буду искать вакансии дата аналитиков. А еще я пишу грантовую заявку, чтобы мне дали денег на собственный ресерч при универе.

Хотелось бы пройти многое: machine learning, NLP, logics, time-series analysis, Bayesian statistics, но я понятия не имею, как пойдет с моим трудоустройством. В общем, год для меня будет по-своему интересными. Всех с наступающим Новым Годом!

🎉3

158 viewsedited 13:20

Поиск работы в Германии аналитиком данных.

Итак, начинается 2026 год, а это значит, что пора искать работу. С позициями в науке все понятно - я подаюсь на позицию, говорю, что я знаю и умею, а мне верят на слово, как джентельмену ("вот тут-то карта мне и поперла..."). К сожалению, с собеседованиями в реальные компании всё не так просто: приходится показывать портфолио и проходить интервью.

В общем, я пролистал вакансии и выделил, что можно изучать на позицию аналитика данных в Германии:

1. SQL
Сложные запросы, оконные функции, облачные платформ (BigQuery, Snowflake), нормализация, dbt, ETL
2. Визуализация и метрики
Looker, Tableau, Power BI, Dash;
Конверсии, средний чек, Customer Lifetime Value (CLTV), Churn Rate (коэффициент оттока), CAC (Customer Acquisition Cost), Revenue Growth Rate
3. Machine Learning and statistics.
Методы машинного обучения и статистики, A/B подход, p-value, confidence intervals, power analysis, Байесовский подход.

А еще нужно создать какое-то портфолио. Пишите в комментариях, если я что-то забыл. Да, год будет веселым.

👍1

166 views15:00

Время накручивать опыт?

Я тут начал потихоньку искать вакансии аналитиком данных и столкнулся с интересным феноменом — почти все вакансии требуют 2-3 года опыта. Самое удивительное, что требования в этих вакансиях не ахти какие: всё, что хотят от тебя многие работодатели, в спокойном темпе изучается за два-три месяца.

А вообще, искать сейчас работу в Германии не выглядит хорошим решением: удаленных позиций мало, во многих местах требуется немецкий на уровне родного, желаемый опыт — от 2-3 лет, зарплаты не впечатляют. Складывается ощущение, что мы идём в период большого застоя технологий, когда работники будут крепко держаться за свои места, зарплаты будут уменьшаться, а сам рынок будет сжиматься из-за нежелания игроков брать на себя риски и делать что-то новое. Грустно.

130 views11:59

А на какую позицию пойти?

Я тут внезапно понял, что слегка отстал от времени. Мы находимся посреди AI-бума, и в будущем будут нужны те, кто понимает, как работать на стыке AI и человека, как измерять их совместную продуктивность, как привлекать пользователей и бороться с их страхами. Еще чуть позже выйдет книжка-бестселлер "Как пасти AI-агентов в вашей организации". В общем, кажется, что всё говорит о том, что мы приближаемся к эпохе рутинизации профессий AI-внедренца и AI-психолога.

И мне подумалось, что неплохо бы последовать этому тренду. В чем смысл искать работу аналитика данных, где нужен немецкий и три года опыта, если можно пойти туда, где нужен английский, а трех лет опыта почти ни у кого и нет? В общем, я подумываю, а не стать ли мне Human-AI/Trusted-AI исследователем. Вакансии такие уже появляются, и конкуренция не так велика: из моего опыта — хорошие AI-инженеры обычно обладают очень плохим пониманием прикладной психологии (и не хотят учиться из-за гордости), а хорошие исследователи в психологии не очень заинтересованы в "говорящих" компьютерах. Осталось только понять, как к ним подготовиться.

Пример вакансии: https://openai.com/careers/research-engineer-human-centered-ai-san-francisco/

Research Engineer, Human-Centered AI

Human Data · San Francisco · FullTime

👍5

171 viewsedited 18:06

Да, а ведь еще 5 лет назад я и не думал становиться аналитиком данных, когда-то я хотел стать разработчиком встроенных систем. Жалко теперь расставаться со всем этим добром, но и времени заниматься им больше нет.

135 viewsedited 16:18

Подготовка к собесу на дата аналитика.

Шаг 1. Найти подходящую обувь. ✅

👍5

203 views15:39

А у нас тут есть ветеринары? У одного из участников нашей группы задание в вузе: дата сайнс для выявлений заболеваний крупного рогатого скота. Можно ли как-то ллмку там прикрутить? Как вообще можно помочь выявлять заболевания у животных 😅

169 viewsedited 18:22

Я тут понял, что питон оказал на меня дурное влияние. Я же ищу работу: решил все-таки посмотреть вакансии в моем прошлом поле деятельности — встраиваемые системы. Нашел вакансию, по многим требованиям подхожу или могу подготовиться, но...как вспомню весь этот ад встраиваемых систем, так вздрогну. Куча разных ядер, патчи в имейлах, кросс-компиляция, устаревшие системы сборки с десятками makefile, неудобные железки, которые сползают со стола, отладка по серийному порту через кабель, эмуляторы, не полностью эмулирующие железку...ну и гадость...

124 viewsedited 10:01

Назад к истокам.

За три месяца поиска работы аналитиком данных я понял, что дело это гиблое. Во-первых, вакансий очень мало. Во-вторых, большая часть вакансий требует знания немецкого на уровне нэйтива. В-третьих, даже те 10 более-менее подходящих вакансий, которые я смог найти и на которые откликнулся, не привели ни к одному собеседованию.

Положение грустное, но внезапно я обнаружил одну забавную вещь. Оказывается, ситуация совсем не так плачевна во встраиваемых системах. На удивление, там есть и удаленные позиции, и язык требуется далеко не всегда. А у меня еще и опыт работы есть в этих областях, и в стажировках участвовал (GSoC), и в диссертации в линукс ядре повозился . Из минусов — в последний раз я что-то делал в этой области лет 5 назад. Примерно тогда же в последний раз использовал C++. Поэтому скучать в ближайшие несколько месяцев мне точно не придется.

Итак, каков же план? А план прост: подготовить пет-проект, заодно повторяя забытые концепции. А пет-проект будет таков: фотокамера с видоискателем на основе маленького черно-белого дисплея. Если получится, потом еще и датчик движения прикручу. Все компоненты показаны ниже на фото. Ну а аналитика данных, видимо, останется пока что как хобби.

👍2

141 views10:56

153 views10:56

Время экспериментов.

Я же недавно начал готовиться к собеседованиям. Идея проста: повторить всё необходимое для дата аналитика, подтянуть немецкий и начать подаваться на немецкоязычные вакансии. Но кто сказал, что это сработает? За предыдущие 3 месяца я не получил ни одного собеседования по англоязычным вакансиям, что если так же будет с немецким?
В общем, идея эксперимента: сделать резюме на немецком, добавить туда все необходимые термины, где-то приукрасить прошлый опыт и разослать это резюме на 10+ вакансий. Если будет хотя бы пара откликов, значит, все не так плохо. Если же и тут будет пусто...тогда и подумаем.

122 views13:00