Data&Knowledge
130 subscribers
25 photos
21 files
160 links
Работаем с данными
Download Telegram
Learning Machine Learning

Итак, мы начинаем наше путешествие в мир машинного обучения. Формат обучения будет такой. В первый день я даю ссылки на материалы и задачи. А через дней несколько делюсь своим конспектом и решением. Задать вопросы можно в чатах тг или в комментариях.

Чат в тг по python: https://t.me/learnpythonforfun_chat
Чат в тг по данным: https://t.me/datascienceforfun_chat
🎉3
Data&Knowledge pinned «Learning Machine Learning Список тем на следующие два месяца по машинному обучению. Планирую на каждую тему подготовить небольшой ноутбук с примерами на Python. Если вы знаете крутые ресурсы по ML с задачками, датасетами или теорией - делитесь в комментариях…»
Learning Machine Learning. Линейная регрессия.

Наша первая тема - один из самых простых и самых важных алгоритмов машинного обучения. Через несколько дней я выложу свой конспект, а пока - материалы:

Объяснение: https://www.youtube.com/watch?v=_PlC8Niun7U
Задача: предсказать цену дома на датасете https://www.kaggle.com/datasets/camnugent/california-housing-prices

Примеры решения можно найти во вкладке Code по запросу Linear regression. И там надо будет разбираться 🙈

Буду рад вопросам и ответам в комментариях.

#LearningMachineLearning2025 #LearningMachineLearning
👍1
Как у вас успехи с линейной регрессией?

В прохождении машинного обучения я на одну тему выделил пять часов. Мне казалось, что линейная регрессия довольно простая тема - мы пытаемся апроксимировать наблюдения "линией", находим, какие коэффициенты факторы наиболее сильно влияют на некую целевую переменную. В общем, я думал, что с ней будет довольно просто. Но я начал читать и понял, что половину вещей я забыл или не знал. Вот вам несколько вопросов, которые не дают мне сейчас покоя:
- Что такое коллинеарность и как её находить в данных?
- Как использовать остатки для проверки?
- Как использовать коэффициент детерминации для нахождения коллинеарности?
- Какие нелинейные преобразования можно использовать над данными?
- Какие есть функции правдоподобия для подбора наиболее подходящей прямой или плоскости?
- В чем их преимущества и недостатки?
- Как определяется значимость коэффициентов линейной регрессии и доверительные интервалы?
- Какая статистика используется для нахождения значимости коэффициентов и почему?
В общем, пяти часов не хватает даже на линейную регрессию😀
👍1
Практика по линейной регрессии.

Я вам тут накидал небольшой ноутбук, чтобы было легче начать анализировать. Если вы посмотрели видео из прошлого поста, то у вас начнут появляться вопросы. Ответы на некоторые из них можно найти в книжке "Введение в статистическое обучение с примерами на языке Python" от
Гарет Джеймс и др. Я нашел её здесь: https://annas-archive.org/md5/e9d11665dbd051585a2eff1f58407de5

Задача: предсказать цену дома на датасете https://www.kaggle.com/datasets/camnugent/california-housing-prices

Мой ноутбук: https://colab.research.google.com/drive/1yPCY4O6fLEXsjzJ02Vj6oc3mBLsaPk2y?usp=sharing
👍1
Learning Machine Learning. Регрессия с регуляризацией (Ridge, Lasso).

Первая и вторая темы нашего прохождения сильно связаны между собой. На этой неделе мы начинаем изучать регрессию с регуляризацией.

Короткое объяснение: https://www.youtube.com/watch?v=C98SRCZfgkk
Задача все та же: предсказать цену дома на датасете https://www.kaggle.com/datasets/camnugent/california-housing-prices
Теперь необходимо посмотреть, как регулризация влияет на получаемое решение.

Буду рад вопросам и ответам в комментариях.

#LearningMachineLearning2025 #LearningMachineLearning
👍1
Очередной стартап-хакатон.

Я тут сходил на очередной стартап-хакатон, теперь на тему космоса. Снова в течение трёх дней нам надо было сначала разделиться на команды, а затем разработать идею. Идеи были у людей разные, я выделю те, которые победили:

🥉3 место. Запуск спутников вокруг Луны,
🥈2 место. Уборка космического мусора с помощью роя дронов/спутников,
🥇1 место. AI-ассистент для помощи в разработке hardware.

У нашей команды была следующая идея: делать разметку фотографий Земли прямо на спутнике. Иными словами, если мы на спутнике обнаружили возгорание в лесу, то мы сразу отправляем короткое сообщение 'ОГОНЬ' + координаты вместо долгой передачи самого снимка. Если коротко, то у нас не получилось разработать эту идею в хорошую презентацию. Основная причина: мы не смогли наладить внутрикомандное взаимодействие.

Зато я извлек очередной урок: команда может быть эффективной, только если у неё эмпатичный и компетентный лидер.

#стартап #хакатон
👍1
Опасный анализ данных

Помните, пару месяцев назад я опубликовал в чате призыв помочь с исследованием от одного из участников группы? История получила неожиданное продолжение.

В общем, человеку в качестве курсового проекта нужно было выявить факторы, влияющие на отчисляемость студентов. Мы почитали литературу и решили следующее:
1. Поскольку на отчисляемость сильнее всего влияет успеваемость, то мы будем исследовать факторы, влияющие непосредственно на успеваемость.
2. Факторы для проверки мы выбрали из литературы: мотивация учащегося, доступность онлайн-материалов и т.д.
3. Для анализа мы решили использовать линейную регрессию.
Мы подобрали 18 факторов, собрали около 30 ответов (из запланированных 180) и начали анализ. Всё шло по плану, пока не произошло неожиданное вмешательство.

Тут надо сделать короткое отступление. Цель этого проекта: решение реальной проблемы. ВУЗ пытается сделать хорошее дело, давая студентам решать "с нуля" настоящие задачи. Студенты сами выбирают метод решения, ищут литературу, сами анализируют и предлагают решение на основе данных.

Каково же было наше удивление, когда после нескольких дней сбора ответов, нам написал один из преподавателей, по совместительству куратор. Он попросил поменять формулировки некоторых вопросов, касающихся восприятия преподавателей и вуза. При этом вопросы были безобидными, самым "острым" был следующий: "В какой степени вы согласны со следующим утверждением: Преподаватели оказывают должное признание усилиям и достижениям студентов." Куратор отдельно указал, что предполагается преследовать чисто "учебную цель" и не пытаться оценивать университет и сотрудников.

Получилась забавная ситуация: нужно решить реальную задачу, но не забывать, что это учебная задача. Двойная же ирония в том, что эта ремарка делает проблему еще ближе к реальной жизни: такой комментарий вполне можно услышать от руководителя любого уровня, когда он недоволен каким-то вопросом в опросе.

Вопрос: Как бы вы отреагировали на такую ситуацию, если бы это был ваш проект? Как грамотно решать подобные вопросы при проведении опросов для реальных задач?
Идея на следующий стартап-хакатон

Я же решил, что хочу в апреле пойти на стартап-хакатон уже со своей идеей. И есть одна идея, которая фактически вряд ли реализуема, но очень меня привлекает:

На основе данных с разных сенсоров (смарт-часы, ЭЭГ, давление, опросы пользователя) оценивать состояние здоровья пользователя. На основе этих данных:
- давать рекомендации пользователю по диете и упражнениям,
- предоставлять рекомендации, к какому врачу обратиться,
- давать врачу краткую выжимку о проблемах пользователя.

Проблема кажется очень сложной, поэтому готовиться решать её начну уже сейчас. Итак, кто знает хорошие книжки по анализу медицинских данных? 🤓
Планы на 2026 год.

В этот раз список будет довольно коротким:

1. Найти работу. Моя учеба закончена, поэтому я активно учу немецкий и ищу вакансии. Хотелось бы найти позицию в академии, но если не получится, то буду искать вакансии дата аналитиков. А еще я пишу грантовую заявку, чтобы мне дали денег на собственный ресерч при универе.

Хотелось бы пройти многое: machine learning, NLP, logics, time-series analysis, Bayesian statistics, но я понятия не имею, как пойдет с моим трудоустройством. В общем, год для меня будет по-своему интересными. Всех с наступающим Новым Годом!
🎉3
Поиск работы в Германии аналитиком данных.

Итак, начинается 2026 год, а это значит, что пора искать работу. С позициями в науке все понятно - я подаюсь на позицию, говорю, что я знаю и умею, а мне верят на слово, как джентельмену ("вот тут-то карта мне и поперла..."). К сожалению, с собеседованиями в реальные компании всё не так просто: приходится показывать портфолио и проходить интервью.

В общем, я пролистал вакансии и выделил, что можно изучать на позицию аналитика данных в Германии:

1. SQL
Сложные запросы, оконные функции, облачные платформ (BigQuery, Snowflake), нормализация, dbt, ETL
2. Визуализация и метрики
Looker, Tableau, Power BI, Dash;
Конверсии, средний чек, Customer Lifetime Value (CLTV), Churn Rate (коэффициент оттока), CAC (Customer Acquisition Cost), Revenue Growth Rate
3. Machine Learning and statistics.
Методы машинного обучения и статистики, A/B подход, p-value, confidence intervals, power analysis, Байесовский подход.

А еще нужно создать какое-то портфолио. Пишите в комментариях, если я что-то забыл. Да, год будет веселым.
👍1
Время накручивать опыт?

Я тут начал потихоньку искать вакансии аналитиком данных и столкнулся с интересным феноменом — почти все вакансии требуют 2-3 года опыта. Самое удивительное, что требования в этих вакансиях не ахти какие: всё, что хотят от тебя многие работодатели, в спокойном темпе изучается за два-три месяца.

А вообще, искать сейчас работу в Германии не выглядит хорошим решением: удаленных позиций мало, во многих местах требуется немецкий на уровне родного, желаемый опыт — от 2-3 лет, зарплаты не впечатляют. Складывается ощущение, что мы идём в период большого застоя технологий, когда работники будут крепко держаться за свои места, зарплаты будут уменьшаться, а сам рынок будет сжиматься из-за нежелания игроков брать на себя риски и делать что-то новое. Грустно.
А на какую позицию пойти?

Я тут внезапно понял, что слегка отстал от времени. Мы находимся посреди AI-бума, и в будущем будут нужны те, кто понимает, как работать на стыке AI и человека, как измерять их совместную продуктивность, как привлекать пользователей и бороться с их страхами. Еще чуть позже выйдет книжка-бестселлер "Как пасти AI-агентов в вашей организации". В общем, кажется, что всё говорит о том, что мы приближаемся к эпохе рутинизации профессий AI-внедренца и AI-психолога.

И мне подумалось, что неплохо бы последовать этому тренду. В чем смысл искать работу аналитика данных, где нужен немецкий и три года опыта, если можно пойти туда, где нужен английский, а трех лет опыта почти ни у кого и нет? В общем, я подумываю, а не стать ли мне Human-AI/Trusted-AI исследователем. Вакансии такие уже появляются, и конкуренция не так велика: из моего опыта — хорошие AI-инженеры обычно обладают очень плохим пониманием прикладной психологии (и не хотят учиться из-за гордости), а хорошие исследователи в психологии не очень заинтересованы в "говорящих" компьютерах. Осталось только понять, как к ним подготовиться.

Пример вакансии: https://openai.com/careers/research-engineer-human-centered-ai-san-francisco/
👍5
Да, а ведь еще 5 лет назад я и не думал становиться аналитиком данных, когда-то я хотел стать разработчиком встроенных систем. Жалко теперь расставаться со всем этим добром, но и времени заниматься им больше нет.
Подготовка к собесу на дата аналитика.

Шаг 1. Найти подходящую обувь.
👍5
А у нас тут есть ветеринары? У одного из участников нашей группы задание в вузе: дата сайнс для выявлений заболеваний крупного рогатого скота. Можно ли как-то ллмку там прикрутить? Как вообще можно помочь выявлять заболевания у животных 😅
Я тут понял, что питон оказал на меня дурное влияние. Я же ищу работу: решил все-таки посмотреть вакансии в моем прошлом поле деятельности — встраиваемые системы. Нашел вакансию, по многим требованиям подхожу или могу подготовиться, но...как вспомню весь этот ад встраиваемых систем, так вздрогну. Куча разных ядер, патчи в имейлах, кросс-компиляция, устаревшие системы сборки с десятками makefile, неудобные железки, которые сползают со стола, отладка по серийному порту через кабель, эмуляторы, не полностью эмулирующие железку...ну и гадость...
Назад к истокам.

За три месяца поиска работы аналитиком данных я понял, что дело это гиблое. Во-первых, вакансий очень мало. Во-вторых, большая часть вакансий требует знания немецкого на уровне нэйтива. В-третьих, даже те 10 более-менее подходящих вакансий, которые я смог найти и на которые откликнулся, не привели ни к одному собеседованию.

Положение грустное, но внезапно я обнаружил одну забавную вещь. Оказывается, ситуация совсем не так плачевна во встраиваемых системах. На удивление, там есть и удаленные позиции, и язык требуется далеко не всегда. А у меня еще и опыт работы есть в этих областях, и в стажировках участвовал (GSoC), и в диссертации в линукс ядре повозился . Из минусов — в последний раз я что-то делал в этой области лет 5 назад. Примерно тогда же в последний раз использовал C++. Поэтому скучать в ближайшие несколько месяцев мне точно не придется.

Итак, каков же план? А план прост: подготовить пет-проект, заодно повторяя забытые концепции. А пет-проект будет таков: фотокамера с видоискателем на основе маленького черно-белого дисплея. Если получится, потом еще и датчик движения прикручу. Все компоненты показаны ниже на фото. Ну а аналитика данных, видимо, останется пока что как хобби.
👍2
Время экспериментов.

Я же недавно начал готовиться к собеседованиям. Идея проста: повторить всё необходимое для дата аналитика, подтянуть немецкий и начать подаваться на немецкоязычные вакансии. Но кто сказал, что это сработает? За предыдущие 3 месяца я не получил ни одного собеседования по англоязычным вакансиям, что если так же будет с немецким?
В общем, идея эксперимента: сделать резюме на немецком, добавить туда все необходимые термины, где-то приукрасить прошлый опыт и разослать это резюме на 10+ вакансий. Если будет хотя бы пара откликов, значит, все не так плохо. Если же и тут будет пусто...тогда и подумаем.
Очередной хакатон.

Я недавно сходил на локальный хакатон идей, на котороом я хотел поработать надо проблемой диагонстики заболеваний человека. Дальше я расскажу, как прошел ивент для участников, а затем подведу итоги. Если вам лень читать организационные нюансы, можете сразу переходить к итогам :)

Все началось с того, что в первый день мы представили свои идеи в формате минутного питча. После этого мы нарисовали постеры, разместили их на стендах, а другие участники ходили между ними и голосовали наклейками за понравившиеся проекты. В следующий этап проходили те идеи, которые набрали достаточное количество голосов.

На следующем этапе мы выставили постеры в основном помещении и собирали команды. Мой оригинальный проект прошел в этот тур, но не смог набрать нужное количество людей. Поэтому мы объединили (смерджили) две команды в одну. Изначально мой проект был посвящен суммаризации долговременных симптомов пациентов для лучшей диагностики. Ко мне присоединилась девушка с проектом про тегирование животных. В результате мы сфокусировались на диагностике заболеваний животных.

После формирования команд мы приступили к работе: необходимо было создать жизнеспособную бизнес-модель. В нашем случае возникла очевидная проблема: мы только-только собрались и никто из нас не понимал, что конкретно мы хотим делать. Два долгих дня мы мучительно формулировали актуальную проблему. В первый день работали самостоятельно, а на второй день у всей команды было две менторские сессии. Вечером второго дня прошел тренировочный питч без презентаций. Свою проблему мы сформулировали буквально за час до этого выступления.

На третий день состоялась тренировочная питч-сессия с презентациями, а вечером — собственно сам питч перед жюри. Мы старались успеть все возможное: подготовить бизнес-модель, сделать анализ конкурентов. К сожалению, хотя немалая часть материалов была подготовлена, мы просто не успели включить все это в презентацию. Я бы сказал, что наш питч был не самым успешным из-за недостатка времени на подготовку.

Итоги.

Подводя итог, могу сказать, что вынес несколько полезных уроков. Во-первых, на такие мероприятия надо идти с уже готовой, проработанной идеей решения — это отличает команды, которые занимают призовые места. Во-вторых, объединять две команды — это очень плохая идея. Если в команде два лидера, каждый со своим видением, то конфликты практически неизбежны. В-третьих, очень полезно иметь в составе опытных профессионалов: они показывают более высокие результаты, увереннее держатся и лучше отвечают на вопросы жюри.

Пойду ли я на такое мероприятие снова? Скорее всего, да. Для меня это итеративный обучающий процесс: я учусь коммуникации, лидерству и менеджменту. Ожидаю ли я, что это выльется в реальный стартап? Абсолютно точно нет. К сожалению, я не заметил улучшения качества идей даже у команд-победителей. После питча одной из команд-победителей член жюри отметила, что она не смогла понять проблему, которую они решают. Аналогичное впечатление сложилось и у меня еще в первый день, когда я слушал их выступление. В общем, я считаю, что в лучшем случае на мероприятии можно найти либо ко-фаундера, либо члена команды, но такие случаи, к сожалению, крайне редки.