Предобработка данных
Прошла двухнедельный спринт… За 6 дней.Всего-то надо было работать по 12 часов в день.
Идеальных данных не бывает. Их надо сначала подготовить к анализу: человеческий фактор, системные ошибки, ошибки выгрузки могут их «испортить» - сделать непригодными для анализа. Вот для этого и нужна предобработка.
Что я изучила в теории.
Работа с пропусками, определение аномальных значений, преобразование типов данных, методы поиска дубликатов, работа с несовершенными реальными наборами данных.
Финальный проект. Состоял из двух частей. Первая - решение задач с автопроверкой. И вторая - проект 'Исследование надежности заемщиков' с анализом данных и указанием аргументированного мнения и вывода📊. Эта часть проверялась ревьюером. Оценивалось не только владение нужными командами, но написание правильного, легкочитаемого кода, логического вывода и комментарии каждого шага. После 2 ревью мой проект был принят.😎
Следующий шаг: по Python - отправила на ревью проект 'Docker'. Читаю учебник по DS📙.
Прошла двухнедельный спринт… За 6 дней.
Что я изучила в теории.
Работа с пропусками, определение аномальных значений, преобразование типов данных, методы поиска дубликатов, работа с несовершенными реальными наборами данных.
Финальный проект. Состоял из двух частей. Первая - решение задач с автопроверкой. И вторая - проект 'Исследование надежности заемщиков' с анализом данных и указанием аргументированного мнения и вывода📊. Эта часть проверялась ревьюером. Оценивалось не только владение нужными командами, но написание правильного, легкочитаемого кода, логического вывода и комментарии каждого шага. После 2 ревью мой проект был принят.😎
Следующий шаг: по Python - отправила на ревью проект 'Docker'. Читаю учебник по DS📙.
👍4❤1🔥1
Docker
Спринт #12 - Docker - пройден.
Тему я поняла. Были сложности с установкой и зависимостями. Но моя операционка не подвела меня😅!
Сегодня в Data science открылся 3 спринт - Исследовательский анализ. Недавно на вебинаре на запрос дать побольше доп.материала на будущее, наставник сказал: "Не бегите впереди паровоза, следуйте программе, пошагово изучайте темы, от простого к сложному.
Все-таки хорошо, что я учусь по системе, а не самоучка😂🙏
#datascience #docker
Спринт #12 - Docker - пройден.
Тему я поняла. Были сложности с установкой и зависимостями. Но моя операционка не подвела меня😅!
Сегодня в Data science открылся 3 спринт - Исследовательский анализ. Недавно на вебинаре на запрос дать побольше доп.материала на будущее, наставник сказал: "Не бегите впереди паровоза, следуйте программе, пошагово изучайте темы, от простого к сложному.
Все-таки хорошо, что я учусь по системе, а не самоучка😂🙏
#datascience #docker
👍2🔥2
Управление проектом на удаленном сервере: Docker, nginx, DevOps, Continuous Integration, GitHub Actions, deploy... Куча тестов и ошибок. Даже пришлось откатиться на 2 спринта назад, чтобы проверить нужный образ. Около 45 часов работы над 13 спринтом. Результат: проект сдан, и я смело могу писать в резюме, что знаю DevOps🙃
Вчера я отдыхала весь день, а сегодня начинается Статистический анализ в #datascience🔨
Вчера я отдыхала весь день, а сегодня начинается Статистический анализ в #datascience🔨
👍4🔥1
Статистический анализ и не только
Дисперсия, математическое ожидание, теория вероятности, эксперименты, проверка гипотез...
Короче, вы меня поняли😁
Сдала проект, как прошла через темный лес...
А в Python у меня месяц на самостоятельный проект: написать бэк с нуля — веб-приложение для обмена рецептами с элементами социальной сети.
Медленно, но верно я двигаюсь вперед...
Дисперсия, математическое ожидание, теория вероятности, эксперименты, проверка гипотез...
Короче, вы меня поняли😁
Сдала проект, как прошла через темный лес...
А в Python у меня месяц на самостоятельный проект: написать бэк с нуля — веб-приложение для обмена рецептами с элементами социальной сети.
Медленно, но верно я двигаюсь вперед...
👍3
Сдала Сборный проект 5-го спринта Data Science.
Было не тяжело, но напряжённо. Мозг кипел от анализов и поиска зависимостей.
К слову сказать, знания Python очень облегчают мне работу на курсе DS. Сейчас написать функцию, как расплюнуть. Главное, знать, что ищем и выводим, и как прикрепиться к нужной таблице.
Впереди доработка самостоятельного проекта по Python и неделя каникул по DS. И никто, к сожалению,не отменял работу над проектом на новогодних каникулах.
Было не тяжело, но напряжённо. Мозг кипел от анализов и поиска зависимостей.
К слову сказать, знания Python очень облегчают мне работу на курсе DS. Сейчас написать функцию, как расплюнуть. Главное, знать, что ищем и выводим, и как прикрепиться к нужной таблице.
Впереди доработка самостоятельного проекта по Python и неделя каникул по DS. И никто, к сожалению,не отменял работу над проектом на новогодних каникулах.
👍4🔥1
После праздников тяжело втянуться в учебу, но есть слова "надо" и "дедлайн". Поэтому продолжаем работать...
Data Science подарил мне каникулы, но я читаю тему "Теория вероятности", которая никак не хочет дружить со мной((. В универе статистика была, но на базовом уровне. А при машинном обучении модели вероятностей нужно знать очень хорошо...
Что касается проекта по Python: жду ответа от ревьюера, который, видимо, тоже отходит от праздников.
Data Science подарил мне каникулы, но я читаю тему "Теория вероятности", которая никак не хочет дружить со мной((. В универе статистика была, но на базовом уровне. А при машинном обучении модели вероятностей нужно знать очень хорошо...
Что касается проекта по Python: жду ответа от ревьюера, который, видимо, тоже отходит от праздников.
👍3
Python
Проект 14 спринта сдан, я очень рада. Сайт получился прикольный, яркий, но ВМ я остановила, поэтому не зайти уже😜.
Теперь жду 16 января, чтобы начать большую тему "Алгоритмы".
Data Science
Новый спринт начнется тоже 16 января, но до тех пор я упорно пытаюсь вникнуть в теорию вероятности. На днях опубликую одну из задач данной темы, чтоб вы представляли, с чем я имею дело)))
Проект 14 спринта сдан, я очень рада. Сайт получился прикольный, яркий, но ВМ я остановила, поэтому не зайти уже😜.
Теперь жду 16 января, чтобы начать большую тему "Алгоритмы".
Data Science
Новый спринт начнется тоже 16 января, но до тех пор я упорно пытаюсь вникнуть в теорию вероятности. На днях опубликую одну из задач данной темы, чтоб вы представляли, с чем я имею дело)))
👍5
Data Sciense
Очередной проект успешно сдан🔥.
Машинное обучение: проверка адекватности модели, борьба с дисбалансом, классификация, метрики, поиск наилучшей модели. Следующая тема "Машинное обучение в бизнесе" начнется 30.01.
В последнее время мои два курса накладываются друг на друга, и уже очень тяжело перемещаться между ними. Времени на написание самостоятельных проектов нет - это очень огорчает меня. Вчера зарегилась на kaggle. Надо бы поучаствовать в каком-нибудь соревновании или просто проанализировать для себя Титаник, например.
В голове тревога, что алгоритмы не дремлют, и на них тоже надо тренироваться🤯
Очередной проект успешно сдан🔥.
Машинное обучение: проверка адекватности модели, борьба с дисбалансом, классификация, метрики, поиск наилучшей модели. Следующая тема "Машинное обучение в бизнесе" начнется 30.01.
В последнее время мои два курса накладываются друг на друга, и уже очень тяжело перемещаться между ними. Времени на написание самостоятельных проектов нет - это очень огорчает меня. Вчера зарегилась на kaggle. Надо бы поучаствовать в каком-нибудь соревновании или просто проанализировать для себя Титаник, например.
В голове тревога, что алгоритмы не дремлют, и на них тоже надо тренироваться🤯
👍4🔥1
Python
16 спринт сдан🧐. Но я все ещё не очень люблю алгоритмы😕.
Data Science
Начала читать теорию по машинному обучению в бизнесе. Мне кажется, теория на данном курсе написана слабенько. У меня есть, с чем сравнить, как преподносится информация, и как собрана программа. Почему-то на этом курсе я очень много ищу доп.материала. Я не хочу сказать, что на курсе пайтон я вообще не обращаюсь к гуглу. И я знаю, что поиск необходимого - это часть обучения. Но датасайнс заставляет меня открывать кучу вкладок и искать подробные разъяснения тех или иных моментов...
16 спринт сдан🧐. Но я все ещё не очень люблю алгоритмы😕.
Data Science
Начала читать теорию по машинному обучению в бизнесе. Мне кажется, теория на данном курсе написана слабенько. У меня есть, с чем сравнить, как преподносится информация, и как собрана программа. Почему-то на этом курсе я очень много ищу доп.материала. Я не хочу сказать, что на курсе пайтон я вообще не обращаюсь к гуглу. И я знаю, что поиск необходимого - это часть обучения. Но датасайнс заставляет меня открывать кучу вкладок и искать подробные разъяснения тех или иных моментов...
🔥3
Data Science. Машинное обучение в бизнесе.
Проект сдан и принят ревьюером с первого раза!😊
Нужно решить, где бурить новую скважину при определенном бюджете компании.
Что делала: предобработка данных; обучение и проверка модели для каждого региона;
определение среднего запаса предсказанного сырья и показателя RSME;
расчет объема сырья для безубыточности планируемой скважины, сравнительный анализ;
выбор скважины с максимальными значениями предсказаний;
подсчет рисков и прибыли;
распределение прибыли техникой Bootstrap;
определение средней прибыли и конечный выбор региона для разработки.
Python
С пн 17 спринт, тема "Алгоритмы. Рекурсия"
Проект сдан и принят ревьюером с первого раза!😊
Нужно решить, где бурить новую скважину при определенном бюджете компании.
Что делала: предобработка данных; обучение и проверка модели для каждого региона;
определение среднего запаса предсказанного сырья и показателя RSME;
расчет объема сырья для безубыточности планируемой скважины, сравнительный анализ;
выбор скважины с максимальными значениями предсказаний;
подсчет рисков и прибыли;
распределение прибыли техникой Bootstrap;
определение средней прибыли и конечный выбор региона для разработки.
Python
С пн 17 спринт, тема "Алгоритмы. Рекурсия"
👍3🐳2
Data Sciense
Сдан 'Сборный Проект — 2'
Нужно было подготовить для реальной компании прототип модели машинного обучения, которая должна предсказать коэффициент восстановления золота из золотосодержащей руды. Модель поможет оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками.
Что делала:
1. Предобработка данных;
2. Исследовательский анализ данных (определение концентрации золота на разных этапах очистки);
3. Построение, обучение и выбор лучшей модели (обучение разных моделей, оценка качества кросс-валидацией, вычисление sMAPE);
4. Проверка модели на качество на тестовой выборке.
В жесткий дедлайн я уложилась, впереди каникулы на датасайнс🙂
Python
С завтрашнего дня сажусь за тему 'Алгоритмы.Рекурсия'🤯
Сдан 'Сборный Проект — 2'
Нужно было подготовить для реальной компании прототип модели машинного обучения, которая должна предсказать коэффициент восстановления золота из золотосодержащей руды. Модель поможет оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками.
Что делала:
1. Предобработка данных;
2. Исследовательский анализ данных (определение концентрации золота на разных этапах очистки);
3. Построение, обучение и выбор лучшей модели (обучение разных моделей, оценка качества кросс-валидацией, вычисление sMAPE);
4. Проверка модели на качество на тестовой выборке.
В жесткий дедлайн я уложилась, впереди каникулы на датасайнс🙂
Python
С завтрашнего дня сажусь за тему 'Алгоритмы.Рекурсия'🤯
👍5🤡1
Наконец-то!
Я закончила темы по алгоритмам, сдала эти проекты, как прошла через темный лес! Было тяжко, много непонятно. А если на пальцах понятно, то как написать код - большой вопрос! Вокруг лежат исписанные листочки со схемами, но я до сих пор не уверена, что поняла все до конца!
Доп.темами на изучение дали "Хеш-функции" и "Деревья". С ними тоже долго разбираться!
А тем временем на DS еще вчера начались темы по линейной алгебре.
Все на бегу, все нужно успеть😩...
Я закончила темы по алгоритмам, сдала эти проекты, как прошла через темный лес! Было тяжко, много непонятно. А если на пальцах понятно, то как написать код - большой вопрос! Вокруг лежат исписанные листочки со схемами, но я до сих пор не уверена, что поняла все до конца!
Доп.темами на изучение дали "Хеш-функции" и "Деревья". С ними тоже долго разбираться!
А тем временем на DS еще вчера начались темы по линейной алгебре.
Все на бегу, все нужно успеть😩...
🕊2
Data Science
11 спринт проект "Защита персональных данных"🔐
ТЗ: разработать такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию клиентов.
Применив матричные операции запрограммировать алгоритм таким образом, чтобы качество модели машинного обучения не ухудшилось.
Проект сдала с 3 раза - застряла на свойствах обратимой матрицы.
Python
Однокурсники еще с пятницы начали тему "Парсинг". Надо срочно догонять...🧐
11 спринт проект "Защита персональных данных"🔐
ТЗ: разработать такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию клиентов.
Применив матричные операции запрограммировать алгоритм таким образом, чтобы качество модели машинного обучения не ухудшилось.
Проект сдала с 3 раза - застряла на свойствах обратимой матрицы.
Python
Однокурсники еще с пятницы начали тему "Парсинг". Надо срочно догонять...🧐
❤4🔥1
Python
Закончила проект парсинга, который работает с сайтом https://www.python.org.
Парсинг:
собирает ссылки на статьи о нововведениях в Python;
собирает информацию о статусах версий Python;
скачивает архив с актуальной документацией в формате .csv;
выводит статусы данных с документов PEP Python.
Data Science
Начала читать теорию по теме "Численные методы".
Закончила проект парсинга, который работает с сайтом https://www.python.org.
Парсинг:
собирает ссылки на статьи о нововведениях в Python;
собирает информацию о статусах версий Python;
скачивает архив с актуальной документацией в формате .csv;
выводит статусы данных с документов PEP Python.
Data Science
Начала читать теорию по теме "Численные методы".
👍2🔥1