Без SQL не нужен Python / R. Part 2. Продолжая рассуждения по теме, скажу, что у SQL есть входные барьеры. Пример 1. У вашей организации 100500 баз данных, нету нормального описация таблиц - без главы BI хрен разберёшься что и где лежит. Пример 2. Вы можете получить доступ к базе Х, но не можете получить доступ к базам У и Й по каким-то политическим причинам, а без них у вас не получится провести нормальный анализ. Пример 3. Вы хорошо закорешились с аналитиком из BI, и он отвечает на ваши запросы в тот же день в телеграме. Пример 4. Вы не уверены, что правильно написали код. В таком случае вы можете просто нагрузить базу данных (она даже может перестать работать на время), вас отругают и лишат прав доступа.
👍2
Как выходят обновления. Так исторически сложилось, что каждое обновление IT продукта (в том числе созданное на машинном обучении) надо как следует протестировать перед тем, как "вывешивать" на основной сайт. Поэтому обычно есть три версии продукта (сайта / приложения):
Development - среда для разработки. Так сказать, черновик. Обычно он превращается в полный пипец через пару лет и его надо иногда удалять и ставить сюда Production или Staging версии.
Staging - место, в которое пропускают уже хорошо работающие фичи, но с правом всё похерить.
Production - то, чем пользуются клиенты. Чистовик - продукт - лицо компании.
Development - среда для разработки. Так сказать, черновик. Обычно он превращается в полный пипец через пару лет и его надо иногда удалять и ставить сюда Production или Staging версии.
Staging - место, в которое пропускают уже хорошо работающие фичи, но с правом всё похерить.
Production - то, чем пользуются клиенты. Чистовик - продукт - лицо компании.
Не переобучи! Модель на основе машинного обучения легко можно переобучить. Что это значит? Для примера приведу ситуацию с лабораторной мышкой, потому что искуственный интеллект работает примерно так же, как и самый настоящий (пусть и примитивный) интеллект живого существа. Допустим, мы поставим две кормушки в одной клетке. Когда мышка пьёт из правой кормушки - её немного ударяет током. Если пьёт из левой - всё хорошо. Со временем мышка будет пить только из левой кормушки, потому что когда тебя бьёт током - это не очень приятно. Теперь запустим эту мышку в другую клетку тоже с двумя кормушками, но теперь бить током будет только левая. Мышка, конечно, сразу кинется к ней и её ударит током, потому что раньше она не была в этой клетке, и поэтому её "машинное обучение" происходило на небольшой выборке клеток, и она переобучилась.
👍1
Переобучение происходит из-за того, что дата саентист неправильно составил выборку для разработки. Он не учёл, что возможны другие ситуации или у него просто не было источника данных, чтобы разнообразить выборку. Следите за своей выборкой!
Почему нам нужно машинное обучение? Ответ простой: только эти алгоритмы могут принимать решения на основе больших данных, когда человек просто может не выявить связи между отдельными элементами цифровой инфраструктуры. Но что такое больше данные? Понятие «Big Data» может подразумевать разные вещи в зависимости от отрасли или специфики деятельности конкретной организации, в целом под этим термином подразумевается информация, которую нельзя обработать с помощью традиционных процессов и инструментов.
Люди боятся. Я перестал говорить людям, которым продаю свои продукты, что они сделаны на основе искусственного интеллекта. И знаете почему? Людям становится страшно. Когда они видят результаты и сравнивают их со своими, то получается, что их работа, ещё недавно считавшаяся высоко интеллектуальной, может выполняться алгоритмом без человеческого вмешательства. Само словосочетание ИИ пугает, как когда-то человечество испытывало страх от внедрения первых станков, автоматизирующих ручной труд. Для людей сейчас продажа продукта на основе ИИ равносильна предложению уволить их и заменить роботом. Поэтому теперь я говорю, что это просто умный движок, и никогда не заикаюсь про искуственный интеллект и машинное обучение.
👍1
Object Detection for Dummies - серия постов от Lilian Weng (OpenAI), детально рассматривающих различные подходы к задаче детекции объектов.
Часть 1: https://vk.cc/9crkHs
Часть 2: https://vk.cc/9nnptr
Часть 3: https://vk.cc/8c2pqt
Часть 4: https://vk.cc/9nnpJI
Часть 1: https://vk.cc/9crkHs
Часть 2: https://vk.cc/9nnptr
Часть 3: https://vk.cc/8c2pqt
Часть 4: https://vk.cc/9nnpJI
Ребята, кто хочет работать в Google, Facebook или LinkedIn? Эта статья для вас, ведь сразу после томного интервью вас наверняка попросят сделать задачу с графами. Что это за штуки? Чаще всего это определение связей между людьми по их профилям в интернете, но графы также можно использовать для задачек, связанных с картами и связями между юридическими лицами. Читайте далее по ссылке.
freeCodeCamp.org
A Gentle Introduction to Data Structures: How Graphs Work
by Michael Olorunnisola A Gentle Introduction to Data Structures: How Graphs Work Source: TheNextWeb [http://thenextweb.com/facebook/2013/01/15/facebook-introduces-graph-search/]So who wants to work at Google, Facebook, or maybe LinkedIn? Beyond their grueling…
К какому типу вы отнесёте данный канал? (по мотивам картинки выше)
Anonymous Poll
24%
Как мы видим, тут всё очевидно!
45%
А-А-А-А-А-А-А-А-А-А-А-А-А-аааа!!!!! Датасаенс!!!
32%
А-А-А-А-аааа!!!!! Тут всё очевидно!
Всё дело в выборке! Я уже писал, как важна выборка: в зависимости от фичей и наблюдений ИИ можно научить абсолютно разным вещам. Составление выборки - это обычно 95% работы любого дата саентиста. То есть намного важнее собрать данные, так как обучение происходит на определённых алгоритмах, которые находятся в свободном доступе и которые не надо разрабатывать самостоятельно. Что нельзя делать с выборкой, так это пихать туда всякий шлак из разряда "ИИ переварит и научится". Нет! В современные версии ИИ надо откладывать заранее отобранные факторы и данные, иначе его предсказательная сила будет очень низкой.
Как искать дата саентистов? В связи с тем, что я активно набираю себе команду (+10 человек нужно до конца 2019 года), а бюджет тратить на HR не очень хочется, я посвящаю 1 день в две недели подбору персонала. Делюсь своим опытом и наблюдениями при найме дата саентистов.
Не судите строго по резюме. Когда я отбирался и работал в стратегическом консалтинге, очень много времени посвящал созданию CV. В консалтинге важны мелочи: какой эффект ты оказывал на компанию (в цифрах!), какие сферы ты затрагивал, на каком уровне общался. Обычно резюме стратегов очень "вылизаны" - в них почти всегда преувеличивают и пытаются оформить как можно красивее. Когда вы ищите дата саентистов, ждать такого не нужно. Математики-программисты часто бывают зажатыми и немного асоциальными (гений должен быть безумен! - конечно исключений тоже много), поэтому не смотрите на оформление резюме и не ищите цифр. Важен математический бекграунд и описание работы с библиотеками в резюме.
Не судите строго по разговору. Вам важно, чтобы дата саентист хорошо программировал и знал математику, а не чесал языком.
Просите примеры кода и сделать тестовое задание. У нормальных дата саентистов есть свой гитхаб, на котором они держат свои детища. Посмотрите на цитируемость кастомных библиотек или алгоритмов. Попросите сделать тестовое задание: обращайте внимание не только на результат кода, но и на культуру его написание (есть ли объяснения? насколько они подробные? другому дата саентисту будет приятно работать с таким кодом?).
Не берите хайпожоров. Кто-то выбрал эту профессию из-за математического склада ума, а кто-то просто гонится за трендами, как 2 года назад все программировали блокчейн. Приглядитесь к человеку - насколько его профессия ему подходит?
Не судите строго по резюме. Когда я отбирался и работал в стратегическом консалтинге, очень много времени посвящал созданию CV. В консалтинге важны мелочи: какой эффект ты оказывал на компанию (в цифрах!), какие сферы ты затрагивал, на каком уровне общался. Обычно резюме стратегов очень "вылизаны" - в них почти всегда преувеличивают и пытаются оформить как можно красивее. Когда вы ищите дата саентистов, ждать такого не нужно. Математики-программисты часто бывают зажатыми и немного асоциальными (гений должен быть безумен! - конечно исключений тоже много), поэтому не смотрите на оформление резюме и не ищите цифр. Важен математический бекграунд и описание работы с библиотеками в резюме.
Не судите строго по разговору. Вам важно, чтобы дата саентист хорошо программировал и знал математику, а не чесал языком.
Просите примеры кода и сделать тестовое задание. У нормальных дата саентистов есть свой гитхаб, на котором они держат свои детища. Посмотрите на цитируемость кастомных библиотек или алгоритмов. Попросите сделать тестовое задание: обращайте внимание не только на результат кода, но и на культуру его написание (есть ли объяснения? насколько они подробные? другому дата саентисту будет приятно работать с таким кодом?).
Не берите хайпожоров. Кто-то выбрал эту профессию из-за математического склада ума, а кто-то просто гонится за трендами, как 2 года назад все программировали блокчейн. Приглядитесь к человеку - насколько его профессия ему подходит?
👍1
Ребята, давайте запоминать что к чему! Искусственный интеллект - это очень широкая штука, к нему относятся многие даже относительно простые математические методы. Глубокое обучение - это обучение "без учителя", то есть когда у ИИ есть цель, но не понятен набор факторов, которые помогут к нему прийти - тут на помощь приходят сложные нейросети из огромной кучи слоёв (кусков кода, которые делают собственные выводы, но основе которых потом делают другие выводы).
На что потратить время при моделировании? Часто можно услышать от начинающих дата саентистов, что одна модель хуже другой из-за используемого метода машинного обучения или нейросети. Например, одна модель - XGboost, другая - Random Forrest, и из-за этого одна лучше, а другая хуже. Это не совсем так. Давайте разберёмся из чего складывается хорошая модель machine learning.
Качество данных. Чем чище данные, тем лучше обучится модель и лучше будет работать. Важно не только почистить данные при обучении, но и сделать некий движок, который будет обрабатывать входящий поток данных.
Размер выборки. Чем больше у вас наблюдений - тем лучше обучится модель и тем стабильнее она будет.
Репрезентативность выборки. Вам нужно понять, для чего вы будете использовать модель. Допустим, вы хотите предсказать, за сколько доедет такси до пассажира. Вы обучили модель на данных, запустили её в продакшен, но вдруг замечаете, что она плохо предсказывает. В чём дело? Оказывается, ваша команда обучала модель на данных по московской области, а ваши такси чаще ездят именно в Москве, где расстояния между точками заказов короче в несколько раз.
Набор фичей. Из данных нужно составить фичи - то, на чём она в итоге будет обучаться. Пример фичи: прибыльность по выручке = чистая прибыль / выручка. Чем граммотнее вы составите фичи и обработаете их перед тем, как запускать алгоритм, тем лучше будет результат.
Выбор алгоритма. Самое сложное в data science - это получить хорошие данные и составить фичи. Выбрать алгоритм - довольно простое занятие. Чаще всего выбирают несколько, а потом сравнивают между собой.
#datascience #machinelearning #ai
Качество данных. Чем чище данные, тем лучше обучится модель и лучше будет работать. Важно не только почистить данные при обучении, но и сделать некий движок, который будет обрабатывать входящий поток данных.
Размер выборки. Чем больше у вас наблюдений - тем лучше обучится модель и тем стабильнее она будет.
Репрезентативность выборки. Вам нужно понять, для чего вы будете использовать модель. Допустим, вы хотите предсказать, за сколько доедет такси до пассажира. Вы обучили модель на данных, запустили её в продакшен, но вдруг замечаете, что она плохо предсказывает. В чём дело? Оказывается, ваша команда обучала модель на данных по московской области, а ваши такси чаще ездят именно в Москве, где расстояния между точками заказов короче в несколько раз.
Набор фичей. Из данных нужно составить фичи - то, на чём она в итоге будет обучаться. Пример фичи: прибыльность по выручке = чистая прибыль / выручка. Чем граммотнее вы составите фичи и обработаете их перед тем, как запускать алгоритм, тем лучше будет результат.
Выбор алгоритма. Самое сложное в data science - это получить хорошие данные и составить фичи. Выбрать алгоритм - довольно простое занятие. Чаще всего выбирают несколько, а потом сравнивают между собой.
#datascience #machinelearning #ai
Как подбирать фичи для разработки предсказательной модели? Сегодня поговорим о том, как надо проверять факторы перед тем, как посылать их в модель (любую модель!). Разберём это на примере предсказания события (например, того, что человек заболеет в течение месяца).
Конечно, мы можем просто взять и засунуть в модель 1000 разных факторов, подождать месяц, пока компьютер сможет это обработать и после - вуаля, готово! Но что будет с моделью? Скорее всего, она переобучится, а значит будет хорошо предсказывать события внутри датасета, на котором обучалась, но когда мы выведем модель в продакшен, то поймём, что она ужасно предсказывает новые события. Именно поэтому факторы нужно проверять на индивидуальную предсказательную силу (Somer-D или индивидуальный Джини).
То есть сначала нужно разработать модель на каждом отдельном факторе из, допустим, 1000, которые мы придумали. У нас получится 1000 простых однофакторных моделей.
Далее надо посчитать предсказательную силу каждой из этих моделей. Если предсказательная сила у модели (фактора) низкая - убираем её из нашего шорт-листа. Если очень высокая сила - повод задуматься о том, что с этим фаткором не так и почему он такой мощный. Может быть, он редко всплывает в выборке или он является производным от события, которое мы предсказываем (например, если у вас температура 37.5 - значит вы заболели, и фактор температуры не предсказывает болезнь, а лишь говорит о том, что вы заболели какое-то время назад).
После надо посмотреть корреляции между факторами. Если корреляция высокая, надо оставлять только тот фактор, у кого выше Джини. Например, в плане заболеваемости "Как часто вы ездите в общественном транспорте" и фактор "Как часто вы ездите на такси или личной машине" будут значить примерно одно и то же, предсказательная сила у них тоже будет одинаковая, потому что они взаимоисключающие.
Далее надо посмотреть, сколько факторов осталось. Если факторов много, а выборка небольшая, то стоит уменьшить их количество, ужесточив требования в рамках предыдущих шагов или убрать факторы в зависимости доступности данных по ним.
И только после всех этих процедур можно загружать фичи в алгоритм и обучать его.
#datascience #machinelearning #ai #машинноеобучение #искуственный #интеллект #python #ИИ
Конечно, мы можем просто взять и засунуть в модель 1000 разных факторов, подождать месяц, пока компьютер сможет это обработать и после - вуаля, готово! Но что будет с моделью? Скорее всего, она переобучится, а значит будет хорошо предсказывать события внутри датасета, на котором обучалась, но когда мы выведем модель в продакшен, то поймём, что она ужасно предсказывает новые события. Именно поэтому факторы нужно проверять на индивидуальную предсказательную силу (Somer-D или индивидуальный Джини).
То есть сначала нужно разработать модель на каждом отдельном факторе из, допустим, 1000, которые мы придумали. У нас получится 1000 простых однофакторных моделей.
Далее надо посчитать предсказательную силу каждой из этих моделей. Если предсказательная сила у модели (фактора) низкая - убираем её из нашего шорт-листа. Если очень высокая сила - повод задуматься о том, что с этим фаткором не так и почему он такой мощный. Может быть, он редко всплывает в выборке или он является производным от события, которое мы предсказываем (например, если у вас температура 37.5 - значит вы заболели, и фактор температуры не предсказывает болезнь, а лишь говорит о том, что вы заболели какое-то время назад).
После надо посмотреть корреляции между факторами. Если корреляция высокая, надо оставлять только тот фактор, у кого выше Джини. Например, в плане заболеваемости "Как часто вы ездите в общественном транспорте" и фактор "Как часто вы ездите на такси или личной машине" будут значить примерно одно и то же, предсказательная сила у них тоже будет одинаковая, потому что они взаимоисключающие.
Далее надо посмотреть, сколько факторов осталось. Если факторов много, а выборка небольшая, то стоит уменьшить их количество, ужесточив требования в рамках предыдущих шагов или убрать факторы в зависимости доступности данных по ним.
И только после всех этих процедур можно загружать фичи в алгоритм и обучать его.
#datascience #machinelearning #ai #машинноеобучение #искуственный #интеллект #python #ИИ
👍1
Из чего строится работа data scietist? Часто ребята, начинающие интересоваться DS представляют себе свою будущую работу как бесконечную сложную математику и выявление инсайтов, невидимых обычным смертным, почти на каждодневной основе.
Спешу вас разочаровать. Как я и писал выше, чем чище данные - тем лучше обучится модель (будет лучше работать), поэтому львиная доля времени обычно уходит на чистку выборки.
Обычно большие данные - это очень неструктурированная информация: где-то данных вообще нету, где-то отдельные значения пропущены, а где-то люди вводят данные вручную (получается каша). Всё это надо чистить, но когда у тебя условные 10млн строк, то чистить надо автоматически. Обычно крутая чистка данных занимает 90% кодов и времени дата саентиста.
Пример. У нас есть поле "город" - вроде бы нормальная переменная и проблем возникать не должно, но при ближайшем рассмотрении мы находим следующие варианты написания города Санкт-Петербург:
Санкт Петербург - пропущено тире
Санкт Петербур - пропущена буква
Питер - сокращённое название
Санкт Питербург - ошибка в написании
Saint Petersburg - на иностранном языке
Saint P - неформальное название на английском
Исходя из того, что в России всего 1113 городов, представьте размер этого статистического ужаса.
Именно поэтому data science - это огромный пласт чистки данных, которую невозможно провести руками. Если вы идёте в эту профессию, то должны быть к этому готовы, потому что никто, кроме вас, этого не сможет сделать.
Спешу вас разочаровать. Как я и писал выше, чем чище данные - тем лучше обучится модель (будет лучше работать), поэтому львиная доля времени обычно уходит на чистку выборки.
Обычно большие данные - это очень неструктурированная информация: где-то данных вообще нету, где-то отдельные значения пропущены, а где-то люди вводят данные вручную (получается каша). Всё это надо чистить, но когда у тебя условные 10млн строк, то чистить надо автоматически. Обычно крутая чистка данных занимает 90% кодов и времени дата саентиста.
Пример. У нас есть поле "город" - вроде бы нормальная переменная и проблем возникать не должно, но при ближайшем рассмотрении мы находим следующие варианты написания города Санкт-Петербург:
Санкт Петербург - пропущено тире
Санкт Петербур - пропущена буква
Питер - сокращённое название
Санкт Питербург - ошибка в написании
Saint Petersburg - на иностранном языке
Saint P - неформальное название на английском
Исходя из того, что в России всего 1113 городов, представьте размер этого статистического ужаса.
Именно поэтому data science - это огромный пласт чистки данных, которую невозможно провести руками. Если вы идёте в эту профессию, то должны быть к этому готовы, потому что никто, кроме вас, этого не сможет сделать.
Telegram
Data Science для чайников
На что потратить время при моделировании? Часто можно услышать от начинающих дата саентистов, что одна модель хуже другой из-за используемого метода машинного обучения или нейросети. Например, одна модель - XGboost, другая - Random Forrest, и из-за этого…
Мои дата саентисты нарасхват! Только набрал команду, как нас сразу же стали использовать практически во всех проектах материнской компании. Обычно десантируют на самые сложные задачки, где не хватает рук.
Из-за этого иногда не хватает сил внутри нашего стартапа - приходится опять вспоминать, как правильно кодить.
Из-за этого я стал задумываться, как же быстро разучиваешься кодерским скиллам. Некоторые даже самые простые команды приходится гуглить, как будто я начал изучать питон только вчера! Буквально за 4-5 месяцев без коддинга - и сразу скиллы практически на нуле. Конечно, сейчас есть намного больше понимания, каким образом всё работает: я лучше понимаю, как устроены алгоритмы и как их правильно применять, но вот чисто "работа руками" требует ежедневной практики, чтобы оставаться в форме!
Отсюда можно сделать один вывод: если вы собрались в data science, то вам не обязательно уметь круто писать код. Вы модете менеджить процессы, либо подбирать персонал, как в любом другом бизнесе. Пример для вдохновения: основатель Алибаба Джек Ма за историю развития своего бизнес-гиганта не написал ни одной строчки кода, зато смог сплотить вокруг себя крутых спецов и дать им возможность реализовать себя.
Из-за этого иногда не хватает сил внутри нашего стартапа - приходится опять вспоминать, как правильно кодить.
Из-за этого я стал задумываться, как же быстро разучиваешься кодерским скиллам. Некоторые даже самые простые команды приходится гуглить, как будто я начал изучать питон только вчера! Буквально за 4-5 месяцев без коддинга - и сразу скиллы практически на нуле. Конечно, сейчас есть намного больше понимания, каким образом всё работает: я лучше понимаю, как устроены алгоритмы и как их правильно применять, но вот чисто "работа руками" требует ежедневной практики, чтобы оставаться в форме!
Отсюда можно сделать один вывод: если вы собрались в data science, то вам не обязательно уметь круто писать код. Вы модете менеджить процессы, либо подбирать персонал, как в любом другом бизнесе. Пример для вдохновения: основатель Алибаба Джек Ма за историю развития своего бизнес-гиганта не написал ни одной строчки кода, зато смог сплотить вокруг себя крутых спецов и дать им возможность реализовать себя.
HR минутка дня. Когда ищу людей очень часто слышу "я не буду выполнять тестовое задание!". Правильное ли это отношение к процессу отбора?
Мне кажется, что тут стоит уметь разделять твердолобую принципиальную позицию от стоп-факторов для предотвращения откровенного надувательства со стороны потенциального работодателя.
Всегда надо проверять как человек пишет код. Давайте признаемся, что одной ссылки на гитхаб далеко не всегда достаточно. в 99% случаях, когда заходишь на гит - это мёртвое место, где автора не цитируют и не пользуются его кодом. Лишь в 1% случаев на гите происходит какая-то реальная активность. То есть в 99% случаев люди вполне могут скопировать чужой код и выставить как свой - никто и не заметит!
С другой стороны работодатели часто просят кандидатов сделать какую-то большую работу как часть вступительного экзамена. Кандидата в итоге не нанимают, а код или его часть могут использовать в продакшене! Тоже не честно.
Надо уметь балансировать. Небольшие вступительные тесты и задания надо делать, особенно если работодатель - большая фирма с типовыми заданиями для всех. Если это маленькая контора с огромным заданием на неделю - наверное, не надо суваться.
Мне кажется, что тут стоит уметь разделять твердолобую принципиальную позицию от стоп-факторов для предотвращения откровенного надувательства со стороны потенциального работодателя.
Всегда надо проверять как человек пишет код. Давайте признаемся, что одной ссылки на гитхаб далеко не всегда достаточно. в 99% случаях, когда заходишь на гит - это мёртвое место, где автора не цитируют и не пользуются его кодом. Лишь в 1% случаев на гите происходит какая-то реальная активность. То есть в 99% случаев люди вполне могут скопировать чужой код и выставить как свой - никто и не заметит!
С другой стороны работодатели часто просят кандидатов сделать какую-то большую работу как часть вступительного экзамена. Кандидата в итоге не нанимают, а код или его часть могут использовать в продакшене! Тоже не честно.
Надо уметь балансировать. Небольшие вступительные тесты и задания надо делать, особенно если работодатель - большая фирма с типовыми заданиями для всех. Если это маленькая контора с огромным заданием на неделю - наверное, не надо суваться.
Как учить data science? Вчера мне позвонил мой родственник, который в этом году выпускается из школы и поступает в ВУЗ. Пока все карантинятся от короновируса, он решил потратить время с пользой и попробовать себя в программировании. Звонит и спрашивает "Привет! Я в книжном, какую книжку купить по кодингу?". Если честно, для меня такой вопрос был сюрпризом. Я думал, что поколение нынешних старшеклассников все давно "оцифровались" и учатся на специальных сайтах, ибо так удобнее. Мой родственник купил книгу, и вечером, когда мы встретились, он показал мне что там пишут - полную фигню. Он купил книгу про Python, где давалась куча какой-то ненужной теории и было реально мало кода. Не представляю, как с помощью такой бумаги можно научиться программированию, поэтому составил для вас и для него список самых актуальных курсов по data science для чайников. Сразу скажу, что здесь нет рекламы - просто делюсь опытом.
1) Машинное обучение и анализ данных от Яндекса и МФТИ - наверное, самый известный и уважаемый курс
2) Образовательный сайт Datacamp - я начинал с него. Очень удобно, что можно писать код прямо в браузере - сразу начинаешь программировать, а не слушать лекции.
3) Stackoverflow - на этом сайте отвечают на вопросы в стиле "у меня не работает код, что делать?". В 99% случаев тут можно найти готовый кусочек кода, который делает определённую задачу. Часто разработка сводится к поиску инфы на этом сайте, так что очень советую им пользоваться, если что-то не получается.
В целом, в наше время существует огромное количество платных и бесплатных способов чему-то научиться и повысить свою трудовую стоимость в разы. Дерзайте, у вас получится!
И подписывайтесь на наш канал!
1) Машинное обучение и анализ данных от Яндекса и МФТИ - наверное, самый известный и уважаемый курс
2) Образовательный сайт Datacamp - я начинал с него. Очень удобно, что можно писать код прямо в браузере - сразу начинаешь программировать, а не слушать лекции.
3) Stackoverflow - на этом сайте отвечают на вопросы в стиле "у меня не работает код, что делать?". В 99% случаев тут можно найти готовый кусочек кода, который делает определённую задачу. Часто разработка сводится к поиску инфы на этом сайте, так что очень советую им пользоваться, если что-то не получается.
В целом, в наше время существует огромное количество платных и бесплатных способов чему-то научиться и повысить свою трудовую стоимость в разы. Дерзайте, у вас получится!
И подписывайтесь на наш канал!
WOE или weight of evidence - это метод, с помощью которого вы можете разделять ваши наблюдения на корзинки или бины и на основе их предсказывать вероятность наступления какого-либо события. Этот метод используется чаще всего в риск менеджменте, когда вы хотите сделать интерпретируемую модель на основании логистической регрессии. Основное преимущество этого метода в том, что вы можете легко работать с исключениями.
Пример WOE: вы делите долги компании на ее балансовую стоимость, у каждого полученного результата его целевая переменная, например, вероятность дефолта. Вы сортируете полученные значения от самого маленького к самому большому, а потом делите полученную выборку на 10 групп с одинаковым количеством наблюдений в каждой. Внутри каждой группы получается процент целевой переменной, в нашем случае процент дефолтов. На этих группах разрабатываете логистическую регрессию.
Исключения (например деление на 0) засовываете в отдельную группу и называете ее любым числом, не входящим ни в один из бинов.
Не так давно появилась удобная бибилиотека, которая позволяет делать WOE преобразования удобными. Почитать про нее подробнее можно по ссылке:
https://pypi.org/project/optbinning/
Пример WOE: вы делите долги компании на ее балансовую стоимость, у каждого полученного результата его целевая переменная, например, вероятность дефолта. Вы сортируете полученные значения от самого маленького к самому большому, а потом делите полученную выборку на 10 групп с одинаковым количеством наблюдений в каждой. Внутри каждой группы получается процент целевой переменной, в нашем случае процент дефолтов. На этих группах разрабатываете логистическую регрессию.
Исключения (например деление на 0) засовываете в отдельную группу и называете ее любым числом, не входящим ни в один из бинов.
Не так давно появилась удобная бибилиотека, которая позволяет делать WOE преобразования удобными. Почитать про нее подробнее можно по ссылке:
https://pypi.org/project/optbinning/
PyPI
optbinning
OptBinning: The Python Optimal Binning library