Alexander Ershov - data science
2.2K subscribers
44 links
YouTube: https://youtube.com/c/alexanderershov
Обучение с менторской поддержкой до результата: https://bit.ly/3B6oY7c
Download Telegram
Alexander Ershov - data science pinned «Около месяца назад я писал, что запускаю индивидуальную программу обучения па data science в закрытом режиме. Сейчас уже несколько человек учатся и программа переходит в открытый режим. Я снял видео, где вы можете посмотреть о том, почему я создал эту программу…»
Наконец-то выпустили версию 1.0 для scikit-learn (правде еще dev build 😅)
https://scikit-learn.org/dev/whats_new/v1.0.html
Что нужно знать начинающему Data science специалисту?

Сегодня я расскажу что нужно изучать и почему.

Начнем с языков программирования. 2 основных языка, с которыми вам придется иметь дело это Python и SQL. Почему именно они? Python это де-факто основной язык для анализа данных и машинного обучения, так как основные библиотеки реализованы именно для него. Несколько лет назад был еще популярен язык R, но сейчас он уже практически не используется. SQL это язык для обращения к источникам данных, из которых вы эти самые данные будете получать. Существуют различные диалекты SQL (то есть язык запросов в разных базах данных может отличаться), но основные команды одинаковы и поэтому изучив их вы сможете писать запросы для получения данных с помощью любого из диалектов. Я рекомендую уже на этом этапе найти опытного разработчика, который будет делать вам код ревью, что бы уже с самого начала вы научились писать код хорошего качества, потому что это поможет вам в будущем быстрее найти работу, а так же вам самим будет проще читать свой код через несколько месяцев после того, как вы его написали.

После изучения языков программирования нужно изучить те разделы математики, на которых основаны алгоритмы машинного обучения. Это линейная алгебра, теория вероятности, основы математического анализа (что такое производная и градиент) и статистика. Сильно углубляться в математику (например изучая дифференциальные уравнения или топологию) не стоит, так как вам это скорее всего никогда не пригодится.

После этого можно переходить к изучению машинного обучения. Тут нужно разобраться с основными задачами (регрессия, классификация и т.д.), алгоритмами машинного обучения, как делать валидацию обученных моделей, как происходит обучение, что такое переобучение и т.д. Теорию лучше изучать вместе с практикой, то есть сразу использовать библиотеки для анализа данных и машинного обучения (Pandas, Matpotlib, scikit-learn, PyTorch и т.д.).

И последний опциональный пункт это инструменты для развертывания ML моделей в production среде. Это ПО для развертывания в контейнерах Docker и web серверы на Python (Flask или FastAPI).

Ну а если у вас есть желание изучить Data science быстрее и эффективнее, то я могу стать вашим ментором, причем есть тариф "Вечный чат", где у вас будет поддержка пока вы не достигнете своей цели. Подробнее по ссылке https://bit.ly/3ACB33S

Ну а так же я даю промокод на скидку 10% который действует до понедельника: SEP2310
Сегодня я расскажу про основные инструменты для анализа данных и для построения моделей машинного обучения на Python.

Начнём мы с библиотеки Pandas, эта самая популярная библиотека для анализа табличных данных, то есть данных состоящих из строк и столбцов. С ней приходится иметь дело практически всем, кто занимается анализом данных на Python.

Следующие 2 библиотеки это Numpy и SciPy. В них реализованы различные математические операции которые вам могут пригодиться. Например, нормализация массива для использования его как фичи для обучения ML алгоритма или расчёт p-value для проверки статистической значимости результатов A/B теста.

Для того что бы показать результаты анализа данных более наглядно их визуализируют. Для Python существуют 3 популярные библиотеки для визуализации это Matplotlib, Seaborn и Plotly. Я лично пользуюсь Matplotlib, так как привык к ней.

Теперь переходим к фреймворкам, которые содержат алгоритмы машинного обучения. Если вы собираетесь использовать классические алгоритмы машинного обучения, то вам нужно использовать scikit-learn. Ну а если вы собираетесь использовать deep learning алгоритмы, то тут существуют 2 популярных фреймворка. Это PyTorch и TensorFlow. Какой из них лучше это холиварный вопрос и поэтому можете попробовать оба и решить, что для вас удобнее.

Если вы работаете с текстовыми данными, то для них существует библиотека SpaCy в которой есть предобученные ML модели для различных NLP задач. Например для sentiment analysis или named entity recognition. А если вы собираетесь заниматься задачами компьютерного зрения, то для них есть библиотека open cv.

И последнии 2 темы, которые я хотел бы обсудить это развертывание ML моделей в production и скрапинг (парсинг данных из интернета для создания датасетов). Для первой задачи можно использовать web сервера Flask и Fast API, а для второй - HTML парсер BeautifulSoup вместе с библиотекой для создания http запросов Requests.

Друзья, напишите в комментариях что вы из этого вы уже использовали, что было новое и полезное и что ещё можно было бы добавить в этот список. А так же поделитесь этим списком с теми, кому он может быть полезен.

Ну а если вы изучаете data science, то я могу быть вашим ментором пока вы не достигнете своей цели. Записывайтесь на бесплатную консультацию по ссылке: https://bit.ly/3D7XheU
Какие бывают задачи машинного обучения и для чего они примеряются?

Сегодня я расскажу про основные виды ML задач и какие реальные продуктовые проблемы они могут решать.

Первая задача это задача регрессии. Суть ее состоит в том, что мы на основе исторических данных предсказываем вещественное число. Соответственно она может использоваться везде, где нужно предсказать численное значение. Например, возраст человека по фотографии или выручка по пользователю за следующий квартал.

Следующая задача это задача классификации. Тут мы уже предсказываем не вещественное число, а счетное и конечное число значений. Частный случай (и самый популярный) - это бинарная классификация, когда значений всего 2. Ее используют, например, в задаче кредитного скоринга, когда банк решает выдать ли человеку кредит или в задаче модерации контента, что бы определить есть ли в посте что-то запрещенное.

Третья задача это задача кластеризации. И состоит она в том, что бы разбить обучающую выборку на несколько групп (кластеров). Эта задача чаще всего применяется для анализа исторических данных. Например, можно собрать данные по пользователям сервиса, разбить их на кластеры и уже в ручном режиме смотреть чем эти группы пользователей отличаются, что бы в дальнейшем это использовать, например, для маркетинговой коммуникации с этими группами клиентов.

И последняя задача это задача ранжирования. Она состоит в том, что бы отсортировать набор объектов неким "правильным" образом для тренировочной выборки. То есть для каждого объекта из выборки будет свой "идеальный" порядок элементов. Это задача используется для создания поисковых систем, когда по поисковому запросу нужно вывести список сайтов. А так же, для рекомендательных систем, когда нужно отранжировать все имеющиеся товары и рекомендовать пользователю, например, первые пять.

Напишите в комментариях, про какие задачи машинного обучения вы слышали или сами их решали, а про какие вы только что узнали. Ну а если вы изучаете data science, то я могу стать вашим ментором, пока вы не достигнете своей цели. Подробности по ссылке: https://bit.ly/3D7XheU
Кому подходит моя менторская программа?

Я могу помочь вам с обучением если вы изучаете Data science для следующих целей:

1. Вы хотите устроиться на работе в сфере анализа данных. Это самая популярная цель обучения, и тут я составлю вам комплексную программу, которая будет включать в себя все разделы для прохождения собеседования. То есть не только алгоритмы машинного обучения, математику, Python и SQL, но и сomputer science алгоритмы, которые часто спрашивают на собеседованиях в крупные компании, а так же я помогу вам сделать своей пет проект для портфолио, составить резюме и помогу с поиском вакансий. Ну и конечно я буду вас сопровождать на всем периоде обучения, пока вы не достигнете своей цели.
2. Вам нужно решить определенную задачу, связанную с анализом данных, а вы не понимаете, как к ней подступиться. Например, вы придумали идею стартапа или вам дали задачу на работе. В таком случае я составлю для вас план обучения, где изучите только то, что нужно для реализации вашей задачи. То есть если вам нужно сделать алгоритм классификации изображений, то вам не обязательно изучать алгоритмы для анализа текста и тратить свое время впустую. Кроме того, если вы собираетесь работать с подрядчиками, то обучение можно построить таким образом, что бы не погружаться глубоко в технические детали, а изучить только необходимое для коммуникации и делегирования задач.
3. Вы изучаете Data science просто потому что вам это интересно. В таком случае можно будет начать с самых основ, а потом углубиться в ту область, которая вас заинтересует больше. Так как программа обучения адаптивна, то ее всегда можно будет изменять исходя из ваших интересов.

🔥 Посмотреть видео отзывы и записаться на бесплатную консультацию можно по ссылке: https://bit.ly/3D7XheU
Forwarded from DLStories
OpenAI сделали публичным API GPT-3

Теперь можно генерировать текст с помощью разных моделей GPT-3 через официальное API. Можно насоздавать пет-проектов и приложенек на основе этой нейронки) Цены не особо кусаются: цена использования самой большой модель DaVinci — 6 центов за 1000 токенов. При регистрации дают халявные 18$: хватит, чтобы нагенерить 300 тысяч токенов (~50 тысяч английских слов).

Документация у API тоже классная: с примерами использования и советами, как оптимизировать модель и защитить от атак. А примеры проектов, созданных на основе API, заставляют пускать слюни пробовать самому)

Скоро обещают также API Copilot подвезти.

Все хорошо, одно но: API не работает в России😕. Можно схитрить и регистрировать через VPN, но тоже не поможет: для регистрации нужно указать номер телефона. Русский с +7 не прокатывает(( Надеюсь, все же откроют и для России скоро, обидно(
Привет, сто лет тут ничего не писал)
Сегодня вышла GPT-4 https://openai.com/product/gpt-4 что я считаю важным событием в мире AI последних месяцев.
Чем отличается от GPT-3 / Chat GPT
1. GPT-4 мультимодальная, то есть может принимать на вход не только текст, но и картинки. Например, она может довольно хорошо описать контент на картинке. А на демо вообще было показано, как сгенерировали HTML код для сайта по фото мокапа.
2. Она способна обрабатывать последовательности большей длины (4k в GPT-3.5 и 8k или 32k в GPT-4)
3. Судя по примерам гораздо лучше справляется со сложными, профессиональными задачами: https://openai.com/product/gpt-4
4. Стоит больше чем в 15 раз больше чем GPT-3.5: https://openai.com/pricing
5. Пока доступна только в подписке ChatGPT за 20$ / месяц. Для доступа к API нужно записываться в waitlist.

Демо можно посмотреть тут: https://www.youtube.com/watch?v=outcGtbnMuQ
Всем привет!)

У меня за последние 2 года сместился фокус из разработчика в предпринимателя. Запустили несколько проектов, которые используют генеративный AI для маркетинга и продаж.
Решил завести отдельный канал, где пишу про использования AI в бизнесе. Так же пишу и технические статьи, в частности про RAG.
Кому интересно - залетайте ➡️ @ershov_diary