Пристанище Дата Сайентиста
6.15K subscribers
22 photos
1 file
209 links
Канал Рената Алимбекова (@alimbekovkz) про карьеру, применение и обучение Data Science. Веду блог https://alimbekov.com

По вопросам рекламы на канале обращаться к менеджеру: @hey_renataa
Download Telegram
#подборка

Всем привет 🚀! За несколько последних дней на канале добавилось много новых подписчиков. Рад вас приветствовать на канале. Канал активно развивается, пробую разные форматы и тематики.

Для всех подписчиков и особенно для тех кто к нам присоединился недавно публикую подборку старых постов. Надеюсь это поможет с навигацией и удобным поиском информации на канале.

Пишете в комментариях о чём было бы интересно почитать.🗣️

👨🏻‍💻 Про курсы и обучение хэштег #course

Как освоить Data Science — личный опыт
Прокачиваемся до computer vision researcher
Как стать Machine Learning Engineer

🚊 Production хэштег #production

Machine learning в продакшн — Flask REST API
Streamlit - быстрый способ создать приложение для работы с данными
Chalice - фреймворк для написания бессерверных приложений на Python
BentoML

👍 Полезное хэштег #полезно

Visual Studio Code для Data Science
Тестовые задания от разных компаний, на позицию, связанную с Data Scientist
Пост в блоге про выбор логирования в Python

⚒️ Много разных интересных python библиотек хэштег #library

albumentations - Библиотека быстрых аугментаций изображений
Dostoevsky - Библиотека анализ тональности текста для русского языка
Newspaper3k - библиотека для извлечения метаданных новостей, полных текстов и статей
scikit-uplift - это модуль Python для классических подходов к моделированию uplift, построенный на основе scikit-learn
SHAP (SHapley Additive exPlanations)
Great Expectations библиотека, которая помогает тестировать данные
Evidently- интерактивные отчеты для анализа моделей машинного обучения во время проверки или мониторинга в продакшене

📝 Подборки

Основы Python
Статистический анализ данных
Pandas и А/Б тесты
Сбор и хранение данных

👩‍🔬 Еще отдельно хочу рассказать про свой мини курс , где вы изучите основы анализа медицинских изображений с помощью Python. Вы будете изучать КТ и рентген снимки, сегментировать области изображения и проводить анализ метаданных. Стоимость 500р.

А еще я написал буклеты по подготовке к к Data Science интервью:

- Data Science Interview Guide (на англ. языке) по промокоду BLOG скидка 2 $
- Руководство по подготовке к Data Science интервью(на рус. языке) о промокоду BLOG скидка 2 $
Пристанище Дата Сайентиста pinned «#подборка Всем привет 🚀! За несколько последних дней на канале добавилось много новых подписчиков. Рад вас приветствовать на канале. Канал активно развивается, пробую разные форматы и тематики. Для всех подписчиков и особенно для тех кто к нам присоединился…»
CAP6412 Advanced Computer Vision - Spring 2023

Скинули мне тут весьма интересный курс по Advanced Computer Vision.

В курсе можно познакомиться с новомодными штуковинами типо:
- Diffusion Models
- DALL-E-2
- Stable Diffusion
-  Image Super-Resolution
-  RePaint

И многое другое

Ссылка
Наткнулся на один интересный репозиторий с общей структурой папок для Data Science проекта.
Репозиторий также содержит шаблоны для различных документов, которые рекомендуется заполнять.

Например:
- папка для хранения сэмплов данных
- архитектура системы
- словари данных
- отчеты, EDA
- документы по управлению проектом и планированию
- презентации
- отчеты по результатам baseline моделей и моделирования для прода

Model Report в целом выглядит как полезный документ. Он может содержать:
- определение таргета
- какой был input
- какая модель была построена?
- перечень гиперпараметров
- метрики модели
- важность фичей
- заключение

Ссылка
Хочу поделиться каналом своего давнего знакомого. Он делает очень крутой контент про разработку интернет-продуктов и сейчас работает над AI стартапом и делиться этим в канале.

Продукторий Владимира Меркушева — авторский канал о разработке интернет-продуктов и digital-маркетинге.  

Владимир более 15 лет работает менеджером продукта: раньше — в Авито и Яндексе, сейчас — в OLX Europe. В Продуктории делится собственным опытом и ссылками на полезные ресурсы. 

Материалы помогут научиться самостоятельно распознавать провальные гипотезы, говорить со своими продактами на одном языке и эффективно управлять командой.   

Начать знакомство с каналом советую с этих постов:

✔️Памятка «Как продакты нанимают продактов» https://t.me/vladimir_merkushev/1848

✔️Про тестирование сложных гипотез через fake door подход https://t.me/vladimir_merkushev/872

✔️Советы при выборе бизнес модели и критерии оценки https://t.me/vladimir_merkushev/990

Подписывайтесь и смотрите на мир глазами менеджера продукта → @vladimir_merkushev
Продуктовый подход

Сегодня пост не про Data Science, а про продуктовых подход. Сейчас я решил сделать небольшой уклон в сторону Product Manager's Skill.

Вот несколько источников, что можно почитать/посмотреть/пройти курсы:

· ProductSense
· ProductStar
· https://skillsetter.io/
· Gopractice – онлайн симулятор - упор на продуктовую аналитику, если в бюджете вашей компании есть бюджет – очень рекомендую
- Читаем книгу «Спроси маму»
- Статья на Go Practice о проверке гипотез ценности без разработки:
- Основы Customer Development. Иван Замесин 
- Статья о Дизайн Мышлении 
- Тест на оценку навыков в управлении продуктом. Писал о нем ранее

Всем успешных продуктов!
В этой небольшой заметке попробую соединить свои две страсти - футбол и Data Science.
Например рассмотрим задачу трэкинга игроков:
- 2 место SoccerNet: https://arxiv.org/pdf/2211.13481.pdf
- ByteTrack : https://github.com/ifzhang/ByteTrack
- Обзор что вообще такое трекинг: https://habr.com/ru/companies/recognitor/articles/505694/
- DeepOCSort - SOTA 2023: https://arxiv.org/abs/2302.11813

Action recognition:
- Введение в action recognition: https://habr.com/ru/companies/recognitor/articles/647343/
- Довольно свежий обзор современного положения дел: https://arxiv.org/pdf/2208.03775.pdf

К сожалению не нашёл по футболу kaggle соревнований, но за то было круто соревнование по детекции столкновение игроков в американском футболе:
- решение часть 1: https://deepschool-pro.notion.site/Kaggle-NFL-Player-Contact-Detection-1-c88d8e50dc89408b8fe83fe776a65d2b
 -решение часть 2: https://deepschool-pro.notion.site/Kaggle-NFL-Player-Contact-Detection-2-4e123d37bddf41089fd28bf4b377343b

Всем хорошего чтения
Стань экспертом в Machine Learning и MLOps!

Всем привет. Я с недавних пор стал партнером и преподавателем в Risoma School. И уже в сентябре стартуют два курса, где вы сможете прокачать навыки для проектов машинного обучения:

1. MLOps для Data Science и разработки ML моделей - курс для Data Scientists & Analytics, для эффективной работы с экспериментами, моделями и подготовки production решений c FastAPI и Airflow.

2. MLOps для Batch Scoring: автоматизация пайплайнов и CI/CD c DVC, MLflow и Airflow - курс для Machine Learning, Data и DevOps инженеров.

На курсах вы научитесь:
▪️ Управлять экспериментами и жизненным циклом моделей
▪️ Работать с продвинутыми сценариями версионирования данных и моделей
▪️ Эффективно использовать Git и следовать Git-flow в проектах
▪️ Автоматизировать процессы доставки моделей в production, сборку и тестирования решений
▪️ Настраивать мониторинг работы моделей и данных в production
▪️ Эффективно работать с Airflow, DVD, Evidently, MLflow, FastAPI, Grafana, Git, Docker, GitLab, GitLab CI

В программе курсов лекции от экспертов ML в банкинге, MedTech, AdTech, Big Data.

Делюсь с вами промокодом, с которым вы получите скидку 10% на любой курс: "FRIEND10" !

Выбрать курс со скидкой: тут.
Написание unit тестов и тестирование в Machine Learning

Сегодня хочу рассказать вам о написании unit тестов и тестировании кода для Data Science.

Лично я начинал изучать эту тему со статей и попыток вникнуть как пишутся тесты для библиотеки albumentations.
Вот статьи и документация:
Writing tests
test_core.py
Writing tests for the Albumentations library with pytest

Далее рекомендую почитать следующие статьи:
Testing Machine Learning Systems: Code, Data and Models
How to unit test machine learning code - про тестирование нейронок
How to Trust Your Deep Learning Code - очень крутая статья про отладку нейронок
How to Test Machine Learning Code and Systems - а вот тут про тестирование для табличных данных. Например в статье есть про тесты, которые проверяют правильность нашей написанной логики. Например, находится ли вероятность классификации в диапазоне от 0 до 1? Или тесты после обучения проверяют, ожидается ли изученная логика.
Minimal examples of machine learning tests for implementation, behaviour, and performance - репозиторий из статьи выше
Сейчас мне приходится работать над очень разными проектами из разных областей.
Например: писать курс, делать примеры кода для еще одного курса, строить модели для разных проектов.

И в таком ритме работы очень важно быть сфокусированным на решении задач. И в этом очень помогает известный Метод помидора.
Но сложность такого подхода, что когда долго не видно прогресса или не понятен вклад каждого дня, то страдает мотивация.

Что помогает мне?
1. Я фиксирую всё работу в toggl. Помогает понять сколько времени на каком проекте и этапе проекте я потратил и какой результат достигнут.
2. Комитить в гит вашего проекта каждый день, даже по маленькому изменению. Так прогресс будет заметен и вы не должны будете потерять мотивацию.

Надеюсь заметка вам поможет быть более сфокусированным на ваших задачах и целях
Бесплатный курс по использованию chatGPT

Понимаю, что с таким постом я опоздал на пару месяцев, но всё же. Я активно юзаю chatGPT в работе, но с недавних пор решил сделать продукт на его базе.

И вот тут курс ChatGPT Prompt Engineering for Developers мне очень помог.

Начну с того, что желательно иметь для экспериментов Jupyter ноутбук со своим проектов и применять полученные навыки сразу в нём.
Очень круто видеть как новые навыки меняют предыдущий результат и делают его лучше

Но если у вас нет своего проекта на базе chatGPT, то в курсе на каждую лекцию есть свой Jupyter ноутбук в котором можно удобно поиграться.
Финальный проект - бот, принимающего заказы пиццы.

Что нового я узнал и что мне понравилось:
- быстрый курс, за пару часов можно пройти даже с учетом применения новых фишек в своем проекте
- все трюки очень практичные и упрощают жизнь в использовании chatGPT
- я не знал, что фразу, которую на вход желательно обернуть в символы и указать на это chatGPT. Позволяет chatGPT смотреть туда куда вам нужно
- никогда не указывал chatGPT формат выхода, как оказалось очень удобно для моего продукта возвращать ответ в формате JSON
- благодаря курсу узнал про параметр temperature. Это степень случайности выходных данных модели
- также мне очень пригодился хак с указанием написать пошаговую инструкцию
- остальное было более банально: суммаризация, анализ тональности, перевод, пересказ текста и т.д.

Если вы еще не работали с API chatGPT, то рекомендую этот курс
​​У меня на канале был пост про продуктовый подход

И вот недавно моя супруга написала пост в linkedin о том как проводить custdev по мотивам лекции Ивана Замесина по основам Customer Development

Рекомендую к прочтению, если вы создаете или собираетесь создать свой продукт.

Лайки к посту приветствуются 😊

PS
Супруга кстати находится сейчас в поиске новой карьерной возможности 😉
Бесплатные курсы по генеративным AI

Я недавно писал про курс по использованию chatGPT и решил пройти остальные бесплатные короткие курсы

Вот небольшие отзывы на них:
- ChatGPT Prompt Engineering for Developers - курс не показался интересным, курс по использованию chatGPT куда полезнее и практичнее
- Building Systems with the ChatGPT API - курс поинтереснее, рассказывает про проектирование систем в основе которых лежат LLM
- LangChain for LLM Application Development - курс крутой и полезный, если вы еще не юзали LangChain в своих проектах, то этот курс поможет понять как использовать LangChain. Работать с контекстом, памятью и многим другим.
- LangChain: Chat with Your Data - тоже полезный курс, по сути расширяет предыдущий. Рассказывают и показывают как использовать свои данные для ChatGPT№
- Finetuning Large Language Models - тут всё понятно, показывают как тюнить модель для вашего домена
- Building Generative AI Applications with Gradio - крутой курс, после которого я задумался юзать для демок не streamlit, а Gradio

Отмечу, что во всех этих миникурсах есть Jupyter ноутбук в котором можно удобно поиграться.
Почему анализ ошибок – это начало разработки ML системы, а не конец?

Наткнулся на интересную статью про анализ ошибок ML моделей.
Это действительно один из самых недооцененных этапов работы с моделью, который часто не делают или делают не самым верным способом.

В статье раскрыты методы и подходы для работы с анализом ошибок.
Рекомендую к прочтению

Ссылка: https://habr.com/ru/articles/760550/
​​Дэшборд для игроков в фэнтези АПЛ

Напилил дэшборд по всей возможной статистике с сайта FbRef.
Данные обновляются ежедневно.

Вы можете изучить разные показатели для планирования выбора игроков для состава в фэнтези или для подготовки статей в медиа.

Обратите внимание, что можно выбрать количество сыгранных матчей и сыгранных матчей в старте. Это очень важно для фэнтези АПЛ.

Можно так выбирать конкретных игроков для их сравнения. На скрине я сравнивал защитников в ценовом диапазоне - 4.5-4.6 миллиона


Ссылка на дэшборд
​​Классные дата сайенс вакансии с релокацией в Германию

Ребята из https://www.datajob.io/ ведут курируемую подборку вакансий в дата сайенсе в Германии. В подборку Data Job (https://t.me/datajob_io) попадают вакансии:

для дата сайентистов разных грейдов

с интересными задачами в ML, DL, NLP, CV

на английском языке

и возможностью релокации в Германию

Кроме того, на сайте вы найдете блог с полезными советами по жизни (и бюрократии) в Германии.

Подписывайтесь на телеграмм канал Data Job и на имейл рассылку. На этой неделе будет опубликована очередная подборка. 🤺

PS Ребята с удовольствием принимают фидбэк и идеи, которые помогут улучшить сервис.
-- Доступно от 15 до 20 часов в неделю для фриланс работы --

Сейчас я доступен от 15 до 20 часов (0,5 FTE) в неделю на позиции аналитика данных, дата сайентиста и ML инженера.

Предпочтительно в сфере AdTech, MedTech, EduTech, футбола и спорта.

Если у вас есть интересные предложения, вы можете связаться со мной через:
- alimbekovr@hotmail.com
- telegram: @alimbekovkz
- LinkedIn
Evidently и кастомные метрики

Дописал пост про Evidently и кастомные метрики.
Эту работу мы еще начали в Билайне и вот теперь уже Pull request приняли. Теперь в Evidently есть lift метрика и её визуализация.

Пост: https://alimbekov.com/evidently-%d0%b8-%d0%ba%d0%b0%d1%81%d1%82%d0%be%d0%bc%d0%bd%d1%8b%d0%b5-%d0%bc%d0%b5%d1%82%d1%80%d0%b8%d0%ba%d0%b8/


Спасибо @EvidentlyAI за принятый и допиленный pull request
​​Лайфхак от моего товарища

Как то раз сижу я читаю очередной пейпер и параллельно переключаюсь на vscode и контраст прям по глазам бьет.

Нашел способ все arxiv пейперы сделать черными, просто вместо .org ставите .black

Например: https://arxiv.black/pdf/1706.03762.pdf
Сегодня «Черная пятница», то есть день лютых скидок. Скидка 50% на все книги и курсы.

Только до 5 декабря

- Data Science Interview Guide (на англ. языке) по промокоду BLACKFRIDAY скидка 50%, 2.5 $
- Medical Image Analysis In Python (на англ. языке) по промокоду BLACKFRIDAY скидка 50%, 1.5$
- Руководство по подготовке к Data Science интервью (на рус. языке) по промокоду BLACKFRIDAY скидка 50%, 2.5 $

Промокод необходимо вводить в момент оформления заказа.
Всем приятной учебы и выходных!
​​Как нанимать сотрудников класса А? Выжимка из книги "Who: The A Method For Hiring"

Если вы сейчас ищете работу или сами нанимаете людей себе в команду, то рекомендую прочитать статью с кратким содержанием книги "Who: The A Method For Hiring"