Data Scientist | IT
1.94K subscribers
652 photos
3 videos
1 file
708 links
Добро пожаловать в клуб.

Полезные материалы из мира DS & ML на регулярной основе.

По всем вопросам: @godinmedia
Download Telegram
Геокодирование для Data Scientists: вводное руководство с примерами

#почитать

Когда вы работаете с реальными данными, вы не можете полагаться на то, что в базах содержится вся необходимая информация для реализации вашего проекта Data Science. Чаще всего вы располагаете частичной информацией и должны обогатить данные дополнительными характеристиками.

Может возникнуть ситуация, когда набор данных содержит адрес, но в то же время широта и долгота отсутствуют. В этом случае первым шагом для дополнения данных будет добавление этой пары координат. Мы называем этот процесс преобразования адреса в широту и долготу геокодированием.

Геокодирование востребовано во многих областях, таких как недвижимость, финансы и логистика. Без этой технологии вы не сможете анализировать и визуализировать полученные данные на карте. В этом руководстве мы будем заниматься геокодированием на Python с помощью библиотеки Geopy.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61🔥1
Устроиться аналитиком в Яндекс за выходные

6–9 июля проводим Weekend Offer Analytics. До 3 июля оставьте заявку на участие, 6–8 июля пройдите технические собеседования, а 9 июля познакомьтесь с командами и получите офер.

В мероприятии участвует 9 команд: Crowd, Карты, Поиск, Алиса, R&D, Автономный транспорт, Подразделение аналитики, Антифрод, Антиробот. Вы сможете пообщаться с менеджерами и выбрать проект, который покажется самым интересным.

Нанимаем в офисы России и Республике Беларусь.

Узнать подробности и зарегистрироваться можно здесь.
👍72🔥2
🖼
Please open Telegram to view this post
VIEW IN TELEGRAM
😁10🤡2🔥1
▫️ MLOps в Билайн: как катить машинное обучение в production без ML-инженеров

#посмотреть

Наш стек – Python, Hadoop, Spark, K8S, Docker, JupyterHub, MLFlow, Airflow, Argo, Cookiecutter

Смотреть на YouTube 35 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥21
Математические основы генеративных нейронных сетей: что нужно знать для их изучения

#почитать

Генеративный ИИ получил широкую известность в 2022 году, благодаря появлению ChatGPT и Midjourney. Однако идея GenAI зародилась очень давно – в конце 1950-х годов, вместе с появлением концепции машинного обучения, а первый математический метод для генерации данных (цепи Маркова) был представлен еще раньше – в 1906 году. Какие разделы математики нужно знать для разработки современных генеративных моделей – расскажем в статье.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61🔥1
Генеративные 3D-модели

#почитать

Современные методы генерации 2D-контента, такие, как 2D-диффузионные модели (Kandinsky 3.0, SDXL), уже достигли впечатляющих результатов и несколько лет являются неотъемлемой частью современности, генеративные видео модели также активно развиваются. Кульминацией развития таких подходов, вероятно, станет представленная не так давно модель Sora.

Тем не менее большинство из этих моделей до сих пор испытывают проблемы при генерации консистентных 3D-сцен и объектов.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥21
Stable Diffusion: text-to-person. Большой гайд

#почитать

Многие из вас сталкивались со Stable Diffusion и знают, что с помощью этой нейросети можно генерировать разнообразные изображения. Однако не всем интересно создавать случайные картинки с кошкодевочками, пускай даже и красивыми, и всем прочим. Согласитесь, было бы гораздо интереснее, если бы можно было обучить нейросеть создавать изображения... нас самих? Или наших любимых актёров и музыкантов? Или наших почивших родственников? Конкретных людей, в общем, а не какие-то собирательные образы из того, что было заложено при обучении нейросети. И для достижения этой цели нам потребуется обучить некую модель. Этим мы и займёмся, пытаясь определить наиболее оптимальный воркфлоу и максимально его автоматизировать.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥1
Фича стор, CLTV и как построить много моделей в короткий срок

#почитать

В рознице Альфа-Банка на февраль 2024 года больше десятка млн активных клиентов, но я уже не успеваю следить за этим числом, потому что оно очень быстро растёт. И CLTV (Customer LifeTime Value) — это один из инструментов, который позволит увеличивать это количество. В статье я расскажу, что такое CLTV, как от бизнес постановки задачи мы перешли к задаче машинного обучения, какие при этом возникали проблемы и как мы их решали. А главное — что такое Feature Store и как этот инструмент помогает нам решать задачи СLTV.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6
Большой гайд по Apache Spark для самых маленьких (с картинками)

#почитать

Данная статья представляет собой обзор основных функций Apache Spark и рассматривает способы их применения в реальных задачах обработки данных. Apache Spark — это мощная и гибкая система для обработки больших объемов данных, предлагающая широкий спектр возможностей для аналитики и машинного обучения. В нашем обзоре мы сфокусируемся на ключевых функциях чтения, обработки и сохранения данных, демонстрируя примеры кода, которые помогут новичкам быстро включиться в работу и начать использовать эти возможности в своих проектах.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍2
Большой гайд по резюме для Data Scientist

#почитать

CV – это формализованный процесс, который является первым шагом в поиске работы, но возможно он существенно повлияет на Ваш Job Offer. Поэтому сохраняя честность, по поводу своей реальной работы и результатов, не следует быть скромными. Важно указывать реальный опыт в ИТ, количество лет опыта, включая победы в олимпиадах и опыт, который был в юности. Будьте честны и достаточно смелы.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2
🔤🔤🌌🔤🔤🔤🔤🔤 — канал с PM юмором

➡️ Подписаться
Please open Telegram to view this post
VIEW IN TELEGRAM
😁7
ML-детекция дефектов дорожного покрытия

#почитать

В этой статье мы рассмотрим дорожное покрытие, а именно – задачу детекции его дефектов без необходимости разметки данных. Разметка сама по себе отнимает много ресурсов у компаний, а уж разметка облака точек... можете себе представить трудоемкость и затратность денежных ресурсов.

Я расскажу о том, как мы использовали данные с LiDAR, применяли различные алгоритмы для обработки и анализа информации и какие результаты удалось достичь. Задача была нетривиальная для нашей команды так как никто не работал с облаком точек до этого и ожидали мы классические данные видеопотока, но заказчик смог удивить.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
Расчет рентабельности инвестиций и другие задачи дата-сайентиста

#почитать

Как специалисты data science (DS) оперативно рассчитывают рентабельность инвестиций в проект (ROI) на реальной практике, то есть в ситуации, когда нет актуальной информации о необходимых данных? К примеру, чтобы рассчитать компонент оттока в Lifetime Value (LTV), требуются месяцы аналитики. К каким инструментам прибегают, чтобы ускорить эти процессы?

Для быстрой оценки ROI есть классический метод оценки смежных компонентов: охвата, влияния и усилия.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Машинное обучение - это мост между бизнесом и Data Science. Быстрое объяснение теории, задач и процессов

#почитать

Хотя недостатка в историях и евангелистах нет, машинное обучение пока не стало в глазах бизнеса абсолютной необходимостью. В общественном восприятии применяемые в ML алгоритмы близки к научной фантастике.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
🐛 SQL для тестировщика — канал для развития одного из обязательных навыков QA-инженера. Публикуем обучающие видео и много-много задач и тестов для тренировки.

Чем мы отличаемся от остальных:
— грамотные редактора (работающие разработчики и QA, создатели канала Тестировщик от бога и портала testengineer.ru);
— качественное оформление;
— уникальные материалы (некоторые материалы мы пишем и переводим сами);

Подписывайтесь на наш канал по SQL.
👍4
Рассказываем про KAN (Kolmogorov-Arnold Networks)

#почитать

Эволюция архитектуры нейронных сетей уходит корнями в фундаментальные работы, заложенные в 1940-х годах Уорреном Маккаллохом и Уолтером Питcом, которые предложили концепцию искусственных нейронов и их взаимосвязь.

Однако значительные прорывы произошли только в 1980-х годах с разработкой алгоритмов обратного распространения ошибки: алгоритм Геоффри Хинтона и других – все это позволило создавать более глубокие нейронные сети и улучшить методы обучения.

В это время появились классические архитектуры, многослойные перцептроны (MLP, и сверточные нейронные сети (CNN).


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Какие инструменты для визуализации данных нужны дата-аналитику

#почитать

Собрали подборку инструментов для визуализации данных из сложных таблиц в читабельные дашборды.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
🟡 3 стажировки для начинающих дата-сайентистов (по состоянию на 11.07)


▫️Business Data Engineer в Т-Банк (eng: B1+, office, office, fulltime)

▫️Junior Data Scientist (Стажер) в Центр Финансовых Технологий (eng: B1+, office, flexible)

▫️Junior Data Scientist в Ооо Гибрид (eng: B1+, remote, office/remote, fulltime, 80000 RuR)



P.S. вакансии junior-специалистов закрываются довольно быстро, поэтому на момент просмотра они могут быть уже неактуальны
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Градиентный бустинг (XGBoosting) на пальцах

#почитать

Если брать определение из словарика, то градиентный бустинг - модель машинного обучения, решающая задачи классификации и регрессии. Она состоит из ансамбля более слабых моделей (чаще всего дерево решений) и учится последовательно на ошибках предыдущей модели.

Но здесь я хочу упростить все сложные статьи с кучей математических терминов, коих в интернете немало, поэтому просто предлагаю разобрать это определение бустинга простыми словами.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Пятничное. Создаем цифровых двойников Ленина и Николая Второго

#почитать

Идея этого эксперимента возникла во время изучения возможностей сервиса HeyGen. Казалось, что задумка проста и гениальна. Мне, как любителю истории, очень хотелось узнать ответы на целый ряд вопросов непосредственно из уст Императора. Но, забегая вперед, скажу, что трудности возникли, причем в очень неожиданном месте.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
Команда AI VK ищет ML-разработчика для развития системы рекомендаций и поиска контента 🔥

Какие задачи предлагают:
- улучшение базового качества рекомендаций,
- запуск новых сценариев музыкальных рекомендаций для платформы VK Музыка,
- анализ статистики потребления контента, проведение А/B тестов, а также взаимодействие со смежными командами.

Требуется опыт промышленного применения ML, глубокое понимание алгоритмов классического ML (LogReg, MF, CatBoost, etc..) и навык работы с большими данными (MapReduce/Spark). Отдельный плюс — знание Java и опыт в построении рекомендательных систем.

Узнать подробности можно по ссылке, а, чтобы откликнуться — пишите в ЛС в tg https://t.me/ellinatsyra.
🔥7