Чем живут создатели ИИ? ML’щики, приоткройте чёрный ящик, расскажите о себе в нашем опросе
Пока весь мир обсуждает революцию ИИ, те, кто её творят, остаются в тени и просто делают свою работу. Именно им, ML- и DS-специалистам, человечество обязано прорывам в технологиях. Но какие они на работе и в жизни, чем интересуются и главное — что думают об ИИ, который создают? Мы решили расспросить их самих, чтобы составить честный портрет современного ML-щика. Если вы занимаетесь ML и Data Science, добавьте свои штрихи этому портрету — пройдите наш небольшой опрос. А мы потом покажем вам — и всей аудитории Хабра — получившуюся картину. Пройти опрос
#искусственный_интеллект #машинное_обучение #ml #ml_инженер #data_science #ai #нейросети | @habr_ai
Пока весь мир обсуждает революцию ИИ, те, кто её творят, остаются в тени и просто делают свою работу. Именно им, ML- и DS-специалистам, человечество обязано прорывам в технологиях. Но какие они на работе и в жизни, чем интересуются и главное — что думают об ИИ, который создают? Мы решили расспросить их самих, чтобы составить честный портрет современного ML-щика. Если вы занимаетесь ML и Data Science, добавьте свои штрихи этому портрету — пройдите наш небольшой опрос. А мы потом покажем вам — и всей аудитории Хабра — получившуюся картину. Пройти опрос
#искусственный_интеллект #машинное_обучение #ml #ml_инженер #data_science #ai #нейросети | @habr_ai
Хабр
Чем живут создатели ИИ? ML’щики, приоткройте чёрный ящик, расскажите о себе в нашем опросе
Пока весь мир обсуждает революцию ИИ, те, кто её творят, остаются в тени и просто делают свою работу. Именно им, ML- и DS-специалистам, человечество обязано прорывам в технологиях. Но какие они на работе и в жизни, чем интересуются и главное — что думают…
Топ вопросов с Data Science собеседований: Основы Classic ML, Линейные модели, Метрики классификации и регрессии
Секрет успешного трудоустройства — в дотошной подготовке к собеседованиям!
Этот материал не рассчитан на изучение тем с нуля. Это чеклист и тренажёр, по которому стоит пройтись перед техническим интервью по классическому ML. Кратко, по делу, с акцентом на то, что действительно спрашивают.
В этой части разберем: основы машинного обучения, переобучение и кросс-валидация, линейные модели, метрики классификации и регрессии. Узнать вопросы и ответы на них
#ml #data_science #data_scientist #machinelearning #собеседование #машинное_обучение #наука_о_данных #метрики #линейные_модели #ml_engineer | @habr_ai
Секрет успешного трудоустройства — в дотошной подготовке к собеседованиям!
Этот материал не рассчитан на изучение тем с нуля. Это чеклист и тренажёр, по которому стоит пройтись перед техническим интервью по классическому ML. Кратко, по делу, с акцентом на то, что действительно спрашивают.
В этой части разберем: основы машинного обучения, переобучение и кросс-валидация, линейные модели, метрики классификации и регрессии. Узнать вопросы и ответы на них
#ml #data_science #data_scientist #machinelearning #собеседование #машинное_обучение #наука_о_данных #метрики #линейные_модели #ml_engineer | @habr_ai
Хабр
Топ вопросов с Data Science собеседований: Основы Classic ML, Линейные модели, Метрики классификации и регрессии
Секрет успешного трудоустройства — в дотошной подготовке к собеседованиям! Этот материал не рассчитан на изучение тем с нуля. Это чеклист и тренажёр , по которому стоит пройтись перед техническим...
Matrix Reloaded: зачем дата-сайентисту линейная алгебра
Зачем дата-сайентисту векторы, матрицы и собственные значения? В статье Марии Жаровой, ML-инженера Wildberries и автора канала Easy Data, — простое объяснение, как линейная алгебра помогает понимать, что происходит внутри моделей машинного обучения. Без доказательств и зубрежки: только визуализации, реальные кейсы и примеры из практики. Читать далее
#data_science #машинное_обучение #математика_для_data_science #линейная_алгебра #эмбеддинги #векторы_и_матрицы | @habr_ai
Зачем дата-сайентисту векторы, матрицы и собственные значения? В статье Марии Жаровой, ML-инженера Wildberries и автора канала Easy Data, — простое объяснение, как линейная алгебра помогает понимать, что происходит внутри моделей машинного обучения. Без доказательств и зубрежки: только визуализации, реальные кейсы и примеры из практики. Читать далее
#data_science #машинное_обучение #математика_для_data_science #линейная_алгебра #эмбеддинги #векторы_и_матрицы | @habr_ai
Хабр
Matrix Reloaded: зачем дата-сайентисту линейная алгебра
Меня зовут Мария Жарова, я ML-инженер в Wildberries, преподаватель и автор канала Easy Data . Давайте разберемся, где и зачем дата-сайентисту нужна линейная алгебра. Не будет скучных доказательств,...
Как автоматизировать обучение ML-моделей и сократить время вывода в прод до двух дней
В прошлой статье мы говорили о подходе к рекомендации сервисов на основании автоматизации расчета склонностей клиентов и единого репозитория предложений. В ней мы углубились в создание репозитория, описание логики категоризации и набора в кампании для коммуникации с клиентами. Сегодня мы подробнее расскажем про наш подход к автоматизации построения и вывода в прод набора моделей. Читать далее
#data_science #machine_learning #automl #feature_store #automatization | @habr_ai
В прошлой статье мы говорили о подходе к рекомендации сервисов на основании автоматизации расчета склонностей клиентов и единого репозитория предложений. В ней мы углубились в создание репозитория, описание логики категоризации и набора в кампании для коммуникации с клиентами. Сегодня мы подробнее расскажем про наш подход к автоматизации построения и вывода в прод набора моделей. Читать далее
#data_science #machine_learning #automl #feature_store #automatization | @habr_ai
Хабр
Как автоматизировать обучение ML-моделей и сократить время вывода в прод до двух дней
В прошлой статье мы говорили о подходе к рекомендации сервисов на основании автоматизации расчета склонностей клиентов и единого репозитория предложений. В ней мы углубились в создание репозитория,...
[Перевод] Я перешла из Data Science в AI Engineering: вот всё, что вам нужно знать
Переход из Data Science в AI Engineering — это не просто смена должности, а полный сдвиг в подходах к работе с моделями и их внедрению в продакшн. В статье я делюсь опытом, как расширение ролей Data Scientist и AI Engineer пересекается с DevOps, MLOps и инфраструктурными практиками. Если вам интересно, как сделать шаг от теории к реальной работе с моделями, интеграции в инфраструктуру и поддержке на протяжении жизненного цикла — читайте дальше. Читать далее
#data_science #ai_engineering #mlops #devops #инфраструктура_как_код #k8s #cicd #машинное_обучение #развертывание_моделей | @habr_ai
Переход из Data Science в AI Engineering — это не просто смена должности, а полный сдвиг в подходах к работе с моделями и их внедрению в продакшн. В статье я делюсь опытом, как расширение ролей Data Scientist и AI Engineer пересекается с DevOps, MLOps и инфраструктурными практиками. Если вам интересно, как сделать шаг от теории к реальной работе с моделями, интеграции в инфраструктуру и поддержке на протяжении жизненного цикла — читайте дальше. Читать далее
#data_science #ai_engineering #mlops #devops #инфраструктура_как_код #k8s #cicd #машинное_обучение #развертывание_моделей | @habr_ai
Хабр
Я перешла из Data Science в AI Engineering: вот всё, что вам нужно знать
Личный гид по навыкам, инструментам и мышлению, стоящим за этой должностью Data Science не умирает, но быстро эволюционирует. По прогнозам, число вакансий, связанных с искусственным интеллектом, будет...
Вебинары трека Наука о данных Летней цифровой школы Сбера
Привет, коллеги ML инженеры, Data scientist'ы и все, кто интересуется искусственным интеллектом, созданием нейросетей, машинным обучением и анализом данных! Принёс вам пачку вебинаров с интенсива трека Наука о данных курсов повышения квалификации Летней цифровой школы Сбера. Читать далее
#машинное_обучениe #искусственный_интеллект #data_science #data_analysis #ai #artificial_intelligence #ии #нейросети #нейронные_сети #глубокое_обучение | @habr_ai
Привет, коллеги ML инженеры, Data scientist'ы и все, кто интересуется искусственным интеллектом, созданием нейросетей, машинным обучением и анализом данных! Принёс вам пачку вебинаров с интенсива трека Наука о данных курсов повышения квалификации Летней цифровой школы Сбера. Читать далее
#машинное_обучениe #искусственный_интеллект #data_science #data_analysis #ai #artificial_intelligence #ии #нейросети #нейронные_сети #глубокое_обучение | @habr_ai
Хабр
Вебинары трека Наука о данных Летней цифровой школы Сбера
Вебинары трека Наука о данных Летней цифровой школы Сбера Привет, коллеги ML инженеры, Data scientist'ы и все, кто интересуется искусственным интеллектом, созданием нейросетей, машинным обучением и...
Koda: AI-помощник разработчика – бесплатно, без VPN, с поддержкой русского языка
Индустрия ИИ переживает рекордный бум: каждую неделю появляются новые модели, а заголовки пестрят новостями о многомиллионных контрактах и громких переходах звёздных исследователей. Прорывы происходят на всех уровнях: от чипов и инфраструктуры (NVIDIA и др.) до моделей и инструментов вроде Cursor или Windsurf.
Но у российских разработчиков выбор заметно ýже: ограничения, VPN, трудности с оплатой. Мы решили это изменить и создали Koda — AI-помощника, который доступен бесплатно и без VPN, работает с современными моделями и привычными функциями: автодополнение кода, чат, поиск по документации и коду проекта, а также агентный режим! Читать далее
#koda #llm #ai #copilot #ai_инструменты #вайб_кодинг #агент #vibecoding #data_science #machine_learning | @habr_ai
Индустрия ИИ переживает рекордный бум: каждую неделю появляются новые модели, а заголовки пестрят новостями о многомиллионных контрактах и громких переходах звёздных исследователей. Прорывы происходят на всех уровнях: от чипов и инфраструктуры (NVIDIA и др.) до моделей и инструментов вроде Cursor или Windsurf.
Но у российских разработчиков выбор заметно ýже: ограничения, VPN, трудности с оплатой. Мы решили это изменить и создали Koda — AI-помощника, который доступен бесплатно и без VPN, работает с современными моделями и привычными функциями: автодополнение кода, чат, поиск по документации и коду проекта, а также агентный режим! Читать далее
#koda #llm #ai #copilot #ai_инструменты #вайб_кодинг #агент #vibecoding #data_science #machine_learning | @habr_ai
Хабр
Koda: AI-помощник разработчика – бесплатно, без VPN, с поддержкой русского языка
Индустрия ИИ переживает рекордный бум: каждую неделю появляются новые модели, а заголовки пестрят новостями о многомиллионных контрактах и громких переходах звёздных исследователей. Прорывы происходят...
Semantic Retrieval-Augmented Contrastive Learning (SRA-CL) для последовательных рекомендательных систем: обзор
👋 Привет, Хабр!
Меня зовут Никита Горячев, я Research Engineer в WB, последние несколько лет работаю на стыке RecSys, LLM и мультимодальных моделей. Каждый день мы обрабатываем миллиарды событий, а модели, которые мы внедряем, напрямую влияют на CTR, удержание и конверсию, принося немало дополнительной выручки.
До этого я успел поработать в AI-стартапе в Palo Alto, где занимался голосовыми агентами (ASR/TTS), и в МТС, где мы строили AI-экосистему. Ранее в Сбере я занимался созданием единого RecSys SDK для всей экосистемы (от SberMegaMarket до Okko и Zvuk), а ещё раньше — развивал персонализацию и ML в ритейле и нейротехе.
Сегодня я хотел бы поговорить о том, как большие языковые модели могут починить контрастивное обучение в рекомендательных системах. Контрастивные методы давно стали стандартом в NLP и CV, но в последовательных рекомендациях они работают далеко не идеально: данные разрежены, а аугментации часто искажают смысл вместо того, чтобы его сохранять. Авторы свежей статьи с arXiv — “Semantic Retrieval Augmented Contrastive Learning for Sequential Recommendation (SRA-CL)” — предлагают элегантное решение: использовать LLM для генерации семантически осмысленных позитивных пар. Звучит просто, но даёт заметный прирост качества — давайте разберёмся, как именно это работает. Читать далее
#recsys #data_science #machine_learning #transformers | @habr_ai
👋 Привет, Хабр!
Меня зовут Никита Горячев, я Research Engineer в WB, последние несколько лет работаю на стыке RecSys, LLM и мультимодальных моделей. Каждый день мы обрабатываем миллиарды событий, а модели, которые мы внедряем, напрямую влияют на CTR, удержание и конверсию, принося немало дополнительной выручки.
До этого я успел поработать в AI-стартапе в Palo Alto, где занимался голосовыми агентами (ASR/TTS), и в МТС, где мы строили AI-экосистему. Ранее в Сбере я занимался созданием единого RecSys SDK для всей экосистемы (от SberMegaMarket до Okko и Zvuk), а ещё раньше — развивал персонализацию и ML в ритейле и нейротехе.
Сегодня я хотел бы поговорить о том, как большие языковые модели могут починить контрастивное обучение в рекомендательных системах. Контрастивные методы давно стали стандартом в NLP и CV, но в последовательных рекомендациях они работают далеко не идеально: данные разрежены, а аугментации часто искажают смысл вместо того, чтобы его сохранять. Авторы свежей статьи с arXiv — “Semantic Retrieval Augmented Contrastive Learning for Sequential Recommendation (SRA-CL)” — предлагают элегантное решение: использовать LLM для генерации семантически осмысленных позитивных пар. Звучит просто, но даёт заметный прирост качества — давайте разберёмся, как именно это работает. Читать далее
#recsys #data_science #machine_learning #transformers | @habr_ai
Хабр
Semantic Retrieval-Augmented Contrastive Learning (SRA-CL) для sequential рекомендательных систем: обзор
👋 Привет, Хабр! Меня зовут Никита Горячев, я Research Engineer в WB , последние несколько лет работаю на стыке RecSys, LLM и мультимодальных моделей . Каждый день мы обрабатываем миллиарды событий, а...
❤1
Shap-графики: как наглядно объяснить заказчику логику работы модели
Всем привет. Я Андрей Бояренков, лидер кластера бизнес-моделей стрима "Разработка моделей КИБ и СМБ" банка ВТБ.
В этой статье расскажу о том, какие на мой взгляд типы графиков необходимо построить, чтобы наиболее оптимальным образом показать заказчику логику работы фичей в моделях. Читать далее
#shap #machine_learning #catboost #data_science #python #моделирование | @habr_ai
Всем привет. Я Андрей Бояренков, лидер кластера бизнес-моделей стрима "Разработка моделей КИБ и СМБ" банка ВТБ.
В этой статье расскажу о том, какие на мой взгляд типы графиков необходимо построить, чтобы наиболее оптимальным образом показать заказчику логику работы фичей в моделях. Читать далее
#shap #machine_learning #catboost #data_science #python #моделирование | @habr_ai
Хабр
Shap-графики: как наглядно объяснить заказчику логику работы модели
Всем привет. Я Андрей Бояренков, лидер кластера бизнес-моделей стрима "Разработка моделей КИБ и СМБ" банка ВТБ. Наш кластер отвечает за: выстраивание и внедрение процессов AutoML, за разработку...
Spark 4.0 на горизонте: Готовимся к апгрейду или остаёмся на проверенном 3.0?
Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Кажется, ещё вчера мы радовались возможностям Apache Spark 3.0, разбирались с Adaptive Query Execution и наслаждались улучшениями Pandas API. Но мир больших данных не стоит на месте, и вот уже на подходе Apache Spark 4.0. Новый мажорный релиз — это всегда событие: он обещает новые фичи, прирост производительности и, конечно же, новые вызовы при миграции.
Apache Spark де-факто стал стандартом для распределённой обработки данных. От классических ETL-пайплайнов и SQL-аналитики до сложного машинного обучения и стриминга — Spark так или иначе задействован во многих современных data-платформах. Поэтому каждый новый релиз вызывает живой интерес у комьюнити: что там под капотом? Какие проблемы решены? Не сломается ли то, что работало годами? Читать далее
#spark #data_science #data_engineering #bigdata #sql #lakehouse #datalake #хранение_данных #hadoop #производительность | @habr_ai
Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Кажется, ещё вчера мы радовались возможностям Apache Spark 3.0, разбирались с Adaptive Query Execution и наслаждались улучшениями Pandas API. Но мир больших данных не стоит на месте, и вот уже на подходе Apache Spark 4.0. Новый мажорный релиз — это всегда событие: он обещает новые фичи, прирост производительности и, конечно же, новые вызовы при миграции.
Apache Spark де-факто стал стандартом для распределённой обработки данных. От классических ETL-пайплайнов и SQL-аналитики до сложного машинного обучения и стриминга — Spark так или иначе задействован во многих современных data-платформах. Поэтому каждый новый релиз вызывает живой интерес у комьюнити: что там под капотом? Какие проблемы решены? Не сломается ли то, что работало годами? Читать далее
#spark #data_science #data_engineering #bigdata #sql #lakehouse #datalake #хранение_данных #hadoop #производительность | @habr_ai
Хабр
Spark 4.0 на горизонте: Готовимся к апгрейду или остаёмся на проверенном 3.0?
Привет, Хабр! Я Станислав Габдулгазиев, архитектор департамента поддержки продаж Arenadata. Кажется, ещё вчера мы радовались возможностям Apache Spark 3.0 , разбирались с...
Путь от школьной математики к Data Science и системной инженерии: как я учился строить продукты
Истории успеха часто подаются слишком гладко...
Моя история о том, как спорт, фильмы и увлечение фантастикой неожиданно привели меня в Data Science и системную инженерию. Читать далее
#data_science #машинное_обучение #системная_инженерия #бизнес_анализ #карьера_в_it #ai #инженерия_данных #big_data #автоматизация #mlops | @habr_ai
Истории успеха часто подаются слишком гладко...
Моя история о том, как спорт, фильмы и увлечение фантастикой неожиданно привели меня в Data Science и системную инженерию. Читать далее
#data_science #машинное_обучение #системная_инженерия #бизнес_анализ #карьера_в_it #ai #инженерия_данных #big_data #автоматизация #mlops | @habr_ai
Хабр
Путь от школьной математики к Data Science и системной инженерии: как я учился строить продукты
Историиуспеха часто подаются слишком гладко. Но за каждым «сегодня я работаю в Data Science» всегда стоит длинный и запутанный маршрут. Я хочу поделиться своей дорогой —...
Библиотека OutboxML от Страхового Дома ВСК
Хабр, привет!
Меня зовут Семён Семёнов, я руковожу Data Science и Machine Learning в Страховом Доме ВСК. В этой статье расскажу, как мы создали систему автоматического обучения и развёртывания моделей машинного обучения с открытым исходным кодом.
Первый вопрос, который может задать себе читатель, знакомый с темой современного машинного обучения:
«Почему бы не взять одну из десятков (если не сотен) открытых AutoML-библиотек?»
Ответ прост: мы не стремились создать ещё один «стандартный» проект AutoML. Наша цель — сфокусироваться на вещах, которые редко встречаются в готовых решениях: Читать далее
#automl #машинное_обучение #машинное_обучение_python #data_science #mlops #mlflow #fastapi #grafana #открытый_код #ml | @habr_ai
Хабр, привет!
Меня зовут Семён Семёнов, я руковожу Data Science и Machine Learning в Страховом Доме ВСК. В этой статье расскажу, как мы создали систему автоматического обучения и развёртывания моделей машинного обучения с открытым исходным кодом.
Первый вопрос, который может задать себе читатель, знакомый с темой современного машинного обучения:
«Почему бы не взять одну из десятков (если не сотен) открытых AutoML-библиотек?»
Ответ прост: мы не стремились создать ещё один «стандартный» проект AutoML. Наша цель — сфокусироваться на вещах, которые редко встречаются в готовых решениях: Читать далее
#automl #машинное_обучение #машинное_обучение_python #data_science #mlops #mlflow #fastapi #grafana #открытый_код #ml | @habr_ai
Хабр
Библиотека OutboxML от Страхового Дома ВСК
Хабр, привет! Меня зовут Семён Семёнов, я руковожу Data Science и Machine Learning в Страховом Доме ВСК. В этой статье расскажу, как мы создали систему автоматического обучения и развёртывания моделей...
Всё что нужно знать про torch.sparse
Разработчики PyTorch предоставили модуль torch.sparse для работы с разреженными тензорами, где большинство элементов – нули. Зачем это нужно? Представьте матрицу смежности графа, сильно обрезанную сеть или облако точек – хранить такие данные плотным массивом без надобности расточительно. Разрежённая структура сохраняет только ненулевые элементы и их индексы, что сильно экономит память и ускоряет вычисления. Например, матрица размером 10,000 на 10,000 с 100 000 ненулевых float-значений в разрежённом COO-формате займёт не 400 МБ, а около 2 МБ.
Несмотря на перспективы, API разрежённых тензоров в PyTorch пока в бете и может менять крошечные детали. Будьте к этому готовы: часть операций поддерживается, часть – нет, и некоторые автоград-ячейки пока работают только для COO, а для CSR, например, градиент не считается. Но обо всём по порядку. Читать далее
#ml #data_science #разрежённые_тензоры #pytorch #оптимизация_памяти #torch_sparse #матричное_умножение | @habr_ai
Разработчики PyTorch предоставили модуль torch.sparse для работы с разреженными тензорами, где большинство элементов – нули. Зачем это нужно? Представьте матрицу смежности графа, сильно обрезанную сеть или облако точек – хранить такие данные плотным массивом без надобности расточительно. Разрежённая структура сохраняет только ненулевые элементы и их индексы, что сильно экономит память и ускоряет вычисления. Например, матрица размером 10,000 на 10,000 с 100 000 ненулевых float-значений в разрежённом COO-формате займёт не 400 МБ, а около 2 МБ.
Несмотря на перспективы, API разрежённых тензоров в PyTorch пока в бете и может менять крошечные детали. Будьте к этому готовы: часть операций поддерживается, часть – нет, и некоторые автоград-ячейки пока работают только для COO, а для CSR, например, градиент не считается. Но обо всём по порядку. Читать далее
#ml #data_science #разрежённые_тензоры #pytorch #оптимизация_памяти #torch_sparse #матричное_умножение | @habr_ai
Хабр
Всё что нужно знать про torch.sparse
Разработчики PyTorch предоставили модуль torch.sparse для работы с разреженными тензорами , где большинство элементов – нули. Зачем это нужно? Представьте матрицу смежности графа, сильно обрезанную...
Как прошел RecSys Meetup? Рассказываем об ивенте и делимся записями докладов
Привет! 28 августа прошел RecSys Meetup — поговорили о том, как работают рекомендательные алгоритмы Wildberries & Russ: от блока «вам может понравиться» до сложных моделей, влияющих на выдачу товаров.
В программе было четыре интересных доклада, классный мерч и полезный нетворкинг. В статье вы найдете видеозаписи с ивента и фотоотчет :) Читать далее
#recsys #рекомендательные_системы #ml #machinelearning #машинное_обучение #митап #meetup #доклады #ds #data_science | @habr_ai
Привет! 28 августа прошел RecSys Meetup — поговорили о том, как работают рекомендательные алгоритмы Wildberries & Russ: от блока «вам может понравиться» до сложных моделей, влияющих на выдачу товаров.
В программе было четыре интересных доклада, классный мерч и полезный нетворкинг. В статье вы найдете видеозаписи с ивента и фотоотчет :) Читать далее
#recsys #рекомендательные_системы #ml #machinelearning #машинное_обучение #митап #meetup #доклады #ds #data_science | @habr_ai
Хабр
Как прошел RecSys Meetup? Рассказываем об ивенте и делимся записями докладов
Привет! 28 августа прошел RecSys Meetup — поговорили о том, как работают рекомендательные алгоритмы Wildberries & Russ: от блока «вам может понравиться» до сложных моделей, влияющих на выдачу...