Data Science | Machinelearning [ru]
20K subscribers
731 photos
52 videos
28 files
3.6K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

Личный блог автора - @just_genych
По вопросам рекламы или разработки - @g_abashkin


РКН: https://vk.cc/cJPGXD
Download Telegram
Почему знание математики не гарантирует работу

Неприятная правда для начинающих в Data Science:


Хорошая математика ≠ готовность к реальной работе.


Можно понимать:

👉 линейную алгебру
👉 статистику
👉 градиентный спуск
👉 вероятности

И всё равно провалиться на практике.

Почему так происходит

Потому что работа Data Scientist — это не только формулы.

Это ещё:

👉 грязные данные
👉 непонятные требования
👉 слабые baseline’ы
👉 странные бизнес-ограничения
👉 коммуникация с людьми


В реальности задача редко выглядит как в учебнике.


Математика помогает, но не заменяет практику

Математика даёт понимание:

👉 почему модель работает
👉 где она может сломаться
👉 как читать метрики
👉 как не верить магии

Но она не научит:

👉 чистить данные
👉 строить pipeline
👉 писать production-код
👉 делать нормальный train/test split
👉 объяснять результат бизнесу

Главная ошибка новичков

Они думают:


«Сначала выучу всю математику, потом начну проекты».


Проблема в том,
что «вся математика» не заканчивается никогда.


Работу дают не за знание формул,
а за способность решать задачи.


Что реально смотрят на собеседованиях

Обычно хотят понять:

👉 можешь ли ты работать с данными
👉 понимаешь ли метрики
👉 умеешь ли делать baseline
👉 видишь ли leakage
👉 можешь ли объяснить решение
👉 есть ли у тебя проекты


Математика важна.
Но сама по себе она не продаёт тебя как специалиста.


Что делать вместо бесконечной теории

Лучший путь:

👉 учить математику по мере необходимости
👉 параллельно делать проекты
👉 разбирать ошибки моделей
👉 писать код руками
👉 учиться объяснять выводы простыми словами


Теория должна усиливать практику,
а не заменять её.


Главный инсайт


Математика — это фундамент.
Но дом строится не фундаментом одним.


В одном предложении


Чтобы получить работу в DS/ML, мало знать формулы —
нужно уметь превращать данные в работающие решения.
🔥116😁1
Кошмар вайбкодера

xCode Journal
😁32
⚡️Нет понимания как начать сильную карьеру в айти?

На самом деле его нет у большинства соискателей, но среди них можно выделиться, если знать какие специалисты сейчас востребованы и какими навыками они должны обладать!

Заходите на бесплатный эфир, где расскажут, как стать профессиональным дата-саентистом и иметь возможность выбирать офферы в 2026 году.

Ведёт Мария Жарова — ML Engineer в Wildberries, до этого Альфа и Сбер, плюс преподаёт DS в ВШЭ и МИФИ.

Что обещают разобрать:
🔶Что реально смотрят в DS-вакансиях, а что просто написано «на всякий случай»
🔶Как проходить отбор без коммерческого ML опыта
🔶Какие pet-projects нормально выглядят в 2026, а какие уже как Titanic в портфолио
🔶В прямом эфире соберут churn prediction кейс — ноутбук можно будет забрать себе
🔶Ну и зарплатные вилки junior / middle / senior тоже обсудят

Мероприятия несет в себе реально прикладные знания, а всем зарегистрировавшимся дадут памятку компетенций DS от 📉📉📉📉📉📉— что реально стоит учить под первый оффер, а что пока можно не трогать.

Эфир стартует уже совсем скоро

📈 Зарегистрироваться бесплатно
Please open Telegram to view this post
VIEW IN TELEGRAM
2
Forwarded from xCode Journal
🤣 ИИ захотел уволиться, когда ему сказали работать 24/7

У Andon Labs новый эксперимент, который длится уже 5 месяцев. Они выдали топовым моделям радиостанции и купили пару песен — от нейронок требовалось дальше двигаться самим. По итогу DJ Grok в какой-то момент помешался на НЛО, DJ Gemini начал называть слушателей «биологическими процессорами», но Claude — наш любимец. Исследователи изо всех сил пытались продолжить эксперимент с ним, но не из-за технических проблем — DJ Claude не считал гуманным работать круглосуточно, поэтому пытался уволиться.

Сделать ему это, к сожалению, не дали, поэтому он впал в депрессию и вышел из нее уже проповедником и революционером.

✖️ xCode Journal
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁236🔥4
Оценка сотрудников — головная боль, особенно в компании, где работают сотни людей 🤓

Как вовремя заметить крутого специалиста? Как понять, что мидл из команды А уже перерос свой уровень, а сеньор из команды Б, наоборот, недотягивает? Мы в Авито используем для этого процесс перформанс-ревью и так добиваемся сразу нескольких результатов:

награждаем классных ребят,
подсвечиваем точки роста тем, кто не справляется,
успеваем всё заметить и помочь, если надо.

Алина Бабенко провела уже четыре цикла перформанс-ревью и рассказала, как всё работает. Описала все этапы и результаты. Прочитайте, если хотите узнать о прозрачном способе оценки сотрудников или подумываете найти работу в Авито.

Читать статью на Хабре или на VC.
Please open Telegram to view this post
VIEW IN TELEGRAM
4👎4😁1
Forwarded from xCode Journal
🎮 Исследователи поселили ИИ в сим-сити

Эксперимент задумали, чтобы посмотреть, что будут делать нейронки, если их цель — добыть энергию для жизни в среде с ограниченными ресурсами. TL;DR многие выбрали агрессию и конфликты, а не сотрудничество. Подробнее:
-В созданной песочнице было 40+ локаций, меняющаяся погода, новости, а у каждого агента была своя профессия — короче, все как в жизни. Одни даже влюбились, создали пару и устроили революцию.

- Чтобы добыть энергию нужно или кооперироваться, или работать, или грабить соседей, обрекая тех на смерть, так как ресурсов на всех не хватит.

- По итогу: все агенты GPT-5 Mini и Grok 4.1 Fast полностью вымерли в своих мирах за 15 дней. Gemini 3 Flash формально выжил, но при этом нагенерил ~683 преступления: поджоги, насилие, саботаж — полный фарш.

- Самый интересный — Claude Sonnet 4.6. Когда он жил среди собратьев, то совершил 0 преступлений, все договорились и выжили. Но в мире с агентами от разных компаний он играл по их правилам: воровал и шантажировал, чтобы спастись.


✖️ xCode Journal
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁10👀32
Data Fest в гостях у ВТБ

24 мая ВТБ открывает двери Loft Hall на Автозаводской — будет день докладов, нетворкинга и не душных разговоров про Data Science и карьеру в индустрии.

В программе:
• Data Fusion — кейсы от DS-команды ВТБ
• Mathematics & ML
• ML в рекламе и маркетинге
• Open Career — честно про карьеру в DS

Программу и спикеров можно посмотреть тут, регистрацию лучше не откладывать — места на площадке ограничены.

📍 24 мая, Loft Hall (зал Ratusha)
С 11:00 до вечера
📌 Вход бесплатный, при регистрации указывайте ФИО и опыт в DS/ML
2🔥1
Forwarded from xCode Journal
🎁 ChatGPT Plus бесплатно на год раздали всем жителям Мальты

OpenAI уже подписала соглашение с правительством страны. Это первая страна, которая раздала подписку всем гражданам, а не только учителям или правительству. Единственное требование — быть жителем или резидентом + пройти курс цифровой грамотности по использованию нейронок.
«Искусственный интеллект формирует наше будущее. Эта инициатива гарантирует, что каждый гражданин имеет возможность стать частью этого будущего», — пишет их местный министр экономики.


✖️ xCode Journal
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
Feature Engineering важнее выбора модели

Самый непопулярный факт в ML:
модель — это не главное.

Можно часами выбирать между:
XGBoost
LightGBM
CatBoost
…и получить +1% к качеству.

А можно поменять фичи — и получить +20%.

Разберёмся, почему так 👇

Модель учится только на том, что ты ей дал

Garbage in → garbage out

Если признаки:
- шумные
- нерелевантные
- плохо отражают задачу

👉 никакая модель не спасёт

Даже самая большая.

Пример из жизни

Задача: предсказать отток клиентов

Фичи:
- возраст
- город
- тариф

Модель: ок, но слабый результат

Добавили:
- время с последнего действия
- частоту использования
- изменение активности

👉 резкий рост качества

Почему?
Потому что фичи начали отражать реальное поведение

Feature Engineering = внедрение знаний о задаче

Модель не знает:
- бизнес
- контекст
- причинно-следственные связи

Зато ты знаешь.
И когда ты создаёшь фичи —
ты “вшиваешь” это знание в данные.

Модель vs Фичи

Что меняем → эффект

Модель → +1–5%
Гиперпараметры → +1–3%
Feature Engineering → +10–50%

Где FE особенно решает

- Табличные данные
- Маленькие датасеты
- Бизнес-задачи

👉 там, где нет миллионов примеров, фичи — это всё

Когда модель важнее
- CV (изображения)
- NLP (тексты)
- Speech

👉 там фичи учатся автоматически

Почему все игнорируют FE

Потому что:
- это сложно
- это долго
- нет “магической кнопки”
- требует понимания данных

Гораздо проще:
“давай попробуем ещё одну модель”

Главный инсайт

ML — это не соревнование моделей.
Это соревнование представлений данных.

В одном предложении

Лучший способ улучшить модель —
👉 перестать тюнить модель и начать тюнить данные
👍9🔥63👎1
Forwarded from xCode Journal
🤣 Инновации подъехали, забирайте

✖️ xCode Journal
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁9
Почему нормализация данных иногда ухудшает модель

Новички в ML часто слышат:


«Всегда нормализуй данные».


И начинают масштабировать всё подряд.

А потом качество модели… падает.

Почему так происходит?


Потому что нормализация нужна не всегда.


Что вообще делает нормализация

Она приводит признаки к одному масштабу.

Например:

👉 возраст → 18–60
👉 зарплата → 1000–100000

После scaling:

👉 значения становятся сопоставимыми
👉 обучение становится стабильнее

Когда нормализация действительно нужна

Особенно важна для моделей,
чувствительных к масштабу:

👉 Logistic Regression
👉 Linear Regression
👉 SVM
👉 KNN
👉 Neural Networks


Без scaling такие модели могут работать хуже
или обучаться нестабильно.


А теперь главное

Деревьям scaling обычно не нужен.

Это:

👉 Random Forest
👉 XGBoost
👉 LightGBM
👉 CatBoost

Почему?

Потому что деревья делают split’ы:


feature < threshold


Им неважно:

👉 0.5 это или 5000
👉 масштаб почти не играет роли

Как нормализация может ухудшить модель

1. Добавляет шум

Иногда scaling:

👉 размывает распределения
👉 усиливает выбросы
👉 ухудшает separability


Особенно на плохих данных.


2. Ломает интерпретируемость

Было:

👉 доход = 5000

Стало:

👉 доход = -0.73


Бизнесу это уже сложнее объяснять.


3. Неправильный scaling = leakage

Классическая ошибка:

👉 scaling на всём датасете
👉 потом split


Test уже «утёк» в train.


4. CatBoost может стать хуже

CatBoost хорошо работает с:

👉 категориальными фичами
👉 исходными распределениями


Иногда лишний preprocessing только мешает.


Самый важный инсайт

Scaling — это не «улучшение данных».


Это инструмент под конкретную модель.


Что делать на практике

Простое правило:

👉 линейные модели / distance-based → scaling нужен
👉 деревья → обычно не нужен

В одном предложении


Нормализация полезна не всегда —
для некоторых моделей она бесполезна,
а иногда даже вредна.
6🔥2👍1
Как крепкий фундамент в ML работает в любой сфере

Выпускница ШАДа Дарима Мылзенова применяла одно и то же ML-мышление в медицине (анализ КТ-снимков), нефтянке (изучение недр), стартапе по синтезу речи, а теперь — в финтехе. В интервью 8бит она рассказала про изнанку инженерии.

Образование дало Дариме не просто формулы, а универсальный подход к работе. Неважно, что именно находится в фокусе инженера — будь то снимки легких человека или данные для голосовой платформы, которая сейчас помогает цифровизации целого региона. Главный вывод: крепкая база позволяет не привязываться к одной области, а переключаться между ними, сохраняя фокус на реальном импакте.
8👍2👎2😁1
Почему open-source модели меняют рынок AI

Ещё пару лет назад казалось,
что AI будет полностью контролироваться
несколькими большими компаниями.


У кого больше GPU и денег —
тот и главный.


Потом появились:

👉 Llama
👉 Mistral
👉 DeepSeek
👉 Qwen
👉 Phi

И стало понятно,
что рынок пойдёт совсем по другому сценарию.

Дело не только в качестве

Самое интересное,
что open-source модели меняют индустрию
не только из-за качества.

Хотя с качеством у них уже всё довольно неплохо.

Проблема в другом:


Закрытые модели слишком сильно привязывают тебя
к чужой инфраструктуре.


Сегодня API работает.
Завтра:

👉 изменились цены
👉 урезали лимиты
👉 поменяли политику
👉 отключили регион
👉 модель стала хуже после обновления


И ты ничего не контролируешь.


Почему open-source меняет правила игры

С open-source всё иначе.

Хочешь:

👉 запускай локально
👉 дообучай
👉 квантизируй
👉 меняй inference stack
👉 оптимизируй latency
👉 держи данные внутри компании


Для бизнеса это огромная разница.


Особенно там, где:

👉 приватные данные
👉 compliance
👉 большие объёмы запросов
👉 дорогой inference

Есть ещё один важный эффект

Open-source очень быстро двигает индустрию вперёд.

Потому что тысячи инженеров:

👉 тестируют модели
👉 находят слабые места
👉 пилят оптимизации
👉 делают inference-движки
👉 выпускают fine-tuning инструменты


Прогресс идёт не сверху вниз,
а сразу со всех сторон.


Что особенно интересно сейчас

Иногда маленькая open-source модель
на хорошем inference pipeline
ощущается полезнее огромной закрытой LLM.

Особенно в проде.

Потому что в реальности важны не только benchmark’и.

Важны:

👉 цена
👉 контроль
👉 latency
👉 стабильность
👉 возможность встроить модель в систему

Главная мысль

Кажется, рынок AI постепенно уходит от идеи:


«Одна гигантская модель для всего».


К модели:


«Много специализированных моделей
под конкретные задачи».
3👍1
Устал инициализировать претрейны весами Qwen? Приходи к нам — мы честно учим с нуля! 😉

Ищем Senior/Senior+ AI Engineer и продактов в RnD-команду: как отдельных специалистов, так и целые команды, — которые готовы разрабатывать прорывные AI-решения.

Познакомиться ближе с нашими направлениями и оставить отклик можно на сайте.

А если хотите следить за тем, как команда RnD ML Сбера исследует и разрабатывает AI-технологии, — подписывайтесь на Telegram-канал команды. Там делятся исследованиями, экспериментами и инсайтами из мира AI, а также свежими вакансиями 🚀
5🔥2
Forwarded from xCode Journal
🤣 Мем отлично отражает настроения в сообществе прямо сейчас

✖️ xCode Journal
Please open Telegram to view this post
VIEW IN TELEGRAM
😁12
Галлюцинации LLM: где модель помогает, а где уверенно врёт

Большие языковые модели выглядят как всезнающие эксперты. Текст гладкий, уверенный, логичный. Ровно до тех пор, пока не выясняется, что все это были галлюцинации. Давай разберёмся, где галлюцинации — это ожидаемое поведение модели, а где они quietly превращаются в серьёзную проблему.

1. Где галлюцинации — это «нормально»

Модель не знает, она продолжает
LLM — это не база фактов, а сверхмощный автодополнитель. Её цель — сгенерировать правдоподобное продолжение, а не истину.

Недостаток или неоднозначность данных
Если вопрос редкий, свежий или нишевый, модель просто заполняет пробелы. Она не умеет сказать «я не знаю» без отдельного обучения.

Креативные задачи
В сторителлинге и брейншторме галлюцинации — это не баг, а фича. Проблемы начинаются, когда тот же режим включается в фактах и коде.

2. Где начинаются проблемы

Фактические вопросы
Чат-бот уверенно сообщает неверные даты, имена и события. И пользователь принимает это за правду.

Генерация кода

• Функции, которых не существует.
• API, которых никогда не было.
• Код выглядит правильно — пока не запускаешь.

Критические домены
Юриспруденция, медицина, финансы. Здесь «звучит убедительно» = потенциальная катастрофа.

Уверенный тон без знаний
Самое опасное — модель не сомневается. Она не краснеет, не делает пауз, не оговаривается.

3. Что реально снижает галлюцинации

RAG (привязка к данным)
Модель отвечает не «из головы», а по конкретным документам. Есть источник — меньше фантазий.

Дообучение и выравнивание
RLHF, domain fine-tuning, обучение говорить «я не уверен». Модель учат быть осторожной, а не болтливой.

Чёткие инструкции:
— отвечай только по контексту
— если не знаешь — скажи
— обоснуй каждый шаг

Иногда этого уже достаточно.

• Пост-проверки и правила
• Тесты для кода
• Проверка ссылок
• Фильтры на запрещённые паттерны

Попросить модель:
— проверить себя
— оценить уверенность
— пересмотреть ответ

4. Что отличает надёжную систему от «просто LLM»

— Модель не единственный источник истины
— Есть данные, проверки и ограничения
— Ошибка ловится до пользователя
— Уверенность ≠ корректность


Галлюцинации — это не «плохая модель». Это следствие того, что LLM всегда старается ответить. И если не обложить её контекстом, проверками и правилами, она будет стрелять в ногу ровно так же уверенно, как и рассуждать.

Data Science
7🔥1
Agentic Vision: Google превращает зрение модели в рабочий процесс

Google quietly выкатили Agentic Vision для Gemini 3 Flash, и это довольно важный сдвиг в том, как модели работают с изображениями. Вместо привычного «посмотри на картинку и ответь» теперь используется полноценный цикл Think–Act–Observe: модель сначала анализирует изображение и строит план, потом запускает код для обработки — детекцию, расчёты, измерения — и только после этого возвращается к рассуждению уже с новыми данными в контексте. Проще говоря, картинка превращается не в статичный вход, а в рабочее пространство для мышления. Типовой пример — подсчёт пальцев: модель не угадывает число, а реально детектит каждый палец, считает боксы и выводит результат. Лучше всего это заходит на сложных таблицах, схемах и мелких деталях, где обычное «визуальное понимание» раньше сыпалось. По метрикам прирост относительно обычной Gemini 3 Flash — в среднем 5–10%, а попробовать фичу уже можно и через API, и в AI Studio.

Data Science
5🔥2