Data Portal | DS & ML – Telegram

Data Portal | DS & ML

8.49K subscribers

332 photos

101 videos

4 files

438 links

Всё самое интересное из мира Data Science и машинного обучения

Связь: @devmangx

Download Telegram

About

Blog

Apps

Platform

Data Portal | DS & ML

8.49K subscribers

Data Portal | DS & ML

Нашел нормальный вариант, если хочешь зайти в data science системно, а не прыгать между “кучей теории” и “вот тебе готовый проект, разбирайся сам”. Microsoft выложили open-source курс Data Science for Beginners: 10 недель, 20 уроков, старт с нуля.

Формат реально удобный: в каждом уроке есть мини-квиз, разбор темы, практический проект и домашка, то есть учишься руками. По программе проходят базу data science, обработку данных, визуализацию, методы анализа и даже облачную практику. Отдельно есть блоки про data ethics и работу с реляционными/нереляционными БД, плюс примеры от “hello world” до полного пайплайна с комментариями.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9🔥3

1.92K views06:07

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Новый поворот в RAG: ребята собрали подход, который вообще не использует ни vector DB, ни эмбеддинги, ни чанкинг, ни поиск по сходству. Вместо этого он строит из документа иерархическое дерево, по сути умное оглавление (PageIndex), и дальше модель не “ищет похожий текст”, а рассуждает, где эксперт реально бы искал ответ по структуре.

Это решает классическую боль: семантическая похожесть часто не равна релевантности, а важная цифра может быть спрятана в Appendix или попасться только через внутреннюю ссылку типа “см. Table 5.3”. У PageIndex retrieval трассируемый: видно, почему выбран конкретный раздел, и можно нормально ходить по ссылкам внутри дока.

На FinanceBench они заявляют 98,7% точности (SOTA) и заметный отрыв от векторного RAG на сложных финансовых документах. Все в open-source, можно залезть в GitHub и потестить на своих PDF.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7❤5

2.1K views16:07

Data Portal | DS & ML

Базовые алгоритмы машинного обучения

1. Linear Regression (линейная регрессия)
Предсказывает число по линейной зависимости (пример: цена квартиры).

2. Logistic Regression (логистическая регрессия)
Классификация, обычно 0/1 (спам/не спам), выдает вероятность.

3. Decision Tree (дерево решений)
Правила вида “если-то”, удобно объяснять, но легко переобучается.

4. SVM (метод опорных векторов)
Ищет границу между классами с максимальным зазором; хорошо на средних данных.

5. KNN (k ближайших соседей)
Смотрит на ближайшие точки и голосует; простой, но тормозит на больших датасетах.

6. Dimensionality Reduction (снижение размерности, чаще PCA/UMAP/t-SNE)
Сжимает признаки, чтобы упростить данные/визуализацию/шум убрать.

7. Random Forest (случайный лес)
Много деревьев + усреднение/голосование; часто сильный “из коробки”.

8. K-means
Кластеризация без разметки: делит точки на k групп.

9. Naive Bayes (наивный Байес)
Быстрый вероятностный классификатор, часто хорош для текста.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤15🔥6👍3

1.84K views06:07

Data Portal | DS & ML

Подробный гайд: как сделать персонализированный поиск, используя только Postgres

Фаза подготовки данных:

1. Генерируем эмбеддинги фильмов для векторного поиска и создаём BM25-индекс для полнотекстового поиска.
2. Генерируем эмбеддинги предпочтений пользователя на основе того, что он смотрел и что лайкал или дизлайкал раньше.

Фаза поиска:

1. Достаём топ-100 фильмов по BM25-ранжированию.
2. Нормализуем BM25-скоры в диапазон 0–1.
3. Делаем персонализированный поиск: сравниваем эмбеддинги фильмов с эмбеддингом предпочтений пользователя.
4. Смешиваем сигналы: 50% за совпадение по тексту (релевантность) и 50% за совпадение по пользователю (персонализация).

Полный гайд тут

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍1

1.64K views16:07

Data Portal | DS & ML

8 самых показательных VLA (Vision-Language-Action) моделей:

▪️Gemini Robotics
▪️π0
▪️SmolVLA
▪️Helix
▪️ChatVLA-2 (архитектура MoE)
▪️ACoT-VLA (Action Chain-of-Thought, цепочка рассуждений для действий)
▪️VLA-0
▪️Rho-alpha (ρα) новый VLA+ модель от Microsoft

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

1.5K views06:07

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Vector Index vs Vector Database, простым языком

Разрабы часто используют эти термины как синонимы.

Но если не понимать разницу, потом это вылезает в проблемы на проде.

Как думать об этом:

Vector index это по сути алгоритм поиска.

Ты кормишь его векторами, он организует их в структуру, по которой можно быстро искать похожие (например, HNSW), и находит nearest neighbors. FAISS это тоже пример.

Но нюанс в том, что это и все.

Он не отвечает за хранение, не умеет нормально фильтровать по метаданным и сам по себе не масштабируется. Он просто делает поиск.

Vector DB это обертка вокруг индекса, плюс все, что реально нужно в проде.

Туда входят распределенное хранилище, persistence, фильтрация по метаданным, конкурентный доступ и прочее. Хороший опенсорсный пример: Milvus.

Из этого видно: одно это компонент, другое это система.

Почему это важно:

Однажды компания с автопилотами строила поиск по дорожным видео, и масштабы были огромные.

Каждая поездка генерила кадры, каждый кадр превращался в embedding.

Инженерам нужно было спрашивать что-то вроде “ночные перекрестки с пешеходами” по данным за месяцы.

Сначала FAISS выглядел идеально: быстрый, легкий, легко поднять.

Но по мере роста данных embeddings каждого дня стали отдельным index-файлом.

Через пару месяцев у них было сотни тысяч разрозненных файлов.

Поиск по нескольким дням означал долбиться сразу в тонну файлов.

Сложные запросы потребовали самописных DB, query planner’ов и фильтрации, построенных вокруг FAISS.

В итоге у них оказались миллиарды векторов и никакого понятного пути дальше.

Вот где и нужны vector DB. Компания мигрировала на Milvus, и разница стала очевидной:

↳ один запрос: similarity + фильтры по метаданным
↳ данные в коллекциях и партициях, а не раскиданы по файлам
↳ десятки миллиардов векторов, год в проде, без крупных инцидентов
↳ минус 30% к инфраструктурным затратам
↳ 10x запас по масштабированию

И это не уникальная история.

Большинство команд упираются, когда стартуют с легкого индекса, а потом внезапно нужны фильтры, надежное хранение и реальный масштаб.

Vector DB существует ровно для этого момента.

Milvus выделяется тем, что хорошо держит масштаб и разные типы данных.

Можно хранить миллиарды векторов, горизонтально масштабироваться и делать специализированные индексы, например для геоданных свой оптимизированный индекс, а не “один общий на все”.

Он полностью open-source (41k+ звезд), можно self-host, можно взять их cloud.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5

1.48K views16:07

Data Portal | DS & ML

Пожизненная память для агентов LLM: SimpleMem

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

1.57K views06:07

Data Portal | DS & ML

Векторные базы, возможно, не то решение, которое нужно для памяти ИИ

MemU это новый опенсорсный фреймворк, который отказывается от сложных эмбеддингов в пользу дизайна на базе файловой системы.

Он позволяет агентам читать и осмыслять файлы памяти напрямую, как человек читает свои заметки.

Память хранится в простых Markdown-файлах, а не в непрозрачных индексах.

→ Двухрежимное извлечение (LLM + поиск)
→ Нативная мультимодальность (изображения, аудио)
→ Полностью настраиваемые промпты

100% open source.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5

1.56K views16:07

Data Portal | DS & ML

Новый класс рисков для open-source моделей, о котором мало кто думает.

Вышла работа про так называемую elicitation attack: берут open-source модель и дообучают ее на внешне безобидных данных по химическому синтезу, которые сгенерировали frontier-модели. И внезапно эта open-source модель начинает заметно лучше справляться с задачами, связанными с химическим оружием.

Самое неприятное тут не “как заставить модель отвечать на запрещенку”. А то, что модель может быть опасной, даже если она сама ничего вредного не выдаёт. Потому что ее безобидные ответы могут стать тренировочными данными, которые разлочат опасные способности у другой модели.

Что показали авторы:

▪️атака работает на разных open-source моделях и на разных типах “оружейных” задач
▪️дообучение на данных от frontier-моделей даёт больший прирост, чем обучение на учебниках по химии или на данных, ▪️сгенерированных той же open-source моделью
▪️достаточно “мирных” тем: сыроварение, ферментация, химия свечей и т.п.
▪️в одном эксперименте “безвредная химия” дала около 2/3 эффекта по росту “оружейной” компетенции по сравнению с обучением на данных про химоружие
▪️чем сильнее frontier-модель, тем сильнее потом аплифт у open-source модели (и тем выше риск)

Вывод простой и довольно жёсткий: фокус только на “refusal training” у frontier-моделей не закрывает проблему. Опасность может утекать через нормальные, на вид бытовые ответы, которые потом кто-то использует как датасет.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🏆4🔥3👍1

1.56K views06:07

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Я разогнал производительность своего AI-агента на 184%

...используя полностью опенсорсную технику.

Теперь можно автоматически находить лучшие промпты для любого agentic workflow, который ты собираешь.

То есть ручной prompt engineering вообще не нужен

Идея простая:

1. Берешь стартовый промпт и eval-датасет
2. Дальше оптимизатор итеративно улучшает промпт
3. В итоге получаешь оптимальный промпт автоматически

И все это буквально в несколько строк кода.

Почему именно Opik?

Opik это на 100% опенсорсная платформа для оценки (evaluation) LLM.

Она помогает оптимизировать LLM-системы так, чтобы они работали лучше, быстрее и дешевле: от RAG-чатботов до ассистентов для кода. В Opik есть трейсинг, оценки (evaluations) и дашборды.

Самое крутое: все можно гонять полностью локально, потому что в качестве оптимизаторов и оценщиков можно использовать любые локальные LLM.

GitHub-репозиторий

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

1.58K views16:07

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

OpenAI представили Prism — умный LaTeX-редактор для научных работ

OpenAI выкатили Prism – полноценный LaTeX-редактор с ИИ внутри. По сути, это новый стандарт для работы с научными текстами, формулами и графиками.

Что умеет Prism:

- Верстает статьи и пейперы в LaTeX с помощью GPT-5.2
- Превращает рисунки и черновики в графики, диаграммы и формулы
- Находит ошибки, неточности и проблемы в логике текста
- Помогает с источниками и цитированием
- Поддерживает голосовой ввод
- Совместная работа над одним проектом в реальном времени

Инструмент изначально ориентирован на учёных и исследователей, но по факту это – лучший ИИ-инструмент для рефератов, курсовых и дипломов, особенно для технических и естественно-научных специальностей

Доступен бесплатно для всех, а подписчикам ChatGPT обещают расширенные функции позже.

Попробовать можно уже сейчас:
https://prism.openai.com/

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4👎1

1.83K views06:07

Data Portal | DS & ML

Чтобы натренировать ML-модель, обычно надо шарить в алгоритмах, писать код и бесконечно тюнить гиперпараметры. Для большинства это входной барьер, который сразу отбивает желание.

На GitHub есть Plexe, опенсорсный проект, который сильно снижает порог: ты описываешь задачу обычным языком, а он автоматически собирает машинное обучение под это.

Достаточно по-человечески объяснить, что именно хочешь предсказать, какие данные на входе и что должно быть на выходе. Дальше система через связку нескольких агентов сама проходит весь пайплайн: анализ данных, план решения, генерация кода, тесты и оценка качества.

Поддерживает разных провайдеров LLM: OpenAI, Anthropic, Ollama и другие. Плюс умеет автоматически выводить структуру данных или даже генерировать синтетический датасет.

Еще внутри есть распределенное обучение на Ray: можно параллельно прогонять несколько вариантов моделей и сильно ускоряться.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

🏆4

1.78K views16:07

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

Marching Squares это классический алгоритм для построения контурных линий (изолиний) по 2D скалярному полю.

Его используют для визуализаций вроде топографических карт.

Каждая ячейка сетки маппится на простой полигон в зависимости от того, какие ее углы выше или ниже заданного порога.

У него есть 3D-аналог Marching Cubes, который делает то же самое, но для 3D.

Если тебе нравятся такие визуализации, может зайдет свежая статья про ML-концепт Rectified Flows.

Там много поясняющих интерактивных визуализаций.

Код для всего этого тоже можно посмотреть здесь.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

1.64K views06:07

Data Portal | DS & ML

От OCR к agentic-доставанию данных из документов

LandingAI выпустили бесплатный курс по Document AI. Там учат собирать пайплайны обработки документов, которые вытаскивают текст, таблицы, графики и формы, не теряя контекст разметки.

Проблема классического OCR в том, что оно “достаёт буквы”, но ломает смысл:

- у таблиц пропадает структура (включая merged cells)
- связи “график ⬅️➡️ подпись” разваливаются
- порядок чтения в multi-column становится кашей

В курсе показывают, как строить agentic-воркфлоу, которые читают документы ближе к тому, как это делает человек, через Agentic Document Extraction (ADE).

Что внутри:

- почему обычный OCR валится на сложных документах
- как детект layout + правильный reading order сохраняют структуру
- как парсить PDF в Markdown/JSON и не потерять layout
- как собирать RAG с ADE и векторными БД
- как деплоить event-driven документные пайплайны на AWS

3 часа, 6 практических примеров кода. Полностью бесплатно.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

2.1K views16:07

Data Portal | DS & ML

Microsoft только что закрыл проблему "agent loop"

Они выложили в open-source Agent Lightning, фреймворк, который позволяет агентам учиться на собственных ошибках.

Он использует reinforcement learning, чтобы автоматически оптимизировать промпты и веса.

→ Твой агент пробует выполнить задачу → Фейлится → Agent Lightning анализирует трейс → Обновляет промпт на следующий раз

На 100% open source.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10❤2

1.68K views06:07

Data Portal | DS & ML

Unsloth AI смогли обучить LLM вообще без участия человека, используя Claude Code.

Они сделали гайд, как повторить это с локальными LLM через Claude Code и OpenAI Codex.

Подключай GLM-4.7-Flash к своему серверу и запускай agentic coding локально: гайд

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

1.43K views16:07

Data Portal | DS & ML

This media is not supported in your browser

VIEW IN TELEGRAM

DevOps vs. MLOps vs. LLMOps:

Многие команды пытаются натянуть DevOps-практики на LLM-приложения.

Но DevOps, MLOps и LLMOps решают принципиально разные задачи.

Почему это важно: 88% ML-инициатив с трудом доходили до прода, если пытаться запускать их через традиционные DevOps-подходы.

А LLM добавляют проблемы, под которые даже MLOps изначально не проектировали.

Разберём по полочкам:

→ DevOps ориентирован на софт.

Ты пишешь код, тестируешь и деплоишь. Фидбек-луп простой: код работает или нет?

Главный артефакт это код. Тестирование детерминированное. Инструментарий зрелый после 15+ лет развития.

→ MLOps ориентирован на (модель + данные).

Тут у тебя data drift, деградация модели и постоянное переобучение.

Код может быть идеальным, но качество модели со временем падает, потому что мир меняется.

Модель для антифрода может отлично работать на старте, а через пару недель начать валиться, потому что мошенники адаптировались.

Главный артефакт расширяется до code + data + models. Версионировать нужно всё три. Поэтому MLflow, DVC и feature store стали обязательными штуками.

→ LLMOps ориентирован на foundation models.

Обычно ты не тренируешь модели с нуля. Вместо этого выбираешь базовую модель и оптимизируешь её по трём параллельным направлениям:

* Prompt Engineering
* Настройка контекста / RAG
* Fine-tuning

В отличие от DevOps и MLOps, эти направления идут параллельно, а не последовательно.

Но главное отличие LLMOps это мониторинг: он вообще другой.

В MLOps ты следишь за data drift, деградацией модели и метриками точности.

В LLMOps ты отслеживаешь:

* детект галлюцинаций
* bias и токсичность
* расход токенов и стоимость
* human feedback loops

Потому что выход LLM недетерминированный. Нельзя просто проверить, “правильно” ли оно ответило. Нужно убедиться, что ответ безопасный, grounded и не прожигает бюджет.

63% production AI-систем ловят опасные галлюцинации в первые 90 дней.

Ещё переворачивается модель затрат.

В MLOps основные расходы это обучение (GPU-часы на этапе разработки).

В LLMOps основные расходы это инференс (каждый запрос жрёт токены).

Поэтому в LLMOps так важны эффективность промптов, кэширование и routing между моделями.

Цикл оценки в LLMOps возвращается сразу во все три направления оптимизации. Проваленный eval может значить, что нужны лучше промпты, богаче контекст, ИЛИ fine-tuning.

То есть это уже не линейный пайплайн.

И ещё: версионирование промптов и RAG-пайплайны в LLMOps теперь first-class штуки, так же как версионирование данных стало обязательным в MLOps.

И ops-слой, который ты выбираешь, должен соответствовать системе, которую ты строишь.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8🔥3❤2

1.84K views06:07

Data Portal | DS & ML

В этом фри курсе ты изучишь основы RAG, а также ключевые концепции Model Context Protocol (MCP). Курс построен на Python SDK и разбирает стратегии чанкинга, работу с AI-агентами и многое другое.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

1.77K views16:07