Data Portal | Data Science & Машиннное обучение – Telegram

Data Portal | Data Science & Машиннное обучение

8.61K subscribers

100 photos

36 videos

4 files

138 links

Присоединяйтесь к нашему каналу и погрузитесь в мир для дата сайентиста

Связь: @devmangx

Download Telegram

About

Blog

Apps

Platform

Data Portal | Data Science & Машиннное обучение

8.61K subscribers

Data Portal | Data Science & Машиннное обучение

Это делает ваше RAG-приложение в 10 раз лучше

Большинство людей, которых я знаю, просто разбивают документы на чанки и строят эмбеддинги для этих фрагментов.

Но создавать действительно хорошие чанки — сложно. Идеального способа нет, но есть простой приём, который значительно улучшает качество чанков.

Добавьте к каждому чанку дополнительную метаинформацию.

Например, вы работаете с научными статьями. Каждый чанк — это всего лишь абзац, но сам по себе он часто оказывается слишком размытым.

Вместо того чтобы использовать только абзац, я добавляю к каждому чанку следующую информацию:

🔸Название статьи

🔸Номер страницы

🔸Заголовок секции, к которой относится абзац

🔸Ключевые слова или теги, содержащиеся в абзаце

🔸Одно предложение, кратко резюмирующее содержание абзаца

Этот дополнительный контекст делает эмбеддинг гораздо богаче и значительно повышает его полезность при извлечении.

Эту метаинформацию можно либо извлекать автоматически, либо генерировать с помощью LLM.

Это дополнительный шаг. Если вы только начинаете внедрять RAG, можно пока его пропустить. Но как только у вас заработает базовая версия — обязательно реализуйте это улучшение.

Вы больше не захотите работать по-другому.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤17👍3

4.39K views08:50

Data Portal | Data Science & Машиннное обучение

Самый быстрый движок для сервинга LLM

LMCache — это движок для сервинга LLM, разработанный для минимизации time-to-first-token и повышения throughput, особенно в сценариях с длинным контекстом.

Он ускоряет vLLM, обеспечивая в 7 раз более быстрый доступ к кэшу ключей/значений (KV cache) и поддерживая объём в 100 раз больше.

Полностью опенсорс: https://github.com/LMCache/LMCache

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍4

4.36K views05:48

Data Portal | Data Science & Машиннное обучение

Microsoft недавно выпустили бесплатный курс по созданию AI-агентов.

В нем 11 уроков с теорией, примерами кода на Python, заданиями и ссылками на доп. материалы

https://github.com/microsoft/ai-agents-for-beginners/tree/main

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍7

4.71K views15:26

Data Portal | Data Science & Машиннное обучение

Комбинация из трёх курсов, охватывающих важную математику для ML и DL.

Основное внимание уделяется теоретическим концепциям, сопровождаемым качественными разобранными задачами.

https://www.youtube.com/watch?v=0z6AhrOSrRs

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤16👍6

4.52K views07:49

Data Portal | Data Science & Машиннное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

Этот репозиторий на GitHub — настоящая находка для каждого дата-сайентиста

Интерактивный Python-репозиторий по DS содержит дашборды для изучения статистики, ML-моделей и других ключевых концепций Data Science.

В темах: PCA, bagging и boosting, кластеризация, нейросети и многое другое.

Полностью опенсорс и бесплатный: https://github.com/GeostatsGuy/DataScienceInteractivePython

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤16👍5

5.42K views15:07

Data Portal | Data Science & Машиннное обучение

Если вы действительно хотите понять, как работают LLM-модели, попробуйте реализовать свою собственную с нуля.

И именно этим вы займётесь в этом курсе: соберёте LLM, похожую на Llama 4, с нуля.

Вы создадите токенизатор, разберётесь с механизмом внимания, углубитесь в Rotary Positional Embeddings и многое другое

https://www.freecodecamp.org/news/code-your-own-llama-4-llm-from-scratch/

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍3

3.55K views16:07

Data Portal | Data Science & Машиннное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

Фреймворк для подключения любого LLM к любому MCP-серверу (опенсорс).

mcp-use позволяет подключать любую LLM к любому MCP-серверу и создавать кастомные MCP-агенты — без необходимости использовать проприетарные решения вроде Cursor или Claude

Совместим с Ollama, LangChain и другими.

GitHub репозиторий → https://github.com/mcp-use/mcp-use

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6🔥2👍1

3.34K views13:30

Data Portal | Data Science & Машиннное обучение

Двое из самых годных авторов [3blue1brown и welch labs] выложили совместное видео

Потрясающее разложение диффузионных моделей: наглядно, интуитивно, элегантно

Есть русские субтитры

40 минут кайфа тут: https://youtu.be/iv-5mZ_9CPY

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤16👍5

2.62K views06:19

Data Portal | Data Science & Машиннное обучение

Это сборник из 300 кейсов по проектированию ML-систем в реальном мире — от Stripe, Spotify, Netflix, Meta и других.

Отлично подходит для собеседований и чтобы разобраться, как всё устроено в боевых условиях

https://github.com/Engineer1999/A-Curated-List-of-ML-System-Design-Case-Studies

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤17👍4

2.04K views04:47

Data Portal | Data Science & Машиннное обучение

Машинное обучение: книга систематически охватывает методы обучения с учителем, байесовские подходы и генеративные/обучение без учителя.

🔸Практические советы по построению моделей и этические аспекты интегрированы в изложение на всём протяжении.

🔸Предлагает хорошо проиллюстрированный, строгий, но при этом доступный путь к фундаментальным основам современного машинного обучения.

https://github.com/uu-sml/sml-book-page/blob/master/book/sml-book-draft-latest.pdf

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤4🔥2

1.73K views05:26

Data Portal | Data Science & Машиннное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

Наивный RAG vs. графового RAG — наглядное объяснение:

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤2

1.51K views10:12

Data Portal | Data Science & Машиннное обучение

Если вам сложно понять, как на самом деле работают GPU (как это было у меня), — это отличный старт

Статья отлично объясняет, что такое гриды, блоки, варпы, SM, различие между CUDA-ядрами и тензорными ядрами, а также межсоединения GPU

Всё изложено предельно ясно и по существу.

Основано на курсе Stanford CS336

https://dev.to/lewis_won/demystifying-gpus-from-core-architecture-to-scalable-systems-419l

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤11👍3

1.36K viewsedited 05:01

Data Portal | Data Science & Машиннное обучение

Media is too big

VIEW IN TELEGRAM

Сделай Claude Code в 10 раз мощнее

Code Context — это плагин для MCP, который добавляет семантический поиск по коду в Claude Code, Gemini CLI или любого другого AI-кодового ассистента.

Полная индексация кодовой базы обеспечивает более глубокий контекст и улучшенную генерацию кода.

Полностью опенсорс

https://github.com/zilliztech/code-context

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤2

1.12K views13:00