Data Portal | Data Science & Машиннное обучение
8.58K subscribers
108 photos
37 videos
4 files
145 links
Присоединяйтесь к нашему каналу и погрузитесь в мир для дата сайентиста

Связь: @devmangx
Download Telegram
Самый быстрый движок для сервинга LLM

LMCache — это движок для сервинга LLM, разработанный для минимизации time-to-first-token и повышения throughput, особенно в сценариях с длинным контекстом.

Он ускоряет vLLM, обеспечивая в 7 раз более быстрый доступ к кэшу ключей/значений (KV cache) и поддерживая объём в 100 раз больше.

Полностью опенсорс: https://github.com/LMCache/LMCache

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍4
Microsoft недавно выпустили бесплатный курс по созданию AI-агентов.

В нем 11 уроков с теорией, примерами кода на Python, заданиями и ссылками на доп. материалы

https://github.com/microsoft/ai-agents-for-beginners/tree/main

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍7
Комбинация из трёх курсов, охватывающих важную математику для ML и DL.

Основное внимание уделяется теоретическим концепциям, сопровождаемым качественными разобранными задачами.

https://www.youtube.com/watch?v=0z6AhrOSrRs

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
16👍6
This media is not supported in your browser
VIEW IN TELEGRAM
Этот репозиторий на GitHub — настоящая находка для каждого дата-сайентиста

Интерактивный Python-репозиторий по DS содержит дашборды для изучения статистики, ML-моделей и других ключевых концепций Data Science.

В темах: PCA, bagging и boosting, кластеризация, нейросети и многое другое.

Полностью опенсорс и бесплатный: https://github.com/GeostatsGuy/DataScienceInteractivePython

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
16👍5
Если вы действительно хотите понять, как работают LLM-модели, попробуйте реализовать свою собственную с нуля.

И именно этим вы займётесь в этом курсе: соберёте LLM, похожую на Llama 4, с нуля.

Вы создадите токенизатор, разберётесь с механизмом внимания, углубитесь в Rotary Positional Embeddings и многое другое

https://www.freecodecamp.org/news/code-your-own-llama-4-llm-from-scratch/

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Фреймворк для подключения любого LLM к любому MCP-серверу (опенсорс).

mcp-use позволяет подключать любую LLM к любому MCP-серверу и создавать кастомные MCP-агенты — без необходимости использовать проприетарные решения вроде Cursor или Claude

Совместим с Ollama, LangChain и другими.

GitHub репозиторий → https://github.com/mcp-use/mcp-use

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥2👍1
Двое из самых годных авторов [3blue1brown и welch labs] выложили совместное видео

Потрясающее разложение диффузионных моделей: наглядно, интуитивно, элегантно

Есть русские субтитры

40 минут кайфа тут: https://youtu.be/iv-5mZ_9CPY

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
16👍6
Это сборник из 300 кейсов по проектированию ML-систем в реальном мире — от Stripe, Spotify, Netflix, Meta и других.

Отлично подходит для собеседований и чтобы разобраться, как всё устроено в боевых условиях

https://github.com/Engineer1999/A-Curated-List-of-ML-System-Design-Case-Studies

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
17👍4
Машинное обучение: книга систематически охватывает методы обучения с учителем, байесовские подходы и генеративные/обучение без учителя.

🔸Практические советы по построению моделей и этические аспекты интегрированы в изложение на всём протяжении.

🔸Предлагает хорошо проиллюстрированный, строгий, но при этом доступный путь к фундаментальным основам современного машинного обучения.

https://github.com/uu-sml/sml-book-page/blob/master/book/sml-book-draft-latest.pdf

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Наивный RAG vs. графового RAG — наглядное объяснение:

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62
Если вам сложно понять, как на самом деле работают GPU (как это было у меня), — это отличный старт

Статья отлично объясняет, что такое гриды, блоки, варпы, SM, различие между CUDA-ядрами и тензорными ядрами, а также межсоединения GPU

Всё изложено предельно ясно и по существу.

Основано на курсе Stanford CS336

https://dev.to/lewis_won/demystifying-gpus-from-core-architecture-to-scalable-systems-419l

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍3
Media is too big
VIEW IN TELEGRAM
Сделай Claude Code в 10 раз мощнее

Code Context — это плагин для MCP, который добавляет семантический поиск по коду в Claude Code, Gemini CLI или любого другого AI-кодового ассистента.

Полная индексация кодовой базы обеспечивает более глубокий контекст и улучшенную генерацию кода.

Полностью опенсорс

https://github.com/zilliztech/code-context

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32
Трансформеры с нуля

Это один из лучших разборов, который начинает с абсолютного нуля и подробно объясняет каждую деталь архитектуры модели

https://e2eml.school/transformers.html

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍2
Если тебе нравится разрабатывать всё с нуля — думаю, тебе зайдёт проект MiniTorch.

В нём мы учимся реализовывать API в стиле Torch так, чтобы он был полностью совместим с кодом на Torch и мог исполнять этот код

Сайт проекта: https://minitorch.github.io
YouTube: тык

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62👀2
Forwarded from IT Portal
This media is not supported in your browser
VIEW IN TELEGRAM
Откопал LeetCode для Data Science

DataLemur — мощная платформа, где собраны реальные задачки с собесов в Tesla, Facebook, Twitter, Microsoft и других топовых компаниях

Внутри: практические задания по SQL, статистике, Python и ML. Можно фильтровать по уровню сложности и компании

Топчик для тех, кто готовится к собесам на роли Data Scientist / Data Analyst. Забираем здесь 🍯

@IT_Portal
16👍5🔥4
Apple выкатили мощный опенсорс-инструмент для визуализации эмбеддингов — Embedding Atlas — и он неожиданно крут для всех, кто работает с большими датасетами текст + метаданные

Это очень напоминает Atlas от Nomic, но до него я так и не дошёл 😅

Тут у нас: поиск в реальном времени, рендеринг миллионов точек и автоматическая кластеризация с автолейблингом.

В одном из примеров они визуализируют ~200 000 отзывов на вино, используя эмбеддинги + метаданные вроде цены, страны и дегустационных заметок. И всё это летает даже в браузере, никакого дополнительного кода!

Инструмент закрывает ровно те потребности, которые большинство LLM-разработчиков обычно колхозят вручную:

- UMAP-проекции
- Фасетный поиск по метаданным (например, «страна vs. цена»)
- Ховер + тултип по сырым точкам
- Интерактивные фильтры, гистограммы и оверлеи кластеров
- Кросс-линк между scatterplot и таблицей

Под капотом:
• Быстрый рендер через WebGPU (с фолбеком на WebGL)
• Поиск по семантической близости в пространстве эмбеддингов
• Контуры плотности (kernel density) для поиска кластеров и аномалий

Всё просто: загружаешь .jsonl или .csv с текстом + вектором + метаданными — остальное он сделает сам: кластеризация, автолейблы, UI-лейаут и всё остальное.

По ощущениям, это как Tableau, но LLM-нативный — заточенный под текст, чат и современные дата-задачи.

Если вы делаете RAG-оценку, тюнинг поиска, объяснимость кластеризации или даже аудит датасетов, то это может стать вашим новым любимым инструментом.

https://apple.github.io/embedding-atlas/overview.html

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍82