Машинное обучение: книга систематически охватывает методы обучения с учителем, байесовские подходы и генеративные/обучение без учителя.
🔸 Практические советы по построению моделей и этические аспекты интегрированы в изложение на всём протяжении.
🔸 Предлагает хорошо проиллюстрированный, строгий, но при этом доступный путь к фундаментальным основам современного машинного обучения.
https://github.com/uu-sml/sml-book-page/blob/master/book/sml-book-draft-latest.pdf
👉 @DataSciencegx
https://github.com/uu-sml/sml-book-page/blob/master/book/sml-book-draft-latest.pdf
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤4🔥2
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤2
Если вам сложно понять, как на самом деле работают GPU (как это было у меня), — это отличный старт
Статья отлично объясняет, что такое гриды, блоки, варпы, SM, различие между CUDA-ядрами и тензорными ядрами, а также межсоединения GPU
Всё изложено предельно ясно и по существу.
Основано на курсе Stanford CS336
https://dev.to/lewis_won/demystifying-gpus-from-core-architecture-to-scalable-systems-419l
👉 @DataSciencegx
Статья отлично объясняет, что такое гриды, блоки, варпы, SM, различие между CUDA-ядрами и тензорными ядрами, а также межсоединения GPU
Всё изложено предельно ясно и по существу.
Основано на курсе Stanford CS336
https://dev.to/lewis_won/demystifying-gpus-from-core-architecture-to-scalable-systems-419l
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍3
Media is too big
VIEW IN TELEGRAM
Сделай Claude Code в 10 раз мощнее
Code Context — это плагин для MCP, который добавляет семантический поиск по коду в Claude Code, Gemini CLI или любого другого AI-кодового ассистента.
Полная индексация кодовой базы обеспечивает более глубокий контекст и улучшенную генерацию кода.
Полностью опенсорс
https://github.com/zilliztech/code-context
👉 @DataSciencegx
Code Context — это плагин для MCP, который добавляет семантический поиск по коду в Claude Code, Gemini CLI или любого другого AI-кодового ассистента.
Полная индексация кодовой базы обеспечивает более глубокий контекст и улучшенную генерацию кода.
Полностью опенсорс
https://github.com/zilliztech/code-context
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤2
Трансформеры с нуля
Это один из лучших разборов, который начинает с абсолютного нуля и подробно объясняет каждую деталь архитектуры модели
https://e2eml.school/transformers.html
👉 @DataSciencegx
Это один из лучших разборов, который начинает с абсолютного нуля и подробно объясняет каждую деталь архитектуры модели
https://e2eml.school/transformers.html
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍2
Если тебе нравится разрабатывать всё с нуля — думаю, тебе зайдёт проект MiniTorch.
В нём мы учимся реализовывать API в стиле Torch так, чтобы он был полностью совместим с кодом на Torch и мог исполнять этот код
Сайт проекта: https://minitorch.github.io
YouTube: тык
👉 @DataSciencegx
В нём мы учимся реализовывать API в стиле Torch так, чтобы он был полностью совместим с кодом на Torch и мог исполнять этот код
Сайт проекта: https://minitorch.github.io
YouTube: тык
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤2👀2
Forwarded from IT Portal
This media is not supported in your browser
VIEW IN TELEGRAM
Откопал LeetCode для Data Science
DataLemur — мощная платформа, где собраны реальные задачки с собесов в Tesla, Facebook, Twitter, Microsoft и других топовых компаниях
Внутри: практические задания по SQL, статистике, Python и ML. Можно фильтровать по уровню сложности и компании
Топчик для тех, кто готовится к собесам на роли Data Scientist / Data Analyst. Забираем здесь 🍯
@IT_Portal
DataLemur — мощная платформа, где собраны реальные задачки с собесов в Tesla, Facebook, Twitter, Microsoft и других топовых компаниях
Внутри: практические задания по SQL, статистике, Python и ML. Можно фильтровать по уровню сложности и компании
Топчик для тех, кто готовится к собесам на роли Data Scientist / Data Analyst. Забираем здесь 🍯
@IT_Portal
❤16👍5🔥4
Apple выкатили мощный опенсорс-инструмент для визуализации эмбеддингов — Embedding Atlas — и он неожиданно крут для всех, кто работает с большими датасетами текст + метаданные
Это очень напоминает Atlas от Nomic, но до него я так и не дошёл😅
Тут у нас: поиск в реальном времени, рендеринг миллионов точек и автоматическая кластеризация с автолейблингом.
В одном из примеров они визуализируют ~200 000 отзывов на вино, используя эмбеддинги + метаданные вроде цены, страны и дегустационных заметок. И всё это летает даже в браузере, никакого дополнительного кода!
Инструмент закрывает ровно те потребности, которые большинство LLM-разработчиков обычно колхозят вручную:
- UMAP-проекции
- Фасетный поиск по метаданным (например, «страна vs. цена»)
- Ховер + тултип по сырым точкам
- Интерактивные фильтры, гистограммы и оверлеи кластеров
- Кросс-линк между scatterplot и таблицей
Под капотом:
• Быстрый рендер через WebGPU (с фолбеком на WebGL)
• Поиск по семантической близости в пространстве эмбеддингов
• Контуры плотности (kernel density) для поиска кластеров и аномалий
Всё просто: загружаешь
По ощущениям, это как Tableau, но LLM-нативный — заточенный под текст, чат и современные дата-задачи.
Если вы делаете RAG-оценку, тюнинг поиска, объяснимость кластеризации или даже аудит датасетов, то это может стать вашим новым любимым инструментом.
https://apple.github.io/embedding-atlas/overview.html
👉 @DataSciencegx
Это очень напоминает Atlas от Nomic, но до него я так и не дошёл
Тут у нас: поиск в реальном времени, рендеринг миллионов точек и автоматическая кластеризация с автолейблингом.
В одном из примеров они визуализируют ~200 000 отзывов на вино, используя эмбеддинги + метаданные вроде цены, страны и дегустационных заметок. И всё это летает даже в браузере, никакого дополнительного кода!
Инструмент закрывает ровно те потребности, которые большинство LLM-разработчиков обычно колхозят вручную:
- UMAP-проекции
- Фасетный поиск по метаданным (например, «страна vs. цена»)
- Ховер + тултип по сырым точкам
- Интерактивные фильтры, гистограммы и оверлеи кластеров
- Кросс-линк между scatterplot и таблицей
Под капотом:
• Быстрый рендер через WebGPU (с фолбеком на WebGL)
• Поиск по семантической близости в пространстве эмбеддингов
• Контуры плотности (kernel density) для поиска кластеров и аномалий
Всё просто: загружаешь
.jsonl
или .csv
с текстом + вектором + метаданными — остальное он сделает сам: кластеризация, автолейблы, UI-лейаут и всё остальное.По ощущениям, это как Tableau, но LLM-нативный — заточенный под текст, чат и современные дата-задачи.
Если вы делаете RAG-оценку, тюнинг поиска, объяснимость кластеризации или даже аудит датасетов, то это может стать вашим новым любимым инструментом.
https://apple.github.io/embedding-atlas/overview.html
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤2
Microsoft обновила годный курс по генеративному ИИ
Бесплатный курс из 21 урока доступен на Github и обучит всему необходимому для начала разработки приложений с генеративным ИИ
https://github.com/microsoft/generative-ai-for-beginners
👉 @DataSciencegx
Бесплатный курс из 21 урока доступен на Github и обучит всему необходимому для начала разработки приложений с генеративным ИИ
https://github.com/microsoft/generative-ai-for-beginners
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤1👍1