Data Portal | Data Science & Машиннное обучение
8.5K subscribers
94 photos
34 videos
4 files
133 links
Присоединяйтесь к нашему каналу и погрузитесь в мир для дата сайентиста

Связь: @devmangx
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Движок RAG для глубокого понимания документов

RAGFlow позволяет создавать корпоративного уровня RAG-воркфлоу для работы со сложными документами с обоснованными цитированиями.

Поддерживает мультимодальное понимание данных, веб-поиск, глубокие исследования и т.д.

Полностью локальный и с открытым исходным кодом, более 55 тысяч звёзд на GitHub

https://github.com/infiniflow/ragflow

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
👍104
End-to-end проект по машинному обучению

Нашёл годный пошаговый гайд по ML-проекту.

Он начинается с базового EDA и обучает интеграции с MLOps с использованием таких инструментов, как ZenML и MLflow для отслеживания экспериментов и деплоймента.

https://www.youtube.com/watch?si=CoFmlaniXlD17UHz&v=o6vbe5G7xNo&feature=youtu.be

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
13👍5😁1🤔1
AI-агенты наконец-то могут взаимодействовать с вашим фронтендом

Протокол AG-UI устраняет критически важный разрыв между AI-агентами и фронтенд-приложениями, обеспечивая бесшовное взаимодействие между человеком и агентом.

MCP: от агентов к инструментам
A2A: от агентов к агентам
AG-UI: от агентов к пользователям

Полностью с открытым исходным кодом. Вот официальный репозиторий AG-UI от CopilotKit на GitHub

Прикрепляю отличную иллюстрацию того, как это работает

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍73
У Microsoft вышел бесплатный курс по MCP для начинающих с 10 практическими лабораторными работами

Изучайте основы MCP на практике с примерами на .NET, Java, TypeScript, JavaScript и Python в среде VS Code. Все структурно и доступно на 40+ языках мира (есть русский, но машинный перевод)

https://github.com/microsoft/mcp-for-beginners/

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Этот репозиторий с туториалами по AI-агентам недавно преодолел отметку в 45 тысяч звёзд на GitHub.

Он полностью опенсорсный и содержит более 75 пошаговых гайдов по AI-агентам и RAG.

10 классных AI-агентов, а также туториалы по MCP и RAG:

https://github.com/Shubhamsaboo/awesome-llm-apps

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
14👍2
10 репозиториев на GitHub, которые помогут вам начать карьеру AI-инженера (полностью бесплатно): Ссылки:

🔸ML для начинающих: http://github.com/microsoft/ML-For-Beginners

🔸AI для начинающих: http://github.com/microsoft/AI-For-Beginners

🔸Нейросети с нуля до профи: http://github.com/karpathy/nn-zero-to-hero

🔸Имплементации статей: http://github.com/labmlai

🔸Сделано с использованием ML: http://github.com/GokuMohandas/Made-With-ML

🔸Практика с LLM: http://github.com/HandsOnLLM

🔸Продвинутые техники RAG: http://github.com/NirDiamant

🔸Агенты для начинающих: http://github.com/microsoft/ai-agents-for-beginners

🔸Агенты на пути к продакшену: http://github.com/NirDiamant

🔸Хаб AI-инженера: http://github.com/patchy631/ai-engineering-hub

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
18👍5
Нашёл бесплатную книгу на Arxiv — "Pen and Paper Exercises in Machine Learning"

Книга на 200+ страниц с более чем 75 заданиями — отличный способ освежить знания по Python и теоретическим аспектам машинного обучения.

https://arxiv.org/pdf/2206.13446

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Крутейший иллюстрированный гайд по MCP

74 страницы, охватывающие основы, решаемые задачи, архитектуру, инструменты, промпты и 11 практических проектов

Бесплатно. Забираем отсюда

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍4
Это делает ваше RAG-приложение в 10 раз лучше

Большинство людей, которых я знаю, просто разбивают документы на чанки и строят эмбеддинги для этих фрагментов.

Но создавать действительно хорошие чанки — сложно. Идеального способа нет, но есть простой приём, который значительно улучшает качество чанков.

Добавьте к каждому чанку дополнительную метаинформацию.

Например, вы работаете с научными статьями. Каждый чанк — это всего лишь абзац, но сам по себе он часто оказывается слишком размытым.

Вместо того чтобы использовать только абзац, я добавляю к каждому чанку следующую информацию:

🔸Название статьи

🔸Номер страницы

🔸Заголовок секции, к которой относится абзац

🔸Ключевые слова или теги, содержащиеся в абзаце

🔸Одно предложение, кратко резюмирующее содержание абзаца

Этот дополнительный контекст делает эмбеддинг гораздо богаче и значительно повышает его полезность при извлечении.

Эту метаинформацию можно либо извлекать автоматически, либо генерировать с помощью LLM.

Это дополнительный шаг. Если вы только начинаете внедрять RAG, можно пока его пропустить. Но как только у вас заработает базовая версия — обязательно реализуйте это улучшение.

Вы больше не захотите работать по-другому.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
16👍2
Самый быстрый движок для сервинга LLM

LMCache — это движок для сервинга LLM, разработанный для минимизации time-to-first-token и повышения throughput, особенно в сценариях с длинным контекстом.

Он ускоряет vLLM, обеспечивая в 7 раз более быстрый доступ к кэшу ключей/значений (KV cache) и поддерживая объём в 100 раз больше.

Полностью опенсорс: https://github.com/LMCache/LMCache

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍3
Microsoft недавно выпустили бесплатный курс по созданию AI-агентов.

В нем 11 уроков с теорией, примерами кода на Python, заданиями и ссылками на доп. материалы

https://github.com/microsoft/ai-agents-for-beginners/tree/main

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍6
Комбинация из трёх курсов, охватывающих важную математику для ML и DL.

Основное внимание уделяется теоретическим концепциям, сопровождаемым качественными разобранными задачами.

https://www.youtube.com/watch?v=0z6AhrOSrRs

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
14👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Этот репозиторий на GitHub — настоящая находка для каждого дата-сайентиста

Интерактивный Python-репозиторий по DS содержит дашборды для изучения статистики, ML-моделей и других ключевых концепций Data Science.

В темах: PCA, bagging и boosting, кластеризация, нейросети и многое другое.

Полностью опенсорс и бесплатный: https://github.com/GeostatsGuy/DataScienceInteractivePython

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
15👍4
E-CUP возвращается. Реальные данные. Масштабные проекты. Большие призы

Решайте ML-задачи в стиле Ozon Tech и узнайте, как работают ML-инженеры в e-com бигтехе. Девять победителей разделят призовой фонд — 7 200 000 рублей 🔥

🗓 Регистрация: https://cnrlink.com/ecup25dataportal
💻 Формат участия: онлайн
👥 Команда: от 1 до 5 человек
🎯 Для кого: Data Scientists, ML-специалисты, аналитики данных, дата-инженеры, специалисты Big Data и разработчики, которые интересуются ML/DS.

Что вас ждёт:
🔹 Работа над проектом для миллионов пользователей на основе данных от ведущего e-com в России.
🔹 Обмен опытом с экспертами Ozon Tech.
🔹 Питчинг — 13 сентября на конференции E-CODE. Ozon Tech предоставит финалистам билеты и оплатит поездку.

Каждый трек E-CUP — реальная e-com задача, как в настоящей продуктовой ML-команде.
1️⃣ Рекомендации: предсказание следующей покупки пользователя
2️⃣ Логистика: автопланирование курьеров
3️⃣ Контроль качества: автоматическое выявление поддельных товаров

Регистрация на платформе Codenrock: https://cnrlink.com/ecup25dataportal
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Если вы действительно хотите понять, как работают LLM-модели, попробуйте реализовать свою собственную с нуля.

И именно этим вы займётесь в этом курсе: соберёте LLM, похожую на Llama 4, с нуля.

Вы создадите токенизатор, разберётесь с механизмом внимания, углубитесь в Rotary Positional Embeddings и многое другое

https://www.freecodecamp.org/news/code-your-own-llama-4-llm-from-scratch/

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Фреймворк для подключения любого LLM к любому MCP-серверу (опенсорс).

mcp-use позволяет подключать любую LLM к любому MCP-серверу и создавать кастомные MCP-агенты — без необходимости использовать проприетарные решения вроде Cursor или Claude

Совместим с Ollama, LangChain и другими.

GitHub репозиторий → https://github.com/mcp-use/mcp-use

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥2👍1