Data Portal | Data Science & Машиннное обучение
8.56K subscribers
112 photos
39 videos
4 files
150 links
Присоединяйтесь к нашему каналу и погрузитесь в мир для дата сайентиста

Связь: @devmangx
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
О, занятно. Знал ли ты, что есть библиотека на Python под названием Pix2TeX, которая умеет превращать изображения с формулами в LaTeX-код?

Ссылка на репозиторий GitHub: https://github.com/lukas-blecher/LaTeX-OCR

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
25👍10🔥4😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Движок RAG для глубокого понимания документов

RAGFlow позволяет создавать корпоративного уровня RAG-воркфлоу для работы со сложными документами с обоснованными цитированиями.

Поддерживает мультимодальное понимание данных, веб-поиск, глубокие исследования и т.д.

Полностью локальный и с открытым исходным кодом, более 55 тысяч звёзд на GitHub

https://github.com/infiniflow/ragflow

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
👍104
End-to-end проект по машинному обучению

Нашёл годный пошаговый гайд по ML-проекту.

Он начинается с базового EDA и обучает интеграции с MLOps с использованием таких инструментов, как ZenML и MLflow для отслеживания экспериментов и деплоймента.

https://www.youtube.com/watch?si=CoFmlaniXlD17UHz&v=o6vbe5G7xNo&feature=youtu.be

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
13👍5😁1🤔1
AI-агенты наконец-то могут взаимодействовать с вашим фронтендом

Протокол AG-UI устраняет критически важный разрыв между AI-агентами и фронтенд-приложениями, обеспечивая бесшовное взаимодействие между человеком и агентом.

MCP: от агентов к инструментам
A2A: от агентов к агентам
AG-UI: от агентов к пользователям

Полностью с открытым исходным кодом. Вот официальный репозиторий AG-UI от CopilotKit на GitHub

Прикрепляю отличную иллюстрацию того, как это работает

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍73
У Microsoft вышел бесплатный курс по MCP для начинающих с 10 практическими лабораторными работами

Изучайте основы MCP на практике с примерами на .NET, Java, TypeScript, JavaScript и Python в среде VS Code. Все структурно и доступно на 40+ языках мира (есть русский, но машинный перевод)

https://github.com/microsoft/mcp-for-beginners/

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Этот репозиторий с туториалами по AI-агентам недавно преодолел отметку в 45 тысяч звёзд на GitHub.

Он полностью опенсорсный и содержит более 75 пошаговых гайдов по AI-агентам и RAG.

10 классных AI-агентов, а также туториалы по MCP и RAG:

https://github.com/Shubhamsaboo/awesome-llm-apps

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
14👍2
10 репозиториев на GitHub, которые помогут вам начать карьеру AI-инженера (полностью бесплатно): Ссылки:

🔸ML для начинающих: http://github.com/microsoft/ML-For-Beginners

🔸AI для начинающих: http://github.com/microsoft/AI-For-Beginners

🔸Нейросети с нуля до профи: http://github.com/karpathy/nn-zero-to-hero

🔸Имплементации статей: http://github.com/labmlai

🔸Сделано с использованием ML: http://github.com/GokuMohandas/Made-With-ML

🔸Практика с LLM: http://github.com/HandsOnLLM

🔸Продвинутые техники RAG: http://github.com/NirDiamant

🔸Агенты для начинающих: http://github.com/microsoft/ai-agents-for-beginners

🔸Агенты на пути к продакшену: http://github.com/NirDiamant

🔸Хаб AI-инженера: http://github.com/patchy631/ai-engineering-hub

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
18👍5
Нашёл бесплатную книгу на Arxiv — "Pen and Paper Exercises in Machine Learning"

Книга на 200+ страниц с более чем 75 заданиями — отличный способ освежить знания по Python и теоретическим аспектам машинного обучения.

https://arxiv.org/pdf/2206.13446

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍5
This media is not supported in your browser
VIEW IN TELEGRAM
Крутейший иллюстрированный гайд по MCP

74 страницы, охватывающие основы, решаемые задачи, архитектуру, инструменты, промпты и 11 практических проектов

Бесплатно. Забираем отсюда

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍4
Это делает ваше RAG-приложение в 10 раз лучше

Большинство людей, которых я знаю, просто разбивают документы на чанки и строят эмбеддинги для этих фрагментов.

Но создавать действительно хорошие чанки — сложно. Идеального способа нет, но есть простой приём, который значительно улучшает качество чанков.

Добавьте к каждому чанку дополнительную метаинформацию.

Например, вы работаете с научными статьями. Каждый чанк — это всего лишь абзац, но сам по себе он часто оказывается слишком размытым.

Вместо того чтобы использовать только абзац, я добавляю к каждому чанку следующую информацию:

🔸Название статьи

🔸Номер страницы

🔸Заголовок секции, к которой относится абзац

🔸Ключевые слова или теги, содержащиеся в абзаце

🔸Одно предложение, кратко резюмирующее содержание абзаца

Этот дополнительный контекст делает эмбеддинг гораздо богаче и значительно повышает его полезность при извлечении.

Эту метаинформацию можно либо извлекать автоматически, либо генерировать с помощью LLM.

Это дополнительный шаг. Если вы только начинаете внедрять RAG, можно пока его пропустить. Но как только у вас заработает базовая версия — обязательно реализуйте это улучшение.

Вы больше не захотите работать по-другому.

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
17👍3
Самый быстрый движок для сервинга LLM

LMCache — это движок для сервинга LLM, разработанный для минимизации time-to-first-token и повышения throughput, особенно в сценариях с длинным контекстом.

Он ускоряет vLLM, обеспечивая в 7 раз более быстрый доступ к кэшу ключей/значений (KV cache) и поддерживая объём в 100 раз больше.

Полностью опенсорс: https://github.com/LMCache/LMCache

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍4
Microsoft недавно выпустили бесплатный курс по созданию AI-агентов.

В нем 11 уроков с теорией, примерами кода на Python, заданиями и ссылками на доп. материалы

https://github.com/microsoft/ai-agents-for-beginners/tree/main

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍7
Комбинация из трёх курсов, охватывающих важную математику для ML и DL.

Основное внимание уделяется теоретическим концепциям, сопровождаемым качественными разобранными задачами.

https://www.youtube.com/watch?v=0z6AhrOSrRs

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
16👍6
This media is not supported in your browser
VIEW IN TELEGRAM
Этот репозиторий на GitHub — настоящая находка для каждого дата-сайентиста

Интерактивный Python-репозиторий по DS содержит дашборды для изучения статистики, ML-моделей и других ключевых концепций Data Science.

В темах: PCA, bagging и boosting, кластеризация, нейросети и многое другое.

Полностью опенсорс и бесплатный: https://github.com/GeostatsGuy/DataScienceInteractivePython

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
16👍5
Если вы действительно хотите понять, как работают LLM-модели, попробуйте реализовать свою собственную с нуля.

И именно этим вы займётесь в этом курсе: соберёте LLM, похожую на Llama 4, с нуля.

Вы создадите токенизатор, разберётесь с механизмом внимания, углубитесь в Rotary Positional Embeddings и многое другое

https://www.freecodecamp.org/news/code-your-own-llama-4-llm-from-scratch/

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Фреймворк для подключения любого LLM к любому MCP-серверу (опенсорс).

mcp-use позволяет подключать любую LLM к любому MCP-серверу и создавать кастомные MCP-агенты — без необходимости использовать проприетарные решения вроде Cursor или Claude

Совместим с Ollama, LangChain и другими.

GitHub репозиторий → https://github.com/mcp-use/mcp-use

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥2👍1
Двое из самых годных авторов [3blue1brown и welch labs] выложили совместное видео

Потрясающее разложение диффузионных моделей: наглядно, интуитивно, элегантно

Есть русские субтитры

40 минут кайфа тут: https://youtu.be/iv-5mZ_9CPY

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
16👍6