Data Portal | Data Science & Машиннное обучение
8.56K subscribers
116 photos
39 videos
4 files
153 links
Присоединяйтесь к нашему каналу и погрузитесь в мир для дата сайентиста

Связь: @devmangx
Download Telegram
Если тебе нравится разрабатывать всё с нуля — думаю, тебе зайдёт проект MiniTorch.

В нём мы учимся реализовывать API в стиле Torch так, чтобы он был полностью совместим с кодом на Torch и мог исполнять этот код

Сайт проекта: https://minitorch.github.io
YouTube: тык

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62👀2
Forwarded from IT Portal
This media is not supported in your browser
VIEW IN TELEGRAM
Откопал LeetCode для Data Science

DataLemur — мощная платформа, где собраны реальные задачки с собесов в Tesla, Facebook, Twitter, Microsoft и других топовых компаниях

Внутри: практические задания по SQL, статистике, Python и ML. Можно фильтровать по уровню сложности и компании

Топчик для тех, кто готовится к собесам на роли Data Scientist / Data Analyst. Забираем здесь 🍯

@IT_Portal
17👍5🔥4
Apple выкатили мощный опенсорс-инструмент для визуализации эмбеддингов — Embedding Atlas — и он неожиданно крут для всех, кто работает с большими датасетами текст + метаданные

Это очень напоминает Atlas от Nomic, но до него я так и не дошёл 😅

Тут у нас: поиск в реальном времени, рендеринг миллионов точек и автоматическая кластеризация с автолейблингом.

В одном из примеров они визуализируют ~200 000 отзывов на вино, используя эмбеддинги + метаданные вроде цены, страны и дегустационных заметок. И всё это летает даже в браузере, никакого дополнительного кода!

Инструмент закрывает ровно те потребности, которые большинство LLM-разработчиков обычно колхозят вручную:

- UMAP-проекции
- Фасетный поиск по метаданным (например, «страна vs. цена»)
- Ховер + тултип по сырым точкам
- Интерактивные фильтры, гистограммы и оверлеи кластеров
- Кросс-линк между scatterplot и таблицей

Под капотом:
• Быстрый рендер через WebGPU (с фолбеком на WebGL)
• Поиск по семантической близости в пространстве эмбеддингов
• Контуры плотности (kernel density) для поиска кластеров и аномалий

Всё просто: загружаешь .jsonl или .csv с текстом + вектором + метаданными — остальное он сделает сам: кластеризация, автолейблы, UI-лейаут и всё остальное.

По ощущениям, это как Tableau, но LLM-нативный — заточенный под текст, чат и современные дата-задачи.

Если вы делаете RAG-оценку, тюнинг поиска, объяснимость кластеризации или даже аудит датасетов, то это может стать вашим новым любимым инструментом.

https://apple.github.io/embedding-atlas/overview.html

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍104
Microsoft обновила годный курс по генеративному ИИ

Бесплатный курс из 21 урока доступен на Github и обучит всему необходимому для начала разработки приложений с генеративным ИИ

https://github.com/microsoft/generative-ai-for-beginners

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥93👍1
Отслеживайте и оценивайте любое LLM-приложение всего одним декоратором

DeepEval позволяет трейсить и оценивать LLM-приложения на уровне отдельных компонентов.

Это помогает выявлять узкие места и эффективнее оптимизировать сложные пайплайны.

Полностью опенсорс: https://github.com/confident-ai/deepeval

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍2
Бесплатные Google Colab-ноутбуки для реализации каждого алгоритма машинного обучения с нуля

https://udlbook.github.io/udlbook/

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍2
Изучайте Data Science через реальные задачи — погружаемся в мир ИИ, машинного обучения и Python на практическом бесплатном мини-курсе!

Этот мини-курс поможет прокачать понимание Data Science, если вы уже немного в теме:
— Узнаете, как автоматизировать задачи с помощью нейросетей и использовать их в реальных задачах
— Попробуете себя в роли ML-инженера, аналитика и дата-инженера
— Научитесь визуализировать данные и писать простой код на Python
— На практике создадите чат-бота и нейросеть

Регистрируйтесь: https://epic.st/Fi8-CK?erid=2VtzqwfaPww

🔥 Бонус: откроем доступ к записям конференции по нейросетям после первого урока. Узнаете, как использовать ИИ в работе и жизни.

🎁 А ещё будут подарки: сертификат на скидку 10 000 рублей на любой курс, гайд «Как пользоваться ChatGPT и Midjourney» и подборка полезных материалов.
🤔1
Каждый повторный вызов LLM — это просто сжигание денег

Обычный кэш тут не поможет, если только промпт не совпадает дословно.

Redis 8 меняет правила игры с семантическим кэшированием, которое понимает смысл, а не только ключ.

LangCache + Vector Sets + Redis Flex = быстрее, дешевле, умнее

Полный разбор:
https://newsletter.systemdesignclassroom.com/p/every-repeated-llm-call-is-money-on-fire

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍2
Фреймворк для создания мультиагентных AI-систем в Telegram, готовый к запуску с минимальными настройками

evi-run подходит для создания AI-ассистентов, виртуальных персонажей, автоматизированной службы поддержки, аналитиков данных, торговых агентов на DEX и других кастомных мультиагентных систем

Архитектура построена на Python, OpenAI Agents SDK, Telegram Bot API, PostgreSQL и Redis. Deploy через Docker за 5 минут

GitHub репозиторий → https://github.com/pipedude/evi-run

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Google выложили в опенсорс Python-библиотеку LangExtract!

Она использует LLM для извлечения сущностей, атрибутов и связей, с точной привязкой к источнику, из неструктурированных документов.

Поддержка любых LLM (Gemini, OpenAI, Ollama).

https://github.com/google/langextract

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Иллюстрированное руководство об AI-агентах в одном PDF

В нём:

🔸Основы работы агентов
🔸LLM vs RAG vs агенты
🔸Паттерны проектирования агентов
🔸Базовые компоненты агентов
🔸Создание кастомных инструментов через MCP
🔸12 практических проектов для AI-инженеров

https://drive.google.com/file/d/1Th8mN_IF7Ttc8bI_OLtUuQ7Mjx3aJ6Hi/view

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥63
Это один из самых впечатляющих технических блогпостов, которые я читал в последнее время: построение веб-поисковика с нуля за два месяца с 3 миллиардами нейронных эмбеддингов

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍2🏆1👀1
📘 На Stepik вышел курс — «LangChain: с нуля до продакшн LLM-приложений»

Нужен не игрушечный бот, а воспроизводимый RAG-пайплайн с метриками и сервисом? Этот курс — про путь «ноутбук → FastAPI → прод».

🔍 Что вы получите
• RAG по PDF с цитированием источников и гибридным поиском (BM25 + вектор + rerank); контроль галлюцинаций через метрики (precision/recall@K, citation-rate)
• Инструменты и агенты для анализа данных: Pandas-задачи, структурированный JSON-вывод под отчёты/дашборды
• Продакшн-контур: FastAPI-сервис, логирование латентности/токенов, PromptOps (версии/A/B), базовый SLA-мониторинг

🎓 Сертификат по завершении — можно добавить в резюме или LinkedIn

🚀 Начните сегодня и получите скидку 25% в течение 72 часов

👉 Пройти курс на Stepik
3👍3🔥2😁2👎1
Создай свою собственную модель ИИ

Этот репозиторий содержит код для разработки, предобучения и fine-tuning’а LLM наподобие GPT с нуля: https://github.com/rasbt/LLMs-from-scratch

Недавно там появился новый раздел: Gemma 3 с нуля

Является официальным репозиторием к книге Build a Large Language Model (From Scratch).

👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍2