Если тебе нравится разрабатывать всё с нуля — думаю, тебе зайдёт проект MiniTorch.
В нём мы учимся реализовывать API в стиле Torch так, чтобы он был полностью совместим с кодом на Torch и мог исполнять этот код
Сайт проекта: https://minitorch.github.io
YouTube: тык
👉 @DataSciencegx
В нём мы учимся реализовывать API в стиле Torch так, чтобы он был полностью совместим с кодом на Torch и мог исполнять этот код
Сайт проекта: https://minitorch.github.io
YouTube: тык
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤2👀2
Forwarded from IT Portal
This media is not supported in your browser
VIEW IN TELEGRAM
Откопал LeetCode для Data Science
DataLemur — мощная платформа, где собраны реальные задачки с собесов в Tesla, Facebook, Twitter, Microsoft и других топовых компаниях
Внутри: практические задания по SQL, статистике, Python и ML. Можно фильтровать по уровню сложности и компании
Топчик для тех, кто готовится к собесам на роли Data Scientist / Data Analyst. Забираем здесь 🍯
@IT_Portal
DataLemur — мощная платформа, где собраны реальные задачки с собесов в Tesla, Facebook, Twitter, Microsoft и других топовых компаниях
Внутри: практические задания по SQL, статистике, Python и ML. Можно фильтровать по уровню сложности и компании
Топчик для тех, кто готовится к собесам на роли Data Scientist / Data Analyst. Забираем здесь 🍯
@IT_Portal
❤17👍5🔥4
Apple выкатили мощный опенсорс-инструмент для визуализации эмбеддингов — Embedding Atlas — и он неожиданно крут для всех, кто работает с большими датасетами текст + метаданные
Это очень напоминает Atlas от Nomic, но до него я так и не дошёл😅
Тут у нас: поиск в реальном времени, рендеринг миллионов точек и автоматическая кластеризация с автолейблингом.
В одном из примеров они визуализируют ~200 000 отзывов на вино, используя эмбеддинги + метаданные вроде цены, страны и дегустационных заметок. И всё это летает даже в браузере, никакого дополнительного кода!
Инструмент закрывает ровно те потребности, которые большинство LLM-разработчиков обычно колхозят вручную:
- UMAP-проекции
- Фасетный поиск по метаданным (например, «страна vs. цена»)
- Ховер + тултип по сырым точкам
- Интерактивные фильтры, гистограммы и оверлеи кластеров
- Кросс-линк между scatterplot и таблицей
Под капотом:
• Быстрый рендер через WebGPU (с фолбеком на WebGL)
• Поиск по семантической близости в пространстве эмбеддингов
• Контуры плотности (kernel density) для поиска кластеров и аномалий
Всё просто: загружаешь
По ощущениям, это как Tableau, но LLM-нативный — заточенный под текст, чат и современные дата-задачи.
Если вы делаете RAG-оценку, тюнинг поиска, объяснимость кластеризации или даже аудит датасетов, то это может стать вашим новым любимым инструментом.
https://apple.github.io/embedding-atlas/overview.html
👉 @DataSciencegx
Это очень напоминает Atlas от Nomic, но до него я так и не дошёл
Тут у нас: поиск в реальном времени, рендеринг миллионов точек и автоматическая кластеризация с автолейблингом.
В одном из примеров они визуализируют ~200 000 отзывов на вино, используя эмбеддинги + метаданные вроде цены, страны и дегустационных заметок. И всё это летает даже в браузере, никакого дополнительного кода!
Инструмент закрывает ровно те потребности, которые большинство LLM-разработчиков обычно колхозят вручную:
- UMAP-проекции
- Фасетный поиск по метаданным (например, «страна vs. цена»)
- Ховер + тултип по сырым точкам
- Интерактивные фильтры, гистограммы и оверлеи кластеров
- Кросс-линк между scatterplot и таблицей
Под капотом:
• Быстрый рендер через WebGPU (с фолбеком на WebGL)
• Поиск по семантической близости в пространстве эмбеддингов
• Контуры плотности (kernel density) для поиска кластеров и аномалий
Всё просто: загружаешь
.jsonl
или .csv
с текстом + вектором + метаданными — остальное он сделает сам: кластеризация, автолейблы, UI-лейаут и всё остальное.По ощущениям, это как Tableau, но LLM-нативный — заточенный под текст, чат и современные дата-задачи.
Если вы делаете RAG-оценку, тюнинг поиска, объяснимость кластеризации или даже аудит датасетов, то это может стать вашим новым любимым инструментом.
https://apple.github.io/embedding-atlas/overview.html
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤4
Microsoft обновила годный курс по генеративному ИИ
Бесплатный курс из 21 урока доступен на Github и обучит всему необходимому для начала разработки приложений с генеративным ИИ
https://github.com/microsoft/generative-ai-for-beginners
👉 @DataSciencegx
Бесплатный курс из 21 урока доступен на Github и обучит всему необходимому для начала разработки приложений с генеративным ИИ
https://github.com/microsoft/generative-ai-for-beginners
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9❤3👍1
Отслеживайте и оценивайте любое LLM-приложение всего одним декоратором
DeepEval позволяет трейсить и оценивать LLM-приложения на уровне отдельных компонентов.
Это помогает выявлять узкие места и эффективнее оптимизировать сложные пайплайны.
Полностью опенсорс: https://github.com/confident-ai/deepeval
👉 @DataSciencegx
DeepEval позволяет трейсить и оценивать LLM-приложения на уровне отдельных компонентов.
Это помогает выявлять узкие места и эффективнее оптимизировать сложные пайплайны.
Полностью опенсорс: https://github.com/confident-ai/deepeval
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍2
Бесплатные Google Colab-ноутбуки для реализации каждого алгоритма машинного обучения с нуля
https://udlbook.github.io/udlbook/
👉 @DataSciencegx
https://udlbook.github.io/udlbook/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍2
Каждый повторный вызов LLM — это просто сжигание денег
Обычный кэш тут не поможет, если только промпт не совпадает дословно.
Redis 8 меняет правила игры с семантическим кэшированием, которое понимает смысл, а не только ключ.
LangCache + Vector Sets + Redis Flex = быстрее, дешевле, умнее
Полный разбор:
https://newsletter.systemdesignclassroom.com/p/every-repeated-llm-call-is-money-on-fire
👉 @DataSciencegx
Обычный кэш тут не поможет, если только промпт не совпадает дословно.
Redis 8 меняет правила игры с семантическим кэшированием, которое понимает смысл, а не только ключ.
LangCache + Vector Sets + Redis Flex = быстрее, дешевле, умнее
Полный разбор:
https://newsletter.systemdesignclassroom.com/p/every-repeated-llm-call-is-money-on-fire
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍2
Фреймворк для создания мультиагентных AI-систем в Telegram, готовый к запуску с минимальными настройками
evi-run подходит для создания AI-ассистентов, виртуальных персонажей, автоматизированной службы поддержки, аналитиков данных, торговых агентов на DEX и других кастомных мультиагентных систем
Архитектура построена на Python, OpenAI Agents SDK, Telegram Bot API, PostgreSQL и Redis. Deploy через Docker за 5 минут
GitHub репозиторий → https://github.com/pipedude/evi-run
👉 @DataSciencegx
evi-run подходит для создания AI-ассистентов, виртуальных персонажей, автоматизированной службы поддержки, аналитиков данных, торговых агентов на DEX и других кастомных мультиагентных систем
Архитектура построена на Python, OpenAI Agents SDK, Telegram Bot API, PostgreSQL и Redis. Deploy через Docker за 5 минут
GitHub репозиторий → https://github.com/pipedude/evi-run
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4❤2👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Google выложили в опенсорс Python-библиотеку LangExtract!
Она использует LLM для извлечения сущностей, атрибутов и связей, с точной привязкой к источнику, из неструктурированных документов.
Поддержка любых LLM (Gemini, OpenAI, Ollama).
https://github.com/google/langextract
👉 @DataSciencegx
Она использует LLM для извлечения сущностей, атрибутов и связей, с точной привязкой к источнику, из неструктурированных документов.
Поддержка любых LLM (Gemini, OpenAI, Ollama).
https://github.com/google/langextract
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Иллюстрированное руководство об AI-агентах в одном PDF
В нём:
🔸 Основы работы агентов
🔸 LLM vs RAG vs агенты
🔸 Паттерны проектирования агентов
🔸 Базовые компоненты агентов
🔸 Создание кастомных инструментов через MCP
🔸 12 практических проектов для AI-инженеров
https://drive.google.com/file/d/1Th8mN_IF7Ttc8bI_OLtUuQ7Mjx3aJ6Hi/view
👉 @DataSciencegx
В нём:
https://drive.google.com/file/d/1Th8mN_IF7Ttc8bI_OLtUuQ7Mjx3aJ6Hi/view
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤3👍1
Это один из самых впечатляющих технических блогпостов, которые я читал в последнее время: построение веб-поисковика с нуля за два месяца с 3 миллиардами нейронных эмбеддингов
👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍2🏆1👀1
📘 На Stepik вышел курс — «LangChain: с нуля до продакшн LLM-приложений»
Нужен не игрушечный бот, а воспроизводимый RAG-пайплайн с метриками и сервисом? Этот курс — про путь «ноутбук → FastAPI → прод».
🔍 Что вы получите
• RAG по PDF с цитированием источников и гибридным поиском (BM25 + вектор + rerank); контроль галлюцинаций через метрики (precision/recall@K, citation-rate)
• Инструменты и агенты для анализа данных: Pandas-задачи, структурированный JSON-вывод под отчёты/дашборды
• Продакшн-контур: FastAPI-сервис, логирование латентности/токенов, PromptOps (версии/A/B), базовый SLA-мониторинг
🎓 Сертификат по завершении — можно добавить в резюме или LinkedIn
🚀 Начните сегодня и получите скидку 25% в течение 72 часов
👉 Пройти курс на Stepik
Нужен не игрушечный бот, а воспроизводимый RAG-пайплайн с метриками и сервисом? Этот курс — про путь «ноутбук → FastAPI → прод».
🔍 Что вы получите
• RAG по PDF с цитированием источников и гибридным поиском (BM25 + вектор + rerank); контроль галлюцинаций через метрики (precision/recall@K, citation-rate)
• Инструменты и агенты для анализа данных: Pandas-задачи, структурированный JSON-вывод под отчёты/дашборды
• Продакшн-контур: FastAPI-сервис, логирование латентности/токенов, PromptOps (версии/A/B), базовый SLA-мониторинг
🎓 Сертификат по завершении — можно добавить в резюме или LinkedIn
🚀 Начните сегодня и получите скидку 25% в течение 72 часов
👉 Пройти курс на Stepik
❤3👍3🔥2😁2👎1
Создай свою собственную модель ИИ
Этот репозиторий содержит код для разработки, предобучения и fine-tuning’а LLM наподобие GPT с нуля: https://github.com/rasbt/LLMs-from-scratch
Недавно там появился новый раздел: Gemma 3 с нуля
Является официальным репозиторием к книге Build a Large Language Model (From Scratch).
👉 @DataSciencegx
Этот репозиторий содержит код для разработки, предобучения и fine-tuning’а LLM наподобие GPT с нуля: https://github.com/rasbt/LLMs-from-scratch
Недавно там появился новый раздел: Gemma 3 с нуля
Является официальным репозиторием к книге Build a Large Language Model (From Scratch).
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍3
Forwarded from IT Portal
Media is too big
VIEW IN TELEGRAM
Нашёл крутейшую платформу для подготовки к DS-собесам
Внутри: 1000+ реальных интервью-вопросов от Facebook, Google, Amazon, Microsoft и других топовых компаний. Практика по SQL, Python, R, статистике, алгоритмам, product sense и даже system design
Есть встроенный IDE с датасетами, где можно сразу писать и валидировать код. База регулярно обновляется
Бесплатно доступно 75 кодинг-задач, 600 вопросов и 50 тестовых заданий. Забираем здесь 🍯
@IT_Portal
Внутри: 1000+ реальных интервью-вопросов от Facebook, Google, Amazon, Microsoft и других топовых компаний. Практика по SQL, Python, R, статистике, алгоритмам, product sense и даже system design
Есть встроенный IDE с датасетами, где можно сразу писать и валидировать код. База регулярно обновляется
Бесплатно доступно 75 кодинг-задач, 600 вопросов и 50 тестовых заданий. Забираем здесь 🍯
@IT_Portal
🔥4❤3
Каналы с Junior IT вакансиями
и стажировками
Подписывайся и забирай свой оффер
1. IT вакансии по СНГ
2. Стажировки и вакансии по России и миру
3. IT стажировки и волонтерства
4. IT стажировки по СНГ
5. IT стажировки в топовых компаниях мира
6. Удалённые IT вакансии и стажировки
7. Python вакансии и стажировки
8. БИГТЕХ вакансии и стажировки
9. Design вакансии и стажировки
10. QA вакансии и стажировки
11. Junior вакансии и стажировки
12. Frontend вакансии и вопросы собесов
13. Вакансии и стажировки для аналитиков
14. Вакансии в русских стартапах за границей
15. Вакансии и стажировки для DevOps
16. Вакансии, которых нет на ХХ.РУ
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Рецептивное поле в CNN, или как нейросети «видят»
В сверточных нейронных сетях (Convolutional Neural Networks, CNN) рецептивное поле — это область входного изображения, с которой работает конкретный нейрон. Оно соответствует максимальной области, которую сеть способна обработать.
Иными словами, рецептивное поле определяет ту часть изображения, которую нейрон «видит» при выполнении вычислений. По мере того как в CNN наслаиваются новые уровни, рецептивное поле увеличивается, и более глубокие слои могут захватывать более сложные паттерны на больших фрагментах изображения.
👉 @DataSciencegx
В сверточных нейронных сетях (Convolutional Neural Networks, CNN) рецептивное поле — это область входного изображения, с которой работает конкретный нейрон. Оно соответствует максимальной области, которую сеть способна обработать.
Иными словами, рецептивное поле определяет ту часть изображения, которую нейрон «видит» при выполнении вычислений. По мере того как в CNN наслаиваются новые уровни, рецептивное поле увеличивается, и более глубокие слои могут захватывать более сложные паттерны на больших фрагментах изображения.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Все недооценивают эту новую OCR-модель
dots-ocr — это новая vision-language модель с 1.7B параметров, которая показывает SOTA-результаты в мультиязычном парсинге документов
- Поддержка 100+ языков
- Работает как с изображениями, так и с PDF
- Без проблем обрабатывает текст, таблицы и формулы
Полностью опенсорс:
https://github.com/rednote-hilab/dots.ocr
👉 @DataSciencegx
dots-ocr — это новая vision-language модель с 1.7B параметров, которая показывает SOTA-результаты в мультиязычном парсинге документов
- Поддержка 100+ языков
- Работает как с изображениями, так и с PDF
- Без проблем обрабатывает текст, таблицы и формулы
Полностью опенсорс:
https://github.com/rednote-hilab/dots.ocr
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍2