Если тебе нравится разрабатывать всё с нуля — думаю, тебе зайдёт проект MiniTorch.
В нём мы учимся реализовывать API в стиле Torch так, чтобы он был полностью совместим с кодом на Torch и мог исполнять этот код
Сайт проекта: https://minitorch.github.io
YouTube: тык
👉 @DataSciencegx
В нём мы учимся реализовывать API в стиле Torch так, чтобы он был полностью совместим с кодом на Torch и мог исполнять этот код
Сайт проекта: https://minitorch.github.io
YouTube: тык
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤2👀2
Forwarded from IT Portal
This media is not supported in your browser
VIEW IN TELEGRAM
Откопал LeetCode для Data Science
DataLemur — мощная платформа, где собраны реальные задачки с собесов в Tesla, Facebook, Twitter, Microsoft и других топовых компаниях
Внутри: практические задания по SQL, статистике, Python и ML. Можно фильтровать по уровню сложности и компании
Топчик для тех, кто готовится к собесам на роли Data Scientist / Data Analyst. Забираем здесь 🍯
@IT_Portal
DataLemur — мощная платформа, где собраны реальные задачки с собесов в Tesla, Facebook, Twitter, Microsoft и других топовых компаниях
Внутри: практические задания по SQL, статистике, Python и ML. Можно фильтровать по уровню сложности и компании
Топчик для тех, кто готовится к собесам на роли Data Scientist / Data Analyst. Забираем здесь 🍯
@IT_Portal
❤17👍5🔥4
Apple выкатили мощный опенсорс-инструмент для визуализации эмбеддингов — Embedding Atlas — и он неожиданно крут для всех, кто работает с большими датасетами текст + метаданные
Это очень напоминает Atlas от Nomic, но до него я так и не дошёл😅
Тут у нас: поиск в реальном времени, рендеринг миллионов точек и автоматическая кластеризация с автолейблингом.
В одном из примеров они визуализируют ~200 000 отзывов на вино, используя эмбеддинги + метаданные вроде цены, страны и дегустационных заметок. И всё это летает даже в браузере, никакого дополнительного кода!
Инструмент закрывает ровно те потребности, которые большинство LLM-разработчиков обычно колхозят вручную:
- UMAP-проекции
- Фасетный поиск по метаданным (например, «страна vs. цена»)
- Ховер + тултип по сырым точкам
- Интерактивные фильтры, гистограммы и оверлеи кластеров
- Кросс-линк между scatterplot и таблицей
Под капотом:
• Быстрый рендер через WebGPU (с фолбеком на WebGL)
• Поиск по семантической близости в пространстве эмбеддингов
• Контуры плотности (kernel density) для поиска кластеров и аномалий
Всё просто: загружаешь
По ощущениям, это как Tableau, но LLM-нативный — заточенный под текст, чат и современные дата-задачи.
Если вы делаете RAG-оценку, тюнинг поиска, объяснимость кластеризации или даже аудит датасетов, то это может стать вашим новым любимым инструментом.
https://apple.github.io/embedding-atlas/overview.html
👉 @DataSciencegx
Это очень напоминает Atlas от Nomic, но до него я так и не дошёл
Тут у нас: поиск в реальном времени, рендеринг миллионов точек и автоматическая кластеризация с автолейблингом.
В одном из примеров они визуализируют ~200 000 отзывов на вино, используя эмбеддинги + метаданные вроде цены, страны и дегустационных заметок. И всё это летает даже в браузере, никакого дополнительного кода!
Инструмент закрывает ровно те потребности, которые большинство LLM-разработчиков обычно колхозят вручную:
- UMAP-проекции
- Фасетный поиск по метаданным (например, «страна vs. цена»)
- Ховер + тултип по сырым точкам
- Интерактивные фильтры, гистограммы и оверлеи кластеров
- Кросс-линк между scatterplot и таблицей
Под капотом:
• Быстрый рендер через WebGPU (с фолбеком на WebGL)
• Поиск по семантической близости в пространстве эмбеддингов
• Контуры плотности (kernel density) для поиска кластеров и аномалий
Всё просто: загружаешь
.jsonl
или .csv
с текстом + вектором + метаданными — остальное он сделает сам: кластеризация, автолейблы, UI-лейаут и всё остальное.По ощущениям, это как Tableau, но LLM-нативный — заточенный под текст, чат и современные дата-задачи.
Если вы делаете RAG-оценку, тюнинг поиска, объяснимость кластеризации или даже аудит датасетов, то это может стать вашим новым любимым инструментом.
https://apple.github.io/embedding-atlas/overview.html
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤4
Microsoft обновила годный курс по генеративному ИИ
Бесплатный курс из 21 урока доступен на Github и обучит всему необходимому для начала разработки приложений с генеративным ИИ
https://github.com/microsoft/generative-ai-for-beginners
👉 @DataSciencegx
Бесплатный курс из 21 урока доступен на Github и обучит всему необходимому для начала разработки приложений с генеративным ИИ
https://github.com/microsoft/generative-ai-for-beginners
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9❤3👍1
Отслеживайте и оценивайте любое LLM-приложение всего одним декоратором
DeepEval позволяет трейсить и оценивать LLM-приложения на уровне отдельных компонентов.
Это помогает выявлять узкие места и эффективнее оптимизировать сложные пайплайны.
Полностью опенсорс: https://github.com/confident-ai/deepeval
👉 @DataSciencegx
DeepEval позволяет трейсить и оценивать LLM-приложения на уровне отдельных компонентов.
Это помогает выявлять узкие места и эффективнее оптимизировать сложные пайплайны.
Полностью опенсорс: https://github.com/confident-ai/deepeval
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍2
Бесплатные Google Colab-ноутбуки для реализации каждого алгоритма машинного обучения с нуля
https://udlbook.github.io/udlbook/
👉 @DataSciencegx
https://udlbook.github.io/udlbook/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍3
Каждый повторный вызов LLM — это просто сжигание денег
Обычный кэш тут не поможет, если только промпт не совпадает дословно.
Redis 8 меняет правила игры с семантическим кэшированием, которое понимает смысл, а не только ключ.
LangCache + Vector Sets + Redis Flex = быстрее, дешевле, умнее
Полный разбор:
https://newsletter.systemdesignclassroom.com/p/every-repeated-llm-call-is-money-on-fire
👉 @DataSciencegx
Обычный кэш тут не поможет, если только промпт не совпадает дословно.
Redis 8 меняет правила игры с семантическим кэшированием, которое понимает смысл, а не только ключ.
LangCache + Vector Sets + Redis Flex = быстрее, дешевле, умнее
Полный разбор:
https://newsletter.systemdesignclassroom.com/p/every-repeated-llm-call-is-money-on-fire
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍3
Фреймворк для создания мультиагентных AI-систем в Telegram, готовый к запуску с минимальными настройками
evi-run подходит для создания AI-ассистентов, виртуальных персонажей, автоматизированной службы поддержки, аналитиков данных, торговых агентов на DEX и других кастомных мультиагентных систем
Архитектура построена на Python, OpenAI Agents SDK, Telegram Bot API, PostgreSQL и Redis. Deploy через Docker за 5 минут
GitHub репозиторий → https://github.com/pipedude/evi-run
👉 @DataSciencegx
evi-run подходит для создания AI-ассистентов, виртуальных персонажей, автоматизированной службы поддержки, аналитиков данных, торговых агентов на DEX и других кастомных мультиагентных систем
Архитектура построена на Python, OpenAI Agents SDK, Telegram Bot API, PostgreSQL и Redis. Deploy через Docker за 5 минут
GitHub репозиторий → https://github.com/pipedude/evi-run
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4❤2👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Google выложили в опенсорс Python-библиотеку LangExtract!
Она использует LLM для извлечения сущностей, атрибутов и связей, с точной привязкой к источнику, из неструктурированных документов.
Поддержка любых LLM (Gemini, OpenAI, Ollama).
https://github.com/google/langextract
👉 @DataSciencegx
Она использует LLM для извлечения сущностей, атрибутов и связей, с точной привязкой к источнику, из неструктурированных документов.
Поддержка любых LLM (Gemini, OpenAI, Ollama).
https://github.com/google/langextract
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Иллюстрированное руководство об AI-агентах в одном PDF
В нём:
🔸 Основы работы агентов
🔸 LLM vs RAG vs агенты
🔸 Паттерны проектирования агентов
🔸 Базовые компоненты агентов
🔸 Создание кастомных инструментов через MCP
🔸 12 практических проектов для AI-инженеров
https://drive.google.com/file/d/1Th8mN_IF7Ttc8bI_OLtUuQ7Mjx3aJ6Hi/view
👉 @DataSciencegx
В нём:
https://drive.google.com/file/d/1Th8mN_IF7Ttc8bI_OLtUuQ7Mjx3aJ6Hi/view
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤3👍1
Это один из самых впечатляющих технических блогпостов, которые я читал в последнее время: построение веб-поисковика с нуля за два месяца с 3 миллиардами нейронных эмбеддингов
👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍2🏆1👀1
Создай свою собственную модель ИИ
Этот репозиторий содержит код для разработки, предобучения и fine-tuning’а LLM наподобие GPT с нуля: https://github.com/rasbt/LLMs-from-scratch
Недавно там появился новый раздел: Gemma 3 с нуля
Является официальным репозиторием к книге Build a Large Language Model (From Scratch).
👉 @DataSciencegx
Этот репозиторий содержит код для разработки, предобучения и fine-tuning’а LLM наподобие GPT с нуля: https://github.com/rasbt/LLMs-from-scratch
Недавно там появился новый раздел: Gemma 3 с нуля
Является официальным репозиторием к книге Build a Large Language Model (From Scratch).
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍3
Forwarded from IT Portal
Media is too big
VIEW IN TELEGRAM
Нашёл крутейшую платформу для подготовки к DS-собесам
Внутри: 1000+ реальных интервью-вопросов от Facebook, Google, Amazon, Microsoft и других топовых компаний. Практика по SQL, Python, R, статистике, алгоритмам, product sense и даже system design
Есть встроенный IDE с датасетами, где можно сразу писать и валидировать код. База регулярно обновляется
Бесплатно доступно 75 кодинг-задач, 600 вопросов и 50 тестовых заданий. Забираем здесь 🍯
@IT_Portal
Внутри: 1000+ реальных интервью-вопросов от Facebook, Google, Amazon, Microsoft и других топовых компаний. Практика по SQL, Python, R, статистике, алгоритмам, product sense и даже system design
Есть встроенный IDE с датасетами, где можно сразу писать и валидировать код. База регулярно обновляется
Бесплатно доступно 75 кодинг-задач, 600 вопросов и 50 тестовых заданий. Забираем здесь 🍯
@IT_Portal
🔥4❤3
This media is not supported in your browser
VIEW IN TELEGRAM
Рецептивное поле в CNN, или как нейросети «видят»
В сверточных нейронных сетях (Convolutional Neural Networks, CNN) рецептивное поле — это область входного изображения, с которой работает конкретный нейрон. Оно соответствует максимальной области, которую сеть способна обработать.
Иными словами, рецептивное поле определяет ту часть изображения, которую нейрон «видит» при выполнении вычислений. По мере того как в CNN наслаиваются новые уровни, рецептивное поле увеличивается, и более глубокие слои могут захватывать более сложные паттерны на больших фрагментах изображения.
👉 @DataSciencegx
В сверточных нейронных сетях (Convolutional Neural Networks, CNN) рецептивное поле — это область входного изображения, с которой работает конкретный нейрон. Оно соответствует максимальной области, которую сеть способна обработать.
Иными словами, рецептивное поле определяет ту часть изображения, которую нейрон «видит» при выполнении вычислений. По мере того как в CNN наслаиваются новые уровни, рецептивное поле увеличивается, и более глубокие слои могут захватывать более сложные паттерны на больших фрагментах изображения.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍4
This media is not supported in your browser
VIEW IN TELEGRAM
Все недооценивают эту новую OCR-модель
dots-ocr — это новая vision-language модель с 1.7B параметров, которая показывает SOTA-результаты в мультиязычном парсинге документов
- Поддержка 100+ языков
- Работает как с изображениями, так и с PDF
- Без проблем обрабатывает текст, таблицы и формулы
Полностью опенсорс:
https://github.com/rednote-hilab/dots.ocr
👉 @DataSciencegx
dots-ocr — это новая vision-language модель с 1.7B параметров, которая показывает SOTA-результаты в мультиязычном парсинге документов
- Поддержка 100+ языков
- Работает как с изображениями, так и с PDF
- Без проблем обрабатывает текст, таблицы и формулы
Полностью опенсорс:
https://github.com/rednote-hilab/dots.ocr
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍3
📘 На Stepik стартовал курс — «Cursor AI»
Cursor — это современный AI-редактор кода, созданный для ускорения и упрощения разработки. Он берёт на себя рутинные задачи: автогенерацию кода, документации и тестов, помогает находить баги, оптимизировать алгоритмы и даже проводить Code Review.
🔍 На курсе вы:
• Освоите интерфейс и горячие клавиши Cursor, научитесь работать с AI-панелью
• Разберётесь, как писать промпты для рефакторинга, документации и автогенерации тестов
• Получите готовые шаблоны запросов и чек-листы для командной работы
• Научитесь делать Code Review и работать с Git прямо через AI
🎓 Итог — вы научитесь использовать Cursor как полноценного помощника: писать код быстрее, находить ошибки раньше и документировать проект без лишней рутины.
🚀 Ускорьте разработку с Cursor AI. Освойте инструмент, который уже меняет подход к программированию. По промокоду CURSOR20 получите скидку 20% в течение 72 часов
👉 Пройти курс на Stepik
Cursor — это современный AI-редактор кода, созданный для ускорения и упрощения разработки. Он берёт на себя рутинные задачи: автогенерацию кода, документации и тестов, помогает находить баги, оптимизировать алгоритмы и даже проводить Code Review.
🔍 На курсе вы:
• Освоите интерфейс и горячие клавиши Cursor, научитесь работать с AI-панелью
• Разберётесь, как писать промпты для рефакторинга, документации и автогенерации тестов
• Получите готовые шаблоны запросов и чек-листы для командной работы
• Научитесь делать Code Review и работать с Git прямо через AI
🎓 Итог — вы научитесь использовать Cursor как полноценного помощника: писать код быстрее, находить ошибки раньше и документировать проект без лишней рутины.
🚀 Ускорьте разработку с Cursor AI. Освойте инструмент, который уже меняет подход к программированию. По промокоду CURSOR20 получите скидку 20% в течение 72 часов
👉 Пройти курс на Stepik
Stepik: online education
Cursor AI
Этот курс познакомит вас с уникальным AI-редактором Cursor — мощным преемником VS Code с глубокими возможностями автоматизации. Вы освоите не только навигацию и базовые функции, но и грамотно научитесь работать с AI-ассистентом: писать промпты, дописывать…
👎5👍3🔥1😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Создавайте схемы архитектур нейросетей на основе параметров
Знакомьтесь: NN-SVG — бесплатный опенсорс инструмент, который делает создание диаграмм архитектур нейросетей быстрым и удобным.
Что он предлагает:
- Генерация диаграмм архитектур нейросетей по параметрам
- Экспорт в SVG для простой интеграции в статьи и презентации
- Настройка внешнего вида: цвета, размеры и схемы расположения
Поддерживаются три типа диаграмм:
🔹 Полносвязные сети (FCNN)
🔹 Сверточные сети (по примеру LeNet)
🔹 Глубокие нейросети (по примеру AlexNet)
Ссылка на репо: https://github.com/alexlenail/NN-SVG
👉 @DataSciencegx
Знакомьтесь: NN-SVG — бесплатный опенсорс инструмент, который делает создание диаграмм архитектур нейросетей быстрым и удобным.
Что он предлагает:
- Генерация диаграмм архитектур нейросетей по параметрам
- Экспорт в SVG для простой интеграции в статьи и презентации
- Настройка внешнего вида: цвета, размеры и схемы расположения
Поддерживаются три типа диаграмм:
Ссылка на репо: https://github.com/alexlenail/NN-SVG
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤4