Machine learning Interview
24.4K subscribers
1.03K photos
67 videos
12 files
692 links
Разбираем вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейронным сетям, Python.

Вопросы - @notxxx1


@itchannels_telegram -🔥лучшие it каналы

РКН: clck.ru/3FmwRz
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
⭐️ Запускаем DeepSeek R1 на своём компьютере локально.

Вот что нужно сделать:


— Скачиваете LMStudio под свою операционную систему. У него удобный интерфейс, а также можно загружать документы;

Открываете программу, переходите в раздел Discover и выбираете DeepSeek R1 Distill Llama 8b;

Эта версия отличается от онлайн-версии DeepSeek R1 — в ней используется Llama 8b.

📌 Скачать

#DeepSeek #free #LMStudio
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 RAT (Retrieval Augmented Thinking) — это инструмент, улучшающий ответы ИИ за счет двухэтапного процесса рассуждения!

🌟 Он использует DeepSeek для генерации обоснований и OpenRouter (или другие модели) для финального ответа. Такой подход делает ответы более осмысленными, контекстно зависимыми и логичными.

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️Курс Hugging Face Agents начинается на следующей неделе.

Это бесплатно и выглядит очень многообещающе.

https://bit.ly/hf-learn-agents
Forwarded from Machinelearning
🌟 Stable Flow: инпейнт без обучения.

Stable Flow - метод редактирования изображений без предварительного обучения на основе flow-based моделей (FLUX).

Метод основывается на идее определения "жизненно важных слоев" в DiT, которые критически важны для формирования изображения. Эти слои определяются перебором слоев путем измерения отклонений в содержании изображения.

Редактирование изображения выполняется путем параллельной генерации, где признаки из траектории генерации исходного изображения инжектируются в траекторию редактируемого изображения. Такая стратегия раньше применялась в моделях на архитектуре UNet, теперь адаптирована для DiT.

Инъекция происходит только в vital layers, что дает стабильность редактирования, сохраняя нередактируемые области нетронутыми. Это дает возможность выполнять различные типы редактирования: нежесткие деформации, добавление объектов, замену объектов и изменение сцены, используя один и тот же механизм.

Для инпейнта реальных изображений применяется инверсия, выполняемая с помощью солвера Euler Ordinary Differential Equation (ODE), с добавлением метода "подталкивания" вне распределения. Этот метод заключается в небольшом скалярном возмущении чистого латентного пространства, что позволяет улучшить точность реконструкции и ограничить изменения в процессе редактирования.

Пользовательское исследование подтвердило, что Stable Flow превосходит SDEdit, P2P+NTI, Instruct-P2P, MagicBrush, MasaCTRL по 4 категориям: соответствие текстовому запросу, сохранение исходного изображения, реалистичность и общее качество редактирования.

⚠️ Для запуска кода Satble Flow необходим токен HuggingFace

⚠️ Проект поддерживает возможность CPU offload, он включается ключом --cpu_offload при инференсе.

▶️Локальная установка и инференс:

# Clone repo
git clone https://github.com/snap-research/stable-flow.git
cd stable-flow

# Create conda env
conda env create -f environment.yml
conda activate stable-flow

# Batch image inference
python run_stable_flow.py \
--hf_token YOUR_PERSONAL_HUGGINGFACE_TOKEN \
--prompts "A photo of a dog in standing the street" \
"A photo of a dog sitting in the street" \
"A photo of a dog in standing and wearing a straw hat the street" \
"A photo of a mink"

# Image editing inference
python run_stable_flow.py \
--hf_token YOUR_PERSONAL_HUGGINGFACE_TOKEN \
--input_img_path inputs/bottle.jpg \
--prompts "A photo of a bottle" \
"A photo of a bottle next to an apple"



🟡Страница проекта
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #StableFlow
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 WilmerAI — это программное обеспечение для обработки запросов и маршрутизации их к разным языковым моделям!

💡 Оно позволяет направлять запросы в специализированные рабочие процессы, например, кодирование или поиск информации. WilmerAI поддерживает интеграцию с Offline Wikipedia API, что позволяет использовать статьи Википедии в качестве контекста для ответов. Также система умеет создавать "воспоминания" чата, кратко суммируя предыдущие сообщения, чтобы поддерживать контекст беседы.

🔐 Лицензия: GPL-3.0

🖥 Github

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Physical Intelligence опубликовала новые модели для управления роботами.

Physical Intelligence выпустила π0 и π0-FAST, модели Vision-Language-Action для общего управления роботами, которые доступны в репозитории Hugging Face LeRobot.
π0 — это модель, основанная на масштабном предварительном обучении и генерации действий на основе сопоставления потоков, способная выполнять сложные задачи, например, складывание белья, уборка стола и сборка коробок. Она обучена на данных с 7 робототехнических платформ и 68 уникальных задач. π0 производит плавные траектории действий в реальном времени с частотой 50 Гц.
π0-FAST - авторегрессионная версия π0, в которой используется FAST (токенизация последовательности действий в частотном пространстве) для улучшенного представления действий и ускорения обучения.

huggingface.co

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
⭐️ Курс Глубокие генеративные модели от Стэнфорда

📽️ Лекции: https://youtube.com/playlist?list=PLoROMvodv4rPOWA-omMM6STXaWW4FvJT8
🗒️ Сайт курса: https://deepgenerativemodels.github.io

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Open Deep Research

Open-Source клон эксперимента Open AI по глубокому исследованию. Вместо того чтобы использовать тонко настроенную версию o3, этот метод использует извлечение + Firecrawl с моделью рассуждений для глубокого исследования Интернета.

GitHub
Демо

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
✔️ Google сделала Gemini 2.0 общедоступной и представляет новые модели Flash-Lite и Pro Experimental.

Компания объявила об общей доступности Gemini 2.0 Flash через Gemini API в Google AI Studio и Vertex AI, выпуске экспериментальной версии Gemini 2.0 Pro и представила Gemini 2.0 Flash-Lite, самую экономичную модель, находящуюся в публичном превью в Google AI Studio и Vertex AI.

Все эти модели поддерживают мультимодальный ввод с текстовым инференсом, а в ближайшие месяцы будут добавлены другие модальности вывода. 2.0 Flash обладает улучшенной производительностью в ключевых бенчмарках и в скором времени в ней появятся функции генерации изображений и преобразования текста в речь.
blog.google

✔️ Nvidia достигла значительного прогресса в обучении роботов.

Nvidia GEAR Lab и Университет Карнеги-Меллона разработали ASAP (Aligning Simulation and Real Physics), фреймворк, который уменьшает ошибки в движениях роботов между симуляцией и реальностью примерно на 53% по сравнению с существующими методами. ASAP работает в два этапа: сначала роботов обучают в симуляции, а затем используют специализированную модель для учета различий реального мира, выявляя и корректируя вариации между виртуальными и физическими движениями.

Во время тестирования с гуманоидным роботом Unitree G1 разработчики продемонстрировали возможности: гибкие движения, прыжки вперед на расстояние более одного метра и имитацию движений спортивных знаменитостей. Код ASAP доступен на GitHub.
agile.human2humanoid.com

✔️ Figure AI отказывается от OpenAI в пользу собственных ИИ-моделей.

Figure AI, занимающаяся разработкой универсального гуманоидного робота для коммерческого и бытового использования, объявила о прекращении сотрудничества с OpenAI. По словам основателя и генерального директора Бретта Адкока, в ближайшие 30 дней компания представит "нечто, чего никто никогда не видел в робототехнике".

OpenAI была давним инвестором Figure, и в 2024 году компании объявили о сотрудничестве для разработки ИИ-моделей нового поколения для гуманоидов. Адкок отметил, что интеграция с OpenAI оказалась проблематичной, поскольку Embodied AI не является основным направлением деятельности OpenAI.
techcrunch.com

✔️ LOOP: новый метод обучения ИИ-агентов для взаимодействия со сложными цифровыми средами.

Apple опубликовала исследование о LOOP, RL-метода обучения, разработанного для тренировки интерактивных цифровых агентов (IDA) в сложных цифровых средах с отслеживанием состояния. В отличие от предыдущих IDA, основанных на LLM с SFT, которым не хватает обучения для целевой среды, LOOP обучает агентов в их средах, используя частично наблюдаемый марковский процесс принятия решений (POMDP).

Метод устраняет необходимость в value network и поддерживает только одну копию базовой LLM в памяти, что делает его столь же эффективным, как и файнтюн одной LLM. Такой подход позволяет агенту с 32 млрд. параметров превзойти гораздо большую o1 от OpenAI на 9 процентных пунктов (15% относительно).
machinelearning.apple.com

✔️ Fujitsu продемонстрирует сети на базе ИИ и технологии 5G на MWC Barcelona 2025.

Fujitsu примет участие в Mobile World Congress Barcelona 2025 (MWC25), где представит AI-технологии для сетей под лозунгом "Безграничный потенциал" и покажет сетевую инфраструктуру в под управлением ИИ действи - AI-RAN.

Будет представлен 5G Radio Unit, совместимый с O-RAN, вместе с оптическим решением передачи серии 1FINITY для обеспечения переключения с нулевой задержкой. Fujitsu также представит AI-приложения для улучшения IT-операций, производства и экологической устойчивости.
fujitsu.com

✔️OpenAI выпустили SearchGPT свой поисковик.

Работает даже без регистрации. SearchGPT дает осмысленный ответ с источниками, таблицами, картинками и схемами, которые нашел и обработал.
Попробовать.

✔️ Андрей Карпатый выпустил 3,5 часовую лекцию — погружение в устройство LLM.

Если не осилите - последние 10 минут — краткая выжимка по всему материалу.
Смотрим здесь.

✔️Qwen 0.5b on GRPO

Пошаговый гайд с кодом для обучения рассуждающей LLM с RL-алгоритмом от GRPO.
Сolab


#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 VideoLLaMA 3 — это серия мультимодальных моделей, разработанных для OCR задач, понимания изображений и видео!

🌟 Эти модели сочетают возможности обработки текста, изображений и видео, что позволяет им эффективно анализировать и интерпретировать мультимедийные данные.

Проект направлен на создание универсальных мультимодальных моделей, способных решать широкий спектр задач, связанных с анализом визуальной информации.

🔐 Лицензия: Apache-2.0

🖥 Github

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Microsoft представила методы низкобитного квантования для развертывания LLM на периферийных устройствах.

Методы, предложенные Microsoft - это: компилятор типов данных Ladder, библиотека T-MAC mpGEMM и аппаратная архитектура LUT Tensor Core.

Ladder преобразует неподдерживаемые форматы данных в аппаратно-совместимые представления, библиотека T-MAC mpGEMM оптимизирует вычисления смешанной точности, используя метод на основе таблицы поиска (LUT), а архитектура LUT Tensor Core представляет собой специализированный ускоритель, предназначенный для низкобитного квантования.

Их совокупность позволяет LLM эффективно работать на широком спектре оборудования, от ноутбуков до маломощных IoT-устройств. В тестах библиотека T-MAC достигла 48 токенов в секунду для модели 3B BitNet-b1.58 на Surface Laptop 7 и 11 токенов в секунду на Raspberry Pi 5.

✔️ microsoft.com

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
НОВИНКА: Kokoro v1.0 - 82M, открытая многоязычная модель TTS (перевода речь в речь на другом языке), которая работает на WebGPU в браузере! 🔥

Полностью автономная модель, 100% локальная с поддержкой английского, испанского, французского, итальянского, японского и китайсого языков!

Работает прямо в браузере с потрясающе быстрыми выводами, поддерживаемыми ONNXRuntimeWeb

npm i kokoro-js - это все, что нужно для запуска.

Лицензирование: Apache 2.0

Github: https://github.com/hexgrad/kokoro/tree/main/kokoro.js
Demo: https://huggingface.co/spaces/webml-community/kokoro-webgpu

@machinelearning_interview

#tts #ml #ai #opensource #Kokoro
Forwarded from Machinelearning
🌟 RT-DETRv2: усовершенствованная CV-модель для детекции объектов в реальном времени.

RT-DETRv2 - новая версия RT-DETR, альтернативы YOLO. RT-DETRv2 получила ряд улучшений: повышение гибкости, практичности и производительности.

Ключевое изменение - модификация модуля deformable attention в декодере. В RT-DETRv2 предлагается устанавливать различное количество точек выборки для признаков разных масштабов. Это дает возможность более эффективно извлекать многомасштабные признаки, делая ее более адаптировной к множествам сценариям детекции.

Чтобы сделать модель модель более практичной, заменили оператор grid_sample, характерный для DETR, на опциональный discrete_sample, который выполняет округление предсказанных смещений выборки, что ускоряет процесс без значительной потери точности.

RT-DETRv2 обучается стратегией динамического усиления данных (dynamic data augmentation). На ранних этапах используются более интенсивные методы аугментации, чтобы модель лучше обобщала данные. На поздних этапах уровень аугментации снижается, что позволяет модели адаптироваться к целевой области.

В новой версии используется кастомизация гиперпараметров в зависимости от масштаба модели. Например, для ResNet18 увеличивается скорость обучения, тогда как для более крупных моделей - ResNet101, она снижается.

Тесты RT-DETRv2 выполнялись на наборе датасете COCO, где модель показала улучшение метрики AP на 0.3–1.4 пункта по сравнению с RT-DETR, сохраняя при этом высокую скорость работы. Например, RT-DETRv2-S с архитектурой ResNet18 достигла AP 47.9, что на 1.4 пункта выше, чем у RT-DETR-S.

Скрипты для файнтюна RT-DETRv2 с Trainer или Accelerate размещены в репозитории HuggingFace на Github, а ноутбук простого инференса локально - тут или запустить в Google Collab.


📌Лицензирование: Apache 2.0


🟡Статья
🟡Arxiv
🟡Google Collab инференса
🖥Github


#AI #CV #RTDETRv2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
✔️ Ученые добились телепортации с помощью квантового суперкомпьютера.

Исследователи из Оксфордского университета впервые продемонстрировали распределенные квантовые вычисления (DQC) между 2 модулями с захваченными ионами, соединенными оптической сетью. В эксперименте статьи, опубликованной в Nature, ученые использовали квантовую телепортацию для передачи управляемого гейта CZ между модулями с точностью 86%. Это достижение позволяет выполнять сложные квантовые алгоритмы, например алгоритм Гровера, с успешностью 71%.

Распределенная архитектура DQC позволит в будущем создавать крупномасштабные квантовые компьютеры, объединяя несколько модулей через квантовые и классические каналы связи.

Исследователи также показали, что квантовая система может быть построена и масштабирована с использованием уже имеющихся технологий.

«Наш эксперимент демонстрирует, что сетевая распределенная квантовая обработка информации вполне осуществима с помощью существующих технологий», - сказал профессор Дэвид Лукас, главный исследователь исследовательской группы и ведущий ученый в UK Quantum Computing and Simulation Hub.

«Масштабирование квантовых компьютеров остается сложной технической задачей, которая в ближайшие годы потребует новых знаний в области физики, а также интенсивных инженерных усилий».

Результаты исследования были опубликованы в журнале Nature в работе под названием «Распределенные квантовые вычисления по оптическому сетевому каналу».

Новость: independent.co.uk
Видео: https://www.youtube.com/watch?v=TK48to74q-g

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM