Forwarded from Machinelearning
Microsoft Research обновил AutoGen Studio — Low-Code инструмент для разработчиков , предназначенный для создания, отладки и оценки многоагентных рабочих процессов.
AutoGen Studio разработан для повышения доступности среды управления локальным AI, позволяя разработчикам прототипировать и внедрять многоагентные системы без необходимости обширных знаний в области ML.
AutoGen Studio это веб-интерфейс и API Python. Он гибкий в использовании и его легко можно интегрировать его в различные среды разработки. Простой и понятный дизайн позволяет быстро собирать многоагентные системы с помощью удобного интерфейса drag-n-drop.
AutoGen Studio поддерживает API всех популярных онлайн-провейдеров LLM (OpenAI, Antрropic, Gemini, Groq, Amazon Bedrock, Corehe, MistralAI, TogetherAI ) и локальные бэкэнды :
vLLM, Ollama, LM Studio.
Возможности :
Roadmap для отслеживания новых функций, решенных проблем и запросов от сообщества разработчиков можно найти в Issues репозитория AutoGen Studio на Github.
⚠️ Примечания от разработчика:
🟠 AutoGen Studio не предназначен для использования в качестве готового к продакшену приложения. Это среда прототипирования и разработки процессов и агентов.🟠 AutoGen Studio находится в стадии активной разработки с частыми итерациями коммитов. Документация проекта обновляется синхронно с кодом.🟠 Системные требования к установке: Python 3.10+ и Node.js => 14.15.0.
@ai_machinelearning_big_data
#AI #AgentsWorkflow #MLTool #Microsoft #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍4🔥1
Forwarded from Machinelearning
Это потрясающе! Новая 🤯 Llama 3 Reflection 70 превосходит, AnthropicAI
Claude 3.5 Sonnet и GPT-4o.
Reflection Tuning LLM обучена на синтетических структурированных данных, чтобы научиться рассуждать и самокорректироваться. 👀
1️⃣ Алгоритм начинает с вывода своих рассуждений в тегах
2️⃣ Если модель обнаруживает ошибку в своих рассуждениях, она использует теги
3️⃣ Удовлетворившись своими рассуждениями, модель предоставляет окончательный ответ в тегах
Результаты модели:
🏆 89,9% MMLU, 79,7% MATH, 90,1% IFEval > Sonnet 3.5, GPT-4o
🥇 Лучший в мире открытый LLM (на момент выпуска)
🦙 Обучен на базе Llama 3.1 70B Instruct с новыми специальными токенами для <мышления>, <рефлексии>, <вывода>
🚀 405B модель в разработке, ожидается, что это будет лучшая из существующих моделей
🤗 Доступна на HF
📚 Набор данных и отчет об обучении будут готовы на следующей неделе.
Модель: https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B
@ai_machinelearning_big_data
#llama #opensource #llm
Claude 3.5 Sonnet и GPT-4o.
Reflection Tuning LLM обучена на синтетических структурированных данных, чтобы научиться рассуждать и самокорректироваться. 👀
1️⃣ Алгоритм начинает с вывода своих рассуждений в тегах
<thinking>.
2️⃣ Если модель обнаруживает ошибку в своих рассуждениях, она использует теги
<reflection>
в разделе <thinking>
, чтобы сигнализировать об этом и попытаться исправить себя.3️⃣ Удовлетворившись своими рассуждениями, модель предоставляет окончательный ответ в тегах
<output>.
Результаты модели:
🏆 89,9% MMLU, 79,7% MATH, 90,1% IFEval > Sonnet 3.5, GPT-4o
🥇 Лучший в мире открытый LLM (на момент выпуска)
🦙 Обучен на базе Llama 3.1 70B Instruct с новыми специальными токенами для <мышления>, <рефлексии>, <вывода>
🚀 405B модель в разработке, ожидается, что это будет лучшая из существующих моделей
🤗 Доступна на HF
📚 Набор данных и отчет об обучении будут готовы на следующей неделе.
Модель: https://huggingface.co/mattshumer/Reflection-Llama-3.1-70B
@ai_machinelearning_big_data
#llama #opensource #llm
🔥4👍2❤1
Forwarded from Machinelearning
Mini-Omni - open-source MMLM, которая умеет ввод-вывод речи в режиме реального времени. Она построена по предложенному в исследовании методу "Any Model Can Talk", который позволяет добавлять речевые возможности к существующим LLM с минимальными изменениями в их архитектуре.
Функциональные возможности модели:
Mini-Omni основана на LLM Qwen2-0.5B с трансформерной архитектурой, состоящей из 24 блоков и internal dimension 896.
Для кодирования речи используется Whisper-small encoder, а для распознавания и синтеза речи добавлены адаптеры ASR, связанные с двухслойной MLP, и ТТS, который добавляет 6 дополнительных трасформерных блоков к существующим у Qwen2.
Mini-Omni обучалась на датасетах Libritts, VCTK, Multilingual LibriSpeech, Open-Orca, Moss’s SFT, Alpaca-GPT4 и другие. Общий объем данных составил около 8000 часов речевых данных и 2 миллиона текстовых записей.
В бенчмарках Mini-Omn продемонстрировала отличные результаты в задачах распознавания речи, немного уступая Whisper-small и VITA.
# Create & activate venv
conda create -n omni python=3.10
conda activate omni
# Clone the Repository
git clone https://github.com/gpt-omni/mini-omni.git
cd mini-omni
# Install required packages
pip install -r requirements.txt
# start server
python3 server.py --ip '0.0.0.0' --port 60808
Запуск с Streamlit UI:
# run streamlit with PyAudio
pip install PyAudio==0.2.14
API_URL=http://0.0.0.0:60808/chat streamlit run webui/omni_streamlit.py
Запуск с Gradio UI:
API_URL=http://0.0.0.0:60808/chat python3 webui/omni_gradio.py
@ai_machinelearning_big_data
#AI #ML #MMLM #Speech2Speech #MiniOmni
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2🔥2👍1
Forwarded from e/acc
Гугл украл мою стартап идею: paper to podcast
Шучу :) Гугл красавчики и боженьки, ибо сделали продукт, о котором я давно мечтал. Идея проста: загружаешь пейпер — и из него генерируется подкаст с двумя ролями, где один задает вопросы, а второй отвечает.
Мне всегда, когда хожу в спортзал или на хайкинг, очень не хватает подкаста именно с анализом новых пейперов. Приятно: идешь по горе и одновременно не отстаешь от стремительного прогресса в ИИ.
Доступно тут (нужно подождать немного после регистрации): https://illuminate.google.com/home
Шучу :) Гугл красавчики и боженьки, ибо сделали продукт, о котором я давно мечтал. Идея проста: загружаешь пейпер — и из него генерируется подкаст с двумя ролями, где один задает вопросы, а второй отвечает.
Мне всегда, когда хожу в спортзал или на хайкинг, очень не хватает подкаста именно с анализом новых пейперов. Приятно: идешь по горе и одновременно не отстаешь от стремительного прогресса в ИИ.
Доступно тут (нужно подождать немного после регистрации): https://illuminate.google.com/home
Forwarded from Machinelearning
VEnhancer - генеративная система апсемлинга пространственно-временных характеристик, которая улучшает результаты существующих методов преобразования текста в видео путем добавления большего количества деталей в пространственной области и синтетического детализированного движения во временной области.
Он гибко адаптируется к различным коэффициентам апсемплинга в диапазоне 1x~8x.
VEnhancer устраняет артефакты и коллизии движения сгенерированных видео, используя диффузионную модель и дообученные модели ControlNet.
Несколько дней назад VEnhancer получил обновление:
Эксперименты, проведенные во время разработки показывают, что VEnhancer превосходит существующие методы апсемплинга видео и современные методы улучшения синтезированных видео.
⚠️ Для обработки видео в 2K разрешении при fps=>24 требуется около 80 GB VRAM.
Использование VEnhancer возможно через CLI, с помощью GradioUI и в виде неофициальной ноды (WIP) для ComfyUI.
# Clone repo
git clone https://github.com/Vchitect/VEnhancer.git
cd VEnhancer
# Create environment
conda create -n venhancer python=3.10
conda activate venhancer
# Install requirments:
pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2
pip install -r requirements.txt
sudo apt-get update && apt-get install ffmpeg libsm6 libxext6 -y
bash run_VEnhancer.sh
python gradio_app.py
@ai_machinelearning_big_data
#AI #Text2Video #VEnchancer #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1👍1🔥1
Forwarded from Denis Sexy IT 🤖
OpenAI представила новую языковую модель o1, обученную для сложных рассуждений
Модель o1 превосходит GPT-4o по различным показателям, включая соревновательное программирование, математические олимпиады и вопросы научного уровня PhD
o1 показывает значительные улучшения в задачах, требующих сложных рассуждений, но для мелких задач, где рассуждения не нужны – она не сильно поможет
Будет доступна с сегодня для всех пользователей API и платной подписки
Вот пост анонс:
https://openai.com/index/learning-to-reason-with-llms/
Модель o1 превосходит GPT-4o по различным показателям, включая соревновательное программирование, математические олимпиады и вопросы научного уровня PhD
o1 показывает значительные улучшения в задачах, требующих сложных рассуждений, но для мелких задач, где рассуждения не нужны – она не сильно поможет
Будет доступна с сегодня для всех пользователей API и платной подписки
Вот пост анонс:
https://openai.com/index/learning-to-reason-with-llms/
Openai
Learning to reason with LLMs
We are introducing OpenAI o1, a new large language model trained with reinforcement learning to perform complex reasoning. o1 thinks before it answers—it can produce a long internal chain of thought before responding to the user.
👍1
Forwarded from Machinelearning
LongLLaVA - мультимодальная модель, предназначена для разработки приложений, требующих понимания длинных видеороликов, изображений высокого разрешения и сложных мультимодальных сценариев.
В модели применяется гибридная архитектура из комбинации блоков Mamba и Transformer в соотношении 7:1. Для сжатия визуальных данных применяется метод 2D-пулинга, который снижает вычислительные затраты при сохранении производительности.
В процессе обучения применялся трехфазный метод: выравнивание по одному изображению, настройка инструкций по одному изображению и настройка инструкций по нескольким изображениям.
Экспериментальные результаты показали, что LongLLaVA превосходит другие модели с открытым исходным кодом по пониманию в длинном контексте, особенно в задачах поиска, подсчета и упорядочивания.
@ai_machinelearning_big_data
#AI #ML #MMLM #LongLLaVA
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1🔥1
Forwarded from Kumar & Solo
За последние несколько недель в канал пришли почти 3000 новых подписчиков 🎉 Специально для вас и конечно, тех ниндзя, кто читает нас давно, мы сделали подборку самых полезных постов по теме AI. Читайте, экономьте десятки часов в неделю и делитесь контентом с друзьями.
1. Отобранная вручную подборка лучших AI-инструментов: сервис для написания SEO-статей (уже внедрили на одном из наших европейских проектов и сгенерировали 500+ крутых статей за 3 недели), анализа звонков отдела продаж, умный каскад нейросетей и многое другое. Все отобрано и протестировано нами вручную;
2. Жирнющий процесс по созданию кликабельных и высококонверсионных креативов с конкретными промптами для GPT и примерами готовых баннеров. Must-have в эпоху, когда креатив определяет больше 80% результата ваших рекламных кампаний;
3. Не хватает рук в команде маркетинга? Тогда чекайте пост-инструкцию о том, как создать AI-маркетолога, который будет трудиться на благо вашей компании. Внутри поста инструкции по написанию писем, оптимизации процесса исследований и многое другое;
4. Про поиск высокооплачиваемой работы в международной (и не только) компании с помощью AI.
5. Как оптимизировать 10+ часов в неделю и делегировать написание отчетов, анализ конкурентов, парсинг данных и другую скучную рутину GPT — в этом посте
А уже завтра мы проведем большую онлайн-встречу, где расскажем еще больше того, что накопали за последние недели:
- Расскажем, как создавать еще больше креативов/посадочных при помощи ИИ;
- Попрактикуемся в создании бота маркетолога;
- Разберем еще больше способов оптимизации рутины и искоренения скучных/нудных задач;
Успевай занять место (традиционно их 300 шт) по ➡️ этой ссылке (кликабельно)
Как обычно будет плотный контент и сессия ответов на ваши вопросы. До встречи!
1. Отобранная вручную подборка лучших AI-инструментов: сервис для написания SEO-статей (уже внедрили на одном из наших европейских проектов и сгенерировали 500+ крутых статей за 3 недели), анализа звонков отдела продаж, умный каскад нейросетей и многое другое. Все отобрано и протестировано нами вручную;
2. Жирнющий процесс по созданию кликабельных и высококонверсионных креативов с конкретными промптами для GPT и примерами готовых баннеров. Must-have в эпоху, когда креатив определяет больше 80% результата ваших рекламных кампаний;
3. Не хватает рук в команде маркетинга? Тогда чекайте пост-инструкцию о том, как создать AI-маркетолога, который будет трудиться на благо вашей компании. Внутри поста инструкции по написанию писем, оптимизации процесса исследований и многое другое;
4. Про поиск высокооплачиваемой работы в международной (и не только) компании с помощью AI.
5. Как оптимизировать 10+ часов в неделю и делегировать написание отчетов, анализ конкурентов, парсинг данных и другую скучную рутину GPT — в этом посте
А уже завтра мы проведем большую онлайн-встречу, где расскажем еще больше того, что накопали за последние недели:
- Расскажем, как создавать еще больше креативов/посадочных при помощи ИИ;
- Попрактикуемся в создании бота маркетолога;
- Разберем еще больше способов оптимизации рутины и искоренения скучных/нудных задач;
Успевай занять место (традиционно их 300 шт) по ➡️ этой ссылке (кликабельно)
Как обычно будет плотный контент и сессия ответов на ваши вопросы. До встречи!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Forwarded from Machinelearning
RAG-системы - это комбинация информационного поиска и генеративных моделей, целью которая предоставляет точные и контекстуально релевантные ответы на запросы пользователя.
В репозитории собран большой и регулярно обновляемый набор инструментов, документации и обучающих материалов, предназначенных для теоретического изучения и практического применения для желающих расширить свои знания и навыки в изучении возможностей RAG:
Базовые методы RAG:
Инженерия запросов:
Обогащение контекста и содержания:
Методы поиска:
Итеративные и адаптивные методы:
Интерпретируемость:
Архитектуры:
# Клонируйте репозиторий
git clone https://github.com/NirDiamant/RAG_Techniques.git
#Перейдите к интересующей вас технике
cd all_rag_techniques/technique-name
#Следуйте подробному руководству по применению в каталоге каждой техники.
@ai_machinelearning_big_data
#AI #ML #RAG #AwesomeRAG #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3👍1🥰1
Forwarded from Технологии | Нейросети | Боты
This media is not supported in your browser
VIEW IN TELEGRAM
Diffusers Image Outpaint — инструмент, который дорисует недостающие области изображения, расширив его по вертикали или по горизонтали.
Загружаем картинку, выбираем нужное соотношение сторон и жмем Generate.
• Попробовать
#neural #нейросеть
@aiaiai
Please open Telegram to view this post
VIEW IN TELEGRAM
👎1
Новая версия CogVideoX-5b-I2V для генерации image2video
https://huggingface.co/THUDM/CogVideoX-5b-I2V
Ее подддержка уже добавлена в ComfyUI
https://github.com/kijai/ComfyUI-CogVideoXWrapper
https://huggingface.co/THUDM/CogVideoX-5b-I2V
Ее подддержка уже добавлена в ComfyUI
https://github.com/kijai/ComfyUI-CogVideoXWrapper
👍1
Forwarded from Denis Sexy IT 🤖
Принес классную ссылку тем кто хотел бы начать разбираться в «агентах» с LLM – агентами называют мини-ботов которые делают какую-то задачу и обладают некой степенью свободы:
https://github.com/NirDiamant/GenAI_Agents
Внутри примеры на все случаи жизни: автоматизация саппорта, чатботы, автоматический поиск в интернете и тп., у всех примеров открыт исходный код
Агента Смита пожалуйста не делайте, спасибо
https://github.com/NirDiamant/GenAI_Agents
Внутри примеры на все случаи жизни: автоматизация саппорта, чатботы, автоматический поиск в интернете и тп., у всех примеров открыт исходный код
Агента Смита пожалуйста не делайте, спасибо
Forwarded from Технологии | Нейросети | Боты
Subtitler — инструмент, который автоматически сделает транскрипцию вашего видео, переведет его на нужный язык и наложит готовые субтитры.
Работает бесплатно и без регистрации.
• Попробовать
• Github
#neural #нейросети
@aiaiai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
Forwarded from e/acc
Media is too big
VIEW IN TELEGRAM
Начался OpenAI DevDay.
Уже презентовали prompt caching (50% от цены если вы используете тот же промт для вашего приложения), обновления в API, fine-tuning для 4o моделей (в том числе видео файнтьюн, так что вы теперь можете построить самоуправляемый велосипед на основе GPT).
Самое интересное демо пока что — Realtime API. Фактически это возможность в реальном времени, но задержки, общаться с моделью голосом. На видео несколько впечатляющих демо. Это будет доступно всем разработчикам по цене базовой модели.
Добавили нативную дистилляцию моделей: вы можете сделать более маленькую, дешевую специализированную модель под себя.
Так же OpenAI запустил свой продукт для эвалов (наконец-то!), так что теперь оценивать качество вашего приложения можно будет не по методу пол-палец-потолок, а по уму.
Уже презентовали prompt caching (50% от цены если вы используете тот же промт для вашего приложения), обновления в API, fine-tuning для 4o моделей (в том числе видео файнтьюн, так что вы теперь можете построить самоуправляемый велосипед на основе GPT).
Самое интересное демо пока что — Realtime API. Фактически это возможность в реальном времени, но задержки, общаться с моделью голосом. На видео несколько впечатляющих демо. Это будет доступно всем разработчикам по цене базовой модели.
Добавили нативную дистилляцию моделей: вы можете сделать более маленькую, дешевую специализированную модель под себя.
Так же OpenAI запустил свой продукт для эвалов (наконец-то!), так что теперь оценивать качество вашего приложения можно будет не по методу пол-палец-потолок, а по уму.
👍1
Появилась первая качественная text2video модель с открытым исходным кодом по лицензии MIT - Pyramid Flow SD3. Это диффузионный трансформер с 2 миллиардами параметров, способный создавать 10-секундные видео с разрешением 768p и частотой 24 кадра в секунду.
Основные моменты:
Генерация 10-секундных видео с разрешением 768p и 24 кадрами в секунду.
Единая модель с 2 миллиардами параметров.
Поддержка как текст-видео, так и изображение-видео.
Эффективная тренировка с использованием Flow Matching.
Две версии модели: 384p (5 секунд) и 768p (10 секунд).
Примеры видео доступны на странице проекта.
Простая двухшаговая реализация.
Лицензия MIT, доступно на Hugging Face.
Обучение проводилось только на открытых данных.
Код для обучения будет опубликован в ближайшее время.
https://huggingface.co/rain1011/pyramid-flow-sd3
https://github.com/jy0205/Pyramid-Flow
https://pyramid-flow.github.io/
Основные моменты:
Генерация 10-секундных видео с разрешением 768p и 24 кадрами в секунду.
Единая модель с 2 миллиардами параметров.
Поддержка как текст-видео, так и изображение-видео.
Эффективная тренировка с использованием Flow Matching.
Две версии модели: 384p (5 секунд) и 768p (10 секунд).
Примеры видео доступны на странице проекта.
Простая двухшаговая реализация.
Лицензия MIT, доступно на Hugging Face.
Обучение проводилось только на открытых данных.
Код для обучения будет опубликован в ближайшее время.
https://huggingface.co/rain1011/pyramid-flow-sd3
https://github.com/jy0205/Pyramid-Flow
https://pyramid-flow.github.io/
🔥2❤1