Forwarded from Machinelearning
Swarm - это экспериментальный фреймворк, разработанный командой OpenAI Solutions, для создания, оркестрации и развертывания многоагентных систем. Фреймворк фокусируется на упрощении координации, запуска, контроля и тестирования агентов.
Основная цель Swarm - продемонстрировать паттерны, описанные в Orchestrating Agents: Handoffs & Routines cookbook.
Фреймворк построен на двух основных абстракциях: агентах (
Agent
) и передачах управления (handoffs
):Агент - это набор инструкций и функций, который может передавать выполнение другим агентам. Его можно использовать для описания конкретного рабочего процесса или шага (например, последовательность шагов, сложный поиск, одноэтапное преобразование данных и так далее).
Передача управления — это процесс, при котором агент может передать запрос другому агенту, возвращая его в функцию. В процессе передачи управления также происходит обновление переменных контекста, что позволяет вернуть более полный объект
Result
.⚠️ Swarm не использует API Assistants и полностью работает на API Chat Completions.
⚠️ Swarm не предназначен для промышленного использования и не имеет официальной поддержки.
# Install from PIP
pip install git+https://github.com/openai/swarm.git
# Usage
from swarm import Swarm, Agent
client = Swarm()
def transfer_to_agent_b():
return agent_b
agent_a = Agent(
name="Agent A",
instructions="You are a helpful agent.",
functions=[transfer_to_agent_b],
)
agent_b = Agent(
name="Agent B",
instructions="Only speak in Haikus.",
)
response = client.run(
agent=agent_a,
messages=[{"role": "user", "content": "I want to talk to agent B."}],
)
print(response.messages[-1]["content"])
@ai_machinelearning_big_data
#AI #ML #Agents #OpenAI #Swarm
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍3🎉1
📃 Open Canvas
Open Canvas — это веб-приложение с открытым исходным кодом для совместной работы с агентами над созданием документов. Проект вдохновлен OpenAI Canvas, но имеет свои отличия:
📂 Открытый код: Весь код приложения доступен по лицензии MIT, включая фронтенд, агенты генерации контента и рефлексии.
🧠 Память: Open Canvas использует встроенного агента рефлексии, который запоминает правила стиля и инсайты пользователя, чтобы сохранять информацию между сессиями.
✒️ Работа с существующими документами: Начните работу с пустого текста или редактора кода на выбранном вами языке, либо используйте уже имеющийся контент для дальнейшего редактирования.
https://github.com/langchain-ai/open-canvas
Open Canvas — это веб-приложение с открытым исходным кодом для совместной работы с агентами над созданием документов. Проект вдохновлен OpenAI Canvas, но имеет свои отличия:
📂 Открытый код: Весь код приложения доступен по лицензии MIT, включая фронтенд, агенты генерации контента и рефлексии.
🧠 Память: Open Canvas использует встроенного агента рефлексии, который запоминает правила стиля и инсайты пользователя, чтобы сохранять информацию между сессиями.
✒️ Работа с существующими документами: Начните работу с пустого текста или редактора кода на выбранном вами языке, либо используйте уже имеющийся контент для дальнейшего редактирования.
https://github.com/langchain-ai/open-canvas
GitHub
GitHub - langchain-ai/open-canvas: 📃 A better UX for chat, writing content, and coding with LLMs.
📃 A better UX for chat, writing content, and coding with LLMs. - langchain-ai/open-canvas
🔥2
💡 F5-TTS: Прорыв в синтезе речи OpenSource!
Эта модель использует мощь Flow Matching и Diffusion Transformer (DiT), чтобы создавать плавную и выразительную речь с высокой точностью.
🚀 Что особенного в F5-TTS?
* Без сложных механизмов: убирает необходимость в моделях длительности и фоностатической синхронизации.
* Инновационная стратегия Sway Sampling для повышения скорости и точности генерации.
* Мультиязычная поддержка с естественным код-свитчингом.
* Улучшенная производительность: время вывода 0.15 RTF, что быстрее, чем большинство моделей на основе диффузии.
🎯 Ключевые возможности:
* Высокая естественность и выразительность синтезированной речи.
* Возможность нулевого обучения для новых языков.
* Открытый код.
https://swivid.github.io/F5-TTS/
Эта модель использует мощь Flow Matching и Diffusion Transformer (DiT), чтобы создавать плавную и выразительную речь с высокой точностью.
🚀 Что особенного в F5-TTS?
* Без сложных механизмов: убирает необходимость в моделях длительности и фоностатической синхронизации.
* Инновационная стратегия Sway Sampling для повышения скорости и точности генерации.
* Мультиязычная поддержка с естественным код-свитчингом.
* Улучшенная производительность: время вывода 0.15 RTF, что быстрее, чем большинство моделей на основе диффузии.
🎯 Ключевые возможности:
* Высокая естественность и выразительность синтезированной речи.
* Возможность нулевого обучения для новых языков.
* Открытый код.
https://swivid.github.io/F5-TTS/
🔥3
Forwarded from Machinelearning
NVIDIA опубликовала на HuggingFace 4 версии Llama-3.1-Nemotron-70B:
Модель получила улучшение в задачах ответа на вопросы и выполнение пользовательских инструкций. Обучение проводилось с использованием RLHF (REINFORCE) на основе Llama-3.1-Nemotron-70B-Reward и датасета HelpSteer2-Preference.
Nemotron-70B-Instruct достигла высоких результатов в тестах Arena Hard (85.0), AlpacaEval 2 LC (57.6) и GPT-4-Turbo MT-Bench (8.98), и обошла GPT-4o и Claude 3.5 Sonnet.
Версия с поддержкой Transformers, полученная путем конвертации, без какого-либо обучения.
Квантованные версии Llama-3.1-Nemotron-70B-Instruct-HF в формате GGUF с разрядностями от 1-bit (16.75 Gb) до 8-bit (74.98 Gb).
Модель с функционалом чата, рассуждений и специальными навыками для оценки качества ответов других LLM. Она использует английский язык и способна оценивать ответы длиной до 4096 токенов, присваивая им баллы, отражающие их качество.
Основана на Llama-3.1-70B-Instruct Base и использует комбинацию методов Bradley Terry и SteerLM Regression Reward Modelling.
Nemotron-70B-Reward занимает первое место в RewardBench.
Версия с поддержкой Transformers, полученная путем конвертации, без какого-либо обучения.
Квантованная версия Llama-3.1-Nemotron-70B-Reward-HF в формате MLX (40 Gb).
Вместе с моделями опубликован датасет HelpSteer2 - набор данных на английском языке, предназначенный для обучения reward-моделей, которые используются для повышения полезности, фактической точности и связности ответов других LLM.
HelpSteer2 содержит 21 362 строки, каждая из которых включает в себя запрос, ответ и пять аннотированных человеком атрибутов ответа: полезность, правильность, связность, сложность и многословность.
⚠️ Представленные модели требуют систему с как минимум 4 GPU NVIDIA (40 Gb) или 2 GPU (80 Gb) и 150 Gb свободного места на диске.
⚠️ Для локального развертывания Llama-3.1-Nemotron-70B без поддержки Transformers рекомендуется использовать NVIDIA NeMo Framework и TRT-LLM.
@ai_machinelearning_big_data
#AI #ML #LLM #Nemotron #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1🔥1
Forwarded from эйай ньюз
Turbo Alignment - файнтюны LLM для народа
Для создания продуктов на основе LLM готовые API часто не подходят. Причин для этого может быть море - как приватность, так и качество генерации. Маленькие затюненные модели часто обгоняют даже SOTA LLM по качеству, но непрофильные команды часто не могут затюнить модельки из-за отсутствия необходимой экспертизы. И хорошо если есть уже готовый пайплайн для каждого этапа работы над LLM в продуктах: SFT, preference tuning, инференс, анализ полученных моделей и др.
Я как раз заметил, что сегодня Т-Банк зарелизил либу Turbo Alignment - это библиотека специально для файнтюна уже готовых моделек с полезными фичами:
➖ Поддержка SFT, DPO, CPO, IPO, KTO и других оффлайн-методов алаймента
➖ Готовые end-to-end пайплайны для тюнинга без написания кода
➖ Multi-GPU и Multi-Node тренировка
➖ Обучение и инференс мультимодальных моделей и RAG
➖ Широкий набор метрик для анализа методов алаймента: Self-BLEU, KL-divergence, diversity и др.
Либа была создана с участием ребят из лаборатории T-Bank AI Research. Говорят, что с такой либой проверять продуктовые и исследовательские гипотезы получится намного быстрее, потому что разработчики библиотеки этот путь прошли на своем опыте уже немало раз. В будущем её ещё будут улучшать - обещают имплементацию RL методов.
https://github.com/turbo-llm/turbo-alignment
@ai_newz
Для создания продуктов на основе LLM готовые API часто не подходят. Причин для этого может быть море - как приватность, так и качество генерации. Маленькие затюненные модели часто обгоняют даже SOTA LLM по качеству, но непрофильные команды часто не могут затюнить модельки из-за отсутствия необходимой экспертизы. И хорошо если есть уже готовый пайплайн для каждого этапа работы над LLM в продуктах: SFT, preference tuning, инференс, анализ полученных моделей и др.
Я как раз заметил, что сегодня Т-Банк зарелизил либу Turbo Alignment - это библиотека специально для файнтюна уже готовых моделек с полезными фичами:
➖ Поддержка SFT, DPO, CPO, IPO, KTO и других оффлайн-методов алаймента
➖ Готовые end-to-end пайплайны для тюнинга без написания кода
➖ Multi-GPU и Multi-Node тренировка
➖ Обучение и инференс мультимодальных моделей и RAG
➖ Широкий набор метрик для анализа методов алаймента: Self-BLEU, KL-divergence, diversity и др.
Либа была создана с участием ребят из лаборатории T-Bank AI Research. Говорят, что с такой либой проверять продуктовые и исследовательские гипотезы получится намного быстрее, потому что разработчики библиотеки этот путь прошли на своем опыте уже немало раз. В будущем её ещё будут улучшать - обещают имплементацию RL методов.
https://github.com/turbo-llm/turbo-alignment
@ai_newz
❤2
TANGO - Генерация full-body говорящих видео на основе аудио и образца видео
https://huggingface.co/spaces/H-Liu1997/TANGO
https://huggingface.co/spaces/H-Liu1997/TANGO
👍3
This media is not supported in your browser
VIEW IN TELEGRAM
Introducing Mochi 1 preview. A new SOTA in open-source video generation. Apache 2.0.
Genmo выпустила Mochi 1 — первую open-source модель для генерации видео с текстовых prompts, построенную на архитектуре AsymmDiT с 10 миллиардами параметров. В отличие от закрытых конкурентов, Mochi 1 доступна бесплатно под лицензией Apache 2.0 и фокусируется на улучшении качества движения и точности исполнения запросов. Модель использует video VAE для эффективной компрессии данных, что снижает требования к памяти. Ограничение текущей версии — поддержка только 480p, но скоро ожидается HD-обновление.
https://github.com/genmoai/models
https://www.genmo.ai/
Genmo выпустила Mochi 1 — первую open-source модель для генерации видео с текстовых prompts, построенную на архитектуре AsymmDiT с 10 миллиардами параметров. В отличие от закрытых конкурентов, Mochi 1 доступна бесплатно под лицензией Apache 2.0 и фокусируется на улучшении качества движения и точности исполнения запросов. Модель использует video VAE для эффективной компрессии данных, что снижает требования к памяти. Ограничение текущей версии — поддержка только 480p, но скоро ожидается HD-обновление.
https://github.com/genmoai/models
https://www.genmo.ai/
👏2👍1
https://stability.ai/news/introducing-stable-diffusion-3-5
Stability AI выпустила Stable Diffusion 3.5 !!!
Включая Large и Turbo версии, которые работают на потребительском железе.
Модель использует 8 миллиардов параметров для генерации высококачественных изображений с отличным соблюдением prompts и поддерживается на GitHub и Hugging Face.
Важные новшества включают Query-Key Normalization для улучшенной кастомизации, но стоит отметить, что увеличение разнообразия может вызвать вариации при разных seeds.
Модель доступна бесплатно для коммерческого использования до $1M дохода в год под Community License.
Stability AI выпустила Stable Diffusion 3.5 !!!
Включая Large и Turbo версии, которые работают на потребительском железе.
Модель использует 8 миллиардов параметров для генерации высококачественных изображений с отличным соблюдением prompts и поддерживается на GitHub и Hugging Face.
Важные новшества включают Query-Key Normalization для улучшенной кастомизации, но стоит отметить, что увеличение разнообразия может вызвать вариации при разных seeds.
Модель доступна бесплатно для коммерческого использования до $1M дохода в год под Community License.
Stability AI
Introducing Stable Diffusion 3.5 — Stability AI
Today we are introducing Stable Diffusion 3.5. This open release includes multiple model variants, including Stable Diffusion 3.5 Large and Stable Diffusion 3.5 Large Turbo, and as of October 29th, Stable Diffusion 3.5 Medium.
🔥4
Stable Diffusion 3.5 поддерживается уже в ComfyUI !
Модели:
* Stable Diffusion 3.5 Large: 8 миллиардов параметров, высокое качество изображений, точное следование prompts, 1 мегапиксель.
* Stable Diffusion 3.5 Large Turbo: Ускоренная версия, генерирует изображения за 4 шага.
* Stable Diffusion 3.5 Medium (выпуск 29 октября): 2.6 миллиарда параметров, оптимизирована для потребительского железа, разрешение 0.25–2 мегапикселя.
https://blog.comfy.org/sd3-5-comfyui/
https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/tree/main
Модели:
* Stable Diffusion 3.5 Large: 8 миллиардов параметров, высокое качество изображений, точное следование prompts, 1 мегапиксель.
* Stable Diffusion 3.5 Large Turbo: Ускоренная версия, генерирует изображения за 4 шага.
* Stable Diffusion 3.5 Medium (выпуск 29 октября): 2.6 миллиарда параметров, оптимизирована для потребительского железа, разрешение 0.25–2 мегапикселя.
https://blog.comfy.org/sd3-5-comfyui/
https://huggingface.co/Comfy-Org/stable-diffusion-3.5-fp8/tree/main
blog.comfy.org
ComfyUI Now Supports Stable Diffusion 3.5!
Following our exciting V1 launch yesterday, we're excited to share that Stable Diffusion 3.5 is now supported in ComfyUI for local inference.
🔥2
Forwarded from Denis Sexy IT 🤖
This media is not supported in your browser
VIEW IN TELEGRAM
Вышел мини-апп agent.exe, который все еще не просто ставится, но который позволяет управлять агенту не виртуальной машиной, а обычной — своей
Вышло забавно, я его запустил и ввел на русском «Найди дешевые билеты в Париж» — модель, видимо, из-за тренировки и языка на котором пришел запрос — сама пошла в Авиасейлс и ввела там место отправки Москва (опять же, модель додумала из-за языка)
Наглядный байас модели на ровном месте и в очередной раз респект СММ-щикам Авиасейлс, которые себя не только в интернете завирусили, но и датасеты Anthropic забили ассоциацией слова «авиабилеты» на русском = Авиасейлс
Редко кто так громко интернет засоряет😮
P.S. Не ускоряю, чтобы вы скорость видели
P.P.S. Если пропустили, вот тут про то что это такое: https://t.me/denissexy/8867
Вышло забавно, я его запустил и ввел на русском «Найди дешевые билеты в Париж» — модель, видимо, из-за тренировки и языка на котором пришел запрос — сама пошла в Авиасейлс и ввела там место отправки Москва (опять же, модель додумала из-за языка)
Наглядный байас модели на ровном месте и в очередной раз респект СММ-щикам Авиасейлс, которые себя не только в интернете завирусили, но и датасеты Anthropic забили ассоциацией слова «авиабилеты» на русском = Авиасейлс
Редко кто так громко интернет засоряет
P.S. Не ускоряю, чтобы вы скорость видели
P.P.S. Если пропустили, вот тут про то что это такое: https://t.me/denissexy/8867
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3
Forwarded from Machinelearning
Проект Open-Sora-Plan предлагает набор инструментов и моделей для генерации видео на основе текстовых запросов и решения сопутствующих задач: восстановление и улучшение качества видео, интерполяция кадров и уточнение текстовых описаний.
Он использует вейвлет-преобразование для разложения видео на поддиапазоны, захватывая информацию в различных частотных областях.
Методика Skiparse организовывает токены-кандидаты для внимания с помощью двух чередующихся методов пропуска и сбора, сокращая количество операций с плавающей запятой.
Cостоит из анализа семантической схожести кадров, ОСR для обнаружения субтитров, оценки эстетики и качества видео, анализа движения и повторной оценкb движения с учетом субтитров.
Стратегия позволила сократить датасет Panda70m до 27% от исходного.
Open-Sora-Plan v1.3.0 поддерживает динамическое разрешение и длительность видео, обрабатывая отдельные кадры как изображения.
⚠️ Такое масштабное обновление позволило значительно сократить аппаратные требования инференса и генерировать 93 кадра text-to-video в разрешении 480р на 24 GB VRAM.
CausalVideoVAE, Prompt Refiner, Text-to-Video, Image-to-Video доступны в репозитории проекта.
@ai_machinelearning_big_data
#AI #ML #OpenSora #Text2Video #Image2Video
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤4🔥2
Forwarded from Life2film
Media is too big
VIEW IN TELEGRAM
Тизер sci-fi сериала Azaliia - про роботов клонов.
Дочь хотела стать актрисой, а я режиссером! 😊
А точнее, начинаю серию экспериментов, возможно ли AI Filmmaking с использованием различных новых инструментов с упором на Open Source.
Картинки и история сделаны в сервисе SuperDuperAi.co - используется FLUX для визуализации скрипта и Lora модель для актеров (натренирована на фотографиях дочери).
Потом картинки прогнал через image2video COG в ComfyUI, а для sound design использовал Stable Audio 1.0.
По мере реализации буду выкладывать результаты в канале @life2film.
Рад буду идеям для улучшения или колобрации.
Дочь хотела стать актрисой, а я режиссером! 😊
А точнее, начинаю серию экспериментов, возможно ли AI Filmmaking с использованием различных новых инструментов с упором на Open Source.
Картинки и история сделаны в сервисе SuperDuperAi.co - используется FLUX для визуализации скрипта и Lora модель для актеров (натренирована на фотографиях дочери).
Потом картинки прогнал через image2video COG в ComfyUI, а для sound design использовал Stable Audio 1.0.
По мере реализации буду выкладывать результаты в канале @life2film.
Рад буду идеям для улучшения или колобрации.
❤1
Forwarded from Life2film
Media is too big
VIEW IN TELEGRAM
#azaliia #aifilm
Попробовал сгенерировать ambient трек, немного обработал его. Но в целом мне нравится, для атмосферы точно можно использовать. Биты пока еще не получаются красиво, но их можно накладывать отдельно.
Нашел классного автора, который провел эти эксперименты по sound-design и взял за основу его workflow (comfy, stable-audio).
В комментариях приложил мой workflow.
https://sandner.art/stable-audio-open-custom-soundscapes-and-sound-design-locally/https://sandner.art/stable-audio-open-custom-soundscapes-and-sound-design-locally/
Попробовал сгенерировать ambient трек, немного обработал его. Но в целом мне нравится, для атмосферы точно можно использовать. Биты пока еще не получаются красиво, но их можно накладывать отдельно.
Нашел классного автора, который провел эти эксперименты по sound-design и взял за основу его workflow (comfy, stable-audio).
В комментариях приложил мой workflow.
https://sandner.art/stable-audio-open-custom-soundscapes-and-sound-design-locally/https://sandner.art/stable-audio-open-custom-soundscapes-and-sound-design-locally/
### Music Composition in the Style of *Blade Runner* (1980s Cyberpunk)
**Mood:** Nostalgic, atmospheric, mysterious, with a touch of melancholy and awe.
Sounds:
Deep analog synth pads, resonant bass, echoing electronic drums, shimmering arpeggios, lush reverb, ambient soundscapes.
Atmosphere:
Futuristic, dystopian, urban nightscape illuminated by neon lights, with a sense of longing and technological wonder.
Inspiration:
*Blade Runner* soundtrack by Vangelis, 80s synthwave, retro-futurism, noir sci-fi films.
Additional notes:
Use a combination of slow, emotional melodies on vintage synths with spacious reverb, deep bass tones that resonate, and subtle, echoing percussion that fades into the distance. Focus on building an immersive, cinematic atmosphere with layers of sound.
Forwarded from Machinelearning
Stability AI, следуя своему анонсу, выпустила в открытый доступ младшую text-to-image модель семейства Stable diffusion 3.5 - Medium c 2.6 млрд. параметров.
Модель позиционируется в семействе SD 3.5 как решение для работы на потребительском оборудовании.
SD 3.5 Medium способна генерировать изображения с разрешением от 0.25 до 2 мегапикселей, а для запуска с максимальной производительностью ей требуется всего 9.9 Gb VRAM.
Stable Diffusion 3.5 Medium претерпела ряд изменений в архитектуре (MMDiT-X вместо MMDiT ) и протоколах обучения для корреляции качества с числом параметров, связности и возможности генерации изображений с различным разрешением.
SD 3.5 Medium прошла обучение на разрешениях от 256 до 1440 пикселей.
Текстовые энкодеры не претерпели изменений, остались те же, что и у Stable Diffusion 3.5 Large: OpenCLIP-ViT/G, CLIP-ViT/L и T5-xxl.
Для локального использования модели рекомендуется использовать ComfyUI (базовый воркфлоу) или или Diffusers.
# install Diffusers
pip install -U diffusers
# Inference
import torch
from diffusers import StableDiffusion3Pipeline
pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3.5-medium", torch_dtype=torch.bfloat16)
pipe = pipe.to("cuda")
image = pipe(
"A happy woman laying on a grass",
num_inference_steps=28,
guidance_scale=3.5,
).images[0]
image.save("woman.png")
#AI #ML #Diffusion #SD3_5Medium #StabilityAI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2🔥1
Forwarded from Технологии | Нейросети | Боты
Media is too big
VIEW IN TELEGRAM
Он умеет генерировать видео 720p в 15fps, пока только text-2-video. В будущем планируют завезти image-2-video, контроль движений и создание видео на основе раскадровок.
Из плюсов — тут почти нет цензуры, ограничения минимальные, а для установки нужна карта с 9,3 ГБ памяти.
• Подробнее
• Github
• Huggingface
#neural #нейросети
@aiaiai
Please open Telegram to view this post
VIEW IN TELEGRAM