This media is not supported in your browser
VIEW IN TELEGRAM
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🗣️ Две модели преобразования речи в текст, которые, как заявляют разработчики, превосходят Whisper.
💬 1 Новая модель TTS - которой можно указать *как* ей говорить.
Поддерживает функцию задания интонации, тона, тембра голоса и еще множества других параметров с помощью промпта.
🤖 Еще OpenAi выпустили Agents SDK, который для создания голосовых агентов.
Через час состоится стрим, где покажут примера создания голосовых агентов с новыми аудиомоделями.
📌 Потестить можно здесь: https://www.openai.fm/
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Оно позволяет пользователям выполнять семантический поиск по видео, получать точные временные метки и извлекать информацию из часов видеоматериалов за считанные секунды.
📌 Основные функции YT Navigator:
Семантический поиск: Возможность находить релевантные сегменты видео с точными временными метками на основе естественных языковых запросов.
Интерактивное общение: Пользователи могут "общаться" с содержимым канала, получая ответы на вопросы, основанные на транскриптах видео.
Экстракция информации: Быстрое извлечение ключевой информации из большого объёма видеоконтента, что экономит время и усилия при анализе материалов.
Преимущества использования YT Navigator:
Экономия времени: Быстрый доступ к конкретной информации без необходимости просмотра длительных видеороликов.
Удобство: Интуитивно понятный интерфейс и мощные функции делают процесс поиска и анализа видеоконтента более эффективным.
YT Navigator особенно полезен для исследователей, аналитиков и всех, кто работает с большими объёмами видеоданных, предоставляя инструменты для быстрого и точного анализа контента.
📌 Github
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ JARVIS-VLA – модель обучения масштабных моделей «визуально-языкового взаимодействия» (Vision Language Models) для игры с использованием клавиатуры и мыши.
Проект заточен под игру в Minecraft, где модель способна выполнять более 1 000 различных атомарных задач таких как крафтинг, плавка, готовка, добыча ресурсов и даже сражения.
▪ Инновационный подход к обучению
Модель превозносит на 40% по сравнению с лучшими агентами-базами на разнообразном наборе атомарных задач.
▪ Достижение новых стандартов в Minecraft
Подход JARVIS-VLA превосходит традиционные методы имитационного обучения, демонстрируя передовые результаты и устанавливая новые стандарты производительности в управлении агентами в игровом мире Minecraft.
▪ Применение в реальных случаях
Использование данной модели в Minecraft открывает широкие возможности для автоматизации и оптимизации игровых процессов, что может быть интересно не только геймерам, но и исследователям в области ИИ, стремящимся расширить границы взаимодействия человека с компьютерными агентами.
▪ HF
▪Статья
@data_analysis_ml
Проект заточен под игру в Minecraft, где модель способна выполнять более 1 000 различных атомарных задач таких как крафтинг, плавка, готовка, добыча ресурсов и даже сражения.
▪ Инновационный подход к обучению
Модель превозносит на 40% по сравнению с лучшими агентами-базами на разнообразном наборе атомарных задач.
▪ Достижение новых стандартов в Minecraft
Подход JARVIS-VLA превосходит традиционные методы имитационного обучения, демонстрируя передовые результаты и устанавливая новые стандарты производительности в управлении агентами в игровом мире Minecraft.
▪ Применение в реальных случаях
Использование данной модели в Minecraft открывает широкие возможности для автоматизации и оптимизации игровых процессов, что может быть интересно не только геймерам, но и исследователям в области ИИ, стремящимся расширить границы взаимодействия человека с компьютерными агентами.
▪ HF
▪Статья
@data_analysis_ml
Media is too big
VIEW IN TELEGRAM
🔥 Tripo MCP Server
Основная функция tripo-mcp заключается в генерации 3D-объектов на основе текстовых описаний с использованием API Tripo и их импорте в Blender. Проект находится на стадии альфа-версии.
📌 Туториал: https://tripo3d.ai/blog/cursor-tripo-mcp-tutorial
📌 Github: https://github.com/VAST-AI-Research/tripo-mcp
@data_analysis_ml
#blendermcp #vibecoding #tripo3d
Основная функция tripo-mcp заключается в генерации 3D-объектов на основе текстовых описаний с использованием API Tripo и их импорте в Blender. Проект находится на стадии альфа-версии.
📌 Туториал: https://tripo3d.ai/blog/cursor-tripo-mcp-tutorial
📌 Github: https://github.com/VAST-AI-Research/tripo-mcp
@data_analysis_ml
#blendermcp #vibecoding #tripo3d
Лучший способ изучить PyTorch — создать что-нибудь с его помощью на практике.
В этом блоге представлен пошаговый гайд по написанию трансформерам с помощью PyTorch с нуля.
📌 Гайд
📌 Что под капотом у PyTorch
📌Видео объяснения базы по тензорам
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Alibaba только что выпустила TaoAvatar на Hugging Face
Реалистичные говорящие аватары в полный рост для дополненной реальности с помощью 3D-гауссовых сплатов.
Он обеспечивает точное управление мимикой и движениями, работая в реальном времени даже на мобильных устройствах.
Метод использует нейросетевую дистилляцию, достигая 90 FPS на Apple Vision Pro.
🟡 Проект
🟡 Статья
🟡 Видео
🟡 Демка
@data_analysis_ml
Реалистичные говорящие аватары в полный рост для дополненной реальности с помощью 3D-гауссовых сплатов.
Он обеспечивает точное управление мимикой и движениями, работая в реальном времени даже на мобильных устройствах.
Метод использует нейросетевую дистилляцию, достигая 90 FPS на Apple Vision Pro.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 Neuralink с открытым исходным кодом с использованием активности мозга обезьяны для управления роботизированными руками 🙉
Проект Jenkins исследует интерфейсы мозг-компьютер путем декодирования нейронной активности в движения роботов и генерации синтетических мозговых данных.
Используя нейронные записи мозговой активности обезьяны по имени Дженкинс, исследователи разработали модели для преобразования мозговых сигналов в движения роботизированной руки.
Лидер (рука1) двигается человеком, а Фоловер (рука 2) имитирует эти движения на основе симулированной нейронной активности обезьяны Дженкинса. Машины обучения (ML) используются для создания замкнутого цикла:
Кодирование: Transformer модель генерирует синтетические нейронные спайки из данных движения Лидера, симулируя, как бы выглядела активность мозга Дженкинса для этого движения.
Декодирование: Многослойный перцептрон (MLP) декодирует эти синтетические спайки обратно в скорости рук, которые используются для управления Фоловером.
Этот процесс создает двусторонний цикл: движение человека → симулированная нейронная активность → декодированные движения → действие робота.
В проекте используются роботизированные руки и интерактивная веб-консоль для генерации данных о работе мозга в режиме реального времени с помощью джойстика.
Проект имеет потенциальные применения в моторных протезах (например, для помощи парализованным людям управлять роботизированными конечностями) и нейронаучных исследованиях (понимание, как мозг кодирует движение). Это также имеет образовательное значение, демонстрируя применение ML в сложных нейронаучных задачах.
▪ Github
@data_analysis_ml
Проект Jenkins исследует интерфейсы мозг-компьютер путем декодирования нейронной активности в движения роботов и генерации синтетических мозговых данных.
Используя нейронные записи мозговой активности обезьяны по имени Дженкинс, исследователи разработали модели для преобразования мозговых сигналов в движения роботизированной руки.
Лидер (рука1) двигается человеком, а Фоловер (рука 2) имитирует эти движения на основе симулированной нейронной активности обезьяны Дженкинса. Машины обучения (ML) используются для создания замкнутого цикла:
Кодирование: Transformer модель генерирует синтетические нейронные спайки из данных движения Лидера, симулируя, как бы выглядела активность мозга Дженкинса для этого движения.
Декодирование: Многослойный перцептрон (MLP) декодирует эти синтетические спайки обратно в скорости рук, которые используются для управления Фоловером.
Этот процесс создает двусторонний цикл: движение человека → симулированная нейронная активность → декодированные движения → действие робота.
В проекте используются роботизированные руки и интерактивная веб-консоль для генерации данных о работе мозга в режиме реального времени с помощью джойстика.
Проект имеет потенциальные применения в моторных протезах (например, для помощи парализованным людям управлять роботизированными конечностями) и нейронаучных исследованиях (понимание, как мозг кодирует движение). Это также имеет образовательное значение, демонстрируя применение ML в сложных нейронаучных задачах.
▪ Github
@data_analysis_ml
Forwarded from Machinelearning
QWEN только что выпустили новую модель на 32B параметров, Qwen2.5-VL-32B-Instruct.
Эта модель представляет собой значительный прогресс для своего размера. И что самое лучшее, она лицензирована Apache 2.
Модель выдает более подробные и структурированный ответы.
💡 Детальное понимание: превосходные возможности анализа изображений и визуальной логической дедукции.
📊 Превосходит сопоставимые модели, такие как Mistral-Small-3.1-24B и Gemma-3-27B-IT.
🚀 В нескольких тестах даже превосходит более крупный Qwen2-VL-72B-Instruct.
Еще один крутой релиз понедельника!
ВЧ: https://huggingface.co/Qwen/Qwen2.5-VL-32B-Instruct
@ai_machinelearning_big_data
#AI #ML #LLM #Dataset #HuggingFace
Please open Telegram to view this post
VIEW IN TELEGRAM
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM