Forwarded from black_samorez
This media is not supported in your browser
VIEW IN TELEGRAM
В прошлую пятницу рассказывал на семинаре Cohere For AI про нашу последнюю статью по квантизации LLM-ок: “Pushing the Limits of Large Language Model Quantization via the Linearity Theorem”.
Если кратко, в статье мы:
Вывели и протестировали модель влияния квантизации на глобальное качество модели: Taylor expansion goes brrrrrr.
Разработали новый метод 0-shot квантизации “HIGGS”: как bitsanbytes nf4 только круче.
Придумали новый способ оптимизации квантизации с послойно динамической битностью: линейная модель свела задачу к задаче рюкзака.
Для HIGGS уже готов прототип интеграции с Hugging Face: работает пока только с Llama-3 и gemma, но мы работает над поддержкой любых моделей.
Запись семинара (длиной 56 минут) можно найти на ютубе.
Если кратко, в статье мы:
Вывели и протестировали модель влияния квантизации на глобальное качество модели: Taylor expansion goes brrrrrr.
Разработали новый метод 0-shot квантизации “HIGGS”: как bitsanbytes nf4 только круче.
Придумали новый способ оптимизации квантизации с послойно динамической битностью: линейная модель свела задачу к задаче рюкзака.
Для HIGGS уже готов прототип интеграции с Hugging Face: работает пока только с Llama-3 и gemma, но мы работает над поддержкой любых моделей.
Запись семинара (длиной 56 минут) можно найти на ютубе.
Forwarded from Aspiring Data Science (Anatoly Alekseev)
#toboml #ccmp
Забавно, в оранжевой книге ML нашел главу на тему, по которой я, собственно, написал статью и сделал небольшое исследование, Convex combination of model predictions (CCMP).
У меня, однако, не прямое комбинирование, а несколько более хитрое.
Статья пока не опубликована, т.к. хотелось показать лучшие практики кодинга, и перфекционизм завёл в паралич )
У Карла есть целый блокнот на эту тему.
Забавно, в оранжевой книге ML нашел главу на тему, по которой я, собственно, написал статью и сделал небольшое исследование, Convex combination of model predictions (CCMP).
У меня, однако, не прямое комбинирование, а несколько более хитрое.
Статья пока не опубликована, т.к. хотелось показать лучшие практики кодинга, и перфекционизм завёл в паралич )
У Карла есть целый блокнот на эту тему.
Kaggle
Ensembling: CCMP and the hillclimbers package
Explore and run machine learning code with Kaggle Notebooks | Using data from No attached data sources
Forwarded from Павел Бабошкин | Pablo science
Можно ли за 10 минут заполнить бэклог свободного рисерча на месяц?
Изи подумал я, засек время и начал это писать:
1) натренировать графовую нейронку на данных логов пользователей с таргетом - бизнес-метриках, чтобы использовать ускорения AB (типо matching с использованием сессий, но без нарушения sutva)
2) ту же нейронку проверить в сегментации (эмбединги + кластеризация)
3) её же использовать для поиска aha момента (ищем подграф с наибольшим приростом в метрике, чем-то типо имитаций shap)
4) кластеризовать товары потребительские корзины по БЖУ, времени сборки и составу (не состав = продукты в корзине, а состав = то из чего продукты состоят)
5) Научиться предиктить LTV по первым сессиям и вывести отсюда ключевые факторы успешного удержания в продукте
6) Вывести в отчетик "авто-факторный анализ" - тупо перегруппировать метрику по всем разумным атрибутам и отсортировать по приросту значимости изменений (DSensei это и делали на старте)
7) Исследовать есть ли сетевые эффекты в приложениях для заказа еды
8) Научиться считать стат. значимость shapley значений и ускорить любой ручной анализ "факторов успеха" в 10-100 раз
9-10) за 10 минут не успел зато честно 🗿
за 10 минут после написания нагуглил проекты только для 3 из 8 идей (aha моменты, прогноз ltv, автооанализ KPI), так что 5 - свободны, можно тестить.
Изи подумал я, засек время и начал это писать:
1) натренировать графовую нейронку на данных логов пользователей с таргетом - бизнес-метриках, чтобы использовать ускорения AB (типо matching с использованием сессий, но без нарушения sutva)
2) ту же нейронку проверить в сегментации (эмбединги + кластеризация)
3) её же использовать для поиска aha момента (ищем подграф с наибольшим приростом в метрике, чем-то типо имитаций shap)
4) кластеризовать товары потребительские корзины по БЖУ, времени сборки и составу (не состав = продукты в корзине, а состав = то из чего продукты состоят)
5) Научиться предиктить LTV по первым сессиям и вывести отсюда ключевые факторы успешного удержания в продукте
6) Вывести в отчетик "авто-факторный анализ" - тупо перегруппировать метрику по всем разумным атрибутам и отсортировать по приросту значимости изменений (DSensei это и делали на старте)
7) Исследовать есть ли сетевые эффекты в приложениях для заказа еды
8) Научиться считать стат. значимость shapley значений и ускорить любой ручной анализ "факторов успеха" в 10-100 раз
9-10) за 10 минут не успел
за 10 минут после написания нагуглил проекты только для 3 из 8 идей (aha моменты, прогноз ltv, автооанализ KPI), так что 5 - свободны, можно тестить.
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Павел Бабошкин | Pablo science
12 выводов за 12 недель работы с GPT моделями:
1) на малых проектах 3-4 своих кастомных функции-обертки api сделать лучше, чем ковыряться в массивном langchain с 100 уровнями абстракций.
2) прокси для аналитики запросов лучше чем логирование в функциях и методах
3) модель пишет промпты для себя кратно лучше человека
4) базу знаний для RAG модель тоже лучше составит сама для себя из сырых данных
5) RAG с 4-20 примерами пока что сильно кост эффективнее запроса с огромным контекстом
6) для поиска по контексту в RAG может залететь попросить GPT сформулировать из сообщений и истории вопрос в базу знаний и искать новый контекст по этому вопросу.
7) RAG с цепочкой валидации в 2-3 шага улучшает ответы в 2-3 раза.
8) увеличение глубины шагов валидации дальше 3 не улучшает ответы в большинстве задач общения с клиентами
9) модели плохо понимают контекст отрицания, пишем только в прямолинейной логике.
10) подзадачи обработки лучше выносить в цепочку диалога, например, сначала просим ответить, потом проверить ответ на валидность, потом улучшить, потом отформатировать.
11) RAG + fine-tuning в свой GPTs работает сильно лучше просто RAG
12) в fine-tuning своего GPTs лучше передавать базовую инфу и руководства к стилю ответа, а не пытаться запихнуть часть инфы для QA
NB все субъективно, выводы из небольшого количества продовых продуктов (<20 Шт) и вообще все вокруг - галлюцинация SORA😮💨
1) на малых проектах 3-4 своих кастомных функции-обертки api сделать лучше, чем ковыряться в массивном langchain с 100 уровнями абстракций.
2) прокси для аналитики запросов лучше чем логирование в функциях и методах
3) модель пишет промпты для себя кратно лучше человека
4) базу знаний для RAG модель тоже лучше составит сама для себя из сырых данных
5) RAG с 4-20 примерами пока что сильно кост эффективнее запроса с огромным контекстом
6) для поиска по контексту в RAG может залететь попросить GPT сформулировать из сообщений и истории вопрос в базу знаний и искать новый контекст по этому вопросу.
7) RAG с цепочкой валидации в 2-3 шага улучшает ответы в 2-3 раза.
8) увеличение глубины шагов валидации дальше 3 не улучшает ответы в большинстве задач общения с клиентами
9) модели плохо понимают контекст отрицания, пишем только в прямолинейной логике.
10) подзадачи обработки лучше выносить в цепочку диалога, например, сначала просим ответить, потом проверить ответ на валидность, потом улучшить, потом отформатировать.
11) RAG + fine-tuning в свой GPTs работает сильно лучше просто RAG
12) в fine-tuning своего GPTs лучше передавать базовую инфу и руководства к стилю ответа, а не пытаться запихнуть часть инфы для QA
NB все субъективно, выводы из небольшого количества продовых продуктов (<20 Шт) и вообще все вокруг - галлюцинация SORA
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from DevFM
The implementation of Rewind in Braid
Игра Braid написана одним разработчиком. Доклад от автора, как он реализовал бесконечную перемотку времени назад, учитывая ограничение игровых консолей, где нет условно бесконечной оперативной памяти.
Предлагается занятный вариант реализации – давайте хранить весь мир и его состояние сериализовать. И дальше куча хаков для оптимизации: неизменяемые объекты хранить в единственном экземпляре, фоновые частицы (чисто визуал, условно листья на заднем фоне) перегенерировать в похожем виде на основе случайного числа и текущего времени. Состояние мира хранится в виде цепочек с опорными кадрами (похоже на кодирование видео). Тут я не совсем понял, он предлагает хранить состояние целиком, а не разницу кадров.
Потом обсуждается хранение звука при перемотке. Завершает доклад ещё одна хитрая оптимизация. В раунде с кольцом замедления его способ хранения "примерного" состояния фоновых частиц не работает. Пришлось отдельное решение делать. Приятного просмотра!
#youtube #systemdesign
Игра Braid написана одним разработчиком. Доклад от автора, как он реализовал бесконечную перемотку времени назад, учитывая ограничение игровых консолей, где нет условно бесконечной оперативной памяти.
Предлагается занятный вариант реализации – давайте хранить весь мир и его состояние сериализовать. И дальше куча хаков для оптимизации: неизменяемые объекты хранить в единственном экземпляре, фоновые частицы (чисто визуал, условно листья на заднем фоне) перегенерировать в похожем виде на основе случайного числа и текущего времени. Состояние мира хранится в виде цепочек с опорными кадрами (похоже на кодирование видео). Тут я не совсем понял, он предлагает хранить состояние целиком, а не разницу кадров.
Потом обсуждается хранение звука при перемотке. Завершает доклад ещё одна хитрая оптимизация. В раунде с кольцом замедления его способ хранения "примерного" состояния фоновых частиц не работает. Пришлось отдельное решение делать. Приятного просмотра!
#youtube #systemdesign
YouTube
The Implementation of Rewind in Braid
In this GDC 2010 talk, Braid creator Jonathan Blow breaks down the technical and design challenges behind implementing one of the most iconic time-travel mechanics in video game history.
GDC talks cover a range of developmental topics including game design…
GDC talks cover a range of developmental topics including game design…
Forwarded from ML Boost Camp
Всем привет! Надеюсь все отошли от новогодних праздников и готовы смотреть новое видео!
В этом интервью Павел Якубовский, инженер Hugging Face и создатель популярной библиотеки Segmentation Models, делится своим опытом разработки open-source проектов, рассказывает о развитии своей карьеры и даёт рекомендации по работе с компьютерным зрением.
В этом интервью Павел Якубовский, инженер Hugging Face и создатель популярной библиотеки Segmentation Models, делится своим опытом разработки open-source проектов, рассказывает о развитии своей карьеры и даёт рекомендации по работе с компьютерным зрением.
YouTube
Павел Якубовский: Segmentation Models, Hugging Face и тренды в CV.
Интервью с инженером Hugging Face и разработчиком Segmentation Models
В этом интервью Павел, инженер Hugging Face и создатель популярной библиотеки Segmentation Models, делится своим опытом разработки open-source проектов, рассказывает о развитии своей карьеры…
В этом интервью Павел, инженер Hugging Face и создатель популярной библиотеки Segmentation Models, делится своим опытом разработки open-source проектов, рассказывает о развитии своей карьеры…
Forwarded from gonzo-обзоры ML статей
On Interpretability
Я тут немного погрузился в тему interpretability пока проходил курс AI Alignment (https://t.me/gonzo_ML/2934). В целом в interpretability я особо не верил, потому что ситуация довольно быстро идёт к созданию систем очень большой сложности и чем дальше, тем больше надо пытаться интерпретировать сущность всё более близкую по сложности к мозгу (а в перспективе и более сложную). Глобально я не верю, что система меньшей сложности может хорошо интерпретировать работу системы большей сложности, кроме каких-то вырожденных случаев или прям очень сильных коррелятов какой-то целевой функции (что наверное будет редкостью). Так что, опять же глобально, я думаю, что жить нам дальше с системами, которые мы не сможем интерпретировать, как в общем мы и сейчас живём, не зная что там у соседа в голове.
Но тем не менее, полезно принять чужую точку зрения и посмотреть на ситуацию с неё, что я и сделал.
Одна из ценных находок для меня -- это посты Криса Олаха (Chris Olah, https://colah.github.io/), работы которого на Distill (https://distill.pub/) мне всегда нравились. Из работ после Distill у него и ко была хорошая серия про Transformer Circuits (https://transformer-circuits.pub/). Он кстати и кофаундер Антропика заодно, и в недавнем ноябрьском 5+ часовом (https://t.me/gonzo_ML/3036) Лексе Фридмане он тоже был.
В одном из довольно старых постов на Distill “Zoom In: An Introduction to Circuits” (https://distill.pub/2020/circuits/zoom-in/) мне понравилась метафора микроскопа и мысль про полезность для науки делать zoom in. Мол, микроскопы помогли нам увидеть клетки и открыли дорогу к клеточной биологии. Они дали не количественно новое понимание, а качественно. В этом смысле и, например, визуализации работы нейросетей могут выступить в такой же роли.
Работа про zoom-in делает три спекулятивных утверждения (хотя какие-то подтверждения этих тезисов мы видели):
1. Фичи (features, линейные комбинации конкретных нейронов) -- фундаментальные юниты нейросерей, они задают некие направления в линейных пространствах активаций нейронов слоя. Их можно подробно исследовать и осмыслять.
2. Схемы (circuits, вычислительные подграфы нейросети) -- образуются из фич, которые соединены весами. Тоже можно иследовать и изучать.
3. Универсальность (universality) -- самая спекулятивная часть -- аналогичные фичи и схемы формируются в разных сетях, решающих разные задачи.
Ну, прикольная программа. В 1 и 2 я очень даже верю, насчёт 3 сомневаюсь, вернее верю с оговорками, там конечно должно быть сильное влияние inductive biases и прочих данностей. Но прикольно, если окажется, что несильное.
Это конкретно ложится в тему mechanistic interpretability (mech interp), тут делают zoom-in, изучают выученные репрезентации, ищут circuits. Там рядом есть другие темы, которые мне в целом больше нравятся, например developmental interpretability (dev interp, https://devinterp.com/), где больше смотрят, как структура модели изменяется во время обучения, какие там есть фазы и т.п. Условный Гроккинг (https://t.me/gonzo_ML/831) или работы покойного Нафтали Тишби (https://www.youtube.com/watch?v=utvIaZ6wYuw) скорее сюда.
С dev interp начинать сложновато (хотя если выбрать хороший модельный объект, свою дрозофилу, то может это и не так…). Решил начать с mech interp, тут можно уже на готовых обученных моделях что-то делать, с более короткими циклами. Попутно это всё даёт возможность покопаться в основах, поближе к first principles. Ощущения почти как в старые добрые времена когда на ассемблере или в машинных кодах писал 🙂 Всегда хорошо под микроскопом посмотреть что там в трансформере на низком уровне происходит, а то все высоко в небеса нынче ушли.
Я тут немного погрузился в тему interpretability пока проходил курс AI Alignment (https://t.me/gonzo_ML/2934). В целом в interpretability я особо не верил, потому что ситуация довольно быстро идёт к созданию систем очень большой сложности и чем дальше, тем больше надо пытаться интерпретировать сущность всё более близкую по сложности к мозгу (а в перспективе и более сложную). Глобально я не верю, что система меньшей сложности может хорошо интерпретировать работу системы большей сложности, кроме каких-то вырожденных случаев или прям очень сильных коррелятов какой-то целевой функции (что наверное будет редкостью). Так что, опять же глобально, я думаю, что жить нам дальше с системами, которые мы не сможем интерпретировать, как в общем мы и сейчас живём, не зная что там у соседа в голове.
Но тем не менее, полезно принять чужую точку зрения и посмотреть на ситуацию с неё, что я и сделал.
Одна из ценных находок для меня -- это посты Криса Олаха (Chris Olah, https://colah.github.io/), работы которого на Distill (https://distill.pub/) мне всегда нравились. Из работ после Distill у него и ко была хорошая серия про Transformer Circuits (https://transformer-circuits.pub/). Он кстати и кофаундер Антропика заодно, и в недавнем ноябрьском 5+ часовом (https://t.me/gonzo_ML/3036) Лексе Фридмане он тоже был.
В одном из довольно старых постов на Distill “Zoom In: An Introduction to Circuits” (https://distill.pub/2020/circuits/zoom-in/) мне понравилась метафора микроскопа и мысль про полезность для науки делать zoom in. Мол, микроскопы помогли нам увидеть клетки и открыли дорогу к клеточной биологии. Они дали не количественно новое понимание, а качественно. В этом смысле и, например, визуализации работы нейросетей могут выступить в такой же роли.
Работа про zoom-in делает три спекулятивных утверждения (хотя какие-то подтверждения этих тезисов мы видели):
1. Фичи (features, линейные комбинации конкретных нейронов) -- фундаментальные юниты нейросерей, они задают некие направления в линейных пространствах активаций нейронов слоя. Их можно подробно исследовать и осмыслять.
2. Схемы (circuits, вычислительные подграфы нейросети) -- образуются из фич, которые соединены весами. Тоже можно иследовать и изучать.
3. Универсальность (universality) -- самая спекулятивная часть -- аналогичные фичи и схемы формируются в разных сетях, решающих разные задачи.
Ну, прикольная программа. В 1 и 2 я очень даже верю, насчёт 3 сомневаюсь, вернее верю с оговорками, там конечно должно быть сильное влияние inductive biases и прочих данностей. Но прикольно, если окажется, что несильное.
Это конкретно ложится в тему mechanistic interpretability (mech interp), тут делают zoom-in, изучают выученные репрезентации, ищут circuits. Там рядом есть другие темы, которые мне в целом больше нравятся, например developmental interpretability (dev interp, https://devinterp.com/), где больше смотрят, как структура модели изменяется во время обучения, какие там есть фазы и т.п. Условный Гроккинг (https://t.me/gonzo_ML/831) или работы покойного Нафтали Тишби (https://www.youtube.com/watch?v=utvIaZ6wYuw) скорее сюда.
С dev interp начинать сложновато (хотя если выбрать хороший модельный объект, свою дрозофилу, то может это и не так…). Решил начать с mech interp, тут можно уже на готовых обученных моделях что-то делать, с более короткими циклами. Попутно это всё даёт возможность покопаться в основах, поближе к first principles. Ощущения почти как в старые добрые времена когда на ассемблере или в машинных кодах писал 🙂 Всегда хорошо под микроскопом посмотреть что там в трансформере на низком уровне происходит, а то все высоко в небеса нынче ушли.
Forwarded from gonzo-обзоры ML статей
Так вот, в рамках курса я решил покопаться поглубже во внутренних репрезентациях самой маленькой Gemma 2 2B, чтобы в идеале раскопать circuit для какой-то простой задачи типа сложения однозначных чисел, ну и заодно вообще поискать какие-то интересные паттерны. Оказалось это не так просто как я думал, модель хоть и маленькая, но происходит в ней дофига всего, и даже на супер простых задачах уровня “5+2=” все 26 слоёв декодера что-то делают и эмбеддинги даже визуально меняются. После работ про творческий подход к вычислению слоёв (типа https://t.me/gonzo_ML/2845 или https://t.me/gonzo_ML/2865) я думал, что они быстро устаканятся, а дальше по residual connections всё пройдёт, но нифига, и в целом выкинуть без потери качества слои особо не получается, ну один, может быть, последний причём (хотя надо ещё из середины повыкидывать, наверняка тоже норм). Но это отдельная песня, про неё как-нибудь потом расскажу, когда ещё будет время покопаться.
Пока вот вам одну картинку чтоб не так скучно было только с текстом, тут визуализирован эмбеддинг для позиции с <eos> токеном, где как раз надо предсказать первый токен ответа модели.
А следующим постом на днях я расскажу про одну из работ, где предложили свой метод нахождения circuits.
Пока вот вам одну картинку чтоб не так скучно было только с текстом, тут визуализирован эмбеддинг для позиции с <eos> токеном, где как раз надо предсказать первый токен ответа модели.
А следующим постом на днях я расскажу про одну из работ, где предложили свой метод нахождения circuits.
Telegram
gonzo-обзоры ML статей
TWIMC
Скоро стартует курс по AI Alignment.
https://aisafetyfundamentals.com/alignment/
Дедлайн подачи заявок до 6 октября
Скоро стартует курс по AI Alignment.
https://aisafetyfundamentals.com/alignment/
Дедлайн подачи заявок до 6 октября
Forwarded from See All
Про курсы по мехинтерпу и чтобы вручную поиграться, в том числе про 5+2 — оч рекомендую вот это пройти
https://arena-chapter1-transformer-interp.streamlit.app/%5B1.2%5D_Intro_to_Mech_Interp
https://arena-chapter1-transformer-interp.streamlit.app/%5B1.2%5D_Intro_to_Mech_Interp
Streamlit
Chapter 1 Transformer Interp
This GitHub repo hosts the exercises and Streamlit pages for the ARENA program. (Note that the na...
Forwarded from DeepSchool
Детекторы текста на основе трансформеров. Часть 2
Сегодня мы продолжим знакомство с детекторами текста на базе трансформеров.
Такие детекторы совмещают возможности сегментационных и регрессионных моделей, что позволяет повысить точность детектирования при сохранении высокой скорости работы. Однако каждый подход имеет свои недостатки: сегментационные сети обеспечивают высокую точность при сложных формах текста, но их скорости недостаточно, тогда как регрессионные модели быстры, но менее точны для сложных случаев. SRFormer — пример современной архитектуры, которая стремится объединить сильные стороны двух методов.
Также в статье мы рассмотрим MixNet, лидирующий на ключевых бенчмарках за счёт своей уникальной архитектуры. Его бэкбон FSNet перемешивает признаки высокого и низкого разрешения. Это помогает надёжнее детектировать мелкие объекты. Кроме того, трансформерный блок (CTBlock) улучшает выделение текстов, расположенных близко друг к другу, с помощью прогнозирования центральной линии текста.
Читайте новую статью по ссылке, чтобы познакомиться ближе с данными детекторами текста на базе трансформеров: https://deepschool-pro.notion.site/2-e3a3419463b94ae0a81545109799ecde?pvs=4
Сегодня мы продолжим знакомство с детекторами текста на базе трансформеров.
Такие детекторы совмещают возможности сегментационных и регрессионных моделей, что позволяет повысить точность детектирования при сохранении высокой скорости работы. Однако каждый подход имеет свои недостатки: сегментационные сети обеспечивают высокую точность при сложных формах текста, но их скорости недостаточно, тогда как регрессионные модели быстры, но менее точны для сложных случаев. SRFormer — пример современной архитектуры, которая стремится объединить сильные стороны двух методов.
Также в статье мы рассмотрим MixNet, лидирующий на ключевых бенчмарках за счёт своей уникальной архитектуры. Его бэкбон FSNet перемешивает признаки высокого и низкого разрешения. Это помогает надёжнее детектировать мелкие объекты. Кроме того, трансформерный блок (CTBlock) улучшает выделение текстов, расположенных близко друг к другу, с помощью прогнозирования центральной линии текста.
Читайте новую статью по ссылке, чтобы познакомиться ближе с данными детекторами текста на базе трансформеров: https://deepschool-pro.notion.site/2-e3a3419463b94ae0a81545109799ecde?pvs=4
deepschool-pro on Notion
Детекторы текста на основе трансформеров. Часть 2 | Notion
Автор: Булат Бадамшин
Forwarded from Art, Design & AI (Lena Starkova)
This media is not supported in your browser
VIEW IN TELEGRAM
🎙 Идеальный голос с Hailuo Audio HD
Hailuo (MiniMax) бомбит обновлениями! На прошлой неделе мы увидели прорыв в видео S2V-01, а сегодня они представили T2A-01-HD - новый шаг в эволюции синтеза речи. Эта модель открывает новые горизонты в текст-озвучке text-to-audio.
Что делает T2A-01-HD?
• Безграничная настройка голосов:
Клонируйте голос всего за 10 секунд аудиозаписи, сохраняя все нюансы и эмоции.
Откройте библиотеку из 300+ готовых голосов: по языку, полу, акценту, возрасту и стилю.
Настраивайте высоту, скорость и эмоциональный тон для динамичных результатов.
Добавляйте профессиональные эффекты (акустика помещения, фильтры телефона) для студийного качества.
• Интеллектуальная система эмоций:
Делайте речь "живой" с первой в отрасли системой анализа и передачи эмоций.
Используйте автоматическое определение эмоций или ручное управление для максимальной выразительности.
• Аутентичная работа с языками:
Свободное владение 17+ языками, включая акценты с региональными особенностями.
! Поддерживает русский.
🎧 Попробуйте: hailuo.ai/audio
🔗 API-платформа: intl.minimaxi.com
Арт, дизайн и нейросети
@art_design_ai / #Hailuo@art_design_ai
Hailuo (MiniMax) бомбит обновлениями! На прошлой неделе мы увидели прорыв в видео S2V-01, а сегодня они представили T2A-01-HD - новый шаг в эволюции синтеза речи. Эта модель открывает новые горизонты в текст-озвучке text-to-audio.
Что делает T2A-01-HD?
• Безграничная настройка голосов:
Клонируйте голос всего за 10 секунд аудиозаписи, сохраняя все нюансы и эмоции.
Откройте библиотеку из 300+ готовых голосов: по языку, полу, акценту, возрасту и стилю.
Настраивайте высоту, скорость и эмоциональный тон для динамичных результатов.
Добавляйте профессиональные эффекты (акустика помещения, фильтры телефона) для студийного качества.
• Интеллектуальная система эмоций:
Делайте речь "живой" с первой в отрасли системой анализа и передачи эмоций.
Используйте автоматическое определение эмоций или ручное управление для максимальной выразительности.
• Аутентичная работа с языками:
Свободное владение 17+ языками, включая акценты с региональными особенностями.
! Поддерживает русский.
🎧 Попробуйте: hailuo.ai/audio
🔗 API-платформа: intl.minimaxi.com
Арт, дизайн и нейросети
@art_design_ai / #Hailuo@art_design_ai