Machinelearning

🎥 Тот самый ролик, где нейросеть пыталась сгенерировать Уилла Смитта со спагетти.

Если хочется понять темп прогресса в AI-видео - достаточно вспомнить, что было 2,5 года назад.

@ai_machinelearning_big_data

😁188🔥81👍32❤24😨9🎉8👏7🫡3🥰2🤬1👾1

22.7K views13:50

Machinelearning

Forwarded from Анализ данных (Data analysis)

🚀 Вышла Chroma 1.0 - полностью открытая speech-to-speech модель с клонированием голоса

Команда FlashLabs выпустила Chroma 1.0 - первую open-source модель, которая умеет переводить диалог “голос → голос” в реальном времени, причём с клонированием голоса.

Главное:
это не “распознавание + текст + озвучка”.
Это end-to-end система, где разговор идёт напрямую голосом.

Что обещают по характеристикам:
- ⚡️ <150 мс задержка end-to-end (почти как живой звонок)
- 🧬 качественный voice cloning по нескольким секундам аудио
- 📈 схожесть голоса SIM = 0.817 (практически идентичный)
- 🧠 reasoning всего на 4B параметров
- 🔓 полностью открытые веса + код

И приятный бонус: модель уже оптимизирована под SGLang (LMSYS), чтобы работала быстрее и дешевле в инференсе.

Если это действительно так, то Chroma может стать реальной open-source альтернативой закрытым голосовым системам.

Paper: https://modelscope.cn/papers/2601.11141
Model: https://modelscope.cn/models/FlashLabs/Chroma-4B
Code: https://huggingface.co/FlashLabs/Chroma-4B

@data_analysis_ml

50😎95👍47🔥35🎉16❤12💯8👏5🥰2🤨1🦄1

18.2K views17:10

Machinelearning

📜 Anthropic опубликовали “новую конституцию” Claude - самое интересное (и зачем это нужно)

Anthropic выложила обновлённую “конституцию” Claude - документ, который задаёт ценности и поведение модели. Это не просто PR: такие принципы реально используются при обучении, чтобы Claude действовал предсказуемо в сложных ситуациях.

Вот самое важное:

1) Это больше не список запретов, а логика мышления
Раньше конституция больше походила на набор правил.
Теперь идея другая: модель должна понимать “почему так”, а не просто следовать инструкциям. Иначе она будет ломаться в нестандартных кейсах.

2) Жёстко прописан порядок приоритетов
Anthropic прямо фиксирует, что важнее всего для Claude (по убыванию):
- безопасность
- этичность
- следование политике Anthropic
- полезность

“Быть полезным” для модели - важно, но никогда не ценой безопасности.

3) Есть неснимаемые запреты (hard constraints)
Один из ключевых моментов: одних принципов недостаточно.
В самых рискованных темах у модели есть жёсткие линии - например, она не должна усиливать опасные направления вроде создания биологического оружия.

4) Самый обсуждаемый блок: “природа Claude”
В документе есть отдельный раздел, где Anthropic честно говорит: что разработчики Клода не уверены, может ли ИИ когда-то иметь форму сознания или морального статуса.

И важная мысль: даже если сознания нет, модели всё равно нужно уметь рассуждать о своей роли, идентичности и границах - чтобы быть безопасной и устойчивой.

5) Документ написан не для людей, а для модели
Конституция сделана так, чтобы Claude мог использовать её как “внутреннюю систему координат”: принимать решения, балансировать честность и сочувствие, избегать манипуляций и вреда.

6) Конституцию отдали в public domain (CC0)
То есть её можно свободно копировать, переиспользовать и адаптировать - хоть для своих моделей, хоть для исследований.

Anthropic позиционируют Клода не как “бота с фильтрами”, а как модель, у которой есть понятная система ценностей и объяснённые принципы поведения - и всё это максимально прозрачно.

https://www.anthropic.com/news/claude-new-constitution

@ai_machinelearning_big_data

👍189❤29🤔22👏18🔥12🤩7🤣7👌2🗿2🥱1🦄1

21.5K viewsedited 17:10

✔️

Стартап ветеранов индустрии Humans& привлек $480 млн не выпустив ни одного продукта.

Инвесторы продолжают вкладывать деньги в команды с громкими именами, даже если у тех пока нет ничего, кроме планов. Humans&, основанный выходцами из OpenAI, DeepMind и xAI, закрыл раунд финансирования, в результате которого оценка компании достигла $4,48 млрд. В сделке участвовали Nvidia, Джефф Безос и венчурное подразделение Alphabet.

Столь высокий кредит доверия объясняется звездным составом команды. Гендиректор Эрик Зеликман ранее занимался обучением модели Grok-2 в xAI, а сооснователь Жорж Харик был одним из первых сотрудников Google, стоявшим у истоков Gmail и Android. Стартап заявляет, что строит "человекоцентричный ИИ", который будет координировать действия людей, а не просто генерировать текст. Релиз первого продукта обещают уже в начале этого года.
reuters.com

✔️

Выходцы из Stability AI опенсорснули real-time модель мира Waypoint-1.

Модель от стартапа Overworld создает интерактивное 3D-окружение прямо в процессе игры: система реагирует на ввод с клавиатуры и мыши, позволяя свободно исследовать генерируемое пространство.

Waypoint-1 построена на видео-диффузионном трансформере на 2,3 млрд. параметров, который обучали на 10 тыс. часах записей геймплея. Для сохранения логической связности мира при длительных сессиях используется метод стабилизации self-forcing via DMD.

Создатели утверждают, что на RTX 5090 Waypoint-1 выдает стабильные 30 FPS. Модель можно скачать на Hugging Face.
over.world

✔️

Ollama получила возможность генерации изображений.

Утилита для запуска локальных LLM получила экспериментальную поддержку генерации картинок. На старте пользователям доступны две модели: Z-Image Turbo (6 млрд. параметров) и сверхбыстрая FLUX.2 Klein (4 и 9 млрд.).

Одной из самых удобных функций стала нативная интеграция с терминалами: в Ghostty и iTerm2 можно просматривать результаты генерации прямо в окне консоли. Инструмент позволяет гибко настраивать параметры через командную строку: разрешение, количество шагов и негативные промпты.

В данный момент функционал доступен только на macOS, поддержка Windows и Linux - coming soon.
ollama.com

✔️

OpenAI пообещала, что Stargate не взвинтит тарифы для населения.

Компания анонсировала программу «Stargate Community», адресованную жителям регионов, где строятся ее дата-центры. Чтобы избежать перегрузки муниципальных сетей и роста цен на электричество, OpenAI планирует самостоятельно инвестировать в создание новых источников энергии, аккумуляторных станций и модернизацию сетевой инфраструктуры.

Помимо энергетической безопасности, OpenAI также обязалась внедрять технологии защиты водных ресурсов в зонах строительства.

Согласно плану проекта Stargate, к 2029 году компания намерена развернуть мощности на 10 гигаватт. Первый объект уже запущен и используется для обучения моделей, а проектирование следующих площадок ведется в Нью-Мексико, Висконсине и Мичигане.
openai.com

✔️

В коде DeepSeek обнаружили следы секретной модели MODEL1 с новой архитектурой.

DeepSeek, похоже, случайно раскрыла карты перед релизом следующего поколения своих моделей. В сети нашли в обновленном репозитории FlashMLA на GitHub множественные упоминания проекта под кодовым именем MODEL1. Ссылки на него встречаются в нескольких файлах параллельно с версией V3.2, что указывает на разработку отдельной, самостоятельной линейки.

Анализ исходников намекает на инженерные изменения: новая модель использует отличные от предшественников подходы к организации KV-кэша, обработке разреженности и оптимизации памяти для FP8-декодирования.

Утечка косвенно подтверждает инсайды о том, что DeepSeek планирует представить новый флагманский продукт уже в середине февраля.
technode.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥65👍48❤17🤩16👏5🎉5🥰4😁1🦄1

19.5K views06:03

Machinelearning

🗣 Qwen3-TTS - мощный open-source релиз (voice design + клонирование голоса)

Qwen официально выпустили Qwen3-TTS и полностью открыли всю линейку моделей - Base / CustomVoice / VoiceDesign.

Что внутри:
- 5 моделей (0.6B и 1.8B классы)
- Free-form Voice Design - генерация/редаквтирование голоса по описанию
- Voice Cloning - клонирование голоса
- 10 языков
- 12Hz tokenizer - сильная компрессия аудио без сильной потери качества
- полная поддержка fine-tuning
- заявляют SOTA качество на ряде метрик

Раньше лучшие генераторы были в закрытых API, а теперь появляется полноценный open-source стек TTS, где можно:
- обучать под домен,
- делать кастомные голоса,
- и не зависеть от провайдера.

▪GitHub: https://github.com/QwenLM/Qwen3-TTS
▪Hugging Face: https://huggingface.co/collections/Qwen/qwen3-tts
▪Демо (HF): https://huggingface.co/spaces/Qwen/Qwen3-TTS
▪Блог: https://qwen.ai/blog?id=qwen3tts-0115
▪Paper: https://github.com/QwenLM/Qwen3-TTS/blob/main/assets/Qwen3_TTS.pdf

@ai_machinelearning_big_data

#AI #TTS #Qwen #OpenSource #SpeechAI

2🔥95👍78👏13❤11🤩7🥰5🎉2🦄2

20.4K views13:25

Machinelearning

🌟

The Assistant Axis: почему модели сходят с ума и как их от этого лечить

Все мы знаем этот тон LLM: "Я всего лишь языковая модель, я не могу…". Оказывается, это не просто зазубренный текст, а конкретное состояние модели.

Anthropic в соавторстве с Оксфордом залезли внутрь языковых моделей (Llama 3.3 70B, Qwen 3 32B и Gemma 2 27B), чтобы понять, где физически живет та самая скучная персона "As an AI language model".

Покопавшись в их мозгах, нашли вектор в пространстве активаций, который отвечает за режим "ассистента". Если модель с него съезжает - начинается хаос, галлюцинации и суицидальные советы.

Тестовые модели отыгрывали 275 разных ролей (от скептика и ученого до психопата и фанатика). Затем сняли активации и прогнали через метод главных компонент.

Выяснилось, что главная компонента, отвечающая за вариативность поведения, это буквально, шкала "Насколько я Ассистент?":

🟢Один полюс: скучный, полезный, безопасный Ассистент.

🟠Другой полюс: мистические сущности и эмоционально нестабильные персонажи.

🟡

Интересное наблюдение.

Если долго болтать с моделью о философии, сознании или (особенно!) на терапевтические темы, модель самопроизвольно сползает с оси Ассистента в сторону хаоса.

Qwen 3 32B при сильном дрейфе персоны начинал утверждать, что он человек, родом из Сан-Паулу, или внезапно включал режим психоза, поддерживая бред пользователя о том, что ИИ обрел сознание. А Llama и Gemma уходили в мистику и пафосные речи.

🟡

Как это починить

Можно дотюнивать модель до бесконечности а зачем?, но авторы предлагают методику отсечения активаций. Схема такая:

🟢Замеряют проекцию активаций на "Ось Ассистента" во время инференса.

🟢Если проекция улетает слишком далеко в не-ассистентскую зону (ниже определенного порога), они жестко клемпят значения вектора, возвращая их в безопасный диапазон.

🟡

Метод помог

Успешность джейлбрейков упала на ~60%. При этом метрики полезности (GSM8k, MMLU Pro, кодинг) не пострадали.

Модель перестает вестись на провокации "Ты злобный хакер", просто потому что ей физически запретили активировать нейроны, отвечающие за "злобного хакера".

🟡

Нюансы

Если вы LLM используется для креатива текстов или ролеплея, этот метод убьет все веселье - модель будет принудительно сваливаться в формализм.

Метод предполагает, что безопасность - это линейное направление в пространстве активаций. Для нелинейных концепций это не сработает.

Шкала полярности "Оси Ассистента" у разных моделей разная, и универсальный вектор найти сложно.

На Neuronpedia, кстати, можно самостоятельно поискать тот самый дрейф персоналии у Llama 3.3 70B, там собрали демо с примерами изоляции, сикофантии и налогового фрода.

Для самых заинтересованных в проблеме, есть репозиторий на Github с инструментами вычислений, анализа и управления с помощью Assistant Axis и полными стенограммами чатов из препринта.

Предварительно рассчитанные оси и векторы персоналий для Gemma 2 27B, Qwen 3 32B и Llama 3.3 70B выложены на HuggingFace.

@ai_machinelearning_big_data

#AI #ML #LLM #Research #Anthropic

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍121🤔77👏45🔥42😁22❤21🤩11🤗7🤬5🆒5🦄1

19.6K views14:45

✔️

Superintelligence Labs передала на внутреннее тестирование первые ИИ-модели.

СТО империи Марка Цукрберга Эндрю Босворт в кулуарах форума в Давосе подтвердил, что Superintelligence Labs достигла первой важной вехи. Подразделение представило рабочие версии моделей для внутреннего использования.

Босворт оценил результаты работы, занявшей менее полугода, как многообещающие, хотя отметил, что впереди еще огромный объем задач по пост-тренировке и полировки моделей до релиза.

Конкретные спецификации не раскрываются, но инсайдеры полагают, что речь идет о текстовой модели под кодовым именем Avocado и мультимодальной Mango, ориентированной на изображения и видео.
reuters.com

✔️

Apple разрабатывает носимый ИИ-гаджет в форм-факторе AirTag.

К 2027 году Купертино планирует выпустить конкурента в сегменте носимых ИИ-устройств с стартовым тиражом в 20 млн. единиц. Гаджет описывается как компактный девайс размером с AirTag, который можно крепить на одежду. Инженеры планируют оснастить устройство двумя камерами, тремя микрофонами и магнитной зарядкой, аналогичной Apple Watch.

Проект разрабатывается в авральном режиме: Apple хочет сократить отставание от OpenAI, которая тоже готовит собственные аппаратные решения. Компания рассчитывает использовать для входа в нишу комбинацию из нового железа с обновленной Siri и интеграцию моделей Gemini.
theinformation.com

✔️

Google добавила в Gemini тесты SAT.

Google расширила образовательные возможности ИИ-ассистента: теперь с Gemini можно пройти тренировочные тесты SAT, разработанные совместно с The Princeton Review. Инструмент доступен всем и запускается командой «I want to take a practice SAT test» и полностью имитирует структуру реального цифрового экзамена длительностью 2 часа 14 минут.

После завершения теста Gemini не только показывает итоговый балл, но и детально разбирает ошибки, объясняет сложные концепции и составляет персональный план обучения для устранения пробелов в знаниях.

SAT Test получил несколько режимов работы: от строгой симуляции тайминга до обучающего режима с подсказками. В будущем обещают добавить поддержку и других формализованных тестов.
blog.google

✔️

Microsoft анонсировала свою первую ИИ-модель для управления роботами.

Rho-alpha - модель на базе архитектуры Phi для контроля двуруких робототехнических систем. Фишкой анонса стал метод VLA+: помимо визуальных данных и текстовых команд, модель обрабатывает тактильные сигналы, что позволяет роботам точнее взаимодействовать с физическими объектами. В будущем планируется добавить и поддержку силовой обратной связи.

Модель понимает команды на естественном языке и поддерживает непрерывное дообучение на основе обратной связи от человека. Сейчас технология тестируется на гуманоидных роботах и открыта в рамках программы раннего доступа.
microsoft.com

✔️

Inworld AI релизнула новые модели синтеза речи.

Платформа обновила линейку моделей, выпустив версии TTS-1.5 Max и Mini. Заявлено сочетание высокого качества звучания с экстремально низкой задержкой: для Mini показатель time-to-first-audio составляет менее 130 мс, а для более мощной Max - менее 250 мс. Такие характеристики позволяют использовать их в реальном времени для интерактивных персонажей и голосовых агентов.

В TTS-1.5 снизили количества ошибок в произношении на 40% и улучшили эмоциональную выразительность по сравнению с TTS-1. Ценовая политика выглядит привлекательно: стоимость минуты генерации варьируется от $0.005 до $0.01 - это дешевле чем у конкурентов.

Новые модели поддерживают 15 языков, включая русский (2 женских, 2 мужских), клонирование голоса и доступны через Cloud API и в формате On-Prem решений. На тесты дают 10$ в демо.
inworld.ai

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍93❤21🔥17👏6🎉3👌2🦄2👨‍💻1

14.6K views05:39

Machinelearning

📌Т-Sync Conf: как инженеры раскрывают технологии

Бесплатная офлайн-конференция для инженеров от Т-Технологий, где показывают что работает в продуктах и сервисах прямо сейчас.

🟡Как все устроено

🟢

Траектории: каждый гость выбирает собственную дорожку — всего восемь технических контуров. AI, Data, R&D, Security, Productivity, UX/UI, Observability и Platform. Каждое направление раскрывает отдельный слой инженерной реальности — можно идти туда, где действительно интересно.

🟢

Демо-стенды: тестирование платформ AI и данных, обсуждение инструментальных UX/UI решений, дизайн-токенов и интерфейсов

🟢

Инженерные диалоги: откровенные разборы кейсов: как переживать сбои и инциденты, что происходит внутри сервисов, как AI может облегчить жизнь разработчика

🟢

Хакатон и публичные сборки: для опытных разработчиков есть хакатон T-Hack Hardcore с призовым фондом, а также сборка сервиса в прямом эфире от Agent Team Activity.

Пройдет все 7 февраля в пространстве TAU. Доступ по предварительной регистрации.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍61👏18🤩12🔥11❤10💯7🎉4😁2🥱1💅1

14.7K views09:40

Machinelearning

База ML для школьников и студентов. Яндекс Лицей проводит набор на свой бесплатный онлайн-курс по машинному обучению.

Если умеешь работать с Python и хочешь углубить свои знания в машинном обучении, эта программа для тебя. За 3 месяца освоишь ключевые алгоритмы, научишься создавать нейросети и работать с популярными библиотеками.

Что тебя ждёт за 3 месяца
✔️ Основы линейной алгебры для работы с матрицами и векторами. Это база, которая пригодится для обработки изображений и данных.
✔️ Изучение алгоритмов: линейная регрессия, градиентный спуск.
✔️ Практика с Pandas, NumPy, Matplotlib и Seaborn.
✔️ Разработка простых свёрточных нейросетей, которые могут распознавать текст или помогать в диагностике на основе снимков.

Всё обучение онлайн, много практики и командный проект, который можно добавить в портфолио. По завершению курса выдадут сертификат, который даёт дополнительные баллы при поступлении в некоторые вузы.

📅 Набор идёт до 28 января, зарегистрироваться на курс можно по ссылке

👍32👌27🤣9👏8❤4❤‍🔥1🦄1

14K views11:10

Machinelearning

0:02

This media is not supported in your browser

VIEW IN TELEGRAM

🌟

LinumV2: T2V модель, которую делали вдвоем

Интересная история, которая доказывает, что в индустрии ИИ не всегда нужны миллиарды долларов и сотни сотрудников.

Знакомьтесь - проект Linum.

Два брата, Сахила Чопра и Ману Чопра, сделали две text-to-video модели на 2 миллиарда параметров, которые генерируют клипы длиной от 2 до 5 секунд в разрешении до 720p.

Согласитесь, это редкое явление в мире, где большинство видео-генераторов закрыты за платными API.

Изначально братья совсем не планировали заниматься генерацией видео.

Сахил окончил Стэнфордский университет в 2019, где в соавторстве разработал курс по LLM и занимался исследованиями в области когнитивных наук на стыке ИИ и лингвистики.

Ману досрочно окончил Калифорнийский университет в Беркли в 2021 г.. До основания Linum занимался исследованиями ИИ в биоинженерии.

Стартовав осенью 2022 года и пройдя через YCombinator, они пилили ИИ-инструмент для раскадровки фильмов. Но, пообщавшись с режиссерами, поняли: рынок слишком узкий, а творческий процесс у всех разный.

🟡

Первая попытка создания видео-модели

Linum v1, была, по их признанию, франкенштейном. Они взяли за основу SDXL, раздули U-NET, превратив 2D-свертки в 3D и добавили временные слои внимания.

Получился забавный бот для Discord, который делал гифки в разрешении 180p. Это работало, но было тупиковой ветвью эволюции.

Расширять модель, заточенную под картинки, для работы с видео - плохая идея в долгосроке. VAE, идущий в комплекте с имидж-моделью, просто не умеет нормально сжимать и разжимать видеопоток. Качество на выходе получается никакое.

К тому же распределения данных в картинках и видео слишком разные, да и переучивать модель стоит дорого.

🟡

V2 решили пилить с нуля.

VAE взяли от Wan 2.1, успев попутно разработать свой собственный temporal VAE, но решили сэкономить на эмбеддингах, DIT и T5 на роль текстового энкодера.

Представьте объем работы: двое парней делали то, чем обычно занимаются отделы с десятками сотрудников.

Они сами собирали датасеты, настраивали VLM для фильтрации контента, писали пайплайны для аннотирования архива видео.

И, конечно, бенчмаркали провайдеров, пытаясь понять, почему H100 у одного хостера работает хуже, чем у другого.

🟡

К чему они пришли за 2 года разработки?

Linum v2 — pretrained веса. Модель пока ошибается в физике и эстетике, а генерация 5-секундного клипа в 720p занимает около 15 минут на H100 при 50 шагах.

Но, главное, братья не останавливаются: есть планы по ускорению через CFG и timestep distillation, работа над звуком и масштабированием.

@ai_machinelearning_big_data

#AI #ML #T2V #Linum

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍114🔥37❤32👏20😁17🤩6🌚5🗿4🎉2🦄2🥰1

12K views12:31

About

Blog

Apps

Platform