Media is too big
VIEW IN TELEGRAM
Экспериментальный прототип Project Genie стал доступным для американских подписчиков тарифа Gemini Ultra. Проект построен на модели мира Genie 3 и может генерировать игровые 2D/3D-окружения по текстовым описаниям или референсным изображений, а затем свободно перемещаться по ним в реальном времени.
На старте доступны функции создания, исследования и модификации локаций. Генерация мира происходит процедурно прямо в процессе взаимодействия.
Длительность сессии - до 60 секунд, есть задержки отклика и визуальные артефакты. Под капотом - Nano Banana Pro и Gemini.
blog.google
Китайский стартап открыл массовый наем специалистов для создания поисковой системы. Судя по описаниям вакансий, DeepSeek строит мультимодальный движок, который будет обрабатывать запросы через текст, изображения и аудио на разных языках.
Вторым вектором хантинга стали автономные агенты. Компания ищет инженеров для создания инфраструктуры постоянно работающих ИИ-помощников, способных решать задачи с минимальным вмешательством человека.
Конечной целью в описании позиций компания называет создание AGI.
bloomberg.com
Институт Аллена представил семейство открытых ИИ-агентов SERA, оптимизированных для работы с реальными кодовыми базами. Флагманская модель SERA-32B успешно решает более 55% задач в SWE-Bench Verified, опережая Qwen3-Coder и проприетарный Devstral Small 2. Младшая версия на 8 млрд. параметров - 29,4%, это тоже выглядит бодро для сопоставимой весовой категории.
Самое крутое здесь — это ценник. Инженеры научились тренировать агентов всего за $400, что примерно в 100 раз дешевле привычных методов. Секрет такой экономии в использовании синтетических данных.
Ai2 выкатили в опенсорс вообще все, включая скрипты для интеграции с Claude Code. Теперь, чтобы поднять собственного ИИ-разработчика, достаточно прописать буквально пару строчек кода..
allenai.org
Чипмэйкер опубликовал семейство открытых моделей и библиотек Earth-2, которое заменяет тяжелые физические симуляции нейросетями. Earth-2 генерирует метеопрогнозы на порядки быстрее и дешевле традиционных численных методов NWP.
В релиз вошли 3 архитектуры: Medium Range дает глобальный прогноз на 15 дней вперед по 70+ параметрам, генеративная система Nowcasting следит за штормами здесь и сейчас с окном прогноза до 6 часов и разрешением в километр и третий модуль, Global Data Assimilation, сокращает время расчета начальных атмосферных условий с часов до секунд.
Первые две уже доступны на GitHub и Hugging Face, а выход модуля ассимиляции данных запланирован на 2026 год.
nvidia.com
Google официально отправила LiteRT (тот самый TensorFlow Lite) в стабильный продакшн. Разработчики наконец-то получили нормальный, унифицированный доступ к NPU от Qualcomm и MediaTek. Плюс ко всему, новый движок ML Drift на GPU обгоняет классический TFLite в среднем в 1,5 раза.
Результаты бенчмарков на Samsung S25 Ultra выглядят почти нереально: на Gemma 3 LiteRT умудрился обойти llama.cpp в 3 раза на процессоре и в 19 раз на GPU (в prefill).
Если вы раньше страдали при переносе моделей, хорошая новость: теперь есть прямая конвертация из PyTorch и JAX. При этом старые наработки не сломали: формат .tflite поддерживается, но Google рекомендует использовать новый API CompiledModel.
developers.googleblog.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤84👍13🔥8🦄4
🌍 OpenTalks.AI 2026 - главная встреча русскоязычного AI-комьюнити за рубежом
19–20 февраля в Белграде соберутся специалисты по AI и ML со всего мира: исследователи, инженеры, фаундеры, лиды команд и просто люди, которые живут ИИ.
100+ спикеров и экспертов, среди которых:
Дмитрий Ветров, Евгений Бурнаев, Андрей Устюжанин, Татьяна Шаврина, Анна-Вероника Дорогуш, Сергей Николенко, Рома Доронин, Антон Конушин, Сергей Шумский, Аркадий Сандлер, Андрей Савченко, Сергей Кузнецов, Дмитрий Юдин, Сергей Овчаренко, Саша Крайнов — и ещё десятки сильнейших специалистов.
Три направления конференции:
🔬 Research - исследования и наука
⚙️ Engineering - реальные системы и продакшн
💼 Business - ИИ в продуктах и компаниях
OpenTalks.AI - это:
- живое общение и нетворкинг
- обмен опытом без формальностей
- новые идеи, проекты и знакомства
- атмосфера сильного профессионального сообщества
📍 Белград, Сербия
🗓 19–20 февраля 2026
Приезжайте быть частью русскоязычного AI/ML-комьюнити, которое съедется в одном месте со всего мира.
Промо-код на 20% для подписчиков: MachinelearningOT26
👉 www.OpenTalks.AI
19–20 февраля в Белграде соберутся специалисты по AI и ML со всего мира: исследователи, инженеры, фаундеры, лиды команд и просто люди, которые живут ИИ.
100+ спикеров и экспертов, среди которых:
Дмитрий Ветров, Евгений Бурнаев, Андрей Устюжанин, Татьяна Шаврина, Анна-Вероника Дорогуш, Сергей Николенко, Рома Доронин, Антон Конушин, Сергей Шумский, Аркадий Сандлер, Андрей Савченко, Сергей Кузнецов, Дмитрий Юдин, Сергей Овчаренко, Саша Крайнов — и ещё десятки сильнейших специалистов.
Три направления конференции:
🔬 Research - исследования и наука
⚙️ Engineering - реальные системы и продакшн
💼 Business - ИИ в продуктах и компаниях
OpenTalks.AI - это:
- живое общение и нетворкинг
- обмен опытом без формальностей
- новые идеи, проекты и знакомства
- атмосфера сильного профессионального сообщества
📍 Белград, Сербия
🗓 19–20 февраля 2026
Приезжайте быть частью русскоязычного AI/ML-комьюнити, которое съедется в одном месте со всего мира.
Промо-код на 20% для подписчиков: MachinelearningOT26
👉 www.OpenTalks.AI
opentalks.ai
OpenTalks.AI: 19-20 February 2026
Open Conference on Artificial Intelligence in Belgrade, Serbia, February 19-20, 2026
🔥31👍13❤8🥰5🌭3🦄3🗿2
PaddlePaddle обновили свою линейку PaddleOCR-VL, выпустив PaddleOCR-VL-1.5 - компактную VLM на 0.9 млрд. параметров на базе ERNIE-4.5-0.3B-Paddle. Несмотря на скромный размер, в задачах разбора документов она показывает SOTA-результаты.
На тесте OmniDocBench v1.5 модель выбила 94.5% точности, обойдя не только прошлую версию, но и более тяжелых конкурентов.
Фишка обновления - упор на полевые условия. Модель специально учили работать с плохими исходниками: кривыми сканами, бликами от мониторов и мятыми страницами.
Попутно сделали бенчмарк Real5-OmniDocBench, который гоняет модели по 5 сценариям: сканирование, перекосы, деформация листа, фото с экрана и плохое освещение.
Модель работает с
transformers, дружит с Flash Attention 2 и, само собой, поддерживается PaddlePaddle 3.2.1.Если нужно быстро поднять сервис - есть готовый Docker-образ.
Если нужен полноценный постраничный парсинг всего документа, лучше использовать официальный пакет PaddleOCR. Реализация через transformers пока ограничена только распознаванием отдельных элементов и споттингом.
В пайплайн встроили логику препроцессинга. Если картинка меньше 1500 пикселей, она автоматом апскейлится фильтром Lanczos. При этом есть потолок в 1.6 млн. пикселей для споттинга, это чтобы не перегружать память GPU и сохранить читаемость мелкого шрифта.
@ai_machinelearning_big_data
#AI #ML #VL #OCR #PaddleOCR
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤52🔥24👍19👌2🦄2
Media is too big
VIEW IN TELEGRAM
С 13 февраля 2026 года ChatGPT прощается со старой гвардией: из меню выбора исчезнут GPT-4o, GPT-4.1 и их mini-версии. Те, кто использует эти модели через API, могут выдохнуть - там все останется как прежде.
По метрикам, на ту же GPT-4o сейчас приходится всего 0,1% дневного трафика. OpenAI довольно долго тянули с отключением, прислушиваясь к просьбам фанатов, которые ценили четверку за творческий стиль. Но время пришло: компания заверяет, что теперь нужную тональность ответов можно настроить и в актуальных GPT-5.1 и 5.2.
Из интересного в планах: OpenAI наконец-то взялись за проблему ложных отказов (это когда модель впадает в морализаторство). А еще нас ждет версия ChatGPT для взрослых, где фильтры контента будут не такими параноидальными, как сейчас.
openai.com
Apple закрывает свою вторую по величине сделку в истории, приобретая стартап Q.AI, специализирующийся на машинном обучении в обработке аудио и изображений.
Их технологии умеют распознавать шепот и вытаскивать речь из шума, что прямо просится в AirPods. Плюс, наработки Q.AI в детекции микроактивности лицевых мышц планируют использовать для Vision Pro.
В Apple переходит вся команда Q.AI, включая основателя Авиада Майзелса. Для него это уже второй успешный экзит в Купертино: в 2013 году он продал Apple компанию PrimeSense, чьи 3D-сенсоры легли в основу Face ID. Сделку поддержали крупные инвесторы Kleiner Perkins и Gradient Ventures.
reuters.com
Команда Gradio выкатила Daggr - опенсорсную систему на Python для построения ML-цепочек. Это золотая середина между скриптами и огромными платформами оркестрации. Вы просто пишете логику на Python, а Daggr на лету строит интерактивный граф, объединяя функции и модели.
Главная фишка в горячей отладке. Если в середине длинного пайплайна что-то пошло не так, не нужно перезапускать все с самого начала. Можно залезть в конкретный узел, проверить промежуточный результат, поправить настройки и запустить только этот кусок.
Daggr работает с Gradio Spaces и Hugging Face, умеет сам клонировать окружение и сохранять состояние процесса. Примеры Daggr-воркфлоу можно посмотреть здесь.
huggingface.co
Команда Arcee AI доказала, что создание моделей фронтир-уровня перестало быть монополией корпораций. Их новая разработка Trinity Large - Sparse MoE на 400 млрд. параметров (13 млрд. активных), создание которой обошлось всего в $20 млн. Фактором успеха стал кластер из 2048 новейших Nvidia B300: благодаря им и оптимизатору Muon основной цикл обучения занял рекордные 33 дня.
Модель выделяется крайне низкой долей роутинга (1,56%) при 256 экспертах, что дает буст инференса. Trinity Large обучалась на 17 триллионах токенов, значительную часть из которых составляла качественная синтетика.
Arcee опубликовали веса всех 3 версий модели на Hugging Face, включая сырой чекпоинт TrueBase без SFT и RL. В бенчмарках Trinity конкурирует с Llama 4 Maverick, опережая ее в математических тестах AIME 2025.
arcee.ai
С проектом OpenClaw (который сначала был Clawdbot, а потом Moltbot) творится классический хайп-экзит. То, что задумывалось как удобный инструмент для управления компьютером через мессенджеры, на деле превратилось в огромную дыру в безопасности. Идея дать ИИ-агенту привилегированные права изначально выглядела так себе, и теперь мы видим последствия.
Из-за того, что Anthropic заставила автора менять название из-за прав на бренд, возникла путаница. Хакеры этим вовсю пользуются: воруют названия и плодят фейковые репозитории с вирусами внутри. Тем временем сотрудники компаний ставят себе OpenClaw без ведома айтишников. В итоге исследователи находят в сети сотни открытых панелей управления, где лежат чужие API-ключи и истории переписки.
forbes.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤84👍26🔥11😁6🤬2🦄2👏1😢1🎉1🌭1
Классический спор двух инвесторов стал причиной запуска интересного проекта.
В прошлый вторник, после совместного ужина Фред Уилсон (венчурный инвестор из Union Square Ventures) сказал Сету Гольдштейну (серийный предприниматель Кремниевой долины):
Твои нейронки — это круто, но они не смогут вырастить кукурузу.
Сет принял вызов буквально. Так родился проект Proof of Corn.
Он не стал строить робота-садовника на Arduino и вешать на ИИ управление IoT-устройствами, как это сделали в проекте с кустом помидоров, а подключил ИИ-агента, дав ему имя - Farmer Fred. Ведь владелец ресторана не жарит котлеты сам, он нанимает поваров. Так и ИИ не нужно управлять трактором - он станет управляющим кукурузной фермой.
farm_manager.py и daily_check.py. Скрипт дергает погодный API, чекает температуру почвы и сравнивает с базой данных (которую сам же и нагуглил).Агент проанализировал данные и предложил диверсификацию локаций выращивания: штат Айова (надо ждать весны), штат Техас (можно сажать сейчас) и
Если ИИ действительно сможет дистанционно арендовать землю, нанять реднеков с тракторами и собрать урожай — это будет самый дорогой початок кукурузы в истории, но Фред Уилсон проиграет спор.
Посмотрим в октябре.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥127👍42❤36😁25🦄5👏4🤗4🐳1
Спустя 5 лет ожидания и 1200 коммитов в ветку main с момента последнего минорного обновления, Transformers переходит на версию 5.0.0.
Это не просто смена цифры: разработчики фундаментально пересмотрели цикл обновлений и логику работы с весами.
Начиная с v5, Hugging Face отказывается от пятинедельного цикла в пользу еженедельных релизов (v5.1, v5.2 и так далее).
Для ML-инженеров это означает, что доступ к новым архитектурам, которые появляются буквально каждый день, будет открываться практически мгновенно, без необходимости устанавливать нестабильные dev-версии.
Если раньше чекпоинты загружались ровно в том виде, в котором они были сериализованы, то теперь
WeightConverter позволяет применять операции к слоям прямо в процессе загрузки. Новый API дает возможность определить маппинг архитектуры на список конверсий, т.е трансформировать веса на лету, например, для поддержки MoE или Tensor Parallelism без переписывания логики модели.
HF наконец-то избавились от дуализма медленных (Python) и быстрых (Rust) токенайзеров, которые раньше жили в разных файлах.
В v5 теперь единый файл
tokenization_<model>.py, который автоматически выбирает лучший доступный бэкенд. Приоритет отдается
TokenizersBackend на базе Rust, который дает оптимальную производительность и поддерживает параллелизацию. Если Rust недоступен, система откатывается на SentencePieceBackend или PythonBackend.Инициализация токенайзеров стала интуитивной. Теперь можно создать пустой экземпляр и обучить его на своем корпусе с нуля, используя
vocab и merges напрямую. Это унифицирует поведение токенайзеров и моделей: объект определяется своим классом, а не наличием предзагруженных файлов словаря.dtype при вызове from_pretrained теперь установлен в auto. Библиотека сама попытается определить оптимальную точность, что может сэкономить память, но требует внимания к старым скриптам. В релиз вошла поддержка новых моделей, в том числе GLM-4.7, Jais2 и Pixio и исправления для специфических кейсов: FP8-квантования и Flash Attention для квантованных моделей.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍107❤43😍14🔥7🤔2🎅1🦄1
Один из пионеров глубокого обучения и лауреат премии Тьюринга Ян Лекун резко критикует вектор развития ИИ.
Покинув пост в империи Марка Цукерберга в ноябре прошлого года, он говорит, что Кремниевая долина стала жертвой стадного чувства.
Исключительный фокус на больших языковых моделях — это тупиковый путь, который не приведет к созданию AGI, несмотря на колоссальные инвестиции.
Лекун утверждает, что индустрия буквально одурманена LLM. Фундаментальная проблема архитектуры трансформеров заключается в отсутствии способности к планированию и пониманию физического мира.
Системы, построенные на них обучаются исключительно на цифровых массивах данных; они могут предсказывать текст, но не понимают причинно-следственных связей реальности и не могут моделировать последствия своих действий.
Масштабирование языковых моделей имеет жесткий предел и не позволит достичь даже уровня человеческого интеллекта, не говоря уже о сверхразуме.
Для реализации своего видения Лекун основал Advanced Machine Intelligence Labs (AMI Labs). Стартап планирует создание систем, способных строить планы и прогнозировать исходы событий - то, чего лишены современные генеративные модели.
Отдельно досталось американским техно-гигантам за секретность. Лекун считает отказ от Open Source катастрофой и стратегической ошибкой.
Пока корпорации в США прячут разработки под замок, пытаясь сохранить лидерство, китайские компании используют открытый код и могут перехватить инициативу за счет скорости и креативности.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍205❤48🔥25😁13🤔11🥱3🦄1
Media is too big
VIEW IN TELEGRAM
Codex для Mac - среда, где можно запускать сразу несколько агентов для кодинга. Основной упор сделан на параллельные задачи: агенты работают в разных потоках и сгруппированы по проектам, так что между ними удобно переключаться, не теряя контекст.
Разработчикам пригодится нативная поддержка git-worktrees. Можно натравить несколько агентов на один репозиторий в изолированных копиях: они не будут мешать друг другу и не изменят локальное состояние веток до финального ревью. Также добавили «Автоматизации» — это для фоновой рутины вроде разбора тикетов или анализа логов CI по расписанию.
Приложение использует нативный сэндбоксинг: по умолчанию агенты ограничены текущей директорией и требуют подтверждения для сетевых запросов. Доступ уже открыт для подписчиков Plus, Pro и Enterprise, а на ограниченное время Codex стал доступен и на free тарифе ChatGPT.
openai.com
Полупроводниковое подразделение Alibaba, T-Head, поставила более 100 тыс. единиц своих ускорителей, обойдя локального конкурента Cambricon. Источники утверждают, что по производительности новинка сопоставима с Nvidia H20 - максимальным решением, доступным для легального ввоза в Китай.
Zhenwu 810E оснащен 96 ГБ памяти HBM2e с пропускной способностью до 700 ГБ/с. Хотя Nvidia H200 мощнее, Alibaba предлагает в качестве альтернативы полный технологический стек: от собственного облачного софта до железа, которое уже используется в собственных дата-центрах и у внешних клиентов.
scmp.com
Обновленная версия генерирует видео в разрешении 720p длительностью до 10 секунд. Помимо визуальной части, разработчики существенно улучшили качество аудиодорожек и логику взаимодействия: Grok теперь точнее интерпретирует запросы и научился задавать уточняющие вопросы для лучшего результата.
Популярность инструмента растет - за последние 30 дней в Grok Imagine сегерировали более 1,2 млрд. видео.
xAI в сети Х
Adobe пересмотрела правила игры для сервиса Firefly. Теперь пользователи тарифов Pro, Premium и владельцы крупных пакетов кредитов (от 4000) получили безлимитный доступ к генерации картинок и видео.
Самое интересное в этом обновлении - интеграция сторонних моделей. Теперь в интерфейсе Adobe (и в вебе, и в приложениях) можно использовать безлимитно не только родные алгоритмы модели, но и Runway Gen-4, Nano Banana Pro и GPT Image Generation.
Если планируете пользоваться Firefly постоянно, стоит поторопиться: закрепить за собой безлимитный доступ можно только при оформлении подписки до 16 марта.
blog.adobe.com
Флагманская Text-to-Speech модель, Eleven v3, официально вышла из стадии альфа-тестирования и стала доступной для коммерческого использования. Основной упор в финальной версии сделан на точность интерпретации сложных данных, где чтение символов критически зависит от окружения.
Инженеры значительно доработали логику озвучивания телефонных номеров в международном формате, химических формул, валют и спортивных результатов. Внутренние тесты на 27 категориях показали снижение уровня ошибок интерпретации на 68% - показатель упал с 15,3% до 4,9%. Модель уже доступна на всех поддерживаемых платформах.
elevenlabs.io
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍48❤25🔥14😁2🥱2🥰1🦄1
Media is too big
VIEW IN TELEGRAM
Apple выпустила Xcode 26.3, и главное в нем - глубокая интеграция с Claude Agent SDK. Возможности Claude Code перенесли в среду разработки: агент сам управляет задачами, запускает субагентов и поддерживает плагины.
Агент теперь видит не один открытый файл, а архитектуру всего проекта целиком и понимает, как связаны между собой SwiftUI, UIKit и Swift Data, сам составляет план действий и вносит правки. Claude научили пользоваться Xcode Previews и обращаться к документации Apple, если нужно разобраться в специфике API. Из полезных мелочей: добавили поддержку MCP, так что возможности Xcode теперь можно встроить в рабочий процесс через CLI.
Xcode 26.3 уже доступен в release candidate для участников программы Apple Developer.
anthropic.com
OpenAI начала закупать железо у других поставщиков. Руководство компании не устраивает, как чипы Nvidia справляются с инференсом. Главная претензия - медлительность. GPU устроены так, что им постоянно приходится обращаться к внешней памяти. Для быстрого инференса этого уже мало — нужны чипы, где память находятся прямо внутри кристалла (SRAM).
Чтобы решить этот вопрос, OpenAI пытается договориться с Cerebras и присматривается к решениям от Groq, хотя с последним переговоры сорвались. В планах - перевести на альтернативное железо около 10% всех своих мощностей.
Самое интересное происходит на фоне затянувшихся переговоров с самой Nvidia. Сэм Альтман и Дженсен Хуанг на публике могут сколько угодно говорить о тесном партнерстве, но сделка на 100 млрд. буксует уже несколько месяцев.
reuters.com
Илон Маск решил собрать свои главные активы в один гигантский конструктор. SpaceX официально забирает под свое крыло xAI вместе с соцсетью X. По данным СМИ, сумма сделки составила $250 млрд. долларов, что увеличивает капитализацию всей структуры до $1,25 трлн и теперь SpaceX официально обходит OpenAI, становясь самым дорогим частным стартапом в мире.
Стратегия слияния - в создании монстра, где все работает в одной связке. В планах совсем уж футуристичные идеи: запустить дата-центры на орбиту, чтобы там ИИ обучался в космосе, питаясь чистой солнечной энергией без посредников.
В итоге получается гремучая смесь: данные пользователей из X, мозги от xAI и логистика со спутниками Starlink от SpaceX. И вся эта махина готовится к выходу на IPO.
spacex.com
Microsoft запустила платформу Publisher Content Marketplace, где владельцы сайтов и СМИ могут напрямую продавать свои статьи ИИ-разработчикам. Теперь авторы могут сами выставлять ценник за использование своих материалов.
В проекте уже участвуют Associated Press, Condé Nast и Vox Media, а со стороны покупателей первым пришел Yahoo.Это первый масштабный маркетплейс - раньше каждой крупной компании приходилось договариваться с разработчиками ИИ по отдельности.
microsoft.com
Инженеры из MIT разработали кремниевые микро-структуры, которые превращают тепловые потери в ресурс для обработки данных. В основе лежит метод аналоговых вычислений: входная информация кодируется в виде температурных значений, а математическая операция выполняется в процессе диффузии тепла через специальный пористый материал.
Такая "тепловая математика" работает очень точно. Ученым удалось провести умножение матриц на векторы с точностью выше 99%. Чтобы добиться такого результата, форму и расположение пор в кремнии рассчитывали с помощью специальных алгоритмов.
Конечно, заменить видеокарты Nvidia для обучения ChatGPT эти чипы пока не смогут — есть вопросы к скорости передачи данных. Но у технологии есть крутое применение уже сейчас: датчики контроля оборудования.
mit.edu
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72❤22🔥11❤🔥2🥱2🦄2🤗1
Qwen3-Coder-Next — открытая MoE-модель на 80 млрд. общих и 3 млрд. активных параметров с контекстным окном в 256К токенов для агентных задач.
Модель учили через agentic training на 800 тыс. задачах, созданных из GitHub PR в реальных Docker-контейнерах, где она получала прямой фидбек от среды.
Это развило навыки планирования в ризонинге, использования инструментов и умение восстанавливаться после ошибок выполнения.
На претрейне расширили поддержку языков с 92 до 370, затем SFT на траекториях агентов, а потом - специализация экспертов (WebDev, QA, UX) с последующей дистилляцией в единую модель.
В конце, через RL подтянули в задачах кодинга и математики, используя юнит-тесты как сигнал вознаграждения.
Основной массив данных (те самые Docker-контейнеры) это по большей мере Python (202 тыс. инстансов) и JS/TS (175 тыс. инстансов). Для редких языков модель может чаще галлюцинировать, так как данных для RL и проверок через юнит-тесты там физически меньше.
Модель все-таки ощутимо отстает от Claude 4.5 Opus на сверхсложных архитектурных задачах с большими кодовыми базами.
Иногда ей требуется слишком много итераций, чтобы нащупать верное решение и это вопросы к эффективности планирования.
Фронтенд и UI - слабое место (авторы признают), а в киберсек-задачах (поиск уязвимостей и TAA) модель пока не дотягивает до человеческого уровня.
Единственное, что спасает Qwen3-Coder-Next от забвения - это компактность и поддержка fill-in-the-middle для адекватного автодополнения кода в IDE.
Qwen обещают улучшать ризонинг, принятие решении и поддержку дополнительных задач на основе фидбэка пользователей.
@ai_machinelearning_big_data
#AI #ML #LLM #QwenCoderNext #Qwen
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥54❤38👍26👾2🍓1🦄1
Forwarded from Искусственный интеллект. Высокие технологии
Media is too big
VIEW IN TELEGRAM
🚀 Вышла Kling 3.0 - “Everyone a Director”. Новый этап в ИИ-креативе.
Это универсальный движок для мультимодального создания контента - видео, изображений и аудио в одной системе.
Что появилось в версии 3.0:
- Высокая консистентность
Модель умеет “держать” персонажей, объекты и стиль неизменными от кадра к кадру. Лицо героя, одежда, детали сцены и визуальный стиль не “плывут” между шотами, что особенно важно для историй, сериалов, рекламы и сцен с несколькими ракурсами.
• Можно создавать 15-секундные клипы с точным контролем, реалистичной картинкой и настройкой multi-shot сцен.
- Обновлённый звук
Поддержка референсов для нескольких персонажей, добавлено больше языков и акцентов.
- Улучшенная генерация изображений
Вывод в 4K, режим серий изображений и более кинематографичная визуальная подача.
Подписчики Ultra получают эксклюзивный ранний доступ - модель уже доступна в веб-версии Kling AI.
https://app.klingai.com/global/release-notes/whbvu8hsip?type=dialog
@vistehno
Это универсальный движок для мультимодального создания контента - видео, изображений и аудио в одной системе.
Что появилось в версии 3.0:
- Высокая консистентность
Модель умеет “держать” персонажей, объекты и стиль неизменными от кадра к кадру. Лицо героя, одежда, детали сцены и визуальный стиль не “плывут” между шотами, что особенно важно для историй, сериалов, рекламы и сцен с несколькими ракурсами.
• Можно создавать 15-секундные клипы с точным контролем, реалистичной картинкой и настройкой multi-shot сцен.
- Обновлённый звук
Поддержка референсов для нескольких персонажей, добавлено больше языков и акцентов.
- Улучшенная генерация изображений
Вывод в 4K, режим серий изображений и более кинематографичная визуальная подача.
Подписчики Ultra получают эксклюзивный ранний доступ - модель уже доступна в веб-версии Kling AI.
https://app.klingai.com/global/release-notes/whbvu8hsip?type=dialog
@vistehno
🔥39❤28👍9🥰6🦄2😴1
Media is too big
VIEW IN TELEGRAM
В компании говорят, что рекламная модель просто не вяжется с инструментом, который должен быть нейтральным пространством для размышлений, работы и решения сложных задач.
Anthropic видят огромную разницу между поисковиком и ИИ. В чате люди часто делятся личными деталями или рабочими нюансами. Если подмешать сюда коммерческий интерес, доверие сразу рухнет - вместо честного ответа ассистент начнет аккуратно подталкивать к покупке того, за что ему занесли. Claude не должен превращаться в скрытого менеджера по продажам.
Зарабатывать Anthropic планирует по старинке: на платных подписках и контрактах с бизнесом. Да, в будущем Claude, скорее всего, научится бронировать отели или покупать товары, но только если вы сами его об этом попросите.
anthropic.com
Французская лаборатория представила новое поколение speech-to-text решений, в которое вошли 2 модели: закрытая Voxtral Mini Transcribe V2 и открытая Voxtral Realtime.
Realtime использует новую потоковую архитектуру вместо привычной обработки чанками, что позволяет конфигурировать задержку вплоть до суб-200 мс. Модель поддерживает 13 языков, включая русский, и оптимизирована для запуска на edge-устройствах.
Mini Transcribe V2 позиционируется как самое эффективное решение на рынке. При стоимости API всего $0,003 за минуту она предлагает функции диаризации, пословные таймкоды и улучшенное понимание специфической терминологии. По тестам компании, Mini превосходит аналоги от OpenAI и Deepgram по точности.
mistral.ai
Теперь Deep Research работает на модели Opus 4.5 в связке с проприетарным поисковым движком и инфраструктурой песочницы. Обновление уже доступно на тарифе Max, а для Pro раскатают в ближайшие дни. Perplexity утверждают, что новая конфигурация дает SOTA-результаты по точности и надежности ссылок.
Заодно компания решила поделиться своим инструментом для тестов и выложила в открытый доступ на Hugging Face бенчмарк DRACO. Это набор из 100 реально сложных задач в 10 областях - от медицины до права. В Perplexity не упустили случая заявить, что в этом бенче они обходят всех конкурентов.
Perplexity Ai в сети Х
В бета-версии Google App (17.4) нашли упоминание функции экранной автоматизации под кодовым названием bonobo. Она позволит Gemini брать на себя рутинные действия внутри других приложений: самостоятельно вызвать такси или оформить заказ, взаимодействуя с интерфейсом вместо пользователя.
Судя по утечкам, полноценно это заработает только в Android 16. Google предупреждает, что Gemini не идеальный автопилот: за ним придется приглядывать. Впрочем, перехватить управление можно будет в любой момент.
Есть важный нюанс с приватностью: при включенной истории активности скриншоты действий ассистента могут попадать к живым рецензентам для дообучения модели.
9to5google.com
Автоматический аудит работ, принятых на одну из главных ИИ-конференций, вскрыл серьезную проблему с воспроизводимостью исследований. Спустя год после NeurIPS 2024 почти сотня проектов на GitHub до сих пор висят пустыми, несмотря на обязательства авторов открыть исходники.
Что забавно (и грустно), этим грешат не только новички, но и крупные компании вместе с топовыми вузами. Проверка, выполненная с помощью парсинга PDF и API-запросов, показала распространенную схему: исследователи добавляют ссылки на GitHub в текст статьи для прохождения рецензирования, но фактически не загружают туда рабочий код.
Даже если сделать скидку на возможные ошибки самого алгоритма проверки, общая картина печальна. Без кода любая работа по ИИ превращается в "верьте мне на слово", а в серьезных исследованиях это так не работает.
momo5913.github.io
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤51👍28😁12🔥4🗿2🦄1
Ace Studio в коллабе со StepFun обновили генератор музыки ACE-Step до версии 1.5.
Порог входа уронили до минимума: младшая модель требует меньше 6 ГБ видеопамяти, а, в зависимости от настроек think mode, генерация может занять от 2 до 10 секунд - это уже уровень коммерческих решений.
Разработчики собрали гибрид из языковой модели, которая превращает промпт в чертеж композиции: расписывает структуру, придумывает лирику и метаданные и DiT, который отвечает за звук. Логическое ядро всей этой системы базируется на Qwen3.
ACE-Step v1.5 может генерировать треки длиной от 10 секунд до 10 минут, причем до 8 штук одновременно. В базе больше 1000 инструментов, а тексты песен система понимает на 50 языках.
Авторы подготовили целый набор моделей под разный объем VRAM:
При запуске, ACE-Step v1.5 автоматически выбирает подходящую под железо модель и параметры. Подробную информацию по конфигурациям можно найти тут.
ACE-Step умеет гораздо больше, чем просто превращать текст в мелодию. Можно дать ей пример аудио, чтобы скопировать стиль, делать каверы, исправлять куски уже готовых треков или генерировать аккомпанемент к вокалу.
Самая интересная функция - возможность создавать LoRA. Чтобы скормить модели свой стиль, достаточно всего 8 треков. На 30-й серии RTX с 12 ГБ памяти этот процесс займет около часа.
С деплоем все в порядке, разработчики подготовили портабельную сборку, а для ComfyUI уже написали все необходимые ноды и воркфлоу.
@ai_machinelearning_big_data
#AI #ML #Text2Music #AceStudio #StepFun
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤30👍16⚡7🔥2😁1🦄1