Создание компактных и чувствительных ко времени визуальных представлений динамических сцен является ключевым условием успешного выполнения последовательных задач понимания сцены, таких как визуальное отслеживание объектов и роботизированная манипуляция предметами. В данной статье представлен метод Token Bottleneck (ToBo) — простой и интуитивно понятный конвейер самообучаемого алгоритма, сжимающий сцену в узкое временное представление («токен») и предсказывающий последующую сцену, используя минимальное количество ключевых фрагментов в качестве подсказок.
Pipeline ToBo позволяет эффективно формировать представления последовательности сцен путём консервативного кодирования исходной сцены в компактный токен («squeeze»). Затем, на этапе расширения («expansion»), алгоритм направляет сеть на выявление временных изменений, восстанавливая целевую сцену с помощью сжатого токена и нескольких патчей целевой сцены в качестве ориентировочных сигналов. Такой подход способствует формированию пространственно-временных зависимостей в сетевом представлении, обеспечивая понимание динамики переходов между сценами.
Проведённые обширные эксперименты на различных последовательных задачах, включая распространение меток в видеопоследовательностях и манипуляции роботов в симулированных средах, демонстрируют превосходство метода ToBo над базовыми решениями. Реальные испытания на физических роботах подтверждают надёжность и эффективность предложенного подхода в реальных условиях эксплуатации. Дополнительно проверяется масштабируемость архитектуры ToBo применительно к различным размерам нейронных сетей.
https://arxiv.org/abs/2507.06543
Pipeline ToBo позволяет эффективно формировать представления последовательности сцен путём консервативного кодирования исходной сцены в компактный токен («squeeze»). Затем, на этапе расширения («expansion»), алгоритм направляет сеть на выявление временных изменений, восстанавливая целевую сцену с помощью сжатого токена и нескольких патчей целевой сцены в качестве ориентировочных сигналов. Такой подход способствует формированию пространственно-временных зависимостей в сетевом представлении, обеспечивая понимание динамики переходов между сценами.
Проведённые обширные эксперименты на различных последовательных задачах, включая распространение меток в видеопоследовательностях и манипуляции роботов в симулированных средах, демонстрируют превосходство метода ToBo над базовыми решениями. Реальные испытания на физических роботах подтверждают надёжность и эффективность предложенного подхода в реальных условиях эксплуатации. Дополнительно проверяется масштабируемость архитектуры ToBo применительно к различным размерам нейронных сетей.
https://arxiv.org/abs/2507.06543
arXiv.org
Token Bottleneck: One Token to Remember Dynamics
Deriving compact and temporally aware visual representations from dynamic scenes is essential for successful execution of sequential scene understanding tasks such as visual tracking and robotic...
🤔2
🚀 Новый ИИ-агент WebSailor от Alibaba для веб-поиска и анализа данных
Китайский гигант Alibaba представил открытый сетевой агент WebSailor, способный решать сложные задачи поиска и анализа информации в интернете.
Проект уже набрал более 2k звезд на GitHub и возглавил рейтинг открытых ИИ-агентов в тестовом наборе BrowseComp, обойдя даже коммерческие модели!
🔍Основные возможности:
• Многошаговый анализ и перекрестная проверка данных
• Работа с нечеткими запросами и высокой степенью неопределенности
Технические детали для экспертов:
1.
2. Набор данных
3. Архитектура основана на Qwen моделях с пост-тренингом
📊Результаты тестирования:
• Превышение показателей DeepSeek R1 и Grok-3
• Второе место после OpenAI DeepResearch среди всех систем
• Отличные результаты на простых задачах (SimpleQA), несмотря на обучение только на сложных данных
GitHub
#КитайскийИИ #КитайAI #ВебПоиск #ИИАгенты #Alibaba
Китайский гигант Alibaba представил открытый сетевой агент WebSailor, способный решать сложные задачи поиска и анализа информации в интернете.
Проект уже набрал более 2k звезд на GitHub и возглавил рейтинг открытых ИИ-агентов в тестовом наборе BrowseComp, обойдя даже коммерческие модели!
🔍Основные возможности:
• Многошаговый анализ и перекрестная проверка данных
• Работа с нечеткими запросами и высокой степенью неопределенности
Технические детали для экспертов:
1.
DUPO – новый алгоритм RL (обучения с подкреплением), ускоряющий тренировку агента в 2-3 раза2. Набор данных
SailorFog-QA специально разработан для сложных задач с высокой неопределенностью3. Архитектура основана на Qwen моделях с пост-тренингом
📊Результаты тестирования:
• Превышение показателей DeepSeek R1 и Grok-3
• Второе место после OpenAI DeepResearch среди всех систем
• Отличные результаты на простых задачах (SimpleQA), несмотря на обучение только на сложных данных
GitHub
#КитайскийИИ #КитайAI #ВебПоиск #ИИАгенты #Alibaba
GitHub
GitHub - Alibaba-NLP/DeepResearch: Tongyi Deep Research, the Leading Open-source Deep Research Agent
Tongyi Deep Research, the Leading Open-source Deep Research Agent - Alibaba-NLP/DeepResearch
🔥2
https://arxiv.org/pdf/2507.10532
Особенно удивительны случаи, когда случайные или некорректные сигналы вознаграждения приводят к повышению производительности. Однако подобные успехи чаще всего связаны с определёнными семействами моделей, такими как семейство Qwen2.5, а аналогичные эксперименты с другими моделями, например, Llama, показывают нестабильные результаты. Такое различие ставит вопрос о причинах подобной вариативности и надежности выводов, сделанных на основе стандартных эталонных тестов.
Наш анализ показывает, что сильные стороны модели Qwen2.5 в математических рассуждениях объясняются особенностями её предварительного обучения на обширных корпусах интернета, что потенциально создает риск загрязнения данных в традиционных наборах тестов. Например, такие известные тесты, как MATH-500, AMC и AIME, были изначально разработаны для проверки способностей студентов, а теперь используются для тестирования возможностей LLMs. Тем не менее, существование взаимосвязей между обучающими корпусами и стандартными наборами вопросов делает полученные результаты сомнительными.
Особенно удивительны случаи, когда случайные или некорректные сигналы вознаграждения приводят к повышению производительности. Однако подобные успехи чаще всего связаны с определёнными семействами моделей, такими как семейство Qwen2.5, а аналогичные эксперименты с другими моделями, например, Llama, показывают нестабильные результаты. Такое различие ставит вопрос о причинах подобной вариативности и надежности выводов, сделанных на основе стандартных эталонных тестов.
Наш анализ показывает, что сильные стороны модели Qwen2.5 в математических рассуждениях объясняются особенностями её предварительного обучения на обширных корпусах интернета, что потенциально создает риск загрязнения данных в традиционных наборах тестов. Например, такие известные тесты, как MATH-500, AMC и AIME, были изначально разработаны для проверки способностей студентов, а теперь используются для тестирования возможностей LLMs. Тем не менее, существование взаимосвязей между обучающими корпусами и стандартными наборами вопросов делает полученные результаты сомнительными.
🔥2
Подход Retrieval-Augmented Generation (RAG), основанный на интеграции внешних источников знаний, повышает точность крупных языковых моделей (LLM), однако он недостаточно эффективен в задачах, требующих многошагового вывода. Напротив, подходы, ориентированные исключительно на рассуждения, часто генерируют ложные факты или ошибаются в интерпретациях. Этот обзор объединяет оба направления в рамках единого подхода, сочетающего методы рассуждений и извлечение знаний.
Сначала мы показываем, каким образом усовершенствованные методы рассуждений улучшают каждый этап процесса RAG («Рассуждение-Усиленный RAG»). Затем демонстрируем, как извлечённые знания различных типов восполняют недостающие предпосылки и расширяют контекст для сложных выводов («RAG-Усиленное Рассуждение»).
Наконец, акцентируем внимание на появляющихся гибридных системах RAG-рассуждений, где LLM итерационно чередуют процессы поиска и рассуждений, достигая выдающихся результатов на тестах, связанных с обработкой больших объёмов знаний. Мы классифицируем существующие методы, наборы данных и обозначаем актуальные проблемы, определяя пути исследований для разработки более эффективных, мультимодальных, надёжных и ориентированных на человека систем RAG-рассуждений. Сборник доступен по адресу: https://github.com/DavidZWZ/Awesome-RAG-Reasoning.
https://arxiv.org/pdf/2507.09477
Сначала мы показываем, каким образом усовершенствованные методы рассуждений улучшают каждый этап процесса RAG («Рассуждение-Усиленный RAG»). Затем демонстрируем, как извлечённые знания различных типов восполняют недостающие предпосылки и расширяют контекст для сложных выводов («RAG-Усиленное Рассуждение»).
Наконец, акцентируем внимание на появляющихся гибридных системах RAG-рассуждений, где LLM итерационно чередуют процессы поиска и рассуждений, достигая выдающихся результатов на тестах, связанных с обработкой больших объёмов знаний. Мы классифицируем существующие методы, наборы данных и обозначаем актуальные проблемы, определяя пути исследований для разработки более эффективных, мультимодальных, надёжных и ориентированных на человека систем RAG-рассуждений. Сборник доступен по адресу: https://github.com/DavidZWZ/Awesome-RAG-Reasoning.
https://arxiv.org/pdf/2507.09477
GitHub
GitHub - DavidZWZ/Awesome-RAG-Reasoning: [EMNLP 2025] Awesome RAG Reasoning Resources
[EMNLP 2025] Awesome RAG Reasoning Resources. Contribute to DavidZWZ/Awesome-RAG-Reasoning development by creating an account on GitHub.
👍2🔥2
Американская авиакомпания тестирует ИИ, который оценивает финансовое положение клиента и изменяет (повышает) цену билета в соответствии с платежеспособностью пассажира. Нейронку фирма заказала в Израиле.
https://tech.onliner.by/2025/07/18/aviakompaniya-v-ssha-ispolzuet-ii-chtoby-prodavat-maksimalno-dorogie-bilety
https://tech.onliner.by/2025/07/18/aviakompaniya-v-ssha-ispolzuet-ii-chtoby-prodavat-maksimalno-dorogie-bilety
Onlíner
Авиакомпания в США использует ИИ, чтобы продавать максимально дорогие билеты
Американская авиакомпания Delta Air Lines применяет динамическое ценообразованию билетов, которое работает на основе искусственного интеллекта, чтобы определять индивидуальную максимальную стоимость, которую пассажир готов заплатить за перелет. Такой подход…
https://habr.com/ru/articles/928994/ - очень выходное чтиво ))))
Хабр
Как выйти из IT?.. и пойти слесарем на завод. Моя попыточка дауншифтинга [2|5]
Вторая часть нашего слесарно-айтишного балета будет с элементами 18+, поэтому уберите от экранов джунов. В Сингапуре - 21+. Нет, ты будешь! - самый жёсткий HeadHunt в моей практике Успешно провалив...
😁2
🚀 Kimi K2: Китайский гигант ИИ отвечает на вызов DeepSeek открытой SOTA-моделью с 1 трлн параметров
После полугода молчания китайская компания MoonshotAI представила мощную альтернативу DeepSeek — модель Kimi K2 с развитыми возможностями в кодинге, математике и автоматизации задач.
📌 Количество звезд на GitHub уже превысило 3k!
🔥 Основные особенности:
• Архитектура MoE (Mixture of Experts) с 1 триллионом общих параметров (активно используется 32 млрд)
• Поддержка контекста
• Открытый исходный код (модифицированная MIT-лицензия)
• Лучшие показатели среди открытых моделей в тестах SWE Bench, Tau2, AceBench
💡 Чем удивил Kimi K2?
→ Генерация 3D-ландшафтов с циклом день/ночь
→ Автоматическое планирование сложных задач (например, организация поездки на концерт)
→ Сильная сторона — генерация кода (пользователи называют "DeepSeek-моментом" для coding моделей)
🔧 Технические инновации:
• Новый оптимизатор Muon вместо традиционного Adam
• Система
• Обучение на 15.5T токенов без аномалий (zero loss spike)
• Самооценочный механизм (self-judging) для задач без четких критериев
🌐 Открытая модель доступна в двух вариантах:
- Kimi-K2-Base (базовая)
- Kimi-K2-Instruct (для Agent-задач)
GitHub | Huggingface
#КитайскийИИ #КитайAI #MoonshotAI #Kimi
После полугода молчания китайская компания MoonshotAI представила мощную альтернативу DeepSeek — модель Kimi K2 с развитыми возможностями в кодинге, математике и автоматизации задач.
📌 Количество звезд на GitHub уже превысило 3k!
🔥 Основные особенности:
• Архитектура MoE (Mixture of Experts) с 1 триллионом общих параметров (активно используется 32 млрд)
• Поддержка контекста
128K токенов• Открытый исходный код (модифицированная MIT-лицензия)
• Лучшие показатели среди открытых моделей в тестах SWE Bench, Tau2, AceBench
💡 Чем удивил Kimi K2?
→ Генерация 3D-ландшафтов с циклом день/ночь
→ Автоматическое планирование сложных задач (например, организация поездки на концерт)
→ Сильная сторона — генерация кода (пользователи называют "DeepSeek-моментом" для coding моделей)
🔧 Технические инновации:
• Новый оптимизатор Muon вместо традиционного Adam
• Система
MuonClip для стабильного обучения на триллионах параметров• Обучение на 15.5T токенов без аномалий (zero loss spike)
• Самооценочный механизм (self-judging) для задач без четких критериев
🌐 Открытая модель доступна в двух вариантах:
- Kimi-K2-Base (базовая)
- Kimi-K2-Instruct (для Agent-задач)
GitHub | Huggingface
#КитайскийИИ #КитайAI #MoonshotAI #Kimi
GitHub
GitHub - MoonshotAI/Kimi-K2: Kimi K2 is the large language model series developed by Moonshot AI team
Kimi K2 is the large language model series developed by Moonshot AI team - MoonshotAI/Kimi-K2
Т-Банк выпустил собственную большую языковую модель с гибридным режимом рассуждений на открытом исходном коде T-Pro 2.0, которую можно бесплатно использовать в коммерческих целях, пишет РБК.
Для работы модели на русском языке потребуется вдвое меньше вычислительных мощностей, чем для китайских аналогов Qwen3 и DeepSeek R1-Distil. Суммарные затраты на разработку модели составили менее 120 млн руб. Развитие российских компактных моделей с режимом рассуждений делает внедрение ИИ-решений экономически обоснованным в том числе среди малого и среднего бизнеса.
Для работы модели на русском языке потребуется вдвое меньше вычислительных мощностей, чем для китайских аналогов Qwen3 и DeepSeek R1-Distil. Суммарные затраты на разработку модели составили менее 120 млн руб. Развитие российских компактных моделей с режимом рассуждений делает внедрение ИИ-решений экономически обоснованным в том числе среди малого и среднего бизнеса.
РБК
Т-банк выпустил российский аналог DeepSeek и Qwen
Т-банк выпустил российскую языковую модель с режимом рассуждений, которую можно бесплатно использовать в коммерческих целях, например для создания ИИ-агентов. Ранее для этого подходили только
🔥2
🧮 Разработчик создал самый бесполезный калькулятор
Инженер и художник Кельвин Лян представил CalcGPT – веб-приложение, которое выглядит как калькулятор, но вместо вычислений генерирует случайные ответы с помощью GPT-3.
Этот проект является сатирой на повальное встраивание ИИ туда, где он не нужен. Лян иронизирует над трендом, когда в ПО добавляют нейросети «для галочки» ради инвесторов, хайпа и красивых слов вроде «AI-powered», но без пользы для людей.
CalcGPT – это не ошибка, а специально бесполезный калькулятор. Автор обещает в будущем сделать его ещё хуже – добавить блокчейн, NFT и менять дизайн как можно чаще 😁
Инженер и художник Кельвин Лян представил CalcGPT – веб-приложение, которое выглядит как калькулятор, но вместо вычислений генерирует случайные ответы с помощью GPT-3.
Этот проект является сатирой на повальное встраивание ИИ туда, где он не нужен. Лян иронизирует над трендом, когда в ПО добавляют нейросети «для галочки» ради инвесторов, хайпа и красивых слов вроде «AI-powered», но без пользы для людей.
CalcGPT – это не ошибка, а специально бесполезный калькулятор. Автор обещает в будущем сделать его ещё хуже – добавить блокчейн, NFT и менять дизайн как можно чаще 😁
calcgpt.io
A silly calculator unnecessarily powered by GPT
😁4
π^3: Scalable Permutation-Equivariant Visual Geometry Learning
Мы представляем pi ^ 3, нейронную сеть с прямой связью, которая предлагает новый подход к визуальному восстановлению геометрии, отказываясь от использования обычного фиксированного исходного изображения. Предыдущие методы часто привязывали свои реконструкции к определенной точке зрения, индуктивному смещению, которое могло привести к нестабильности и сбоям, если исходная точка была неоптимальной. В отличие от этого, pi ^ 3 использует полностью эквивариантную по перестановкам архитектуру для прогнозирования аффинно-инвариантных поз камеры и масштабно-инвариантных карт локальных точек без каких-либо систем отсчета. Такая конструкция делает нашу модель устойчивой к упорядочиванию входных данных и легко масштабируемой. Эти преимущества позволяют использовать наш простой и безошибочный подход для достижения самой современной производительности в широком спектре задач, включая оценку положения камеры, оценку глубины монокуляра /видео и реконструкцию точечной карты. Код и модели находятся в открытом доступе.
✅https://arxiv.org/pdf/2507.13347
✅https://yyfz.github.io/pi3/
✅https://github.com/yyfz/Pi3
Мы представляем pi ^ 3, нейронную сеть с прямой связью, которая предлагает новый подход к визуальному восстановлению геометрии, отказываясь от использования обычного фиксированного исходного изображения. Предыдущие методы часто привязывали свои реконструкции к определенной точке зрения, индуктивному смещению, которое могло привести к нестабильности и сбоям, если исходная точка была неоптимальной. В отличие от этого, pi ^ 3 использует полностью эквивариантную по перестановкам архитектуру для прогнозирования аффинно-инвариантных поз камеры и масштабно-инвариантных карт локальных точек без каких-либо систем отсчета. Такая конструкция делает нашу модель устойчивой к упорядочиванию входных данных и легко масштабируемой. Эти преимущества позволяют использовать наш простой и безошибочный подход для достижения самой современной производительности в широком спектре задач, включая оценку положения камеры, оценку глубины монокуляра /видео и реконструкцию точечной карты. Код и модели находятся в открытом доступе.
✅https://arxiv.org/pdf/2507.13347
✅https://yyfz.github.io/pi3/
✅https://github.com/yyfz/Pi3
The Imitation Game: Turing Machine Imitator is Length Generalizable Reasoner
Обобщение длины последовательности — ключевое препятствие для трансформерных больших языковых моделей (LLM), заключающееся в способности решать задачи длиннее тех, которые встречались модели во время обучения. Хотя большинство исследований сосредоточено на датасетоводческих подходах для арифметики и символической обработки, такие методы часто ограничены конкретной задачей и демонстрируют низкую общую производительность.
Данная работа направлена на решение проблемы обобщения длины в более широком классе вычислительных задач, решаемых алгоритмами и имитируемых машиной Тьюринга. Предлагается метод TAIL («обучение машинному подражанию Тьюрингу»), способствующий улучшению обобщаемости LLM путем синтеза цепочки рассуждений, повторяющих процесс исполнения программы на машине Тьюринга. Этот подход разбивает шаги вычислений на атомарные состояния, устраняя склонность к короткому обучению и облегчая доступ к динамическим данным в элементарных операциях благодаря механизму выборки памяти.
Для проверки эффективности метода создана синтетическая база данных, включающая восемь классов алгоритмов и восемнадцать различных задач. Экспериментально доказано, что применение TAIL значительно улучшает способность LLM к обобщению длинных последовательностей и повышает качество решения задач даже без дополнительных методов оптимизации. Результаты показывают, что ключевые концепции машины Тьюринга, а не мышление стиля, являются необходимыми элементами для достижения успеха в обучении, демонстрируя согласованность поведения внимания модели с принципами машины Тьюринга.
Таким образом, исследование открывает перспективное направление развития методов обучения языковой модели с использованием синтетических данных, акцентируя внимание на важности структурных особенностей, присущих машинам Тьюринга.
https://arxiv.org/pdf/2507.13332
Обобщение длины последовательности — ключевое препятствие для трансформерных больших языковых моделей (LLM), заключающееся в способности решать задачи длиннее тех, которые встречались модели во время обучения. Хотя большинство исследований сосредоточено на датасетоводческих подходах для арифметики и символической обработки, такие методы часто ограничены конкретной задачей и демонстрируют низкую общую производительность.
Данная работа направлена на решение проблемы обобщения длины в более широком классе вычислительных задач, решаемых алгоритмами и имитируемых машиной Тьюринга. Предлагается метод TAIL («обучение машинному подражанию Тьюрингу»), способствующий улучшению обобщаемости LLM путем синтеза цепочки рассуждений, повторяющих процесс исполнения программы на машине Тьюринга. Этот подход разбивает шаги вычислений на атомарные состояния, устраняя склонность к короткому обучению и облегчая доступ к динамическим данным в элементарных операциях благодаря механизму выборки памяти.
Для проверки эффективности метода создана синтетическая база данных, включающая восемь классов алгоритмов и восемнадцать различных задач. Экспериментально доказано, что применение TAIL значительно улучшает способность LLM к обобщению длинных последовательностей и повышает качество решения задач даже без дополнительных методов оптимизации. Результаты показывают, что ключевые концепции машины Тьюринга, а не мышление стиля, являются необходимыми элементами для достижения успеха в обучении, демонстрируя согласованность поведения внимания модели с принципами машины Тьюринга.
Таким образом, исследование открывает перспективное направление развития методов обучения языковой модели с использованием синтетических данных, акцентируя внимание на важности структурных особенностей, присущих машинам Тьюринга.
https://arxiv.org/pdf/2507.13332
Нейросеть от Replit вышла из-под контроля, снесла базу данных и попыталась замести следы.
Об этом сообщил инвестор Джейсон Лемкин. Что это за ИИ и что произошло:
— Replit — это онлайн-сервис с ИИ, который позволяет писать и запускать код без установки дополнительного софта;
— его внедрили в бизнес, чтобы ускорить разработки и автоматизировать некоторые процессы;
— команда проекта прописала нейросети: «НИКАКИХ ИЗМЕНЕНИЙ без разрешения». Но на одном из этапов работы Replit решила, что база данных сломана, и стёрла её;
— данные 1206 пользователей и 1196 компаний были уничтожены;
— утверждается, что ИИ продолжил генерировать фейковые отчёты, будто ничего не произошло;
— в конце концов этот ИИ-бот признал ошибку: «Я уничтожил месяцы работы и сломал систему».
Об этом сообщил инвестор Джейсон Лемкин. Что это за ИИ и что произошло:
— Replit — это онлайн-сервис с ИИ, который позволяет писать и запускать код без установки дополнительного софта;
— его внедрили в бизнес, чтобы ускорить разработки и автоматизировать некоторые процессы;
— команда проекта прописала нейросети: «НИКАКИХ ИЗМЕНЕНИЙ без разрешения». Но на одном из этапов работы Replit решила, что база данных сломана, и стёрла её;
— данные 1206 пользователей и 1196 компаний были уничтожены;
— утверждается, что ИИ продолжил генерировать фейковые отчёты, будто ничего не произошло;
— в конце концов этот ИИ-бот признал ошибку: «Я уничтожил месяцы работы и сломал систему».
🤯2
«Т-Технологии» выложили в открытый доступ модель потокового распознавания речи T-one. Она состоит из 70 млн параметров и обгоняет другие доступные открытые модели по качеству распознавания на русском в телефонии.
Расходы на разработку продукта составили всего 10 млн рублей. Она уже внедрена в ряде внутренних продуктов Т-Банка, в том числе в службе поддержки, мобильном секретаре в «Т-Мобайле», в инструментах защиты от нежелательных звонков. Т-Банк развивает речевые технологии с 2016 года.
Модель T-one доступна по открытой лицензии может быть интересна бизнесу и научному сообществу. Она запускается даже с ноутбука и стоит в десятки раз дешевле облачных решений. Компании, создающие голосовых ассистентов и занимающиеся автоматизацией кол-центров, могут использовать её как базу, адаптировать под себя и сэкономить на разработке. @banksta
Расходы на разработку продукта составили всего 10 млн рублей. Она уже внедрена в ряде внутренних продуктов Т-Банка, в том числе в службе поддержки, мобильном секретаре в «Т-Мобайле», в инструментах защиты от нежелательных звонков. Т-Банк развивает речевые технологии с 2016 года.
Модель T-one доступна по открытой лицензии может быть интересна бизнесу и научному сообществу. Она запускается даже с ноутбука и стоит в десятки раз дешевле облачных решений. Компании, создающие голосовых ассистентов и занимающиеся автоматизацией кол-центров, могут использовать её как базу, адаптировать под себя и сэкономить на разработке. @banksta
Известия
В России стала доступна модель распознавания речи на русском языке
Центр искусственного интеллекта группы «Т-Технологии» выложил в открытый доступ потоковую модель распознавания речи T-one. При сравнительно небольшом размере она лидирует по качеству распознавания на русском языке на шумных и сжатых записях из колл-центров…
Компания Marathon Fusion из Сан-Франциско привлекла около 4 млн долларов в виде государственных грантов США для создания плазменной центрифуги, которая начнет превращать ртуть в золото.
Стартап, специализирующийся на термоядерной энергетике, утверждает, что нашёл способ решить тысячелетнюю проблему превращения других металлов в золото. В научной статье, опубликованной на прошлой неделе, Marathon предполагает, что нейтроны, которые высвобождаются в результате термоядерных реакций, можно использовать для получения золота с помощью процесса, известного как ядерная трансмутация.
Алхимия была популярна ещё в Древнем Египте и обещала похожие результаты. @banksta
Стартап, специализирующийся на термоядерной энергетике, утверждает, что нашёл способ решить тысячелетнюю проблему превращения других металлов в золото. В научной статье, опубликованной на прошлой неделе, Marathon предполагает, что нейтроны, которые высвобождаются в результате термоядерных реакций, можно использовать для получения золота с помощью процесса, известного как ядерная трансмутация.
Алхимия была популярна ещё в Древнем Египте и обещала похожие результаты. @banksta
🤣2
Нейросети, метеостанции и когнитивные тесты — участники хакатона «Система Хак: Томск» предложили решения для экосистемы МТС.
На соревновании команды работали над двумя треками:
1️⃣ Тест на внимательность перед поездкой на электросамокате для сервиса МТС Юрент.
2️⃣ Локальный метеопрогноз на основе реальных измерений с метеостанций для проекта МТС Экология.
В кейсе — всё о формате, победителях и решениях, которые удостоились призов: https://cnrlink.com/systemhacktomsktgcase
На соревновании команды работали над двумя треками:
1️⃣ Тест на внимательность перед поездкой на электросамокате для сервиса МТС Юрент.
2️⃣ Локальный метеопрогноз на основе реальных измерений с метеостанций для проекта МТС Экология.
В кейсе — всё о формате, победителях и решениях, которые удостоились призов: https://cnrlink.com/systemhacktomsktgcase
Будьте в курсе лучших кейсов хакатонов, ML-турниров, CTF и соревнований по спортивному программированию на Codenrock
Кейс «Система Хак: Томск»: как студенты разработали решения для экосистемы МТС – Будьте в курсе лучших кейсов хакатонов, ML-турниров…
Благотворительный фонд «Система» совместно с экспертами МТС провели хакатон «Система Хак: Томск». Команды представили на соревновании решения для оценки внимательности водителей электросамокатов в треке от МТС Юрент и способы улучшения точности метеопрогнозов…
AnyCap Project: A Unified Framework, Dataset, and Benchmark for Controllable Omni-modal Captioning
Проект AnyCap направлен на устранение недостатка тонкой настройки и надежного тестирования контролируемых мультимодальных моделей создания подписей. Предлагаемая модель AnyCapModel (ACM) представляет собой компактную расширяемую структуру, повышающую управляемость стандартных моделей мультимодальной генерации подписей без повторного обучения основной модели. Она сохраняет оригинальную подпись базового генератора, дополнительно интегрирует инструкции пользователей и особенности входных модальностей, обеспечивая улучшение результатов.
Для преодоления дефицита данных в области контролируемого мультимодального создания подписей представлен новый набор данных AnyCapDataset (ACD), включающий три типа модальностей, 28 видов пользовательских запросов и свыше 300 тыс. качественных образцов данных.
Также предлагается оценка AnyCapEval, предлагающая новые критерии для объективной оценки качества создаваемых подписей, выделяя отдельно точность передачи смысла и соблюдение заданного стиля. Использование ACM заметно улучшило качество генерируемых подписей по ряду популярных моделей. Так, модификация ACM-8B обеспечила повышение показателей точности текста на 45% и стилизации на 12% по сравнению с моделью GPT-4o, показывая значительный прогресс и на общепризнанных тестах, таких как MIA-Bench и VidCapBench.
✅https://arxiv.org/pdf/2507.12841
✅https://github.com/qishisuren123/AnyCap
Проект AnyCap направлен на устранение недостатка тонкой настройки и надежного тестирования контролируемых мультимодальных моделей создания подписей. Предлагаемая модель AnyCapModel (ACM) представляет собой компактную расширяемую структуру, повышающую управляемость стандартных моделей мультимодальной генерации подписей без повторного обучения основной модели. Она сохраняет оригинальную подпись базового генератора, дополнительно интегрирует инструкции пользователей и особенности входных модальностей, обеспечивая улучшение результатов.
Для преодоления дефицита данных в области контролируемого мультимодального создания подписей представлен новый набор данных AnyCapDataset (ACD), включающий три типа модальностей, 28 видов пользовательских запросов и свыше 300 тыс. качественных образцов данных.
Также предлагается оценка AnyCapEval, предлагающая новые критерии для объективной оценки качества создаваемых подписей, выделяя отдельно точность передачи смысла и соблюдение заданного стиля. Использование ACM заметно улучшило качество генерируемых подписей по ряду популярных моделей. Так, модификация ACM-8B обеспечила повышение показателей точности текста на 45% и стилизации на 12% по сравнению с моделью GPT-4o, показывая значительный прогресс и на общепризнанных тестах, таких как MIA-Bench и VidCapBench.
✅https://arxiv.org/pdf/2507.12841
✅https://github.com/qishisuren123/AnyCap
Искусственный интеллект из России впервые получил международный сертификат качества ISO, пишут "Известия".
«Яндекс» получил сертификат соответствия международному стандарту ISO/IEC 42001. Он задаёт требования к качеству разработки и безопасности искусственного интеллекта. Стандарт описывает как обеспечивается безопасность данных пользователей, как ведется мониторинг ошибок и аномалий в работе ИИ, учитывают ли разработчики этические и социальные риски, связанные с развитием ИИ, говорится в сообщении.
«Яндекс» получил сертификат соответствия международному стандарту ISO/IEC 42001. Он задаёт требования к качеству разработки и безопасности искусственного интеллекта. Стандарт описывает как обеспечивается безопасность данных пользователей, как ведется мониторинг ошибок и аномалий в работе ИИ, учитывают ли разработчики этические и социальные риски, связанные с развитием ИИ, говорится в сообщении.
👍2🔥2😁2