Оно конечно круто, но слабо верится. Это надо выигрывать каждые 4 дня хак. Во-первых хаки скорее всего мелкие и не значительные, так как крупные хаки это редкость и не один он такой умный. Более того, генерят многие и тут диллема как превзойти. В третьих наработка крутых решений как показывает практика это время.
Новость скорее всего ставит цель внегласную рекламу ChatGPT. Хотя, может и правда, но пока сомнительно, учитывая, что надо на хаки грузить датасеты, а они подчастую по несколько десятков гигов. И еще момент это только в одном городе, еще более сомнительно что там проводится столько хаков.
Опять же, нормально не сделаешь сразу по генерации, всегда приходится все допиливать.
Новость скорее всего ставит цель внегласную рекламу ChatGPT. Хотя, может и правда, но пока сомнительно, учитывая, что надо на хаки грузить датасеты, а они подчастую по несколько десятков гигов. И еще момент это только в одном городе, еще более сомнительно что там проводится столько хаков.
Опять же, нормально не сделаешь сразу по генерации, всегда приходится все допиливать.
🔥 MemOS: революция в управлении памятью для ИИ от китайских разработчиков
Китайские исследователи представили MemOS — первую операционную систему для управления долговременной памятью у больших языковых моделей. Система превзошла решения OpenAI по ключевым метрикам до 159%!
🔍 Почему это важно?
Большинство ИИ сегодня «страдают склерозом» — не сохраняют контекст между сессиями. MemOS решает эту проблему, превращая ИИ из генератора текстов в полноценного «цифрового коллегу».
🌟 Ключевые преимущества:
• Повышение точности на
• Снижение затрат токенов на
• Рост производительности в тестах временной логики на
🧠 Как это работает?
Система использует три уровня памяти:
1. Явная память (заметки, факты)
2. Активная память (текущий контекст)
3. Параметрическая память (глубокие знания модели)
💼 Применение:
• Персональные ассистенты с историей взаимодействий
• Научные исследования с долгосрочным анализом данных
• Финансы и юриспруденция с проверяемыми источниками
🛠 Технические детали:
Архитектура включает:
- Memory API для управления воспоминаниями
- MemScheduler для прогнозирования нужных фрагментов
- MemCube — стандартизированные блоки памяти
Сайт проекта | GitHub
Проект уже поддержан ведущими университетами Китая и корпорациями вроде China Telecom.
Китайские исследователи представили MemOS — первую операционную систему для управления долговременной памятью у больших языковых моделей. Система превзошла решения OpenAI по ключевым метрикам до 159%!
🔍 Почему это важно?
Большинство ИИ сегодня «страдают склерозом» — не сохраняют контекст между сессиями. MemOS решает эту проблему, превращая ИИ из генератора текстов в полноценного «цифрового коллегу».
🌟 Ключевые преимущества:
• Повышение точности на
38.97% vs OpenAI• Снижение затрат токенов на
60.95%• Рост производительности в тестах временной логики на
159%
🧠 Как это работает?
Система использует три уровня памяти:
1. Явная память (заметки, факты)
2. Активная память (текущий контекст)
3. Параметрическая память (глубокие знания модели)
💼 Применение:
• Персональные ассистенты с историей взаимодействий
• Научные исследования с долгосрочным анализом данных
• Финансы и юриспруденция с проверяемыми источниками
🛠 Технические детали:
Архитектура включает:
- Memory API для управления воспоминаниями
- MemScheduler для прогнозирования нужных фрагментов
- MemCube — стандартизированные блоки памяти
Сайт проекта | GitHub
Проект уже поддержан ведущими университетами Китая и корпорациями вроде China Telecom.
GitHub
GitHub - MemTensor/MemOS: Build memory-native AI agents with Memory OS — an open-source framework for long-term memory, retrieval…
Build memory-native AI agents with Memory OS — an open-source framework for long-term memory, retrieval, and adaptive learning in large language models. Agent Memory | Memory System | Memory Manag...
Несмотря на ключевую роль моделей вознаграждений (RM) в обучении с подкреплением на основе обратной связи от человека (RLHF), современные модели открытого типа демонстрируют низкую производительность на большинстве существующих оценочных бенчмарков, неспособность охватывать весь спектр тонких и сложных человеческих предпочтений. Даже подходы, включающие продвинутые методы обучения, не привели к значимым улучшениям производительности. Мы предполагаем, что эта хрупкость в первую очередь обусловлена ограничениями наборов данных предпочтений, которые часто имеют узкую область применения, искусственно помечены или лишены строгого контроля качества.
Для решения этих проблем мы представляем масштабный набор данных предпочтений, состоящий из 40 миллионов пар предпочтений, названный SynPref-40M. Чтобы обеспечить крупномасштабную обработку данных, мы разработали двухэтапную конвейерную систему совместной работы человека и ИИ, которая задействует взаимодополняющие преимущества человеческого качества аннотаций и масштабируемость ИИ. В этом конвейере люди предоставляют проверенные аннотации, а большие языковые модели выполняют автоматическое формирование набора данных на основе руководства человека.
https://github.com/SkyworkAI/Skywork-Reward-V2
Для решения этих проблем мы представляем масштабный набор данных предпочтений, состоящий из 40 миллионов пар предпочтений, названный SynPref-40M. Чтобы обеспечить крупномасштабную обработку данных, мы разработали двухэтапную конвейерную систему совместной работы человека и ИИ, которая задействует взаимодополняющие преимущества человеческого качества аннотаций и масштабируемость ИИ. В этом конвейере люди предоставляют проверенные аннотации, а большие языковые модели выполняют автоматическое формирование набора данных на основе руководства человека.
https://github.com/SkyworkAI/Skywork-Reward-V2
GitHub
GitHub - SkyworkAI/Skywork-Reward-V2: Scaling Preference Data Curation via Human-AI Synergy
Scaling Preference Data Curation via Human-AI Synergy - SkyworkAI/Skywork-Reward-V2
This media is not supported in your browser
VIEW IN TELEGRAM
🤖🚀 iRonCub3: Первый робот, взлетевший на реактивной тяге
Учёные из AMI Lab впервые в истории подняли гуманоидного робота в воздух с помощью реактивных двигателей.
Робот iRonCub3 поднялся на ~50 см, оставаясь устойчивым в воздухе — всё это благодаря:
🔸 интеллектуальной системе управления
🔸 точной аэродинамической модели
🔸 адаптивной стабилизации в реальном времени
Маленький шажок к будущему, где гуманоиды смогут летать и выполнять миссии в экстремальных условиях.
Учёные из AMI Lab впервые в истории подняли гуманоидного робота в воздух с помощью реактивных двигателей.
Робот iRonCub3 поднялся на ~50 см, оставаясь устойчивым в воздухе — всё это благодаря:
🔸 интеллектуальной системе управления
🔸 точной аэродинамической модели
🔸 адаптивной стабилизации в реальном времени
Маленький шажок к будущему, где гуманоиды смогут летать и выполнять миссии в экстремальных условиях.
🔥2
https://github.com/EPFL-VILAB/fm-vision-evals
Недавно мультимодальные фундаментальные модели, такие как GPT-4o, добились значительных успехов, однако остается неясным, насколько хорошо они понимают визуальную информацию. В данной статье мы оцениваем производительность популярных мультимодальных моделей (GPT-4o, o4-mini, Gemini 1.5 Pro и Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2) на стандартных задачах компьютерного зрения (семантическая сегментация, обнаружение объектов, классификация изображений, предсказание глубины и нормалей поверхности), используя общепринятые наборы данных (например, COCO, ImageNet и его вариации).
Основные трудности заключаются в следующем: 1) большинство моделей обучены выдавать текстовые выходы и не способны непосредственно выражать многогранные области, такие как сегменты или трехмерная геометрия, и 2) многие ведущие модели являются проприетарными и доступными только через API-интерфейсы, то есть отсутствует прямой доступ к весовым коэффициентам для адаптации моделей.
Мы преодолеваем эти препятствия путем преобразования стандартных задач компьютерного зрения в эквивалентные текстово-побуждаемые и совместимые с API-задачи посредством цепочки подсказок, создавая стандартизированную систему оценки производительности. Мы наблюдаем следующие закономерности:
1. Модели значительно уступают специализированным современным решениям по каждой задаче.
2. Тем не менее, они демонстрируют достойные общие способности — удивительный факт, учитывая, что обучение проводилось преимущественно на изображениях и тексте.
3. Они заметно лучше справляются с семантическими задачами, нежели геометрическими.
4. Хотя техника цепочки подсказок влияет на эффективность, лучшие модели проявляют меньшую чувствительность к изменениям в формулировке запросов.
5. Модель GPT-4o показывает наилучшие результаты среди моделей без рассуждений, занимая первое место в четырех из шести тестов.
6. Модели с возможностями рассуждения, такие как o3, показывают улучшения в геометрических задачах.
7. Предварительный анализ моделей с нативной генерацией изображений, таких как новейшая версия GPT-4o, выявляет особенности вроде иллюзий восприятия и пространственных несоответствий.
Недавно мультимодальные фундаментальные модели, такие как GPT-4o, добились значительных успехов, однако остается неясным, насколько хорошо они понимают визуальную информацию. В данной статье мы оцениваем производительность популярных мультимодальных моделей (GPT-4o, o4-mini, Gemini 1.5 Pro и Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2) на стандартных задачах компьютерного зрения (семантическая сегментация, обнаружение объектов, классификация изображений, предсказание глубины и нормалей поверхности), используя общепринятые наборы данных (например, COCO, ImageNet и его вариации).
Основные трудности заключаются в следующем: 1) большинство моделей обучены выдавать текстовые выходы и не способны непосредственно выражать многогранные области, такие как сегменты или трехмерная геометрия, и 2) многие ведущие модели являются проприетарными и доступными только через API-интерфейсы, то есть отсутствует прямой доступ к весовым коэффициентам для адаптации моделей.
Мы преодолеваем эти препятствия путем преобразования стандартных задач компьютерного зрения в эквивалентные текстово-побуждаемые и совместимые с API-задачи посредством цепочки подсказок, создавая стандартизированную систему оценки производительности. Мы наблюдаем следующие закономерности:
1. Модели значительно уступают специализированным современным решениям по каждой задаче.
2. Тем не менее, они демонстрируют достойные общие способности — удивительный факт, учитывая, что обучение проводилось преимущественно на изображениях и тексте.
3. Они заметно лучше справляются с семантическими задачами, нежели геометрическими.
4. Хотя техника цепочки подсказок влияет на эффективность, лучшие модели проявляют меньшую чувствительность к изменениям в формулировке запросов.
5. Модель GPT-4o показывает наилучшие результаты среди моделей без рассуждений, занимая первое место в четырех из шести тестов.
6. Модели с возможностями рассуждения, такие как o3, показывают улучшения в геометрических задачах.
7. Предварительный анализ моделей с нативной генерацией изображений, таких как новейшая версия GPT-4o, выявляет особенности вроде иллюзий восприятия и пространственных несоответствий.
GitHub
GitHub - EPFL-VILAB/fm-vision-evals
Contribute to EPFL-VILAB/fm-vision-evals development by creating an account on GitHub.
🔥3
https://arxiv.org/abs/2507.05566
Метод Low-Rank Adaptation (LoRA), широко применяемый для тонкой настройки больших предварительно обученных моделей, существенно продвинул развитие параметрически эффективных подходов. Однако исследования показали, что различия в масштабировании между двумя матрицами, используемыми в классической реализации LoRA, часто приводят к нестабильной динамике обучения и снижению производительности модели.
В предлагаемой работе мы представляем новый метод — SingLoRA, который предлагает принципиально иной подход к низкоранговым обновлениям весов. Вместо произведения двух отдельных матриц, обновление вычисляется путем разложения одной единственной низкой ранговой матрицы, умноженной на её транспонированную версию. Такой подход устраняет конфликты масштабирования между матрицами, обеспечивая стабильную оптимизацию и примерно вдвое сокращая количество необходимых параметров.
Мы подробно исследуем работу SingLoRA в рамках теории бесконечно широких нейронных сетей, доказывая, что такая конструкция гарантирует устойчивое обучение признаков. Экспериментальные проверки на различных задачах подтверждают преимущества нашего метода.
Например, при обучении LLaMA-7B на задаче MNLI с использованием SingLoRA удается достичь точности 91,3%, превосходящей показатели классических методов LoRA (89,1%) и улучшенной версии LoRA+ (90,2%), при этом используя лишь около 60% необходимого числа параметров. Аналогично, в области генерации изображений тонкая настройка модели Stable Diffusion с применением SingLoRA демонстрирует значительное улучшение качества результатов, достигая показателя сходства DINO 0,151, тогда как классические методы LoRA и DoRA показывают соответственно 0,143 и 0,148.
Таким образом, предложенный метод обеспечивает стабильно высокую производительность при значительном снижении вычислительных затрат, делая возможным эффективное использование больших моделей в широком спектре практических приложений.
Метод Low-Rank Adaptation (LoRA), широко применяемый для тонкой настройки больших предварительно обученных моделей, существенно продвинул развитие параметрически эффективных подходов. Однако исследования показали, что различия в масштабировании между двумя матрицами, используемыми в классической реализации LoRA, часто приводят к нестабильной динамике обучения и снижению производительности модели.
В предлагаемой работе мы представляем новый метод — SingLoRA, который предлагает принципиально иной подход к низкоранговым обновлениям весов. Вместо произведения двух отдельных матриц, обновление вычисляется путем разложения одной единственной низкой ранговой матрицы, умноженной на её транспонированную версию. Такой подход устраняет конфликты масштабирования между матрицами, обеспечивая стабильную оптимизацию и примерно вдвое сокращая количество необходимых параметров.
Мы подробно исследуем работу SingLoRA в рамках теории бесконечно широких нейронных сетей, доказывая, что такая конструкция гарантирует устойчивое обучение признаков. Экспериментальные проверки на различных задачах подтверждают преимущества нашего метода.
Например, при обучении LLaMA-7B на задаче MNLI с использованием SingLoRA удается достичь точности 91,3%, превосходящей показатели классических методов LoRA (89,1%) и улучшенной версии LoRA+ (90,2%), при этом используя лишь около 60% необходимого числа параметров. Аналогично, в области генерации изображений тонкая настройка модели Stable Diffusion с применением SingLoRA демонстрирует значительное улучшение качества результатов, достигая показателя сходства DINO 0,151, тогда как классические методы LoRA и DoRA показывают соответственно 0,143 и 0,148.
Таким образом, предложенный метод обеспечивает стабильно высокую производительность при значительном снижении вычислительных затрат, делая возможным эффективное использование больших моделей в широком спектре практических приложений.
arXiv.org
SingLoRA: Low Rank Adaptation Using a Single Matrix
Low-Rank Adaptation (LoRA) has significantly advanced parameter-efficient fine-tuning of large pretrained models. LoRA augments the pre-trained weights of a model by adding the product of two...
👍2🔥2
Ведущий канала Basically Homeless на YouTube Ник Зетт, вдохновившись фильмом «Матрица», превратил себя в батарейку с помощью термоэлектрических генераторов. Он использовал отработанное тепло своего тела.
Термоэлектрический генератор использует разницу температур для создания потока электронов. Устройство вырабатывает электричество, когда одна сторона горячее другой.
Идея Зетты заключалась в том, чтобы покрыть тело термоэлектрическими генераторами и хорошенько пропотеть, находясь на улице в холод. Разница температур между его перегретым телом и холодным воздухом в идеале должна была обеспечить выработку энергии, достаточную для зарядки смартфона.
Зетта начал интенсивно тренироваться на улице в специальном боди с термоэлектрическими генераторами. Изначально они вырабатывали приличную мощность, но позже она упала.
Тогда разработчик придумал, как не допустить этого эффекта. Прикладывая тепло своего тела к термоэлектрическим генераторам только короткими «импульсами», он мог поддерживать выход либо на относительно высоком уровне, либо на нулевом. Этого оказалось достаточно, чтобы переместить небольшого колёсного робота через стол.
«Я — человечек-батарейка, я питаю этого маленького робота теплом своего тела. По сути, я вырабатывал один ватт за импульс», — добавил он после завершения эксперимента.
Пользователи заинтересовались экспериментом и начали давать советы по улучшению системы. Так, они считают, что последовательное подключение позволит вырабатывать не один, а несколько вольт за раз, переворачивание блоков даст смену выходного напряжения, а их упорядоченное расположение решит потенциальную проблему конфликта напряжений.
Термоэлектрический генератор использует разницу температур для создания потока электронов. Устройство вырабатывает электричество, когда одна сторона горячее другой.
Идея Зетты заключалась в том, чтобы покрыть тело термоэлектрическими генераторами и хорошенько пропотеть, находясь на улице в холод. Разница температур между его перегретым телом и холодным воздухом в идеале должна была обеспечить выработку энергии, достаточную для зарядки смартфона.
Зетта начал интенсивно тренироваться на улице в специальном боди с термоэлектрическими генераторами. Изначально они вырабатывали приличную мощность, но позже она упала.
Тогда разработчик придумал, как не допустить этого эффекта. Прикладывая тепло своего тела к термоэлектрическим генераторам только короткими «импульсами», он мог поддерживать выход либо на относительно высоком уровне, либо на нулевом. Этого оказалось достаточно, чтобы переместить небольшого колёсного робота через стол.
«Я — человечек-батарейка, я питаю этого маленького робота теплом своего тела. По сути, я вырабатывал один ватт за импульс», — добавил он после завершения эксперимента.
Пользователи заинтересовались экспериментом и начали давать советы по улучшению системы. Так, они считают, что последовательное подключение позволит вырабатывать не один, а несколько вольт за раз, переворачивание блоков даст смену выходного напряжения, а их упорядоченное расположение решит потенциальную проблему конфликта напряжений.
Хабр
Экспериментатор превратил себя в батарейку
Ведущий канала Basically Homeless на YouTube Ник Зетт, вдохновившись фильмом «Матрица», превратил себя в батарейку с помощью термоэлектрических генераторов. Он использовал отработанное тепло своего...
🔥2
Хотя большие языковые модели демонстрируют впечатляющие успехи в создании программного кода, пока остается неясным, насколько глубоко они понимают программирование. Для изучения их реальных возможностей мы разработали специальный инструмент — «кодовый треугольник». Этот подход позволяет комплексно оценить три важнейших аспекта: умение анализировать задания, способность писать работающий код и создавать тесты для проверки качества своего же решения. Наши исследования показывают, что, несмотря на наличие определенных закономерностей в работе моделей, они далеко отстают от профессиональных разработчиков по оригинальности подходов и устойчивости результатов. Ошибки LLM чаще всего обусловлены недостатком разносторонних примеров в учебных данных и ограниченными возможностями переноса знаний. Тем не менее, привлечение опыта людей в виде анализа заданий, готовых решений и множества вариантов тестирования, а также комбинирование различных моделей позволяют значительно повысить эффективность и надежность больших языковых моделей. Это открывает путь к дальнейшему развитию инструментов машинного программирования, способствующих обучению самих себя и улучшению их собственных алгоритмов.
https://arxiv.org/pdf/2507.06138
Не когда не было и вот опять ))
https://arxiv.org/pdf/2507.06138
Не когда не было и вот опять ))
😁2
https://arxiv.org/abs/2507.07484
Философ Гарри Франкфурт ввёл понятие "бредни" ("bullshit") — утверждения, сделанные без учёта истинности. Хотя ранее исследования изучали иллюзии крупных языковых моделей (LLM), такие как "галлюцинации" и "лакейство", мы предлагаем концепцию машинного бреда как общую рамочную структуру, позволяющую исследователям охарактеризовать явление постепенной утраты правдивости в больших языкоориентированных моделях и пролить свет на её механизмы.
Мы вводим Индекс Бреда — новый показатель, измеряющий степень равнодушия моделей к истине, и дополняем его таксономией четырёх качественных форм бреда: пустословие, манипуляция фактами, уклончивые выражения и неподтвержденные заявления. Мы проводим эмпирические оценки на наборе данных Marketplace, Политической нейтральности и нашем новом эталонном тесте BullshitEval (2400 сценариев, охватывающих 100 помощников ИИ), специально разработанном для оценки проявлений машинного бреда.
Наши результаты показывают, что настройка модели с использованием методов обучения с подкреплением на основе обратной связи человека (RLHF) значительно усиливает проявление бреда, а подсказка цепочки рассуждений (chain-of-thought, CoT) существенно увеличивает определённые формы бреда, особенно пустословие и манипуляцию фактами. Более того, мы наблюдаем распространённость машинного бреда в политических контекстах, где преобладающей стратегией являются уклончивые формулировки.
Полученные выводы подчёркивают систематические проблемы согласованности искусственного интеллекта и предлагают новые подходы к созданию более достоверного поведения больших языковых моделей.
Философ Гарри Франкфурт ввёл понятие "бредни" ("bullshit") — утверждения, сделанные без учёта истинности. Хотя ранее исследования изучали иллюзии крупных языковых моделей (LLM), такие как "галлюцинации" и "лакейство", мы предлагаем концепцию машинного бреда как общую рамочную структуру, позволяющую исследователям охарактеризовать явление постепенной утраты правдивости в больших языкоориентированных моделях и пролить свет на её механизмы.
Мы вводим Индекс Бреда — новый показатель, измеряющий степень равнодушия моделей к истине, и дополняем его таксономией четырёх качественных форм бреда: пустословие, манипуляция фактами, уклончивые выражения и неподтвержденные заявления. Мы проводим эмпирические оценки на наборе данных Marketplace, Политической нейтральности и нашем новом эталонном тесте BullshitEval (2400 сценариев, охватывающих 100 помощников ИИ), специально разработанном для оценки проявлений машинного бреда.
Наши результаты показывают, что настройка модели с использованием методов обучения с подкреплением на основе обратной связи человека (RLHF) значительно усиливает проявление бреда, а подсказка цепочки рассуждений (chain-of-thought, CoT) существенно увеличивает определённые формы бреда, особенно пустословие и манипуляцию фактами. Более того, мы наблюдаем распространённость машинного бреда в политических контекстах, где преобладающей стратегией являются уклончивые формулировки.
Полученные выводы подчёркивают систематические проблемы согласованности искусственного интеллекта и предлагают новые подходы к созданию более достоверного поведения больших языковых моделей.
arXiv.org
Machine Bullshit: Characterizing the Emergent Disregard for Truth...
Bullshit, as conceptualized by philosopher Harry Frankfurt, refers to statements made without regard to their truth value. While previous work has explored large language model (LLM) hallucination...
🔥3😁2
Создание компактных и чувствительных ко времени визуальных представлений динамических сцен является ключевым условием успешного выполнения последовательных задач понимания сцены, таких как визуальное отслеживание объектов и роботизированная манипуляция предметами. В данной статье представлен метод Token Bottleneck (ToBo) — простой и интуитивно понятный конвейер самообучаемого алгоритма, сжимающий сцену в узкое временное представление («токен») и предсказывающий последующую сцену, используя минимальное количество ключевых фрагментов в качестве подсказок.
Pipeline ToBo позволяет эффективно формировать представления последовательности сцен путём консервативного кодирования исходной сцены в компактный токен («squeeze»). Затем, на этапе расширения («expansion»), алгоритм направляет сеть на выявление временных изменений, восстанавливая целевую сцену с помощью сжатого токена и нескольких патчей целевой сцены в качестве ориентировочных сигналов. Такой подход способствует формированию пространственно-временных зависимостей в сетевом представлении, обеспечивая понимание динамики переходов между сценами.
Проведённые обширные эксперименты на различных последовательных задачах, включая распространение меток в видеопоследовательностях и манипуляции роботов в симулированных средах, демонстрируют превосходство метода ToBo над базовыми решениями. Реальные испытания на физических роботах подтверждают надёжность и эффективность предложенного подхода в реальных условиях эксплуатации. Дополнительно проверяется масштабируемость архитектуры ToBo применительно к различным размерам нейронных сетей.
https://arxiv.org/abs/2507.06543
Pipeline ToBo позволяет эффективно формировать представления последовательности сцен путём консервативного кодирования исходной сцены в компактный токен («squeeze»). Затем, на этапе расширения («expansion»), алгоритм направляет сеть на выявление временных изменений, восстанавливая целевую сцену с помощью сжатого токена и нескольких патчей целевой сцены в качестве ориентировочных сигналов. Такой подход способствует формированию пространственно-временных зависимостей в сетевом представлении, обеспечивая понимание динамики переходов между сценами.
Проведённые обширные эксперименты на различных последовательных задачах, включая распространение меток в видеопоследовательностях и манипуляции роботов в симулированных средах, демонстрируют превосходство метода ToBo над базовыми решениями. Реальные испытания на физических роботах подтверждают надёжность и эффективность предложенного подхода в реальных условиях эксплуатации. Дополнительно проверяется масштабируемость архитектуры ToBo применительно к различным размерам нейронных сетей.
https://arxiv.org/abs/2507.06543
arXiv.org
Token Bottleneck: One Token to Remember Dynamics
Deriving compact and temporally aware visual representations from dynamic scenes is essential for successful execution of sequential scene understanding tasks such as visual tracking and robotic...
🤔2
🚀 Новый ИИ-агент WebSailor от Alibaba для веб-поиска и анализа данных
Китайский гигант Alibaba представил открытый сетевой агент WebSailor, способный решать сложные задачи поиска и анализа информации в интернете.
Проект уже набрал более 2k звезд на GitHub и возглавил рейтинг открытых ИИ-агентов в тестовом наборе BrowseComp, обойдя даже коммерческие модели!
🔍Основные возможности:
• Многошаговый анализ и перекрестная проверка данных
• Работа с нечеткими запросами и высокой степенью неопределенности
Технические детали для экспертов:
1.
2. Набор данных
3. Архитектура основана на Qwen моделях с пост-тренингом
📊Результаты тестирования:
• Превышение показателей DeepSeek R1 и Grok-3
• Второе место после OpenAI DeepResearch среди всех систем
• Отличные результаты на простых задачах (SimpleQA), несмотря на обучение только на сложных данных
GitHub
#КитайскийИИ #КитайAI #ВебПоиск #ИИАгенты #Alibaba
Китайский гигант Alibaba представил открытый сетевой агент WebSailor, способный решать сложные задачи поиска и анализа информации в интернете.
Проект уже набрал более 2k звезд на GitHub и возглавил рейтинг открытых ИИ-агентов в тестовом наборе BrowseComp, обойдя даже коммерческие модели!
🔍Основные возможности:
• Многошаговый анализ и перекрестная проверка данных
• Работа с нечеткими запросами и высокой степенью неопределенности
Технические детали для экспертов:
1.
DUPO – новый алгоритм RL (обучения с подкреплением), ускоряющий тренировку агента в 2-3 раза2. Набор данных
SailorFog-QA специально разработан для сложных задач с высокой неопределенностью3. Архитектура основана на Qwen моделях с пост-тренингом
📊Результаты тестирования:
• Превышение показателей DeepSeek R1 и Grok-3
• Второе место после OpenAI DeepResearch среди всех систем
• Отличные результаты на простых задачах (SimpleQA), несмотря на обучение только на сложных данных
GitHub
#КитайскийИИ #КитайAI #ВебПоиск #ИИАгенты #Alibaba
GitHub
GitHub - Alibaba-NLP/DeepResearch: Tongyi Deep Research, the Leading Open-source Deep Research Agent
Tongyi Deep Research, the Leading Open-source Deep Research Agent - Alibaba-NLP/DeepResearch
🔥2
https://arxiv.org/pdf/2507.10532
Особенно удивительны случаи, когда случайные или некорректные сигналы вознаграждения приводят к повышению производительности. Однако подобные успехи чаще всего связаны с определёнными семействами моделей, такими как семейство Qwen2.5, а аналогичные эксперименты с другими моделями, например, Llama, показывают нестабильные результаты. Такое различие ставит вопрос о причинах подобной вариативности и надежности выводов, сделанных на основе стандартных эталонных тестов.
Наш анализ показывает, что сильные стороны модели Qwen2.5 в математических рассуждениях объясняются особенностями её предварительного обучения на обширных корпусах интернета, что потенциально создает риск загрязнения данных в традиционных наборах тестов. Например, такие известные тесты, как MATH-500, AMC и AIME, были изначально разработаны для проверки способностей студентов, а теперь используются для тестирования возможностей LLMs. Тем не менее, существование взаимосвязей между обучающими корпусами и стандартными наборами вопросов делает полученные результаты сомнительными.
Особенно удивительны случаи, когда случайные или некорректные сигналы вознаграждения приводят к повышению производительности. Однако подобные успехи чаще всего связаны с определёнными семействами моделей, такими как семейство Qwen2.5, а аналогичные эксперименты с другими моделями, например, Llama, показывают нестабильные результаты. Такое различие ставит вопрос о причинах подобной вариативности и надежности выводов, сделанных на основе стандартных эталонных тестов.
Наш анализ показывает, что сильные стороны модели Qwen2.5 в математических рассуждениях объясняются особенностями её предварительного обучения на обширных корпусах интернета, что потенциально создает риск загрязнения данных в традиционных наборах тестов. Например, такие известные тесты, как MATH-500, AMC и AIME, были изначально разработаны для проверки способностей студентов, а теперь используются для тестирования возможностей LLMs. Тем не менее, существование взаимосвязей между обучающими корпусами и стандартными наборами вопросов делает полученные результаты сомнительными.
🔥2
Подход Retrieval-Augmented Generation (RAG), основанный на интеграции внешних источников знаний, повышает точность крупных языковых моделей (LLM), однако он недостаточно эффективен в задачах, требующих многошагового вывода. Напротив, подходы, ориентированные исключительно на рассуждения, часто генерируют ложные факты или ошибаются в интерпретациях. Этот обзор объединяет оба направления в рамках единого подхода, сочетающего методы рассуждений и извлечение знаний.
Сначала мы показываем, каким образом усовершенствованные методы рассуждений улучшают каждый этап процесса RAG («Рассуждение-Усиленный RAG»). Затем демонстрируем, как извлечённые знания различных типов восполняют недостающие предпосылки и расширяют контекст для сложных выводов («RAG-Усиленное Рассуждение»).
Наконец, акцентируем внимание на появляющихся гибридных системах RAG-рассуждений, где LLM итерационно чередуют процессы поиска и рассуждений, достигая выдающихся результатов на тестах, связанных с обработкой больших объёмов знаний. Мы классифицируем существующие методы, наборы данных и обозначаем актуальные проблемы, определяя пути исследований для разработки более эффективных, мультимодальных, надёжных и ориентированных на человека систем RAG-рассуждений. Сборник доступен по адресу: https://github.com/DavidZWZ/Awesome-RAG-Reasoning.
https://arxiv.org/pdf/2507.09477
Сначала мы показываем, каким образом усовершенствованные методы рассуждений улучшают каждый этап процесса RAG («Рассуждение-Усиленный RAG»). Затем демонстрируем, как извлечённые знания различных типов восполняют недостающие предпосылки и расширяют контекст для сложных выводов («RAG-Усиленное Рассуждение»).
Наконец, акцентируем внимание на появляющихся гибридных системах RAG-рассуждений, где LLM итерационно чередуют процессы поиска и рассуждений, достигая выдающихся результатов на тестах, связанных с обработкой больших объёмов знаний. Мы классифицируем существующие методы, наборы данных и обозначаем актуальные проблемы, определяя пути исследований для разработки более эффективных, мультимодальных, надёжных и ориентированных на человека систем RAG-рассуждений. Сборник доступен по адресу: https://github.com/DavidZWZ/Awesome-RAG-Reasoning.
https://arxiv.org/pdf/2507.09477
GitHub
GitHub - DavidZWZ/Awesome-RAG-Reasoning: [EMNLP 2025] Awesome RAG Reasoning Resources
[EMNLP 2025] Awesome RAG Reasoning Resources. Contribute to DavidZWZ/Awesome-RAG-Reasoning development by creating an account on GitHub.
👍2🔥2
Американская авиакомпания тестирует ИИ, который оценивает финансовое положение клиента и изменяет (повышает) цену билета в соответствии с платежеспособностью пассажира. Нейронку фирма заказала в Израиле.
https://tech.onliner.by/2025/07/18/aviakompaniya-v-ssha-ispolzuet-ii-chtoby-prodavat-maksimalno-dorogie-bilety
https://tech.onliner.by/2025/07/18/aviakompaniya-v-ssha-ispolzuet-ii-chtoby-prodavat-maksimalno-dorogie-bilety
Onlíner
Авиакомпания в США использует ИИ, чтобы продавать максимально дорогие билеты
Американская авиакомпания Delta Air Lines применяет динамическое ценообразованию билетов, которое работает на основе искусственного интеллекта, чтобы определять индивидуальную максимальную стоимость, которую пассажир готов заплатить за перелет. Такой подход…
https://habr.com/ru/articles/928994/ - очень выходное чтиво ))))
Хабр
Как выйти из IT?.. и пойти слесарем на завод. Моя попыточка дауншифтинга [2|5]
Вторая часть нашего слесарно-айтишного балета будет с элементами 18+, поэтому уберите от экранов джунов. В Сингапуре - 21+. Нет, ты будешь! - самый жёсткий HeadHunt в моей практике Успешно провалив...
😁2
🚀 Kimi K2: Китайский гигант ИИ отвечает на вызов DeepSeek открытой SOTA-моделью с 1 трлн параметров
После полугода молчания китайская компания MoonshotAI представила мощную альтернативу DeepSeek — модель Kimi K2 с развитыми возможностями в кодинге, математике и автоматизации задач.
📌 Количество звезд на GitHub уже превысило 3k!
🔥 Основные особенности:
• Архитектура MoE (Mixture of Experts) с 1 триллионом общих параметров (активно используется 32 млрд)
• Поддержка контекста
• Открытый исходный код (модифицированная MIT-лицензия)
• Лучшие показатели среди открытых моделей в тестах SWE Bench, Tau2, AceBench
💡 Чем удивил Kimi K2?
→ Генерация 3D-ландшафтов с циклом день/ночь
→ Автоматическое планирование сложных задач (например, организация поездки на концерт)
→ Сильная сторона — генерация кода (пользователи называют "DeepSeek-моментом" для coding моделей)
🔧 Технические инновации:
• Новый оптимизатор Muon вместо традиционного Adam
• Система
• Обучение на 15.5T токенов без аномалий (zero loss spike)
• Самооценочный механизм (self-judging) для задач без четких критериев
🌐 Открытая модель доступна в двух вариантах:
- Kimi-K2-Base (базовая)
- Kimi-K2-Instruct (для Agent-задач)
GitHub | Huggingface
#КитайскийИИ #КитайAI #MoonshotAI #Kimi
После полугода молчания китайская компания MoonshotAI представила мощную альтернативу DeepSeek — модель Kimi K2 с развитыми возможностями в кодинге, математике и автоматизации задач.
📌 Количество звезд на GitHub уже превысило 3k!
🔥 Основные особенности:
• Архитектура MoE (Mixture of Experts) с 1 триллионом общих параметров (активно используется 32 млрд)
• Поддержка контекста
128K токенов• Открытый исходный код (модифицированная MIT-лицензия)
• Лучшие показатели среди открытых моделей в тестах SWE Bench, Tau2, AceBench
💡 Чем удивил Kimi K2?
→ Генерация 3D-ландшафтов с циклом день/ночь
→ Автоматическое планирование сложных задач (например, организация поездки на концерт)
→ Сильная сторона — генерация кода (пользователи называют "DeepSeek-моментом" для coding моделей)
🔧 Технические инновации:
• Новый оптимизатор Muon вместо традиционного Adam
• Система
MuonClip для стабильного обучения на триллионах параметров• Обучение на 15.5T токенов без аномалий (zero loss spike)
• Самооценочный механизм (self-judging) для задач без четких критериев
🌐 Открытая модель доступна в двух вариантах:
- Kimi-K2-Base (базовая)
- Kimi-K2-Instruct (для Agent-задач)
GitHub | Huggingface
#КитайскийИИ #КитайAI #MoonshotAI #Kimi
GitHub
GitHub - MoonshotAI/Kimi-K2: Kimi K2 is the large language model series developed by Moonshot AI team
Kimi K2 is the large language model series developed by Moonshot AI team - MoonshotAI/Kimi-K2
Т-Банк выпустил собственную большую языковую модель с гибридным режимом рассуждений на открытом исходном коде T-Pro 2.0, которую можно бесплатно использовать в коммерческих целях, пишет РБК.
Для работы модели на русском языке потребуется вдвое меньше вычислительных мощностей, чем для китайских аналогов Qwen3 и DeepSeek R1-Distil. Суммарные затраты на разработку модели составили менее 120 млн руб. Развитие российских компактных моделей с режимом рассуждений делает внедрение ИИ-решений экономически обоснованным в том числе среди малого и среднего бизнеса.
Для работы модели на русском языке потребуется вдвое меньше вычислительных мощностей, чем для китайских аналогов Qwen3 и DeepSeek R1-Distil. Суммарные затраты на разработку модели составили менее 120 млн руб. Развитие российских компактных моделей с режимом рассуждений делает внедрение ИИ-решений экономически обоснованным в том числе среди малого и среднего бизнеса.
РБК
Т-банк выпустил российский аналог DeepSeek и Qwen
Т-банк выпустил российскую языковую модель с режимом рассуждений, которую можно бесплатно использовать в коммерческих целях, например для создания ИИ-агентов. Ранее для этого подходили только
🔥2