Media is too big
VIEW IN TELEGRAM
Вчера вечером вышел долгожданный робот Figure 03
Разработчики пророчили революцию, так что посмотрим, что в нем на самом деле нового:
1. Это первая модель, которую Figure хотят пустить на массовое производство на их заводе BotQ и довезти до продакшена. Говорят, что робот готов почти для любых задач в быту/сервисе.
2. Полностью переделали сенсорику и руки. Угол обзора камер теперь на 60% шире + добавились камеры на ладонях для мелких деталей. А на пальцах – новые тактильные подушечки с датчиками давления в граммах. Отсюда аккуратный захват и манипуляции с хрупкими предметами.
3. Обновили голос и память. Улучшили естественность диалога и сделали акцент на долгосрочную поведенческую память. Например, робот постоянно помнит, где лежат вещи, кто что просил сделать, любите вы кофе с сахаром или без и тд.
Ну и еще беспроводная зарядка, пальцы на ногах для баланса, пониженная масса робота, увеличенная грузоподъемность, обновленные батареи и материалы.
И да, робот еще не выглядит как идеальный дворецкий из коробки, НО уже выглядит, как что-то достаточное умное для первых реальных пилотов.
Блогпост вот, но он больше на широкую аудиторию. Технических деталей там, к сожалению, нет. Единственное, что известно: под капотом все та же VLA модель Helix (мы писали о ней тут и вот тут). Она работает на роботе локально и хорошо обобщается даже на незнакомые предметы. Обучали частично в симуляции, частично – на реальных роботах, с помощью RL.
Разработчики пророчили революцию, так что посмотрим, что в нем на самом деле нового:
1. Это первая модель, которую Figure хотят пустить на массовое производство на их заводе BotQ и довезти до продакшена. Говорят, что робот готов почти для любых задач в быту/сервисе.
2. Полностью переделали сенсорику и руки. Угол обзора камер теперь на 60% шире + добавились камеры на ладонях для мелких деталей. А на пальцах – новые тактильные подушечки с датчиками давления в граммах. Отсюда аккуратный захват и манипуляции с хрупкими предметами.
3. Обновили голос и память. Улучшили естественность диалога и сделали акцент на долгосрочную поведенческую память. Например, робот постоянно помнит, где лежат вещи, кто что просил сделать, любите вы кофе с сахаром или без и тд.
Ну и еще беспроводная зарядка, пальцы на ногах для баланса, пониженная масса робота, увеличенная грузоподъемность, обновленные батареи и материалы.
И да, робот еще не выглядит как идеальный дворецкий из коробки, НО уже выглядит, как что-то достаточное умное для первых реальных пилотов.
Блогпост вот, но он больше на широкую аудиторию. Технических деталей там, к сожалению, нет. Единственное, что известно: под капотом все та же VLA модель Helix (мы писали о ней тут и вот тут). Она работает на роботе локально и хорошо обобщается даже на незнакомые предметы. Обучали частично в симуляции, частично – на реальных роботах, с помощью RL.
👍81🔥40 26❤19😁3🗿1
MWS AI выпустила первый в своем роде бенчмарк для оценки мультимодальных способностей моделей на русском языке
В какой-то мере это аналог таких международных бенчей, как OCRBench или MMMU. К сожалению, хороших подобных тестов в принципе немного, а существующие крайне плохо покрывают русский язык. Так что эвал моделей для работы с русскоязычными мультимодальными документами (а таких задач в бизнесе львиная доля) проводился в основном методом проб и ошибок. Про объективность молчим.
MWS AI (входит в МТС Web Services) эту проблему заметили и выпустили MWS Vision Bench. Бенчмарк получился довольно объемный и разнообразный: 800 изображений и 2580 заданий, среди которых анализ офисных и личных документов, схем, рукописных записей, таблиц, чертежей, диаграмм, графиков. Словом, всего, что в принципе может встретиться в реальных сценариях.
Валидационная часть бенчмарка опубликована в открытом доступе (HuggingFace). Код тоже выложили, найти его можно здесь. В том же репозитории есть уже готовый скрипт для того, чтобы протестировать любую (в том числе собственную) модель.
В данный момент лучшие результаты показывают Gemini 2.5 Pro, Claude Sonnet 4.5 и ChatGPT-4.1 mini. GPT-5, как ни удивительно, заняла только седьмое место.
В какой-то мере это аналог таких международных бенчей, как OCRBench или MMMU. К сожалению, хороших подобных тестов в принципе немного, а существующие крайне плохо покрывают русский язык. Так что эвал моделей для работы с русскоязычными мультимодальными документами (а таких задач в бизнесе львиная доля) проводился в основном методом проб и ошибок. Про объективность молчим.
MWS AI (входит в МТС Web Services) эту проблему заметили и выпустили MWS Vision Bench. Бенчмарк получился довольно объемный и разнообразный: 800 изображений и 2580 заданий, среди которых анализ офисных и личных документов, схем, рукописных записей, таблиц, чертежей, диаграмм, графиков. Словом, всего, что в принципе может встретиться в реальных сценариях.
Валидационная часть бенчмарка опубликована в открытом доступе (HuggingFace). Код тоже выложили, найти его можно здесь. В том же репозитории есть уже готовый скрипт для того, чтобы протестировать любую (в том числе собственную) модель.
В данный момент лучшие результаты показывают Gemini 2.5 Pro, Claude Sonnet 4.5 и ChatGPT-4.1 mini. GPT-5, как ни удивительно, заняла только седьмое место.
❤54👍32🔥11 6😁5🤔3
Наглядное сравнение скорости нового π-тона 3.14 с предыдущей версией
Обратите внимание, что теперь многопоточность стала даже быстрее мультипроцессинга. Это все за счет того, что в новой сборке можно работать без GIL.
Небольшой ликбез. GIL (Global Interpreter Lock) – это глобальная блокировка интерпретатора, которая позволяет в каждый момент времени выполнять только один поток байткода Python (даже если у тебя 16 ядер). То есть раньше, до 3.14, многопоточности как таковой в Python не существовало.
Для обхода GIL использовали мультипроцессинг. Там каждый процесс – это отдельный экземпляр интерпретатора, и у каждого процесса свой GIL. Только так можно было распараллелить ядра на Python. Но была и обратная сторона: каждый процесс имел свою копию памяти, и нужно было сериализовать данные при передаче. А это большие накладные расходы.
Теперь же в новой версии без GIL потоки работают в одном адресном пространстве, доступ к памяти общий. Результат сразу отражается на скорости: многопоточность теперь на 33% быстрее мультипроцессинга. В 3.13, если что, все было ровно наоборот.
Ждем поддержку free-threading в PyTorch и NumPy
На замеры наткнулись тут
Обратите внимание, что теперь многопоточность стала даже быстрее мультипроцессинга. Это все за счет того, что в новой сборке можно работать без GIL.
Небольшой ликбез. GIL (Global Interpreter Lock) – это глобальная блокировка интерпретатора, которая позволяет в каждый момент времени выполнять только один поток байткода Python (даже если у тебя 16 ядер). То есть раньше, до 3.14, многопоточности как таковой в Python не существовало.
Для обхода GIL использовали мультипроцессинг. Там каждый процесс – это отдельный экземпляр интерпретатора, и у каждого процесса свой GIL. Только так можно было распараллелить ядра на Python. Но была и обратная сторона: каждый процесс имел свою копию памяти, и нужно было сериализовать данные при передаче. А это большие накладные расходы.
Теперь же в новой версии без GIL потоки работают в одном адресном пространстве, доступ к памяти общий. Результат сразу отражается на скорости: многопоточность теперь на 33% быстрее мультипроцессинга. В 3.13, если что, все было ровно наоборот.
Ждем поддержку free-threading в PyTorch и NumPy
На замеры наткнулись тут
1❤189👍58🔥32😁5❤🔥1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁130❤21🗿7👾7👍2🔥1🎉1🍾1
Смотрите, это картинка из свежей статьи от Bloomberg
Тут нарисовано, как двигаются финансовые потоки в ИИ-экосистеме крупных компаний. Спойлер: в плюсе, как видите, в основном Nvidia😐
Суть в том, что средства циркулируют. Не совсем по кругу, конечно, но в рамках определенных узлов вокруг OpenAI, Oracle, Nvidia и других компаний. Это значит, что благодаря серии сделок деньги почти не выходят за рамки системы компаний, но, тем не менее, каждый новый контракт повышает стоимость участников.
Получается, что в конечном итоге все остаются при своем, а капитализация растет (и очень нехило). Это экономический пузырь по определению😉
Тут нарисовано, как двигаются финансовые потоки в ИИ-экосистеме крупных компаний. Спойлер: в плюсе, как видите, в основном Nvidia
Суть в том, что средства циркулируют. Не совсем по кругу, конечно, но в рамках определенных узлов вокруг OpenAI, Oracle, Nvidia и других компаний. Это значит, что благодаря серии сделок деньги почти не выходят за рамки системы компаний, но, тем не менее, каждый новый контракт повышает стоимость участников.
Получается, что в конечном итоге все остаются при своем, а капитализация растет (и очень нехило). Это экономический пузырь по определению
Please open Telegram to view this post
VIEW IN TELEGRAM
3👀192 77👍42😁22❤21🔥9🤔5❤🔥3🍾2🤯1
Минутка интересных фактов: без ИИ рост ВВП США составил бы всего 0.1%
Ведущие экономисты Гарварда совместно с аналитиками Morgan Stanley и Fortune выяснили, что 80% роста американского фондового рынка в 2025 году обеспечили компании, разрабатывающие ИИ.
Без ИИ рост ВВП был бы почти нулевой: вложения в железо и софт составили 92% всего прироста показателя за первую половину 2025.
В статье пишут, что это уникальное экономическое явление. Но дискуссии по поводу того, насколько устойчива подобная конструкция, продолжаются.
Ведущие экономисты Гарварда совместно с аналитиками Morgan Stanley и Fortune выяснили, что 80% роста американского фондового рынка в 2025 году обеспечили компании, разрабатывающие ИИ.
Без ИИ рост ВВП был бы почти нулевой: вложения в железо и софт составили 92% всего прироста показателя за первую половину 2025.
В статье пишут, что это уникальное экономическое явление. Но дискуссии по поводу того, насколько устойчива подобная конструкция, продолжаются.
😁143 67❤14🔥13🤯10👍7✍1👌1
MWS AI запускают свою первую мультимодальную модель Cotype VL
Об этом рассказал генеральный директор MWS AI, Денис Филиппов, на форуме Финополис 2025. Вот первая информация о релизе:
– В модели 32B параметров, она умеет работать с любыми видами изображений и поддерживает много языков: в том числе русский, английский и китайский.
– Cotype VL будут поставлять как в виде отдельного продукта, так и в составе ИИ-агентов MWS AI, заточенных под разные специальные сценарии (например, техподдержка). Можно развернуть в закрытом контуре компании и даже совместно с MWS AI дообучить на данных заказчика.
– Для обучения собирали огромный датасет из более чем 50 тыс. документов с визуальными данными (даже обучили отдельный инструмент для генерации синтетики). Модель видела контракты, письма, диаграммы, таблицы, схемы, карты, чертежи, рукописи, чеки и прочее. Тюнили создавать краткое и развернутое описание изображений и отвечать на сложные и логические вопросы по их содержанию.
Отмечают, к слову, что добавили в данные много скриншотов ПО и интерфейсов. Так что модель, помимо прочего, может служить даже как основа для computer use.
Об этом рассказал генеральный директор MWS AI, Денис Филиппов, на форуме Финополис 2025. Вот первая информация о релизе:
– В модели 32B параметров, она умеет работать с любыми видами изображений и поддерживает много языков: в том числе русский, английский и китайский.
– Cotype VL будут поставлять как в виде отдельного продукта, так и в составе ИИ-агентов MWS AI, заточенных под разные специальные сценарии (например, техподдержка). Можно развернуть в закрытом контуре компании и даже совместно с MWS AI дообучить на данных заказчика.
– Для обучения собирали огромный датасет из более чем 50 тыс. документов с визуальными данными (даже обучили отдельный инструмент для генерации синтетики). Модель видела контракты, письма, диаграммы, таблицы, схемы, карты, чертежи, рукописи, чеки и прочее. Тюнили создавать краткое и развернутое описание изображений и отвечать на сложные и логические вопросы по их содержанию.
Отмечают, к слову, что добавили в данные много скриншотов ПО и интерфейсов. Так что модель, помимо прочего, может служить даже как основа для computer use.
1😁42❤25🗿14👍10 4🤯3🔥2🤔2
Наткнулись тут на просторах интернета на настоящую редкость
Попробуйте присмотреться. Узнаете модника справа?
ЭтоДжеффри Хинтон в молодости со своим коллегой.
Он всегда был рок-звездой✌️
Попробуйте присмотреться. Узнаете модника справа?
Это
Он всегда был рок-звездой
Please open Telegram to view this post
VIEW IN TELEGRAM
❤91🔥35😁18🗿5👍3🤨2🤯1
В Твиттере – очередная волна хейта OpenAI: юрист, работающий в сфере AI, рассказал, как компания пытается запугивать критиков
Парня зовут Натан Кэлвин, он основатель и главный юрист маленькой некоммерческой компании Encode. Они занимаются политикой в области ИИ: например, продвигают законопроекты по безопасности.
Основным из таких законопроектов в последнее время был калифорнийский SB 53. Он должен был ввести несколько новых важных правил, направленных на повышение прозрачности компаний, обеспечение безопасности выпускаемых моделей и защиту информаторов (то есть людей изнутри компаний, которые тайно или явно заявляют о нарушениях safety протоколов).
Естественно, несколько крупных компаний выступали против этого законопроекта. В том числе OpenAI, которые решили играть по-грязному.
Собственно, к сути истории: Натан рассказал, что OpenAI пытались стрясти с него важные данные по лоббированию проекта, когда узнали, что Encode его продвигает. Это, ясное дело, незаконно, НО OpenAI решили прикрыться (ни за что не поверите) Илоном Маском!
Повестка в суд, которая пришла Натану, была частью иска OpenAI против Маска, который они подали в начале 2025. Там обвинения в том, что миллиардер якобы спонсирует заговор против OpenAI.
В целом, не суть. Главное: сейчас OpenAI очень удобно использует этот иск как предлог, чтобы запугивать организации, выступающие (даже косвенно) против их политики.
В частности, у Натана таким образом требовали личные переписки с законодателями Калифорнии, студентами и бывшими сотрудниками OpenAI. Как эти переписки должны были помочь им в деле с Маском – остается загадкой.
Причем жульничество это насколько явное, что даже судья по этому делу раскритиковал OpenAI за злоупотребление процедурой и чрезмерное давление в ходе расследования.
К слову, в организации Натана работает всего 3 юриста. Такая конторка, естественно, не готова к суду с гигантами вроде OpenAI. Чем компания активно и пользуется, чтобы влиять на деятельность этой и подобных организаций.
Сейчас тред с историей набрал уже 6 миллионов просмотров и 1.5к реплаев. Стартап эту неловкую завирусившуюся ситуацию пока никак не комментирует
А законопроект, кстати, все-таки подписали, буквально пару недель назад
Парня зовут Натан Кэлвин, он основатель и главный юрист маленькой некоммерческой компании Encode. Они занимаются политикой в области ИИ: например, продвигают законопроекты по безопасности.
Основным из таких законопроектов в последнее время был калифорнийский SB 53. Он должен был ввести несколько новых важных правил, направленных на повышение прозрачности компаний, обеспечение безопасности выпускаемых моделей и защиту информаторов (то есть людей изнутри компаний, которые тайно или явно заявляют о нарушениях safety протоколов).
Естественно, несколько крупных компаний выступали против этого законопроекта. В том числе OpenAI, которые решили играть по-грязному.
Собственно, к сути истории: Натан рассказал, что OpenAI пытались стрясти с него важные данные по лоббированию проекта, когда узнали, что Encode его продвигает. Это, ясное дело, незаконно, НО OpenAI решили прикрыться (ни за что не поверите) Илоном Маском!
Повестка в суд, которая пришла Натану, была частью иска OpenAI против Маска, который они подали в начале 2025. Там обвинения в том, что миллиардер якобы спонсирует заговор против OpenAI.
В целом, не суть. Главное: сейчас OpenAI очень удобно использует этот иск как предлог, чтобы запугивать организации, выступающие (даже косвенно) против их политики.
В частности, у Натана таким образом требовали личные переписки с законодателями Калифорнии, студентами и бывшими сотрудниками OpenAI. Как эти переписки должны были помочь им в деле с Маском – остается загадкой.
Причем жульничество это насколько явное, что даже судья по этому делу раскритиковал OpenAI за злоупотребление процедурой и чрезмерное давление в ходе расследования.
К слову, в организации Натана работает всего 3 юриста. Такая конторка, естественно, не готова к суду с гигантами вроде OpenAI. Чем компания активно и пользуется, чтобы влиять на деятельность этой и подобных организаций.
Сейчас тред с историей набрал уже 6 миллионов просмотров и 1.5к реплаев. Стартап эту неловкую завирусившуюся ситуацию пока никак не комментирует
А законопроект, кстати, все-таки подписали, буквально пару недель назад
😁124👍53 38❤28 8🤔6
Еще одна медалька в копилку ИИ: GPT-5 и Gemini 2.5 Pro выиграли золото на Международной Олимпиаде по астрономии и астрофизике (IOAA)
Чтобы понимать сложность олимпиады, учтите, что это даже не просто решение задач по физике и математике. Каждое задание требует многошаговых расчетов, сверки с данными и атласами, глубоких знаний по астрономии и орбитальной механике, построения графиков на небесной сфере и тд.
Но Gemini 2.5 Pro и GPT-5 показали почти идеальные результаты – 85–86%. Это золотая медаль и более того: это уровень топ-2 среди 200–300 участников последних лет.
Больным местом, ожидаемо, оказалось геометрическое и пространственное мышление + анализ данных. Так что несмотря на такой результат, до уровня даже слабенького исследователя в этой области ИИ пока не дотягивает.
arxiv.org/abs/2510.05016
Чтобы понимать сложность олимпиады, учтите, что это даже не просто решение задач по физике и математике. Каждое задание требует многошаговых расчетов, сверки с данными и атласами, глубоких знаний по астрономии и орбитальной механике, построения графиков на небесной сфере и тд.
Но Gemini 2.5 Pro и GPT-5 показали почти идеальные результаты – 85–86%. Это золотая медаль и более того: это уровень топ-2 среди 200–300 участников последних лет.
Больным местом, ожидаемо, оказалось геометрическое и пространственное мышление + анализ данных. Так что несмотря на такой результат, до уровня даже слабенького исследователя в этой области ИИ пока не дотягивает.
arxiv.org/abs/2510.05016
❤85🔥38👍22🏆6😁2🤔2☃1😎1
Data Secrets
Знакомьтесь, это Эндрю Таллок – исследователь, который отказался от оффера Цукерберга на сумму 1.5 миллиарда долларов. Сейчас его обсуждает весь интернет Когда-то этот исследователь, кстати, уже работал в Meta (тогда еще Facebook) и дослужился до «Distinguished…
Цукерберг переманил со-основателя стартапа Миры Мурати Thinking Machines
И вам даже, скорее всего, уже знакомо имя этого парня. Его зовут Эндрю Таллок, некоторое время назад он уже работал в Meta, и при этом достаточно долго: дослужился до «Distinguished Engineer» – самой высокой ступени в тех.иерархии компании. А еще он был ключевым разработчиком PyTorch.
После Meta он некоторое время работал в OpenAI, а затем ушел вместе с Мирой строить Thinking Machines. И все, вроде бы, было хорошо. Но у Цукерберга денег оказалось все-таки больше😐
Занятный факт состоит в том, что буквально пару месяцев назад Интернет тоже обсуждал Таллока. Он тогда отказался от оффера Марка на сумму полтора миллиарда долларов (мы писали об этом тут). Теперь же, по неподтвержденным данным, ему предложили минимум 2$ миллиарда. Плюс, само собой, акции.
А теперь думаем о своей зарплате и настраиваемся на рабочую неделю☕️
И вам даже, скорее всего, уже знакомо имя этого парня. Его зовут Эндрю Таллок, некоторое время назад он уже работал в Meta, и при этом достаточно долго: дослужился до «Distinguished Engineer» – самой высокой ступени в тех.иерархии компании. А еще он был ключевым разработчиком PyTorch.
После Meta он некоторое время работал в OpenAI, а затем ушел вместе с Мирой строить Thinking Machines. И все, вроде бы, было хорошо. Но у Цукерберга денег оказалось все-таки больше
Занятный факт состоит в том, что буквально пару месяцев назад Интернет тоже обсуждал Таллока. Он тогда отказался от оффера Марка на сумму полтора миллиарда долларов (мы писали об этом тут). Теперь же, по неподтвержденным данным, ему предложили минимум 2$ миллиарда. Плюс, само собой, акции.
А теперь думаем о своей зарплате и настраиваемся на рабочую неделю
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯200😁47❤34🔥15 9😎6🤨5🤔4👍2
GPT-5 опять решила какую-то открытую задачу по математике, но есть нюанс
В 20 веке жил такой известный математик Пал Эрдёш. Он был невероятно продовитым и за всю жизнь сформулировал сотни трудных и красивых проблем в различных областях математики – особенно в комбинаторике, теории чисел, теории графов, геометрии и теории вероятностей. Многие из этих задач остаются неразрешёнными до сих пор.
Так вот: есть специальный сайт https://www.erdosproblems.com, на котором энтузиасты публикуют задачи Эрдёша. Там в отдельных разделах перечислены решенные и нерешенные.
И вот кто-то додумался скормить одну из таких нерешенных проблем GPT-5. И моделька взяла и выдала решение.
Только вот, не свое. Вместо того, чтобы париться и рассуждать, она сперва полезла в Интернет, перерыла архивы и выяснила, что на самом деле в литературе уже существует доказательство.
То есть оказалось, что задачу, которую люди считали нерешенной, кто-то решил уже 20 лет назад. И первым, кто это заметил, стала GPT-5.
В 20 веке жил такой известный математик Пал Эрдёш. Он был невероятно продовитым и за всю жизнь сформулировал сотни трудных и красивых проблем в различных областях математики – особенно в комбинаторике, теории чисел, теории графов, геометрии и теории вероятностей. Многие из этих задач остаются неразрешёнными до сих пор.
Так вот: есть специальный сайт https://www.erdosproblems.com, на котором энтузиасты публикуют задачи Эрдёша. Там в отдельных разделах перечислены решенные и нерешенные.
И вот кто-то додумался скормить одну из таких нерешенных проблем GPT-5. И моделька взяла и выдала решение.
Только вот, не свое. Вместо того, чтобы париться и рассуждать, она сперва полезла в Интернет, перерыла архивы и выяснила, что на самом деле в литературе уже существует доказательство.
То есть оказалось, что задачу, которую люди считали нерешенной, кто-то решил уже 20 лет назад. И первым, кто это заметил, стала GPT-5.
😁601❤104🔥72👍25😎11👏4🤯4
Please open Telegram to view this post
VIEW IN TELEGRAM
😁457❤98🔥28 18 13 9🗿2👾1
Помните, мы недавно рассказывали вам про крутой курс по LLM?
Давайте немного напомним, о чем речь. Крупнейшая магистратура по ИИ в России AI Talent Hub и GIGASCHOOL запустили хардовый практический курс «LLM-инженер». Его фокус – на выводе проектов в прод, а не только на работе в ipynb.
Программу курса можете посмотреть здесь. Если в двух словах – будет все от А до Я и по полочкам. Fine-tuning, PEFT, LoRA / QLoRA, RLHF, векторные БД, LangChain, LangGraph, RAG, деплой и мониторинг LLM, мультиагентность. После курса все это будет вам не просто знакомо: вы научитесь, как и зачем все это применять на практике.
Сейчас ребята набирают уже второй поток и (внимание!) у них осталось три места со скидкой. Эта информация актуальна на момент выхода поста, еще утром их было больше. Так что если собирались начать наконец постигать LLM, но откладывали – сейчас самое время. Успевайте.
⚪️ 25 недель с каникулами | 252 часа теории и практики
Давайте немного напомним, о чем речь. Крупнейшая магистратура по ИИ в России AI Talent Hub и GIGASCHOOL запустили хардовый практический курс «LLM-инженер». Его фокус – на выводе проектов в прод, а не только на работе в ipynb.
Программу курса можете посмотреть здесь. Если в двух словах – будет все от А до Я и по полочкам. Fine-tuning, PEFT, LoRA / QLoRA, RLHF, векторные БД, LangChain, LangGraph, RAG, деплой и мониторинг LLM, мультиагентность. После курса все это будет вам не просто знакомо: вы научитесь, как и зачем все это применять на практике.
Сейчас ребята набирают уже второй поток и (внимание!) у них осталось три места со скидкой. Эта информация актуальна на момент выхода поста, еще утром их было больше. Так что если собирались начать наконец постигать LLM, но откладывали – сейчас самое время. Успевайте.
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿69❤21😁9👍5🤯5🤨3☃1 1
Google предложили систему памяти, благодаря которой ИИ может учиться на своих ошибках в реальном времени
Идея, на самом деле, простая, но никто не имплементировал такое до этого.
Смотрите, вот что будет делать человек, если совершит ошибку? Правильно, запомнит это и в следующий раз попробует сделать по-другому. А вот LLM так не умеют. Да, у нас уже есть глобальная память в ChatGPT, но с точки зрения паттернов мышлеия каждый новый запрос модели все еще воспринимают как первый.
Подход Google называется ReasoningBank. Это как бы блок памяти, который дистиллирует стратегические знания из прошлых действий.
То есть: случился какой-то диалог с пользователем –> мы вызываем специального агента-судью, который оценивает, насколько хорошо была решена задача –> логируем этот опыт с пометками, что получилось лучше всего и хуже всего и почему. На выходе получаем структурированное "воспоминание" с полями Title, Description и Content. Например, может быть так:
При решении новой задачи агент вернется к этой памяти и добавит релевантные заметки в промпт. Получается вот такой умный контекст-менеджмент.
И еще интересный момент. На основе такой памяти исследователи вывели новый тип масштабирования вычислений. То есть у нас вот есть скейлинг на претрейне, ризонинг-скейлинг, а они добавили еще Memory-aware Test-Time Scaling (MaTTS).
Суть в том, что агент генерирует множество решений одной задачи, и (тут на сцену выходит ReasoningBank) из каждого извлекает полезные паттерны, которые тут же использует для пересмотра своего окончательного ответа. Чем больше компьюта – тем больше обогощается ReasoningBank, и тем лучше становятся ответы. Модель учится рассуждать из собственного многообразия ошибок.
Вот такая работа с потенциалом. В целом, если подобное заведется, то можно было бы еще крутить и крутить. Например, добавить механизмы забывания, приоритизации или слияния воспоминаний.
arxiv.org/pdf/2509.25140v1
Идея, на самом деле, простая, но никто не имплементировал такое до этого.
Смотрите, вот что будет делать человек, если совершит ошибку? Правильно, запомнит это и в следующий раз попробует сделать по-другому. А вот LLM так не умеют. Да, у нас уже есть глобальная память в ChatGPT, но с точки зрения паттернов мышлеия каждый новый запрос модели все еще воспринимают как первый.
Подход Google называется ReasoningBank. Это как бы блок памяти, который дистиллирует стратегические знания из прошлых действий.
То есть: случился какой-то диалог с пользователем –> мы вызываем специального агента-судью, который оценивает, насколько хорошо была решена задача –> логируем этот опыт с пометками, что получилось лучше всего и хуже всего и почему. На выходе получаем структурированное "воспоминание" с полями Title, Description и Content. Например, может быть так:
Title: Avoid repeating failed actions
Description: Агент застрял в цикле – несколько раз кликал на одну и ту же кнопку, которая не работала.
Content: Если одно и то же действие не приносит результата, нужно изменить стратегию: например, обновить страницу или вернуться на предыдущий шаг.
При решении новой задачи агент вернется к этой памяти и добавит релевантные заметки в промпт. Получается вот такой умный контекст-менеджмент.
И еще интересный момент. На основе такой памяти исследователи вывели новый тип масштабирования вычислений. То есть у нас вот есть скейлинг на претрейне, ризонинг-скейлинг, а они добавили еще Memory-aware Test-Time Scaling (MaTTS).
Суть в том, что агент генерирует множество решений одной задачи, и (тут на сцену выходит ReasoningBank) из каждого извлекает полезные паттерны, которые тут же использует для пересмотра своего окончательного ответа. Чем больше компьюта – тем больше обогощается ReasoningBank, и тем лучше становятся ответы. Модель учится рассуждать из собственного многообразия ошибок.
Вот такая работа с потенциалом. В целом, если подобное заведется, то можно было бы еще крутить и крутить. Например, добавить механизмы забывания, приоритизации или слияния воспоминаний.
arxiv.org/pdf/2509.25140v1
❤🔥124🔥47👍34❤28😁1