This media is not supported in your browser
VIEW IN TELEGRAM
NVIDIA открыла исходный код модели визуальной локализации LocateAnything-3B.
Модель умеет находить объекты даже в очень плотных сценах. Например, на изображении с десятками миньонов, стоящих вплотную друг к другу, она корректно выделяет каждого отдельной рамкой.
Главное отличие от большинства существующих моделей - это способ генерации ограничивающих рамок. Обычно координаты (
В LocateAnything-3B используется параллельное декодирование, тоесть модель сразу предсказывает готовые рамки целиком, а не строит их поэтапно. За счёт этого детекция становится стабильнее, особенно в сценах с большим количеством объектов.
Для обучения использовались не только классические датасеты для распознавания объектов, но и данные для распознавания интерфейсов, OCR и анализа структуры документов. Поэтому модель умеет находить как реальные объекты, так и элементы пользовательского интерфейса и текстовые области.
Модель содержит 3 млрд параметров и распространяется с открытым исходным кодом.💜
Модель умеет находить объекты даже в очень плотных сценах. Например, на изображении с десятками миньонов, стоящих вплотную друг к другу, она корректно выделяет каждого отдельной рамкой.
Главное отличие от большинства существующих моделей - это способ генерации ограничивающих рамок. Обычно координаты (
x1, y1, x2, y2) предсказываются последовательно, цифра за цифрой. Это замедляет работу, а ошибки на ранних этапах могут влиять на последующие координаты, особенно если объектов много.В LocateAnything-3B используется параллельное декодирование, тоесть модель сразу предсказывает готовые рамки целиком, а не строит их поэтапно. За счёт этого детекция становится стабильнее, особенно в сценах с большим количеством объектов.
Для обучения использовались не только классические датасеты для распознавания объектов, но и данные для распознавания интерфейсов, OCR и анализа структуры документов. Поэтому модель умеет находить как реальные объекты, так и элементы пользовательского интерфейса и текстовые области.
Модель содержит 3 млрд параметров и распространяется с открытым исходным кодом.
Please open Telegram to view this post
VIEW IN TELEGRAM
DeepSeek представила DSpark — новый метод спекулятивного декодирования для DeepSeek V4 Flash и DeepSeek V4 Pro, который увеличивает пропускную способность инференса на 51–400%.
По данным разработчиков, DSpark хорошо работает не только с моделями DeepSeek, но и с другими открытыми LLM, включая Gemma и Qwen.
Вместе с анонсом компания открыла исходный код проекта, опубликовала научную статью с описанием метода и выложила готовую модель на Hugging Face.
По данным разработчиков, DSpark хорошо работает не только с моделями DeepSeek, но и с другими открытыми LLM, включая Gemma и Qwen.
Вместе с анонсом компания открыла исходный код проекта, опубликовала научную статью с описанием метода и выложила готовую модель на Hugging Face.
This media is not supported in your browser
VIEW IN TELEGRAM
Проект OpenHuman менее чем за месяц набрал более 33 тысяч звёзд на GitHub. Одной из главных причин такого роста стала новая функция Super Context 🐸
При открытии нового чата OpenHuman сначала собирает контекст: анализирует релевантную информацию о пользователе, текущем экране и выполняемой работе. Благодаря этому уже первый ответ строится так, будто диалог длится уже несколько сообщений.
OpenHuman это ИИ-ассистент с открытым исходным кодом, который работает на уровне операционной системы и интегрируется со 118 приложениями. По словам разработчиков, он использует локальные данные пользователя и со временем всё лучше адаптируется к его стилю работы
Проект работает локально, поэтому данные не покидают устройство пользователя.
В течение десяти дней подряд OpenHuman входил в число самых популярных репозиториев GitHub, а сейчас занимает первое место в рейтинге платформы.
http://github.com/tinyhumansai/OpenHuman
При открытии нового чата OpenHuman сначала собирает контекст: анализирует релевантную информацию о пользователе, текущем экране и выполняемой работе. Благодаря этому уже первый ответ строится так, будто диалог длится уже несколько сообщений.
OpenHuman это ИИ-ассистент с открытым исходным кодом, который работает на уровне операционной системы и интегрируется со 118 приложениями. По словам разработчиков, он использует локальные данные пользователя и со временем всё лучше адаптируется к его стилю работы
Проект работает локально, поэтому данные не покидают устройство пользователя.
В течение десяти дней подряд OpenHuman входил в число самых популярных репозиториев GitHub, а сейчас занимает первое место в рейтинге платформы.
http://github.com/tinyhumansai/OpenHuman
Please open Telegram to view this post
VIEW IN TELEGRAM
4
This media is not supported in your browser
VIEW IN TELEGRAM
Разработчик, гений и филантроп, представил экспериментальный проект LoginWithChatGPT.
Он позволяет пользователям входить в сторонние сайты через свой аккаунт ChatGPT и использовать его возможности без необходимости оплачивать API OpenAI владельцу сервиса.
Все по-разному восприняли идею. Некоторые вспомнили, что несколько месяцев назад обсуждалась возможность использовать подписку ChatGPT как источник токенов для сторонних приложений. Другие усомнились, соответствует ли такой подход условиям использования OpenAI.
По словам автора, OpenAI уже позволяет сторонним приложениям (например OpenClaw/Hermes) получать доступ к Codex через CLI. Он с помощью реверс-инжиниринга реализовал аналогичный механизм через OAuth для веба и мобильных приложений. При этом разраб отметил, что пока не уверен, соответствует ли решение правилам OpenAI, и ждёт официального ответа компании, прежде чем открывать исходный код проекта.
Демо проекта🤔
Он позволяет пользователям входить в сторонние сайты через свой аккаунт ChatGPT и использовать его возможности без необходимости оплачивать API OpenAI владельцу сервиса.
Все по-разному восприняли идею. Некоторые вспомнили, что несколько месяцев назад обсуждалась возможность использовать подписку ChatGPT как источник токенов для сторонних приложений. Другие усомнились, соответствует ли такой подход условиям использования OpenAI.
По словам автора, OpenAI уже позволяет сторонним приложениям (например OpenClaw/Hermes) получать доступ к Codex через CLI. Он с помощью реверс-инжиниринга реализовал аналогичный механизм через OAuth для веба и мобильных приложений. При этом разраб отметил, что пока не уверен, соответствует ли решение правилам OpenAI, и ждёт официального ответа компании, прежде чем открывать исходный код проекта.
Демо проекта
Please open Telegram to view this post
VIEW IN TELEGRAM
Если используете LLM-as-a-Judge для оценки моделей, стоит обратить внимание на эту работу.
В статье представлен метод BINEVAL, который разбивает каждый критерий оценки на набор простых вопросов с ответами «да» или «нет». Каждый вопрос оценивается независимо, после чего результаты объединяются в многомерную итоговую оценку.
Такой подход позволяет увидеть, почему модель получила низкий балл по конкретному критерию, а сами ответы можно использовать для точечной доработки промптов.
Авторы сообщают, что на бенчмарках SummEval, Topical-Chat и QAGS метод без дополнительного обучения показывает результаты на уровне или выше UniEval и G-Eval, особенно при проверке фактической достоверности.
Статья: https://arxiv.org/abs/2606.27226🐸
В статье представлен метод BINEVAL, который разбивает каждый критерий оценки на набор простых вопросов с ответами «да» или «нет». Каждый вопрос оценивается независимо, после чего результаты объединяются в многомерную итоговую оценку.
Такой подход позволяет увидеть, почему модель получила низкий балл по конкретному критерию, а сами ответы можно использовать для точечной доработки промптов.
Авторы сообщают, что на бенчмарках SummEval, Topical-Chat и QAGS метод без дополнительного обучения показывает результаты на уровне или выше UniEval и G-Eval, особенно при проверке фактической достоверности.
Статья: https://arxiv.org/abs/2606.27226
Please open Telegram to view this post
VIEW IN TELEGRAM
Нашёл отличную книгу — The Hitchhiker’s Guide to Agentic AI, которая охватывает практически весь стек Agentic AI.
Главная ценность книги - это широкий обзор всего направления: архитектура LLM, обучение моделей, методы обучения с подкреплением, системы инференса, оценка моделей, агентные системы и многое другое.
Лучше всего использовать её как карту знаний. Сначала просмотреть оглавление, найти темы, в которых есть пробелы, понять, чего ещё не хватает, а затем углубиться в соответствующие главы. Такой подход помогает выстроить системное понимание Agentic AI.
🐸 🐸 🐸
Главная ценность книги - это широкий обзор всего направления: архитектура LLM, обучение моделей, методы обучения с подкреплением, системы инференса, оценка моделей, агентные системы и многое другое.
Лучше всего использовать её как карту знаний. Сначала просмотреть оглавление, найти темы, в которых есть пробелы, понять, чего ещё не хватает, а затем углубиться в соответствующие главы. Такой подход помогает выстроить системное понимание Agentic AI.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5
Media is too big
VIEW IN TELEGRAM
Бывший инженер Google объяснил, как работают AI agent loops, harness и evals за 20 минут.
Логика простая: трассируешь каждый запуск → прогоняешь через LLM-оценщик → находишь сбои → фиксишь → выкатываешь новую версию.
Так агенты постепенно улучшаются.
Agent loops + memory + harness + evals - базовый стек для таких систем.
Смотреть на ютуб😜 Посмотри и сохрани этот фреймворк.
Логика простая: трассируешь каждый запуск → прогоняешь через LLM-оценщик → находишь сбои → фиксишь → выкатываешь новую версию.
Так агенты постепенно улучшаются.
Agent loops + memory + harness + evals - базовый стек для таких систем.
Смотреть на ютуб
Please open Telegram to view this post
VIEW IN TELEGRAM
4
This media is not supported in your browser
VIEW IN TELEGRAM
Промпт-инжиниринг и loop engineering. Простое объяснение
По своей сути агент это цикл while:
- Модель выполняется
- Она запрашивает вызовы инструментов
- Результаты работы инструментов возвращаются в контекст
- Модель запускается снова, пока не перестанет запрашивать инструменты
Подход ReAct описал такую форму цикла ещё в 2022–2023 годах, и почти все современные агентные системы и фреймворки используют похожую реализацию.
Поэтому сами циклы это далеко не новая идея. Описанная выше реализация была решена уже давно.
Но оставался нерешённым цикл вокруг этого цикла. Именно о нём недавно говорили Борис Черни и Питер.
В наиболее распространённой схеме внешним циклом управляешь ты.
- Пишешь промпт
- Читаешь шаги, которые выполняет агент
- Пишешь следующий промпт
- Повторяешь процесс, отслеживая ошибки по мере работы
Сейчас появляются попытки автоматизировать и внешний цикл, чтобы исключить человека из процесса.
- Запуск происходит по расписанию или по событию
- Агент выполняет множество шагов без новых промптов между ними
- Сам решает, когда работа завершена
- Возвращается к человеку только тогда, когда действительно требуется его участие
Рассмотрим пример с упавшим тестом в CI.
Сейчас ты копируешь сообщение об ошибке в агента, читаешь предложенное исправление, запускаешь тесты и снова передаёшь следующую ошибку, пока все тесты не пройдут.
То есть каждый шаг проходит через тебя.
При автоматизированном цикле агент выполняет те же самые шаги самостоятельно.
Он запускается по расписанию, считывает ошибку, готовит исправление в отдельной ветке, запускает тесты и передаёт следующую ошибку самому себе как новый шаг, пока тесты не пройдут или не будет достигнут лимит шагов.
Отдельный ревьюер проверяет исправление, открывает PR, если всё в порядке, или передаёт его человеку, если обнаруживает проблемы.
Внутренний цикл всегда был автоматическим. Сейчас автоматизируют именно твоё участие в этом процессе.
Но бесплатно это не даётся.
> Пока ты управлял внешним циклом, ты мог остановить процесс, обладал памятью о проекте и выступал в роли ревьюера. Теперь все эти функции должны существовать внутри самой системы.
> И хотя участие в цикле замедляло работу, зато ты понимал, что именно происходит.
Главный недостаток исключения человека из цикла в том, что ответственность остаётся за тобой, а понимание происходящего, скорее всего, теряется.
> Сам по себе цикл не умеет определять, когда действительно пора остановиться. Он просто поверит агенту, что задача выполнена, и может завершиться даже при падающих тестах. Поэтому условие остановки должно проверяться независимо, а также необходим лимит шагов или токенов, чтобы избежать бесконечных циклов.
> Контекст увеличивается на каждом шаге, и по мере его роста качество работы модели снижается.
Поэтому цикл должен сокращать контекст, сохраняя только сводки вместо полной истории, переносить большие результаты в файлы и разбивать крупные задачи на отдельные запуски.
> Наконец, агент не должен сам проверять собственную работу, потому что он примет любое своё решение как правильное.
Такую проверку должна выполнять отдельная модель или бинарный/детерминированный тест.
Стоимость тоже быстро растёт, потому что на каждом шаге заново передаётся весь контекст. Поэтому длинный цикл может стоить во много раз дороже, чем выполнение одного промпта.
Если хочешь разобраться глубже, можно прочитать подробный разбор - от описанного выше цикла до полностью автономного запуска, который завершает работу самостоятельно, с примерами кода для каждого этапа.
Читайте дальше🐸
По своей сути агент это цикл while:
- Модель выполняется
- Она запрашивает вызовы инструментов
- Результаты работы инструментов возвращаются в контекст
- Модель запускается снова, пока не перестанет запрашивать инструменты
Подход ReAct описал такую форму цикла ещё в 2022–2023 годах, и почти все современные агентные системы и фреймворки используют похожую реализацию.
Поэтому сами циклы это далеко не новая идея. Описанная выше реализация была решена уже давно.
Но оставался нерешённым цикл вокруг этого цикла. Именно о нём недавно говорили Борис Черни и Питер.
В наиболее распространённой схеме внешним циклом управляешь ты.
- Пишешь промпт
- Читаешь шаги, которые выполняет агент
- Пишешь следующий промпт
- Повторяешь процесс, отслеживая ошибки по мере работы
Сейчас появляются попытки автоматизировать и внешний цикл, чтобы исключить человека из процесса.
- Запуск происходит по расписанию или по событию
- Агент выполняет множество шагов без новых промптов между ними
- Сам решает, когда работа завершена
- Возвращается к человеку только тогда, когда действительно требуется его участие
Рассмотрим пример с упавшим тестом в CI.
Сейчас ты копируешь сообщение об ошибке в агента, читаешь предложенное исправление, запускаешь тесты и снова передаёшь следующую ошибку, пока все тесты не пройдут.
То есть каждый шаг проходит через тебя.
При автоматизированном цикле агент выполняет те же самые шаги самостоятельно.
Он запускается по расписанию, считывает ошибку, готовит исправление в отдельной ветке, запускает тесты и передаёт следующую ошибку самому себе как новый шаг, пока тесты не пройдут или не будет достигнут лимит шагов.
Отдельный ревьюер проверяет исправление, открывает PR, если всё в порядке, или передаёт его человеку, если обнаруживает проблемы.
Внутренний цикл всегда был автоматическим. Сейчас автоматизируют именно твоё участие в этом процессе.
Но бесплатно это не даётся.
> Пока ты управлял внешним циклом, ты мог остановить процесс, обладал памятью о проекте и выступал в роли ревьюера. Теперь все эти функции должны существовать внутри самой системы.
> И хотя участие в цикле замедляло работу, зато ты понимал, что именно происходит.
Главный недостаток исключения человека из цикла в том, что ответственность остаётся за тобой, а понимание происходящего, скорее всего, теряется.
> Сам по себе цикл не умеет определять, когда действительно пора остановиться. Он просто поверит агенту, что задача выполнена, и может завершиться даже при падающих тестах. Поэтому условие остановки должно проверяться независимо, а также необходим лимит шагов или токенов, чтобы избежать бесконечных циклов.
> Контекст увеличивается на каждом шаге, и по мере его роста качество работы модели снижается.
Поэтому цикл должен сокращать контекст, сохраняя только сводки вместо полной истории, переносить большие результаты в файлы и разбивать крупные задачи на отдельные запуски.
> Наконец, агент не должен сам проверять собственную работу, потому что он примет любое своё решение как правильное.
Такую проверку должна выполнять отдельная модель или бинарный/детерминированный тест.
Стоимость тоже быстро растёт, потому что на каждом шаге заново передаётся весь контекст. Поэтому длинный цикл может стоить во много раз дороже, чем выполнение одного промпта.
Если хочешь разобраться глубже, можно прочитать подробный разбор - от описанного выше цикла до полностью автономного запуска, который завершает работу самостоятельно, с примерами кода для каждого этапа.
Читайте дальше
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Разработчик из Китая, выпустил тул, который почти автоматически собирает презентации из любых файлов.
Просто отдаёте агенту ссылку или документ и он автоматически собирает полноценные редактируемые .pptx-файлы с нативными фигурами и анимациями.
ppt-master умеет конвертировать любой документ в .pptx, поддерживает кастомные шаблоны и даже добавляет аудионарацию для заметок докладчика.
В веб-версии ChatGPT и Claude это уже есть, поэтому хорошо, что появился и CLI-вариант. В реальной практике обычно ИИ делает черновик, а человек доводит руками. Такие пайплайны будут дальше только развиваться.
100% опенсорс😎
Просто отдаёте агенту ссылку или документ и он автоматически собирает полноценные редактируемые .pptx-файлы с нативными фигурами и анимациями.
ppt-master умеет конвертировать любой документ в .pptx, поддерживает кастомные шаблоны и даже добавляет аудионарацию для заметок докладчика.
В веб-версии ChatGPT и Claude это уже есть, поэтому хорошо, что появился и CLI-вариант. В реальной практике обычно ИИ делает черновик, а человек доводит руками. Такие пайплайны будут дальше только развиваться.
100% опенсорс
Please open Telegram to view this post
VIEW IN TELEGRAM