Один полезный приём перед написанием кода.
Не просите агента сразу что-то реализовывать. Сначала проверьте, как он понял задачу.
Вставьте промпт:
Этот подход особенно полезен, когда требования сформулированы не до конца, контекста много или вы сами ещё не до конца продумали решение.
Сначала пусть модель перескажет задачу своими словами, покажет спорные места и разложит работу по шагам. И только потом приступает к реализации. Обычно это даёт гораздо более предсказуемый результат.
По сути, вы просто переносите ревью на более ранний этап😶
Не просите агента сразу что-то реализовывать. Сначала проверьте, как он понял задачу.
Вставьте промпт:
Пока не изменяй код. Проверь, насколько полно ты понимаешь задачу:
Какую реальную проблему я пытаюсь решить?
Какие требования уже понятны?
Где могут быть неоднозначности?
Что ты, скорее всего, можешь неправильно понять, если сразу начнёшь писать код?
После этого предложи план выполнения.
Этот подход особенно полезен, когда требования сформулированы не до конца, контекста много или вы сами ещё не до конца продумали решение.
Сначала пусть модель перескажет задачу своими словами, покажет спорные места и разложит работу по шагам. И только потом приступает к реализации. Обычно это даёт гораздо более предсказуемый результат.
По сути, вы просто переносите ревью на более ранний этап
Please open Telegram to view this post
VIEW IN TELEGRAM
5
Media is too big
VIEW IN TELEGRAM
Новая фича в Codex: Record & Replay
Она позволяет продемонстрировать Codex повторяющийся процесс, например один раз показываешь Codex, как выполняешь задачу, а он сохраняет этот процесс и превращает его в переиспользуемый скилл.
Например, каждый день скачиваешь счета с одного и того же сайта. Один раз проходишь весь процесс вручную — дальше Codex может повторять его сам.
Или постоянно выгружаешь отчёт из админки, переименовываешь файл и складываешь его в нужную папку. Показываешь последовательность действий один раз, после чего её можно запускать снова без ручной работы.
Смысл в том, что теперь не обязательно каждый раз подробно объяснять задачу через промпты. Можно просто показать процесс, а затем превратить его в автоматизацию.🙉
https://developers.openai.com/codex/changelog#codex-2026-06-18-app
Она позволяет продемонстрировать Codex повторяющийся процесс, например один раз показываешь Codex, как выполняешь задачу, а он сохраняет этот процесс и превращает его в переиспользуемый скилл.
Например, каждый день скачиваешь счета с одного и того же сайта. Один раз проходишь весь процесс вручную — дальше Codex может повторять его сам.
Или постоянно выгружаешь отчёт из админки, переименовываешь файл и складываешь его в нужную папку. Показываешь последовательность действий один раз, после чего её можно запускать снова без ручной работы.
Смысл в том, что теперь не обязательно каждый раз подробно объяснять задачу через промпты. Можно просто показать процесс, а затем превратить его в автоматизацию.
https://developers.openai.com/codex/changelog#codex-2026-06-18-app
Please open Telegram to view this post
VIEW IN TELEGRAM
Находка: лёгкий локальный векторный поиск, с которым можно быстро собрать собственную базу знаний.
Опенсорс проект zvec от Alibaba уже набрал 10,3 тыс. звёзд на GitHub и активно используется внутри Alibaba в крупных продакшен-сценариях.
Обычно для векторного поиска приходится поднимать отдельный сервис: Pinecone, Weaviate, Qdrant или что-то ещё. Плюсом идут - настройка, инфраструктура и деплой. Для небольших проектов это часто оказывается слишком хардкорно
С zvec всё проще. Он встраивает всю векторную базу данных прямо в ваш процесс - примерно так же, как SQLite работает с реляционными базами данных. Установили через pip, создали коллекцию несколькими строками кода, загрузили данные - и можно выполнять поиск по сходству. Никаких серверов, конфигурационных файлов и доп.инфраструктуры, всё хранится в одном локальном файле.
zvec умеет искать среди сотен миллионов векторов за миллисекунды и поддерживает гибридный поиск: векторный + полнотекстовый. Работает на ноутбуках, серверах и даже на edge-устройствах.
Обновление v0.5.0 от 12 июня заметно расширило возможности проекта:
↳ Нативный полнотекстовый поиск без внешних поисковых движков
↳ Гибридный поиск, объединяющий векторы, ключевые слова и фильтры в одном запросе
↳ Новый дисковый индекс, существенно снижающий потребление памяти на больших объёмах данных
↳ Zvec Studio — визуальный инструмент для просмотра данных и отладки без написания кода
100% опенсорс😁
Опенсорс проект zvec от Alibaba уже набрал 10,3 тыс. звёзд на GitHub и активно используется внутри Alibaba в крупных продакшен-сценариях.
Обычно для векторного поиска приходится поднимать отдельный сервис: Pinecone, Weaviate, Qdrant или что-то ещё. Плюсом идут - настройка, инфраструктура и деплой. Для небольших проектов это часто оказывается слишком хардкорно
С zvec всё проще. Он встраивает всю векторную базу данных прямо в ваш процесс - примерно так же, как SQLite работает с реляционными базами данных. Установили через pip, создали коллекцию несколькими строками кода, загрузили данные - и можно выполнять поиск по сходству. Никаких серверов, конфигурационных файлов и доп.инфраструктуры, всё хранится в одном локальном файле.
zvec умеет искать среди сотен миллионов векторов за миллисекунды и поддерживает гибридный поиск: векторный + полнотекстовый. Работает на ноутбуках, серверах и даже на edge-устройствах.
Обновление v0.5.0 от 12 июня заметно расширило возможности проекта:
↳ Нативный полнотекстовый поиск без внешних поисковых движков
↳ Гибридный поиск, объединяющий векторы, ключевые слова и фильтры в одном запросе
↳ Новый дисковый индекс, существенно снижающий потребление памяти на больших объёмах данных
↳ Zvec Studio — визуальный инструмент для просмотра данных и отладки без написания кода
100% опенсорс
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - alibaba/zvec: A lightweight, lightning-fast, in-process vector database
A lightweight, lightning-fast, in-process vector database - alibaba/zvec
This media is not supported in your browser
VIEW IN TELEGRAM
Datalab открыла исходный код Lift — 9B-модели для извлечения структурированных данных из документов.
По заявлению разработчиков, модель показывает 90,2% точности на их бенчмарке против 91,3% у Gemini 3.5 Flash и заметно опережает специализированные опенсорс решения вроде NuExtract3 (81,5%).
Lift умеет извлекать данные по JSON Schema, а медианное время обработки составляет 9,5 секунды.
Для запуска достаточно: pip install lift-pdf
Модель и код доступны в открытом доступе.👍
По заявлению разработчиков, модель показывает 90,2% точности на их бенчмарке против 91,3% у Gemini 3.5 Flash и заметно опережает специализированные опенсорс решения вроде NuExtract3 (81,5%).
Lift умеет извлекать данные по JSON Schema, а медианное время обработки составляет 9,5 секунды.
Для запуска достаточно: pip install lift-pdf
Модель и код доступны в открытом доступе.
Please open Telegram to view this post
VIEW IN TELEGRAM
Если вы часто используете потоковый режим Codex или автоматизированные задачи, стоит учитывать один неприятный момент: это может заметно ускорять износ SSD.
Сейчас Codex автоматически пишет большое количество логов уровня
По сообщениям пользователей, скорость записи может достигать примерно 5 МБ/с.
OpenAI пока не исправили эту проблему.
Обсуждения:
GitHub Issue #17320
GitHub Issue #28224
Временный обходной путь:
Эта команда создаёт триггер SQLite, который блокирует новые записи в таблицу логов.
Также в качестве временной меры можно запускать Codex с флагом
Это отключает TRACE-логирование и может заметно сократить объём записываемых логов.
Если у вас есть долгоживущие автоматизированные задачи, имеет смысл вынести логи сессий на RAM-диск. В этом случае они будут храниться в оперативной памяти и автоматически удаляться после перезагрузки, что дополнительно снизит нагрузку на SSD.
P.S. Один из пользователей сообщил, что постоянно работал через😐
Сейчас Codex автоматически пишет большое количество логов уровня
TRACE в файл: ~/.codex/logs_2.sqliteПо сообщениям пользователей, скорость записи может достигать примерно 5 МБ/с.
OpenAI пока не исправили эту проблему.
Обсуждения:
GitHub Issue #17320
GitHub Issue #28224
Временный обходной путь:
sqlite3 ~/.codex/logs_2.sqlite "CREATE TRIGGER IF NOT EXISTS block_log_inserts BEFORE INSERT ON logs BEGIN SELECT RAISE(IGNORE); END;"
Эта команда создаёт триггер SQLite, который блокирует новые записи в таблицу логов.
Также в качестве временной меры можно запускать Codex с флагом
--no-trace или задать переменную окружения:CODEX_LOG_LEVEL=ERROR
Это отключает TRACE-логирование и может заметно сократить объём записываемых логов.
Если у вас есть долгоживущие автоматизированные задачи, имеет смысл вынести логи сессий на RAM-диск. В этом случае они будут храниться в оперативной памяти и автоматически удаляться после перезагрузки, что дополнительно снизит нагрузку на SSD.
P.S. Один из пользователей сообщил, что постоянно работал через
/resume в одной и той же сессии, после чего Codex начал заметно тормозить. Размер файла логов к тому моменту вырос примерно до 1.2 ГБ. Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from IT Portal
This media is not supported in your browser
VIEW IN TELEGRAM
Теория мёртвого интернета на практике: энтузиаст с Reddit поднял приватный сервер World of Warcraft на AzerothCore, заселил его 1800 ботами и прикрутил DeepSeek API для общения в чате
Боты сами качаются, закрывают квесты, собираются в группы и общаются друг с другом так, будто это обычный вечер на живом сервере
Сегодня забрали работу. Завтра заберут слот в рейде🫡 👁🗨
@IT_Portal
Боты сами качаются, закрывают квесты, собираются в группы и общаются друг с другом так, будто это обычный вечер на живом сервере
Сегодня забрали работу. Завтра заберут слот в рейде
@IT_Portal
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Codex умеет передавать сессии между локальными и удалёнными хостами.
Начал работу на ноутбуке, перед закрытием крышки отправил её на удалённый сервер, а позже вернул обратно и продолжил с того же места.
Самое интересное - вместе с сессией передаются не только сообщения, но и состояние проекта: код и Git-состояние. По словам OpenAI, Codex может сам координировать весь процесс передачи.
Для фронтенд-разработки это особенно удобно: можно работать локально, запускать dev-сборки и тестировать изменения, а тяжёлые задачи или долгие агентные сессии переносить на удалённую машину без потери контекста.😮💨
Начал работу на ноутбуке, перед закрытием крышки отправил её на удалённый сервер, а позже вернул обратно и продолжил с того же места.
Самое интересное - вместе с сессией передаются не только сообщения, но и состояние проекта: код и Git-состояние. По словам OpenAI, Codex может сам координировать весь процесс передачи.
Для фронтенд-разработки это особенно удобно: можно работать локально, запускать dev-сборки и тестировать изменения, а тяжёлые задачи или долгие агентные сессии переносить на удалённую машину без потери контекста.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Веб-скрейпинг уже не будет прежним. 💀
Вышел PixelRAG - опенсорс ретривер-фреймворк, который использует изображения страниц вместо традиционного HTML-парсинга
По словам разработчиков, традиционные HTML-to-text пайплайны могут терять более 40% содержимого страницы, включая таблицы, графики и элементы разметки. PixelRAG работает с документом в том виде, в котором его видит пользователь после рендеринга.
Как работает пайплайн:
- Рендерит каждый документ (веб-страницы, PDF, изображения) в набор тайлов.
- Строит эмеддинги с помощью Qwen3-VL-Embedding, дообученной через LoRA на скриншотах.
- Создаёт индекс FAISS и предоставляет API для поиска.
Если заменить модель-чтец на более сильную, точность вырастет без переиндексации, поскольку индекс хранит только пиксели.
Для экспериментов команда проекта создала визуальный индекс всей Википедии - более 30 миллионов скриншотов. В итоге, даже в таком формате система превосходит лучший текстовый RAG-бейзлайн на 18,1% в задачах question answering только по тексту.
Также представлен плагин для Claude Code, позволяющий анализировать отрендерированные страницы через скриншоты без работы с DOM.
Весь проект опубликован в открытом доступе под лицензией Apache-2.0, а в статье есть подробные разборы ошибок, абляционные исследования и сравнение более чем с 25 VLM-моделями.
Вышел PixelRAG - опенсорс ретривер-фреймворк, который использует изображения страниц вместо традиционного HTML-парсинга
По словам разработчиков, традиционные HTML-to-text пайплайны могут терять более 40% содержимого страницы, включая таблицы, графики и элементы разметки. PixelRAG работает с документом в том виде, в котором его видит пользователь после рендеринга.
Как работает пайплайн:
- Рендерит каждый документ (веб-страницы, PDF, изображения) в набор тайлов.
- Строит эмеддинги с помощью Qwen3-VL-Embedding, дообученной через LoRA на скриншотах.
- Создаёт индекс FAISS и предоставляет API для поиска.
Если заменить модель-чтец на более сильную, точность вырастет без переиндексации, поскольку индекс хранит только пиксели.
Для экспериментов команда проекта создала визуальный индекс всей Википедии - более 30 миллионов скриншотов. В итоге, даже в таком формате система превосходит лучший текстовый RAG-бейзлайн на 18,1% в задачах question answering только по тексту.
Также представлен плагин для Claude Code, позволяющий анализировать отрендерированные страницы через скриншоты без работы с DOM.
Весь проект опубликован в открытом доступе под лицензией Apache-2.0, а в статье есть подробные разборы ошибок, абляционные исследования и сравнение более чем с 25 VLM-моделями.
Please open Telegram to view this post
VIEW IN TELEGRAM
5
This media is not supported in your browser
VIEW IN TELEGRAM
WTF: Как я сам не додумался до такого юзкейса? 🤯
Теперь для правок изображений можно не жечь кредиты генерации в GPT. Это можно прогонять через Codex бесплатно.
Достаточно открыть Excalidraw, разметить изображение стрелками, подписями и заметками, а затем отправить результат cкриншотом в Codex.
В итоге Excalidraw становится холстом для аннотаций, Codex — исполнителем, а генерацию изображений ты вообще не трогаешь.
Всё работает нативно, без дополнительных плагинов
Теперь для правок изображений можно не жечь кредиты генерации в GPT. Это можно прогонять через Codex бесплатно.
Достаточно открыть Excalidraw, разметить изображение стрелками, подписями и заметками, а затем отправить результат cкриншотом в Codex.
В итоге Excalidraw становится холстом для аннотаций, Codex — исполнителем, а генерацию изображений ты вообще не трогаешь.
Всё работает нативно, без дополнительных плагинов
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Figma + Claude Code + Open Source = OpenPencil
Появился OpenPencil — опенсорсный ИИ-редактор для дизайна.
Что умеет:
• Открывает файлы
• Работает локально на компьютере
• Имеет встроенные ИИ-функции
• Экспортирует макеты в Tailwind и JSX
• Интегрируется с Claude Code и Cursor
☕️ ☕️ ☕️
Появился OpenPencil — опенсорсный ИИ-редактор для дизайна.
Что умеет:
• Открывает файлы
.fig• Работает локально на компьютере
• Имеет встроенные ИИ-функции
• Экспортирует макеты в Tailwind и JSX
• Интегрируется с Claude Code и Cursor
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Для Chrome вышло расширение Caveman, которое помогает сокращать количество токенов при работе с ИИ-моделями.
Расширение поддерживает ChatGPT, Claude, Gemini и другие сервисы. Оно автоматически переписывает промпты и ответы, убирая лишние слова без потери основного смысла.
По словам первопроходцев, это позволяет сократить расход выходных токенов до 75%, а ответы сделать более краткими и содержательными.😥
Расширение поддерживает ChatGPT, Claude, Gemini и другие сервисы. Оно автоматически переписывает промпты и ответы, убирая лишние слова без потери основного смысла.
По словам первопроходцев, это позволяет сократить расход выходных токенов до 75%, а ответы сделать более краткими и содержательными.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
В PaddlePaddle представили новую OCR-модель Unlimited-OCR, рассчитанную на обработку больших документов.
По словам разработчиков, модель способна обрабатывать сотни страниц за один проход без заметной потери скорости. Это стало возможным благодаря механизму R-SWA (Reference Sliding Window Attention), который поддерживает постоянный размер KV-кэша во время декодирования.
В бенчмарке OmniDocBench модель набрала 93%, а также показала результат на 6% выше, чем DeepSeek-OCR.
https://huggingface.co/baidu/Unlimited-OCR🤨
По словам разработчиков, модель способна обрабатывать сотни страниц за один проход без заметной потери скорости. Это стало возможным благодаря механизму R-SWA (Reference Sliding Window Attention), который поддерживает постоянный размер KV-кэша во время декодирования.
В бенчмарке OmniDocBench модель набрала 93%, а также показала результат на 6% выше, чем DeepSeek-OCR.
https://huggingface.co/baidu/Unlimited-OCR
Please open Telegram to view this post
VIEW IN TELEGRAM
Вышла Qwythos-9B-Claude-Mythos-5 с контекстным окном до 1 млн токенов. 🤔
Команда Empero представила свою reasoning-модель Qwythos-9B, построенную на базе глубоко разцензуренной версии Qwen3.5-9B. Модель получила полный fine-tune всех параметров и была дополнительно обучена более чем на 500 млн токенов данных Claude Mythos и Claude Fable.
Для обучения использовались синтетические Chain of Thought (CoT), сгенерированные на основе логов сессий Fable-5 и Mythos-5.
Модель уже доступна на Hugging Face:
https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M
Команда Empero представила свою reasoning-модель Qwythos-9B, построенную на базе глубоко разцензуренной версии Qwen3.5-9B. Модель получила полный fine-tune всех параметров и была дополнительно обучена более чем на 500 млн токенов данных Claude Mythos и Claude Fable.
Для обучения использовались синтетические Chain of Thought (CoT), сгенерированные на основе логов сессий Fable-5 и Mythos-5.
Модель уже доступна на Hugging Face:
https://huggingface.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M
Please open Telegram to view this post
VIEW IN TELEGRAM
Victor Mustar, Head of Product в Hugging Face, порекомендовал это подробное руководство по оптимизации локального запуска LLM через llama.cpp.
В статье разбираются выбор железа, настройка ОС, квантизация моделей, работа с памятью и способы повышения скорости инференса на потребительских ПК.😁
В статье разбираются выбор железа, настройка ОС, квантизация моделей, работа с памятью и способы повышения скорости инференса на потребительских ПК.
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Скилл make-interfaces-feel-better от разработчика Jakub Krehel преодолел отметку в 30 тысяч установок.
Проект представляет собой набор практических рекомендаций по улучшению пользовательских интерфейсов. В него входят советы по UI-дизайну, анимациям, производительности, визуальным деталям и другим аспектам, которые влияют на восприятие продукта пользователями.🤩
Устанвока :
Проект представляет собой набор практических рекомендаций по улучшению пользовательских интерфейсов. В него входят советы по UI-дизайну, анимациям, производительности, визуальным деталям и другим аспектам, которые влияют на восприятие продукта пользователями.
Устанвока :
npx skills add jakubkrehel/make-interfaces-feel-betterPlease open Telegram to view this post
VIEW IN TELEGRAM
Держите неплохой лайфхак по запуску локалок 😆
Скормите Codex CLI эту статью от Ахмеда и попросите:
- определи подходящий inference engine под моё железо
- настрой проект через uv + venv
- подбери нужные kernels
- подкрути flags, batching, KVCache и другие параметры
- оптимизируй запуск под мою модель и железо
Легко.
Скормите Codex CLI эту статью от Ахмеда и попросите:
- определи подходящий inference engine под моё железо
- настрой проект через uv + venv
- подбери нужные kernels
- подкрути flags, batching, KVCache и другие параметры
- оптимизируй запуск под мою модель и железо
Легко.
Please open Telegram to view this post
VIEW IN TELEGRAM
3
This media is not supported in your browser
VIEW IN TELEGRAM
Знакомьтесь: Clips. Бесплатная открытая замена Loom, заточенная под агентов. 😋
В отличие от Loom, агент понимает Clips просто по ссылке. Каждый клип содержит API и метаданные, благодаря которым агент может изучить его содержимое. Агенты видят и слышат не только транскрипт, а вообще всё, что происходит на видео в любой момент времени.
Делишься баг-репортом, фидбеком, анализом — и передаёшь это агенту, чтобы он улучшал продукт или отчёт.
Ещё один плюс: софт твой. Никто не поднимет цену в один день, как это сделал Loom.
Clips создан для кастомизации. Встроенный агент умеет править собственный код, просто адаптируешь приложение под себя.
Ещё можно импортировать Loom по ссылке и загружать видео.
Есть бесплатная хостовая версия. Можно форкнуть и хостить самому.
В отличие от Loom, агент понимает Clips просто по ссылке. Каждый клип содержит API и метаданные, благодаря которым агент может изучить его содержимое. Агенты видят и слышат не только транскрипт, а вообще всё, что происходит на видео в любой момент времени.
Делишься баг-репортом, фидбеком, анализом — и передаёшь это агенту, чтобы он улучшал продукт или отчёт.
Ещё один плюс: софт твой. Никто не поднимет цену в один день, как это сделал Loom.
Clips создан для кастомизации. Встроенный агент умеет править собственный код, просто адаптируешь приложение под себя.
Ещё можно импортировать Loom по ссылке и загружать видео.
Есть бесплатная хостовая версия. Можно форкнуть и хостить самому.
Please open Telegram to view this post
VIEW IN TELEGRAM
4
На GitHub появился проект reverse-skill, посвящённый автоматизации задач реверс-инжиниринга и анализа безопасности с помощью ИИ.
В проект добавляется файл
Внутри больше 20 направлений: APK-реверс, статический анализ IDA, реверс JS-фронтенда, безопасность прошивок, обход EDR, эксплуатация уязвимостей. В общем, все типичные сценарии защиты и нападения.
исходники🤩
В проект добавляется файл
routing.md, в нём расписано, по какому пути идти агенту для разных задач безопасности. Агент получает его и сам решает, какие инструменты и методы использовать.Внутри больше 20 направлений: APK-реверс, статический анализ IDA, реверс JS-фронтенда, безопасность прошивок, обход EDR, эксплуатация уязвимостей. В общем, все типичные сценарии защиты и нападения.
исходники
Please open Telegram to view this post
VIEW IN TELEGRAM
На днях вышел Mistral OCR 4
Он распознаёт документы на 170 языках.
Тестеры сравнили OCR 4 с другими решениями в лоб. Независимые аннотаторы вслепую ранжировали 600+ реальных документов на 12+ языках. OCR 4 победил каждую систему. Средний винрейт 72%.
На бенчмарках картина похожая. OlmOCRBench - 85.20. Особенно заметен разрыв на редких языках
Из интересного - OCR 4 смог превратить рукописный экзамен по математическому анализу в чистый LaTeX.
Модели дали фото страницы с рукописным экзаменом. Она прочитала почерк и восстановила каждую формулу в структурированный цифровой текст.
Результат: 5.1 секунды обработки при стоимости всего $0.09.
Формулы были распознаны корректно. График модель не перерисовала, но это как раз показательно. Большинство OCR-систем просто извлекают текст и теряют подобные элементы. OCR 4 распознал график, выделил его отдельным блоком и пометил как chart. Он не появился в виде новой отрисовки, но был учтён в структуре документа.😨
https://mistral.ai/news/ocr-4/
Он распознаёт документы на 170 языках.
Тестеры сравнили OCR 4 с другими решениями в лоб. Независимые аннотаторы вслепую ранжировали 600+ реальных документов на 12+ языках. OCR 4 победил каждую систему. Средний винрейт 72%.
На бенчмарках картина похожая. OlmOCRBench - 85.20. Особенно заметен разрыв на редких языках
Из интересного - OCR 4 смог превратить рукописный экзамен по математическому анализу в чистый LaTeX.
Модели дали фото страницы с рукописным экзаменом. Она прочитала почерк и восстановила каждую формулу в структурированный цифровой текст.
Результат: 5.1 секунды обработки при стоимости всего $0.09.
Формулы были распознаны корректно. График модель не перерисовала, но это как раз показательно. Большинство OCR-систем просто извлекают текст и теряют подобные элементы. OCR 4 распознал график, выделил его отдельным блоком и пометил как chart. Он не появился в виде новой отрисовки, но был учтён в структуре документа.
https://mistral.ai/news/ocr-4/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM