[Перевод] Reasoning CV-модели OpenAI не смогли посчитать монеты
Новые мультимодальные модели OpenAI o3 и o4-mini позиционируются как "разумные". Однако качественное тестирование на практических задачах вроде подсчета объектов и распознавания текста выявило неожиданные пробелы в их производительности, в некоторых случаях уступающие даже не-reasoning моделям.
Узнайте, какие именно тесты провалили новинки и где показали уверенный результат. Читать далее
#ai #computervision #multimodal_llm #openai #llm #testing #evaluation #vqa #ocr | @habr_ai
Новые мультимодальные модели OpenAI o3 и o4-mini позиционируются как "разумные". Однако качественное тестирование на практических задачах вроде подсчета объектов и распознавания текста выявило неожиданные пробелы в их производительности, в некоторых случаях уступающие даже не-reasoning моделям.
Узнайте, какие именно тесты провалили новинки и где показали уверенный результат. Читать далее
#ai #computervision #multimodal_llm #openai #llm #testing #evaluation #vqa #ocr | @habr_ai
Хабр
Reasoning CV-модели OpenAI не смогли посчитать монеты
Всем привет! Меня зовут Александр, я COO в SaaS-платформе аналитики данных. Последний год активно изучаю внедрение AI-решений в кросс-функциональные процессы. Делюсь полезными материалами, которые...
AI-бот для QA-инженеров: как я сделал Telegram-ассистента для ежедневной прокачки
Привет! Меня зовут Евгений. Я — Full-Stack QA Engineer в Devscribed и сегодня хочу поделиться своим экспериментом — QA Mentor Bot. Это Telegram‑бот, который отправляет в телеграмм группу случайные вопросы по тестированию и сразу же генерирует на них развёрнутые ответы с помощью AI. В этой статье я расскажу, как устроен проект и с какими «подводными камнями» столкнулся в процессе разработки. Читать далее
#telegram_bot #deepseek #ai #vibe_coding #code_generation #testing #education #education_projects | @habr_ai
Привет! Меня зовут Евгений. Я — Full-Stack QA Engineer в Devscribed и сегодня хочу поделиться своим экспериментом — QA Mentor Bot. Это Telegram‑бот, который отправляет в телеграмм группу случайные вопросы по тестированию и сразу же генерирует на них развёрнутые ответы с помощью AI. В этой статье я расскажу, как устроен проект и с какими «подводными камнями» столкнулся в процессе разработки. Читать далее
#telegram_bot #deepseek #ai #vibe_coding #code_generation #testing #education #education_projects | @habr_ai
Хабр
AI-бот для QA-инженеров: как я сделал Telegram-ассистента для ежедневной прокачки
Что, если бы кто-то 4 раза в день напоминал тебе важное из мира QA — с примерами, объяснениями и без воды? Я сделал такого помощника. Привет! Меня зовут Евгений. Я — Full-Stack QA Engineer в...
Как правильно вайбкодить! Советы от QA, который запустил свою песочницу
5 Макулатура мне твоя не нужна
Код необходимо вставлять в промпт в формате текста, нежели прикреплять его как файл - файл как правило не читается полностью, он сканируется моделью поверхностно и таким образом важные компоненты кода не учитываются при генерации ответа. Поэтому, если у вас три и более файла, то проще закинуть текстом (размеры позволяют указать код в промпте как текст). Читать далее
#тестирование #вайбкодинг #вайб_кодинг #вайб_программирование #разработка #пет_проект #пет_проекты #testing #qa | @habr_ai
5 Макулатура мне твоя не нужна
Код необходимо вставлять в промпт в формате текста, нежели прикреплять его как файл - файл как правило не читается полностью, он сканируется моделью поверхностно и таким образом важные компоненты кода не учитываются при генерации ответа. Поэтому, если у вас три и более файла, то проще закинуть текстом (размеры позволяют указать код в промпте как текст). Читать далее
#тестирование #вайбкодинг #вайб_кодинг #вайб_программирование #разработка #пет_проект #пет_проекты #testing #qa | @habr_ai
Хабр
Как правильно вайбкодить! Советы от QA, который запустил свою песочницу
Привет, заводчане! В этой статье вы найдете реальные технические советы по особенностям общения с бездушными ИИ моделями, в частности я расскажу про GPT 4o и свежую 5, но эти советы также применимы и...