OpenAI GPT-4.1 выпущена 🎉
Все-таки это прокачанный вариант GPT-4o
Бенчмарки хороши, модельне только хорошо кодит на Python, но и на других языках, заявляют что сильно лучше следует пользовательским инструкциям 🎠
🎉 1 миллион токенов контекста🎉
32k токенов на выход(больше, чем у 4o в 2 раза)
Дешевле чем 4o
Так же появилась модель Nano, которая тупее 4o-mini, это интересно 🤔
Все-таки это прокачанный вариант GPT-4o
Бенчмарки хороши, модельне только хорошо кодит на Python, но и на других языках, заявляют что сильно лучше следует пользовательским инструкциям 🎠
32k токенов на выход(больше, чем у 4o в 2 раза)
Дешевле чем 4o
Так же появилась модель Nano, которая тупее 4o-mini, это интересно 🤔
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤2👍1
- Reasoning картинками
- Модели теперь используют инструменты: вытаскивает код из репозиториев с GitHub прям вот хорошо и вовремя
Цены на токены
o1 (базовая модель)
- Входящие: $15
- Исходящие: $60
o3 (дешевле на 33%)
- Входящие: $10
- Исходящие: $40
o4-mini (дешевле на 93%)
- Входящие: $1.1
- Исходящие: $4.4
И да, супер крутые результаты на бенчмарках по кодингу, агентных системах
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Meta запускает свое приложение Meta* AI app которое в первую очередь про диалог с ним голосом, беседу 🗣️💭
Похоже на копипасту с Алисы, если вы помните как она запускалась в формате приложения👀
О общем поигрался - у OpenAI получше в плане эмоций.
TLDR; Список новых фишек:
Похоже на копипасту с Алисы, если вы помните как она запускалась в формате приложения👀
О общем поигрался - у OpenAI получше в плане эмоций.
TLDR; Список новых фишек:
Приложение Meta View теперь называется Meta* AI.
- Получайте персонализированный опыт взаимодействия с Meta* AI, учитывающий ваши предпочтения и интересы.
- Общайтесь с Meta* AI легко и естественно, чтобы получать ответы, советы и вдохновение.
- Изучайте советы и подсказки от сообщества в ленте Discover и пробуйте их сами.
Продолжайте настраивать и управлять своими очками Ray-Ban Meta.
- Импортируйте и делитесь медиафайлами с ваших очков Ray-Ban Meta через приложение.
- Все ваши сопряжённые устройства, настройки и медиафайлы автоматически перенесутся после обновления приложения.
Некоторые функции Meta* AI доступны только в отдельных странах и на определённых языках. Распространение новых функций может происходить постепенно.
* Meta признана экстремистской организацией и запрещена на территории России - для тех кто будет репостить 📌
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1😁1
У меня взяли интервью, прошу поддержать лайком =)
https://www.instagram.com/reel/DJ6C2X8MbMc/?igsh=MTdnc2tmZGozdjZ1YQ==
https://www.instagram.com/reel/DJ6C2X8MbMc/?igsh=MTdnc2tmZGozdjZ1YQ==
❤11
Мы уже ТУТ 🚀 Google выпустила Alpha Evolve — революционный AI-проект для автоматического улучшения алгоритмов!
На протяжении 56 лет задача оптимизации алгоритма умножения матриц 4x4 считалась нерешаемой менее чем за 49 операций умножения. Alpha Evolve впервые справилась с этим за 48 операций! 🔥
Что такое Alpha Evolve?
Это инновационный AI-агент, способный самостоятельно:
📌 Создавать и оптимизировать алгоритмы в области математики, науки и инженерии.
📌 Использовать эволюционные вычисления и LLM (большие языковые модели), проверяя код и находя лучшие решения без участия человека.
📌 Работать параллельно на множестве GPU/TPU, многократно ускоряя процесс открытия новых знаний.
Уже реализованные результаты:
✅ Оптимизация алгоритмов умножения матриц.
✅ Улучшение инфраструктуры Google, включая распределение вычислительных задач, ускорение работы Gemini-моделей, оптимизацию TPU-чипов и даже архитектуры Transformer-базы всех LLM!
Важный момент: Alpha Evolve — шаг к настоящему самообучающемуся AI. Чем лучше становится модель, тем быстрее и эффективнее она учится сама!
🤖 Почему это важно?
AI-системы, способные самостоятельно улучшаться, приближают нас к точке интеллектуального взрыва.
Alpha Evolve уже показывает значительное ускорение и улучшение алгоритмов, что в ближайшем будущем может привести к открытиям во всех сферах от медицины до фундаментальной науки.
🌟 Это начало новой эпохи в области искусственного интеллекта и научных открытий!
https://deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/
На протяжении 56 лет задача оптимизации алгоритма умножения матриц 4x4 считалась нерешаемой менее чем за 49 операций умножения. Alpha Evolve впервые справилась с этим за 48 операций! 🔥
Что такое Alpha Evolve?
Это инновационный AI-агент, способный самостоятельно:
📌 Создавать и оптимизировать алгоритмы в области математики, науки и инженерии.
📌 Использовать эволюционные вычисления и LLM (большие языковые модели), проверяя код и находя лучшие решения без участия человека.
📌 Работать параллельно на множестве GPU/TPU, многократно ускоряя процесс открытия новых знаний.
Уже реализованные результаты:
✅ Оптимизация алгоритмов умножения матриц.
✅ Улучшение инфраструктуры Google, включая распределение вычислительных задач, ускорение работы Gemini-моделей, оптимизацию TPU-чипов и даже архитектуры Transformer-базы всех LLM!
Важный момент: Alpha Evolve — шаг к настоящему самообучающемуся AI. Чем лучше становится модель, тем быстрее и эффективнее она учится сама!
🤖 Почему это важно?
AI-системы, способные самостоятельно улучшаться, приближают нас к точке интеллектуального взрыва.
Alpha Evolve уже показывает значительное ускорение и улучшение алгоритмов, что в ближайшем будущем может привести к открытиям во всех сферах от медицины до фундаментальной науки.
🌟 Это начало новой эпохи в области искусственного интеллекта и научных открытий!
https://deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/
🔥9❤2
🚀 Запускаем botable.dev — генератор AI-агентов по промпту, пока в Telegram
Всем привет! Давно не писал в канал - есть новость: я давно ханимаюсь AI(ML,CV,LLM,NLP) а теперь упаковываю весь опыт в продукт.
С командой сделали прототип: даёшь описание — получаешь бота с исходниками и деплоем под ключ.
👨🔧 Сейчас ищем тестеров — соберём для вас пару ботов, если кейс интересный.
👉 Коротко о проекте и форма заявки — botable.dev
💬 Или напишите мне в ЛС — обсудим, что можно собрать!
Всем привет! Давно не писал в канал - есть новость: я давно ханимаюсь AI(ML,CV,LLM,NLP) а теперь упаковываю весь опыт в продукт.
С командой сделали прототип: даёшь описание — получаешь бота с исходниками и деплоем под ключ.
👨🔧 Сейчас ищем тестеров — соберём для вас пару ботов, если кейс интересный.
👉 Коротко о проекте и форма заявки — botable.dev
💬 Или напишите мне в ЛС — обсудим, что можно собрать!
botable.dev
Гибкий конструктор AI-агентов | Botable.dev
Генерация и публикация готового AI-агента за 10 минут под любые задачи бизнеса: продажи, поддержка клиентов, финанализ и т.д.
🔥12👍5❤4
🧠 3 факта про ChatGPT Agent:
- Раньше OpenAI называли его Operator, был доступен только на рынке США за $200/мес.
- теперь включён в подписку ChatGPT за $20
- Может сам кликать, заполнять формы, ходить по сайтам, запускать браузер и терминал — работает как настоящий ассистент
- Умеет выполнять сложные задачи без микроменеджмента: анализирует, ищет, компилирует и отдаёт результат в нужном формате
- Раньше OpenAI называли его Operator, был доступен только на рынке США за $200/мес.
- теперь включён в подписку ChatGPT за $20
- Может сам кликать, заполнять формы, ходить по сайтам, запускать браузер и терминал — работает как настоящий ассистент
- Умеет выполнять сложные задачи без микроменеджмента: анализирует, ищет, компилирует и отдаёт результат в нужном формате
❤7🔥2
Forwarded from Al Talent Hub
Привет! Меня зовут Иван Кононов — ментор AI Talent Hub, CEO в HubLab.ai и эксперт по Computer Vision.
В этой колонке расскажу, как мы вдвоём собрали полноценную CV-систему с нуля — без размеченных данных и за минимальное время.
🤑 Исходные условия: мы — команда из двух Data Science-джедаев в HubLab.ai. Задача — сделать CV-систему с дедлайном «вчера».
Особенности задачи:
▫️ Камера под углом "сбоку-снизу-задом-вперёд", готовых датасетов — 0.
▫️ Fisheye + разные линзы: искажений столько, что квадрат превращается в эллипс.
▫️ Низкий FPS и задача action recognition: важно поймать событие, а не просто объект.
▫️ Огромный архив (сотни ГБ) без единой метки. Только мы и FFmpeg.
🤗 Шаг 1. Быстрый Bootstrap
1. Берём YOLOv8n-oiv7 — модель с Open Images V7 (600+ классов).
2. Запускаем предикт с confidence = 0.01→ собираем ~4 000 кадров (скрипт ffmpeg + Ultralytics).
3. Загружаем «грязную» автолейбл-разметку в CVAT.
4. Сидим вдвоём: подтверждаем «хиты», вычищаем «мимо».
🎉 Шаг 2. Первый цикл обучения
▫️ Обучаем YOLO11n (4.8M params), 50 эпох, получаем mAP50 ≈ 0.37.
▫️ Прогоняем ею оставшийся видео-массив → +2 000 автолейблов.
▫️ Чистим, дописываем пропуски – разметка ускоряется на ~25 %
💡 Лайфхак: держите conf_thres низким (0.01–0.1) — лучше удалить лишнее, чем не поймать объект.
👁 Шаг 3. Боремся с «рыбьим глазом»
▫️ Кидаем ChArUco на каждую камеру → храним коэффициенты K и D.
▫️ В проде undistort на CPU занимает всего 2 мс.
▫️ На ровных кадрах даже YOLO11n поднимается до mAP50 ≈ 0.82.
🗜 Шаг 4. Жмём из CPU максимум
GPU не дали, поэтому…
▫️ Экспорт ONNX → OpenVINO INT8: yolo export format = onnx → pot quantization.
▫️ На i7-1360P получаем 35 FPS вместо 12 FPS (×2.9).
▫️ Бонус: –20% к весу модели, и кэш L3 — доволен.
🥰 Шаг 5. Доразмечиваем датасет, пока не надоест...
Выводы:
1. Полуавтомат рулит: чередование «модель → человек» экономит > 25 % времени небольшой команде.
2. Обучать “малых” NN выгодно: они быстро переобучаются и хороши как автолейблеры.
3. Физика важна: исправление оптики приносит +0.1-0.2 mAP почти бесплатно.
4. CPU — не приговор: OpenVINO даёт ×2-×3 ускорение, а quantization почти не бьёт по точности.
5. Датасет всегда важнее: чистые 10тыс. кадров с правильными bbox ценнее, чем сверхмодель без разметки.
Ставь ⚡️— и в следующей колонке я расскажу, как мы прикрутили action recognition,разнесли пайплайн на две модели и вынесли heavy-часть on-prem
Подписывайся на мой канал @ivanknnv — там без флуда и репостов: только важные тесты, наблюдения и немного иронии про мир нейросетей.
#КолонкаМентора
#AITalentHub #ITMO #NapoleonIT
В этой колонке расскажу, как мы вдвоём собрали полноценную CV-систему с нуля — без размеченных данных и за минимальное время.
Особенности задачи:
🤗 Шаг 1. Быстрый Bootstrap
1. Берём YOLOv8n-oiv7 — модель с Open Images V7 (600+ классов).
2. Запускаем предикт с confidence = 0.01→ собираем ~4 000 кадров (скрипт ffmpeg + Ultralytics).
3. Загружаем «грязную» автолейбл-разметку в CVAT.
4. Сидим вдвоём: подтверждаем «хиты», вычищаем «мимо».
👁 Шаг 3. Боремся с «рыбьим глазом»
GPU не дали, поэтому…
Выводы:
1. Полуавтомат рулит: чередование «модель → человек» экономит > 25 % времени небольшой команде.
2. Обучать “малых” NN выгодно: они быстро переобучаются и хороши как автолейблеры.
3. Физика важна: исправление оптики приносит +0.1-0.2 mAP почти бесплатно.
4. CPU — не приговор: OpenVINO даёт ×2-×3 ускорение, а quantization почти не бьёт по точности.
5. Датасет всегда важнее: чистые 10тыс. кадров с правильными bbox ценнее, чем сверхмодель без разметки.
Ставь ⚡️— и в следующей колонке я расскажу, как мы прикрутили action recognition,
Подписывайся на мой канал @ivanknnv — там без флуда и репостов: только важные тесты, наблюдения и немного иронии про мир нейросетей.
#КолонкаМентора
#AITalentHub #ITMO #NapoleonIT
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10⚡4❤3👍2
Media is too big
VIEW IN TELEGRAM
Вышел браузер от OpenAI 💀 Atlas
- посадочная страница это ChatGPT.
- открыл сайт - справа вылазит панелька с GPT который объясняет* тебе веб-страничку 💅
*читать сайты за поколение альфа будет нейронка, готовим 🍑
Короче OpenAIвывалили свои🍆 ,пардон, заявили свои права на рынок гугла 🌐
- посадочная страница это ChatGPT.
- открыл сайт - справа вылазит панелька с GPT который объясняет* тебе веб-страничку 💅
Короче OpenAI
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3
Качать Atlas только на macOS 🤑 https://chatgpt.com/atlas/get-started/
Please open Telegram to view this post
VIEW IN TELEGRAM
Chatgpt
ChatGPT Atlas
Learn how to install Atlas, the new browser with ChatGPT built in. Now for macOS on desktop.
❤3
Forwarded from Al Talent Hub
Привет! Это снова Иван Кононов — ментор AI Talent Hub, CEO в HubLab.ai и человек, у которого болят глаза от разбора скелетов... 💀 В CV-датасетах, конечно 😅
В прошлой колонке я обещал рассказать, как мы прикрутили action recognition, разнесли пайплайн на две модели и вынесли тяжёлую часть на on-prem. Держу обещание — рассказываю, как бы вы это сделали, если бы у вас было немного времени, немного железа и много мотивации.
🚬 Почему не хватило одной модели
Обычные object detection и даже трекинг — это про кадры.
А поведение человека — это про время.
Списывание, подглядывания, манипуляции под столом — всё это действия, а не картинки.
Значит, нужно учить модель понимать движение, последовательность. То есть action recognition.
🕺 С чего начали — поза
1. Решили, что весь RGB-поток не нужен. Лучше извлечь скелет человека (keypoints) и уже по ним предсказывать действия.
2. Пробовали MediaPipe BlazePose — легко стартует, ставится без плясок, работает быстро. Но на сложных ракурсах и освещении теряется.
3. Перешли на MMPose с моделью RTMPose — заметно стабильнее. Особенно если настроить undistortion, сделать кроп по AOI (Area of Interest) через ArUco-маркеры и передавать только нужный регион кадра.
4. Из on-prem наружу отдаём только координаты keypoints. Это безопаснее, быстрее и легче для канала.
🤓 Модель №2 — распознавание действия
⚫️ На вход короткий клип из keypoints (обычно 2–4 секунды, с overlap).
⚫️ Пробовали ST-GCN, потом перешли на CTR-GCN из MMAction2 — он чуть умнее собирает контекст, особенно в мелкой моторике.
⚫️ Также тестили PoseC3D — вместо графа использует heatmap-представление. Устойчив к шуму, особенно когда точки прыгают или исчезают.
💃 Почему мы разнесли пайплайн
⚫️ На on-prem — извлекаем позу. Это самая тяжёлая часть, и важно держать её рядом с железом (иначе latency и сеть умирает).
⚫️ На edge/cloud — получаем координаты keypoints и решаем, что это за действие. Классификатор лёгкий, идёт в real-time даже на Raspberry Pi с охлаждением от стиралки 😄
😐 Что по метрикам
⚫️ RTMPose-m — 90–100 FPS на обычном CPU (Intel i7-11700), а на RTX 3060 — 300–400 FPS.
⚫️ BlazePose (Full) — 18 FPS на CPU и 40 FPS на GPU — норм для базового прототипа.
⚫️ CTR-GCN — обрабатывает клипы со скоростью 50+ FPS, если скелеты поданы заранее.
🎻 Рабочие настройки
⚫️ Длина клипа: 48–60 кадров
⚫️ Частота: 15–25 FPS
⚫️ Скользящее окно: шаг 1 секунда
⚫️ Аугментации: random temporal crop, dropout точек (моделируем реальность), иногда jitter
⚫️ Постобработка: сглаживание, фильтрация событий короче 1.5 сек., подавление «дребезга»
🗒 Советы для тех, кто будет повторять
1. Не лезьте сразу в RGB-видео. Скелеты — дешевле, хоть и не всегда точнее, особенно при нестандартных ракурсах.
2. Если keypoints пропадают — считайте это отдельным фичером. Иногда исчезновение рук важнее, чем наличие часов.
3. PoseC3D рулит, когда поза шумная: учится «в среднем» и не сходит с ума, если точка на кадре улетела в потолок.
4. Используйте ArUco-калибровку заранее: если выровняете ракурс и кропните до ROI — модель будет в 2 раза стабильнее!
🙂 Полезные ссылки
⚫️ MMPose (RTMPose): https://github.com/open-mmlab/mmpose
⚫️ MMAction2 (CTR-GCN, ST-GCN, PoseC3D): https://github.com/open-mmlab/mmaction2
⚫️ MediaPipe BlazePose: https://google.github.io/mediapipe/solutions/pose.html
⚫️ Пост о CTR-GCN и FPS: https://github.com/open-mmlab/mmaction2/issues/1889
Ставь 🔥, если хочешь узнать, как мы сделали детекцию по рукам и запястьям, собрали кастомный датасет и научили модель видеть действия даже сквозь pixel-кашу на 640×360.
Подписывайся на мой канал @ivanknnv — там без флуда, зато много полезных мелочей, которые не влезают в документацию, но решают продакшен.
#КолонкаМентора
#AITalentHub #ITMO #NapoleonIT
В прошлой колонке я обещал рассказать, как мы прикрутили action recognition, разнесли пайплайн на две модели и вынесли тяжёлую часть на on-prem. Держу обещание — рассказываю, как бы вы это сделали, если бы у вас было немного времени, немного железа и много мотивации.
Обычные object detection и даже трекинг — это про кадры.
А поведение человека — это про время.
Списывание, подглядывания, манипуляции под столом — всё это действия, а не картинки.
Значит, нужно учить модель понимать движение, последовательность. То есть action recognition.
1. Решили, что весь RGB-поток не нужен. Лучше извлечь скелет человека (keypoints) и уже по ним предсказывать действия.
2. Пробовали MediaPipe BlazePose — легко стартует, ставится без плясок, работает быстро. Но на сложных ракурсах и освещении теряется.
3. Перешли на MMPose с моделью RTMPose — заметно стабильнее. Особенно если настроить undistortion, сделать кроп по AOI (Area of Interest) через ArUco-маркеры и передавать только нужный регион кадра.
4. Из on-prem наружу отдаём только координаты keypoints. Это безопаснее, быстрее и легче для канала.
1. Не лезьте сразу в RGB-видео. Скелеты — дешевле, хоть и не всегда точнее, особенно при нестандартных ракурсах.
2. Если keypoints пропадают — считайте это отдельным фичером. Иногда исчезновение рук важнее, чем наличие часов.
3. PoseC3D рулит, когда поза шумная: учится «в среднем» и не сходит с ума, если точка на кадре улетела в потолок.
4. Используйте ArUco-калибровку заранее: если выровняете ракурс и кропните до ROI — модель будет в 2 раза стабильнее!
Ставь 🔥, если хочешь узнать, как мы сделали детекцию по рукам и запястьям, собрали кастомный датасет и научили модель видеть действия даже сквозь pixel-кашу на 640×360.
Подписывайся на мой канал @ivanknnv — там без флуда, зато много полезных мелочей, которые не влезают в документацию, но решают продакшен.
#КолонкаМентора
#AITalentHub #ITMO #NapoleonIT
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9