HubLab.ai – Ivan Kononov
235 subscribers
60 photos
6 videos
22 links
Никаких репостов новостей и бесконечного вала сообщений, важные тесты и новости пару раз в неделю. Авторский взгляд на развитие нейросеток, отрицание хайпа, только суть и немного юмора.

More than 10 years of experience in startups
Download Telegram
OpenAI улучшили память во всех чатах 💀

Теперь вы можете спросить «О чем мы говорили на прошлых выходных?» И он ответит 🤯

Доступно тарифу PRO за 200$
Позже раскатят на Plus 20$

Помните, вы всё, конечно, помните 🧠
🔥2🤔1
OpenAI GPT-4.1 выпущена 🎉

Все-таки это прокачанный вариант GPT-4o

Бенчмарки хороши, модельне только хорошо кодит на Python, но и на других языках, заявляют что сильно лучше следует пользовательским инструкциям 🎠

🎉1 миллион токенов контекста🎉
32k токенов на выход(больше, чем у 4o в 2 раза)

Дешевле чем 4o
Так же появилась модель Nano, которая тупее 4o-mini, это интересно 🤔
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥62👍1
🗯 OpenAI o3 и o4-mini интересное:

- Reasoning картинками 🖼

- Модели теперь используют инструменты: вытаскивает код из репозиториев с GitHub прям вот хорошо и вовремя 🐸

Цены на токены 📈(за 1 млн):

o1 (базовая модель)
- Входящие: $15
- Исходящие: $60

o3 (дешевле на 33%)
- Входящие: $10
- Исходящие: $40

o4-mini (дешевле на 93%)
- Входящие: $1.1
- Исходящие: $4.4

И да, супер крутые результаты на бенчмарках по кодингу, агентных системах 📊
Please open Telegram to view this post
VIEW IN TELEGRAM
1
🔥43🍾2😁1
Интересно, сколько денег OpenAI потеряла на электричестве из-за того, что люди говорили «пожалуйста» и «спасибо» своим моделям.

Сэм Альтман:
Десятки миллионов долларов, потраченные не зря — никогда не знаешь, к чему это приведёт.
💯3🤣21😁1
Meta запускает свое приложение Meta* AI app которое в первую очередь про диалог с ним голосом, беседу 🗣️💭

Похоже на копипасту с Алисы, если вы помните как она запускалась в формате приложения👀

О общем поигрался - у OpenAI получше в плане эмоций.

TLDR; Список новых фишек:
Приложение Meta View теперь называется Meta* AI.
- Получайте персонализированный опыт взаимодействия с Meta* AI, учитывающий ваши предпочтения и интересы.
- Общайтесь с Meta* AI легко и естественно, чтобы получать ответы, советы и вдохновение.
- Изучайте советы и подсказки от сообщества в ленте Discover и пробуйте их сами.

Продолжайте настраивать и управлять своими очками Ray-Ban Meta.
- Импортируйте и делитесь медиафайлами с ваших очков Ray-Ban Meta через приложение.
- Все ваши сопряжённые устройства, настройки и медиафайлы автоматически перенесутся после обновления приложения.

Некоторые функции Meta* AI доступны только в отдельных странах и на определённых языках. Распространение новых функций может происходить постепенно.

* Meta признана экстремистской организацией и запрещена на территории России - для тех кто будет репостить 📌
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41😁1
У меня взяли интервью, прошу поддержать лайком =)
https://www.instagram.com/reel/DJ6C2X8MbMc/?igsh=MTdnc2tmZGozdjZ1YQ==
11
Мы уже ТУТ 🚀 Google выпустила Alpha Evolve — революционный AI-проект для автоматического улучшения алгоритмов!

На протяжении 56 лет задача оптимизации алгоритма умножения матриц 4x4 считалась нерешаемой менее чем за 49 операций умножения. Alpha Evolve впервые справилась с этим за 48 операций! 🔥

Что такое Alpha Evolve?

Это инновационный AI-агент, способный самостоятельно:

📌 Создавать и оптимизировать алгоритмы в области математики, науки и инженерии.

📌 Использовать эволюционные вычисления и LLM (большие языковые модели), проверяя код и находя лучшие решения без участия человека.

📌 Работать параллельно на множестве GPU/TPU, многократно ускоряя процесс открытия новых знаний.

Уже реализованные результаты:

Оптимизация алгоритмов умножения матриц.

Улучшение инфраструктуры Google, включая распределение вычислительных задач, ускорение работы Gemini-моделей, оптимизацию TPU-чипов и даже архитектуры Transformer-базы всех LLM!

Важный момент: Alpha Evolve — шаг к настоящему самообучающемуся AI. Чем лучше становится модель, тем быстрее и эффективнее она учится сама!

🤖 Почему это важно?

AI-системы, способные самостоятельно улучшаться, приближают нас к точке интеллектуального взрыва.

Alpha Evolve уже показывает значительное ускорение и улучшение алгоритмов, что в ближайшем будущем может привести к открытиям во всех сферах от медицины до фундаментальной науки.

🌟 Это начало новой эпохи в области искусственного интеллекта и научных открытий!

https://deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/
🔥92
🚀 Запускаем botable.dev — генератор AI-агентов по промпту, пока в Telegram

Всем привет! Давно не писал в канал - есть новость: я давно ханимаюсь AI(ML,CV,LLM,NLP) а теперь упаковываю весь опыт в продукт.

С командой сделали прототип: даёшь описание — получаешь бота с исходниками и деплоем под ключ.
👨‍🔧 Сейчас ищем тестеров — соберём для вас пару ботов, если кейс интересный.

👉 Коротко о проекте и форма заявки — botable.dev
💬 Или напишите мне в ЛС — обсудим, что можно собрать!
🔥12👍54
🧠 3 факта про ChatGPT Agent:
- Раньше OpenAI называли его Operator, был доступен только на рынке США за $200/мес.
- теперь включён в подписку ChatGPT за $20
- Может сам кликать, заполнять формы, ходить по сайтам, запускать браузер и терминал — работает как настоящий ассистент
- Умеет выполнять сложные задачи без микроменеджмента: анализирует, ищет, компилирует и отдаёт результат в нужном формате
7🔥2
Forwarded from Al Talent Hub
Привет! Меня зовут Иван Кононов — ментор AI Talent Hub, CEO в HubLab.ai и эксперт по Computer Vision.

В этой колонке расскажу, как мы вдвоём собрали полноценную CV-систему с нуля — без размеченных данных и за минимальное время.

🤑 Исходные условия: мы — команда из двух Data Science-джедаев в HubLab.ai. Задача — сделать CV-систему с дедлайном «вчера».

Особенности задачи:

▫️Камера под углом "сбоку-снизу-задом-вперёд", готовых датасетов — 0.
▫️Fisheye + разные линзы: искажений столько, что квадрат превращается в эллипс.
▫️Низкий FPS и задача action recognition: важно поймать событие, а не просто объект.
▫️Огромный архив (сотни ГБ) без единой метки. Только мы и FFmpeg.

🤗 Шаг 1. Быстрый Bootstrap

1. Берём YOLOv8n-oiv7 — модель с Open Images V7 (600+ классов).
2. Запускаем предикт с confidence = 0.01→ собираем ~4 000 кадров (скрипт ffmpeg + Ultralytics).
3. Загружаем «грязную» автолейбл-разметку в CVAT.
4. Сидим вдвоём: подтверждаем «хиты», вычищаем «мимо».

🎉 Шаг 2. Первый цикл обучения

▫️Обучаем YOLO11n (4.8M params), 50 эпох, получаем mAP50 ≈ 0.37.
▫️Прогоняем ею оставшийся видео-массив → +2 000 автолейблов.
▫️Чистим, дописываем пропуски – разметка ускоряется на ~25 %

💡 Лайфхак: держите conf_thres низким (0.01–0.1) — лучше удалить лишнее, чем не поймать объект.

👁 Шаг 3. Боремся с «рыбьим глазом»

▫️Кидаем ChArUco на каждую камеру → храним коэффициенты K и D.
▫️В проде undistort на CPU занимает всего 2 мс.
▫️На ровных кадрах даже YOLO11n поднимается до mAP50 ≈ 0.82.

🗜 Шаг 4. Жмём из CPU максимум

GPU не дали, поэтому…

▫️Экспорт ONNX → OpenVINO INT8: yolo export format = onnx → pot quantization.
▫️На i7-1360P получаем 35 FPS вместо 12 FPS (×2.9).
▫️Бонус: –20% к весу модели, и кэш L3 — доволен.

🥰 Шаг 5. Доразмечиваем датасет, пока не надоест...

Выводы:

1. Полуавтомат рулит: чередование «модель → человек» экономит > 25 % времени небольшой команде.

2. Обучать “малых” NN выгодно: они быстро переобучаются и хороши как автолейблеры.

3. Физика важна: исправление оптики приносит +0.1-0.2 mAP почти бесплатно.

4. CPU — не приговор: OpenVINO даёт ×2-×3 ускорение, а quantization почти не бьёт по точности.

5. Датасет всегда важнее: чистые 10тыс. кадров с правильными bbox ценнее, чем сверхмодель без разметки.

Ставь ⚡️— и в следующей колонке я расскажу, как мы прикрутили action recognition, разнесли пайплайн на две модели и вынесли heavy-часть on-prem

Подписывайся на мой канал @ivanknnv — там без флуда и репостов: только важные тесты, наблюдения и немного иронии про мир нейросетей.

#КолонкаМентора
#AITalentHub #ITMO #NapoleonIT
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1043👍2
OpenAI релизнула не только GPT5, а еще и новые шакалы на графиках метрик 🤣
😁8
Вопрос подписчикам: что хотите спросить/потестить?)
Media is too big
VIEW IN TELEGRAM
Вышел браузер от OpenAI 💀 Atlas

- посадочная страница это ChatGPT.
- открыл сайт - справа вылазит панелька с GPT который объясняет* тебе веб-страничку 💅

*читать сайты за поколение альфа будет нейронка, готовим 🍑

Короче OpenAI вывалили свои🍆 ,пардон, заявили свои права на рынок гугла 🌐
Please open Telegram to view this post
VIEW IN TELEGRAM
3
Forwarded from Al Talent Hub
Привет! Это снова Иван Кононов — ментор AI Talent Hub, CEO в HubLab.ai и человек, у которого болят глаза от разбора скелетов... 💀 В CV-датасетах, конечно 😅

В прошлой колонке я обещал рассказать, как мы прикрутили action recognition, разнесли пайплайн на две модели и вынесли тяжёлую часть на on-prem. Держу обещание — рассказываю, как бы вы это сделали, если бы у вас было немного времени, немного железа и много мотивации.

🚬 Почему не хватило одной модели

Обычные object detection и даже трекинг — это про кадры.
А поведение человека — это про время.

Списывание, подглядывания, манипуляции под столом — всё это действия, а не картинки.
Значит, нужно учить модель понимать движение, последовательность. То есть action recognition.

🕺 С чего начали — поза

1. Решили, что весь RGB-поток не нужен. Лучше извлечь скелет человека (keypoints) и уже по ним предсказывать действия.
2. Пробовали MediaPipe BlazePose — легко стартует, ставится без плясок, работает быстро. Но на сложных ракурсах и освещении теряется.
3. Перешли на MMPose с моделью RTMPose — заметно стабильнее. Особенно если настроить undistortion, сделать кроп по AOI (Area of Interest) через ArUco-маркеры и передавать только нужный регион кадра.
4. Из on-prem наружу отдаём только координаты keypoints. Это безопаснее, быстрее и легче для канала.

🤓 Модель №2 — распознавание действия

⚫️На вход короткий клип из keypoints (обычно 2–4 секунды, с overlap).
⚫️Пробовали ST-GCN, потом перешли на CTR-GCN из MMAction2 — он чуть умнее собирает контекст, особенно в мелкой моторике.
⚫️Также тестили PoseC3D — вместо графа использует heatmap-представление. Устойчив к шуму, особенно когда точки прыгают или исчезают.

💃 Почему мы разнесли пайплайн

⚫️На on-prem — извлекаем позу. Это самая тяжёлая часть, и важно держать её рядом с железом (иначе latency и сеть умирает).
⚫️На edge/cloud — получаем координаты keypoints и решаем, что это за действие. Классификатор лёгкий, идёт в real-time даже на Raspberry Pi с охлаждением от стиралки 😄

😐 Что по метрикам

⚫️RTMPose-m — 90–100 FPS на обычном CPU (Intel i7-11700), а на RTX 3060 — 300–400 FPS.
⚫️BlazePose (Full) — 18 FPS на CPU и 40 FPS на GPU — норм для базового прототипа.
⚫️CTR-GCN — обрабатывает клипы со скоростью 50+ FPS, если скелеты поданы заранее.

🎻 Рабочие настройки

⚫️Длина клипа: 48–60 кадров
⚫️Частота: 15–25 FPS
⚫️Скользящее окно: шаг 1 секунда
⚫️Аугментации: random temporal crop, dropout точек (моделируем реальность), иногда jitter
⚫️Постобработка: сглаживание, фильтрация событий короче 1.5 сек., подавление «дребезга»

🗒 Советы для тех, кто будет повторять

1. Не лезьте сразу в RGB-видео. Скелеты — дешевле, хоть и не всегда точнее, особенно при нестандартных ракурсах.

2. Если keypoints пропадают — считайте это отдельным фичером. Иногда исчезновение рук важнее, чем наличие часов.

3. PoseC3D рулит, когда поза шумная: учится «в среднем» и не сходит с ума, если точка на кадре улетела в потолок.

4. Используйте ArUco-калибровку заранее: если выровняете ракурс и кропните до ROI — модель будет в 2 раза стабильнее!

🙂 Полезные ссылки

⚫️MMPose (RTMPose): https://github.com/open-mmlab/mmpose
⚫️MMAction2 (CTR-GCN, ST-GCN, PoseC3D): https://github.com/open-mmlab/mmaction2
⚫️MediaPipe BlazePose: https://google.github.io/mediapipe/solutions/pose.html
⚫️Пост о CTR-GCN и FPS: https://github.com/open-mmlab/mmaction2/issues/1889

Ставь 🔥, если хочешь узнать, как мы сделали детекцию по рукам и запястьям, собрали кастомный датасет и научили модель видеть действия даже сквозь pixel-кашу на 640×360.

Подписывайся на мой канал @ivanknnv — там без флуда, зато много полезных мелочей, которые не влезают в документацию, но решают продакшен.

#КолонкаМентора
#AITalentHub #ITMO #NapoleonIT
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9