Алексей Цыкунов | Про AI и не только
195 subscribers
157 photos
25 videos
1 file
86 links
ML Engineer & AI Enthusiast.

Пишу про ML/AI, о личном опыте взаимодействия с ChatGPT и другими нейронками.
Download Telegram
После вчерашней презентации GPT-4.5 у меня появилась идейка/лайфхак, как экономить мульёны на GPT-4.5 (для тех, кто тратит n-количество миллионов $):

- Встраиваем в пайплайн промежуточный шаг: "сначала отправляем запрос в GPT-4o".

- Просим 4o переписать запрос, максимально сократив его, но сохранив смысл.

- Отправляем уже переписанный запрос в GPT-4.5 с промптом: «Отвечай максимально коротко и по делу, а то деньги не заплачу, и бабушка умрёт в больнице с голода».

Экономим на Input токенах + на Output токенах = жирный профит!
😁3
Hallucination Rate & Accuracy

На мой взгляд, именно эти две метрики являются ключевыми, и GPT-4.5 демонстрирует в них заметный прирост.

Почему? Потому что они важны для тренировки будущих reasoning-моделей, которые будут созданы на базе GPT-4.5, а затем — для AI-агентов.

🔹 Чем точнее модель отвечает и чем реже она галлюцинирует, тем качественнее могут быть её рассуждения.

🔹 Чем качественнее её рассуждения, тем лучше она может планировать.

🔹И, опять же, чем точнее она выполняет поставленные ей задачи и чем реже ошибается (галлюцинирует), тем лучше она справляется с выполнением поставленного плана.

Чем умнее базовая модель → тем разумнее reasoning-модель → тем мощнее агенты, построенные на их базе.
👍3
Вот что я имею в виду.

Посмотрите, насколько reasoning-модель o3-mini-high, отправной точкой для которой, вероятно, была GPT-4o, превосходит саму GPT-4o на представленных бенчмарках.

А теперь просто сравним разницу между GPT-4o и GPT-4.5 и попробуем представить/спроецировать, какой прирост производительности мы увидим, если "под капотом" будущей reasoning-модели (допустим, o4) будет базовая модель GPT-4.5. Насколько она превзойдет GPT-4.5, GPT-4o и o3-mini-high?

Далее можно поразмышлять и про агентов. На данный момент лучшая агентная система, лидирующая по большинству бенчмарков, — это DeepResearch от OpenAI, работающая на o3.

Какими возможностями будет обладать DeepResearch 2.0, если она будет работать на условной o4?
1
Ну, главный вопрос на этот вечер: смогут ли условные агенты "AI-Researcher" генерировать, создавать и добывать новые знания? Улучшать алгоритмы и самих себя? Совершать прорывы в математике, биологии или физике? Открывать новые законы, доказывать теоремы?
Anonymous Poll
31%
Да
44%
Возможно
19%
Наверное нет
6%
Нет
What?

На Plus подписке?
🤯2🤡1
Лёша (ITBeard) выдал мощную БАЗУ по программированию с AI.

Главный посыл, который я уловил от Лёши — важно иметь базовое понимание того, с чем мы имеем дело. А именно: что такое LLM, как они работают, какие бывают модели, какие из них лучше подходят для разных задачи, что такое контекст и его длина, что такое RAG и т. д.

Просто скачать Cursor или GitHub Copilot, потыкать их 30–60 минут, сказать: «Фигня ваш AI!» — и забросить это дело — не самый эффективный подход.

Короче, однозначно рекомендую посмотреть всем, кто уже программирует с AI или только собирается попробовать (а рано или поздно придётся). Лёша доступным и понятным языком разложил всё по полочкам 👌
👍5💯1
«Сверхразумный Агент»

Новый термин, который я услышал в конце этого ролика и это мне сейчас кажется более точным/понятным термином того, что какое-то время назад я представлял под словом ASI
1
Если вы не поняли смысл мема, который, кстати, нарисовала новая 4o (по промту пользователя), не переживайте :)

Изначально 4o тоже не до конца поняла этот мем. Интерпретация термина "vibe coding" довольно нова и, похоже, не попал в обучающую выборку модели.

После шага «загугли, что такое vibe coding» модель объяснила мем ещё раз:

Теперь, зная, что vibe coding — это не просто "писать в кайф", а ещё и стиль программирования с помощью ИИ, мем играет на двойном смысле:

На поверхности (шутка):
Парень в наушниках, в яркой футболке, с закрытыми глазами и довольным лицом — он явно «ловит вайб». Подпись "the code may not work, but it speaks to my soul" — это ирония: код может быть нерабочим, но зато «душевный».

На глубине (в контексте 2025 года):
Это ещё и отсылка к современному тренду, когда люди "кодят" с помощью ИИ, не особо вникая в детали. Получается, что человек даже не понимает, как всё работает, но зато результат вдохновляет — и это нормально в новой реальности вайб-кодинга.
Дальше — интереснее.

Сегодня в чате обсуждали, что модель 4o начала отвечать мне как "друган", ну то есть стиль общения поменялся, хотя я в настройках ничего не менял (возможно, она как-то сама "дообучилась/подстроилась" под меня). А ещё она стала проактивной и в конце сообщения всегда спрашивает что-то типа: «А хочешь, расскажу про это?» или «А давай я это изобрету!» и т.д.

В итоге, после объяснения мема в посте выше, она предложила мне:
«Хочешь, можем сделать свой мем про вайб-кодинг?»


На что я ответил:
«Давай. Сама придумай и сделай.»


В итоге 4o сгенерировала мем, который оказался копией того, что она же сгенерировала пару часов назад 😄


P.S.: Согласитесь, очень круто. А текст на экране монитора? А? Кайф же!
Ну всё, дальше — только сингулярность.

P.S.: модельки от Гугла с этим не справляются, ну по крайнейе мере те, что в Google AI Studio доступны
Закинул в чат с 4o ссылку на страницу "Master Plan" от компании Figure.AI и попросил сделать инфографику.

Вот что получилось с первого раза 🙂
3
Изображение 1: Попросил 4o нарисовать шахматную доску со всеми фигурами и координатной разметкой. В целом — очень даже неплохо.

Изображения 2 и 3: Следующим промптом попросил нарисовать позицию на доске после первого хода белых — 1.e2-e4. Генерировал четыре раза, но идеального варианта так и не получил. Так что в шахматы с GPT-4o пока особо не поиграешь. 😄

Изображение 4: Это уже модель от Google — Gemini 2.0 Flash, с тем же промптом. В целом — неплохо, но лично мне больше понравился результат от 4o.

Изображение 5: Это попытка перерисовать позицию с новым расположением фигур от Gemini 2.0 Flash. Попытка совсем не удалась — тоже делал несколько генераций, и всё мимо...

UPD: Добоавим ещё примеры в комментарии
👍1
Открыл sora.com и попросил нарисовать два фото самой красивой девушки на Земле. Получив два варианта (фото 1 и 2) скинул их в фан-чатик AIA Podcast.

Тут же один из участников чата присылает изображение (фото 3), которое ему выдала Sora по похожему промпту.

Меня очень удивило сходство, и сначала я попробовал загрузить фото в Google Lens, чтобы найти похожих людей. Но оказалось, что там есть ограничения на поиск по лицам, поэтому пришлось по-старинке просто вбить в поиск: "самая красивая девушка в мире фото". Результат — на фото 4. Одна из девушек была очень похожа.

Потом открыл одну из статей с фото этой девушки и узнал, что её зовут Яэль Шелбия. Снова загуглил её по имени — это фото 5. Уж очень она похожа на сгенерированные Sora изображения, не находите?

Затем решил попробовать ещё один промпт, на английском. Но результат (фото 6) оказался почти таким же. Единственное — модель нарисовала её немного «моложе». Видимо, потому что girl и девушка — не совсем одно и то же в представлении модели.

@zikunow
👍3