Алексей Цыкунов | Про AI и не только
Открыл sora.com и попросил нарисовать два фото самой красивой девушки на Земле. Получив два варианта (фото 1 и 2) скинул их в фан-чатик AIA Podcast. Тут же один из участников чата присылает изображение (фото 3), которое ему выдала Sora по похожему промпту.…
Как это вообще работает? Почему Sora рисует Яэль Шелбию?
P.S.: ниже текст, который мне переписал ChatGPT на мои объяснения своему другу.
Так вот, как это, скорее всего, устроено:
1. Во время обучения модели типа Sora скармливают кучу изображений и текстов.
В том числе — фото Яэль Шелбии, которые в сети идут с подписями вроде “самая красивая девушка”, “модель из Израиля”, “топ-100 по версии TC Candler”, и т.д.
2. Модель не запоминает сами фотки.
Она учится понимать паттерны — какие черты лица, пропорции, стиль внешности чаще всего ассоциируются с запросами типа “самая красивая девушка”.
3. Когда ты пишешь такой промпт — она не ищет Яэль, она ищет “абстрактную” красоту.
Условный “вектор красоты”, собранный из сотен тысяч похожих примеров.
И если Яэль — это частый представитель этого вектора, неудивительно, что сгенерённое изображение окажется на неё похожим.
4. Это не просто “скопировать и подретушировать”.
Модель не знает, что ты хочешь именно Яэль. Но она знает, как выглядит лицо, которое миллионы людей называли красивым. И выдаёт такой образ — уже новый, но с теми же чертами, что “научно признаны” красивыми по интернету.
5. Кстати, разница в промптах — влияет.
Например, “girl” может вызывать у модели ассоциации с более юным возрастом. А “девушка” — это уже ближе к взрослой модели. Поэтому и образы чуть отличаются.
⸻
Вывод:
Модель не копирует Яэль Шелбию. Но если она — один из эталонов интернет-красоты, то вполне логично, что её черты всплывают при генерации. Это не магия и не случайность — это статистика и обучение на сотнях миллионов данных.
Так вот, как это, скорее всего, устроено:
1. Во время обучения модели типа Sora скармливают кучу изображений и текстов.
В том числе — фото Яэль Шелбии, которые в сети идут с подписями вроде “самая красивая девушка”, “модель из Израиля”, “топ-100 по версии TC Candler”, и т.д.
2. Модель не запоминает сами фотки.
Она учится понимать паттерны — какие черты лица, пропорции, стиль внешности чаще всего ассоциируются с запросами типа “самая красивая девушка”.
3. Когда ты пишешь такой промпт — она не ищет Яэль, она ищет “абстрактную” красоту.
Условный “вектор красоты”, собранный из сотен тысяч похожих примеров.
И если Яэль — это частый представитель этого вектора, неудивительно, что сгенерённое изображение окажется на неё похожим.
4. Это не просто “скопировать и подретушировать”.
Модель не знает, что ты хочешь именно Яэль. Но она знает, как выглядит лицо, которое миллионы людей называли красивым. И выдаёт такой образ — уже новый, но с теми же чертами, что “научно признаны” красивыми по интернету.
5. Кстати, разница в промптах — влияет.
Например, “girl” может вызывать у модели ассоциации с более юным возрастом. А “девушка” — это уже ближе к взрослой модели. Поэтому и образы чуть отличаются.
⸻
Вывод:
Модель не копирует Яэль Шелбию. Но если она — один из эталонов интернет-красоты, то вполне логично, что её черты всплывают при генерации. Это не магия и не случайность — это статистика и обучение на сотнях миллионов данных.
👍2
🧠 Apple и AI: отставание, о котором никто не ожидал
Apple — самая дорогая компания мира, но когда дело дошло до ИИ, она вдруг оказалась позади всех. Об этом говорит небезизвестный Marques Brownlee.
Ниже саммари его видео:
AI — это сейчас, наверное, главный движ в техно-мире. Google, Microsoft, даже Samsung вовсю добавляют фичи в продукты.
А что делает Apple?
Анонсирует Apple Intelligence в 2024.
Выпускает iPhone 16, «созданный для AI».
Потом выпускает обновление. Потом ещё. Потом ещё.
А где новый Siri?
А вот и нет.
И не знаем, когда будет.
Некоторые фичи вроде сгенерированных эмодзи и автоответов — да, появились. Но всё самое интересное — "в будущем", без дат, без демо, без живых показов. Даже рекламу пришлось удалить — в ней показывали Siri, которого нет 🫠
🤖 И это на фоне того, что другие компании AI уже реально показывают и используют.
Такое ощущение, что Apple больше хотела сказать инвесторам «смотрите, у нас тоже есть AI», чем реально сделать что-то полезное. И вот это реально странно видеть от компании, которая обычно выходит позже, но делает лучше всех.
Ощущается как первое серьёзное отставание Apple за много лет.
И, честно говоря, немного тревожно.
Apple — самая дорогая компания мира, но когда дело дошло до ИИ, она вдруг оказалась позади всех. Об этом говорит небезизвестный Marques Brownlee.
Ниже саммари его видео:
AI — это сейчас, наверное, главный движ в техно-мире. Google, Microsoft, даже Samsung вовсю добавляют фичи в продукты.
А что делает Apple?
Анонсирует Apple Intelligence в 2024.
Выпускает iPhone 16, «созданный для AI».
Потом выпускает обновление. Потом ещё. Потом ещё.
А где новый Siri?
А вот и нет.
И не знаем, когда будет.
Некоторые фичи вроде сгенерированных эмодзи и автоответов — да, появились. Но всё самое интересное — "в будущем", без дат, без демо, без живых показов. Даже рекламу пришлось удалить — в ней показывали Siri, которого нет 🫠
🤖 И это на фоне того, что другие компании AI уже реально показывают и используют.
Такое ощущение, что Apple больше хотела сказать инвесторам «смотрите, у нас тоже есть AI», чем реально сделать что-то полезное. И вот это реально странно видеть от компании, которая обычно выходит позже, но делает лучше всех.
Ощущается как первое серьёзное отставание Apple за много лет.
И, честно говоря, немного тревожно.
YouTube
Apple's AI Crisis: Explained!
Apple Intelligence Delays are either no big deal or a cause for concern, depending on who you are...
MKBHD Merch: http://shop.MKBHD.com
Music by Jordyn Edmonds http://smarturl.it/jordynedmonds
Playlist of MKBHD Intro music: https://goo.gl/B3AWV5
~
htt…
MKBHD Merch: http://shop.MKBHD.com
Music by Jordyn Edmonds http://smarturl.it/jordynedmonds
Playlist of MKBHD Intro music: https://goo.gl/B3AWV5
~
htt…
С удовольствием смотрю/слушаю все выпуски Димы, но этот выпуск с Русланом просто наикрутейший!
YouTube
Что на самом деле мешает нашему счастью? Руслан Фазлыев. Парень, продавший компанию за $500 млн.
▶︎ Emotional tantra — безопасная онлайн-среда для исследования себя через контакт с собой и другими: https://t.me/emtrbot?start=start
▶︎ Телеграм канал Димы Мацкевича: https://t.me/Matskevich
► Контакты Руслана Фазлыева:
Instagram* - https://www.ins…
▶︎ Телеграм канал Димы Мацкевича: https://t.me/Matskevich
► Контакты Руслана Фазлыева:
Instagram* - https://www.ins…
👍2
This media is not supported in your browser
VIEW IN TELEGRAM
В последние секунды можно увидеть магию от Meta 🧙 🪄
😁4
«Предсказание — это сжатие»
(Шеннон)
«Предсказание — это интеллект»
(ЛеКун, Хинтон, Сатскевер)
→ «Интеллект — это сжатие» (??)
🤔🤔🤔
«Чем больше ты понимаешь, тем больше можешь удалить из текста без потери»
«Этот конкурс по сжатию мотивирован тем фактом, что способность хорошо сжимать тесно связана с интеллектуальными действиями»
(Маркус Хуттер и Премия Хуттера)
source
(Шеннон)
«Предсказание — это интеллект»
(ЛеКун, Хинтон, Сатскевер)
→ «Интеллект — это сжатие» (??)
🤔🤔🤔
«Чем больше ты понимаешь, тем больше можешь удалить из текста без потери»
«Этот конкурс по сжатию мотивирован тем фактом, что способность хорошо сжимать тесно связана с интеллектуальными действиями»
(Маркус Хуттер и Премия Хуттера)
source
👍3
AI or Not на изображениях в меню итальянского ресторана?
Anonymous Poll
36%
AI
43%
Not AI
21%
Не знаю 🤷♂️
Советую посмотреть апдейт от Байрама о том, что произошло в AI-индустрии на апрель 2025 года.
Там про агентов и sdk для них, mcp, новые модели, AI 2027, ну и как всегда predictions на этот год.
Если что, вот ссылка на презентацию.
Там про агентов и sdk для них, mcp, новые модели, AI 2027, ну и как всегда predictions на этот год.
Если что, вот ссылка на презентацию.
👍4
Слайд 13 (смотри комменты), тайм-код 00:36:20
Пожалуй, самая интересная часть для меня — это та, где Байрам рассказывает про о3 и её уникальность по сравнению с предыдущими моделями/системами. Мне это показалось очень важным, и я раньше ни от кого не слышал о новой о3 с акцентом на agentic tool use. Сейчас постараюсь объяснить, почему это важно.
Система 1
GPT-3.5, GPT-4, GPT-4o — чистая «быстрая» генерация токенов по статистике. Модель получает на вход контекст и выбирает следующий токен по наивысшей вероятности.
Система 2
Например о1 (обучались на «chain-of-thought») — медленное, пошаговое рассуждение. Такие модели умеют разбивать задачу на логические шаги внутри себя, имитируя планирование и внутренний диалог.
Система 3
о3 (и, вероятно о4) — "агентные" модели, которым в процессе обучения были представлены задачи, которые могли быть решены только с использованием внешних инструментов. Здесь ключевой акцент на agentic tool use: модель не только анализирует текст и рассуждает на уровне токенов, но и решает, когда и какие внешние тулзы (Web Browsing, API, Code Interpreter, Function Calling, API) подключить для решения задачи.
На бенче Humanity’s Last Exam заметен тоже этот прирост и o3 с тулзами почти догоняет DeepResearch, в котором как раз построен пайплайн по использованию тулзом, а о3 сама решает что и когда использовать.
Пожалуй, самая интересная часть для меня — это та, где Байрам рассказывает про о3 и её уникальность по сравнению с предыдущими моделями/системами. Мне это показалось очень важным, и я раньше ни от кого не слышал о новой о3 с акцентом на agentic tool use. Сейчас постараюсь объяснить, почему это важно.
Система 1
GPT-3.5, GPT-4, GPT-4o — чистая «быстрая» генерация токенов по статистике. Модель получает на вход контекст и выбирает следующий токен по наивысшей вероятности.
Система 2
Например о1 (обучались на «chain-of-thought») — медленное, пошаговое рассуждение. Такие модели умеют разбивать задачу на логические шаги внутри себя, имитируя планирование и внутренний диалог.
Система 3
о3 (и, вероятно о4) — "агентные" модели, которым в процессе обучения были представлены задачи, которые могли быть решены только с использованием внешних инструментов. Здесь ключевой акцент на agentic tool use: модель не только анализирует текст и рассуждает на уровне токенов, но и решает, когда и какие внешние тулзы (Web Browsing, API, Code Interpreter, Function Calling, API) подключить для решения задачи.
На бенче Humanity’s Last Exam заметен тоже этот прирост и o3 с тулзами почти догоняет DeepResearch, в котором как раз построен пайплайн по использованию тулзом, а о3 сама решает что и когда использовать.
❤1
Если Бог создал мир, то кто создал его?
Или перефразирую:
Если наша Вселенная всего лишь симуляция, то как создалась та исходная Вселенная, в которой наша симуляция?
Или:
Если обнаружим/докажем, что пространство дискретно и/или состоит из материи, то из чего состоит эта материя/эти точки.
Такие мысли в полночь после просмотра последней серии первого сезона сериала «Devs»
👍2🔥1
Алексей Цыкунов | Про AI и не только
Если Бог создал мир, то кто создал его? Или перефразирую: Если наша Вселенная всего лишь симуляция, то как создалась та исходная Вселенная, в которой наша симуляция? Или: Если обнаружим/докажем, что пространство дискретно и/или состоит из материи, то из…
Audio
Подкаст на лету за 5 минут 🤯🤯🤯
Вспомнил утром про свой последний пост и закинул его в ChatGPT, порефлексировал с ним на эту тему, задавая уточняющие и интересующие меня вопросы.
Затем вспомнил про NotebookLM, скопировал туда переписку с ChatGPT и запустил генерацию подкаста. Пошёл делать кофе.
8 минутный подкаст был готов быстрее, чем кофе, но был на немецком языке, залез в настройки и переключил на русский, запустил новую генерацию.
Пил кофе и слушал подкаст сначала на немецком, а потом на русском языке. Немецкая озвучка понравилась больше, но на русском тоже достойного качества. Просто крутотенюшка!
А вам как? Может есть какие-то советы, как делать подкасты на лету ещё качественее?
Вспомнил утром про свой последний пост и закинул его в ChatGPT, порефлексировал с ним на эту тему, задавая уточняющие и интересующие меня вопросы.
Затем вспомнил про NotebookLM, скопировал туда переписку с ChatGPT и запустил генерацию подкаста. Пошёл делать кофе.
8 минутный подкаст был готов быстрее, чем кофе, но был на немецком языке, залез в настройки и переключил на русский, запустил новую генерацию.
Пил кофе и слушал подкаст сначала на немецком, а потом на русском языке. Немецкая озвучка понравилась больше, но на русском тоже достойного качества. Просто крутотенюшка!
А вам как? Может есть какие-то советы, как делать подкасты на лету ещё качественее?
👍1
Media is too big
VIEW IN TELEGRAM
Ютуб поднкинул, а я с вами делюсь.
Интересно то, что именно при взаимодействие люди понимают/осознают способности технолгий.
Интересно то, что именно при взаимодействие люди понимают/осознают способности технолгий.
👍2
Forwarded from e/acc
Язык — это единственный из всех доступных человеку естественных методов восприятия, который полностью, на 100%, создан. Вкус, зрение, обоняние существующуют в пироде и доступны всем животным. Эволюции потребовались сотни миллионов лет для развития этих органов чувств. Язык же появился всего лишь за последние 200-300 тысяч лет и он не означает ничего — фактически, шум — вне сознания человека.
Я думаю, это главная причина почему прогресс в LLM был и останется настолько стремительным.
Я думаю, это главная причина почему прогресс в LLM был и останется настолько стремительным.
Ещё никогда не было так просто искать мемы/крылатые выражения
Просто надиктовал и получил ссылку на оригинал
Просто надиктовал и получил ссылку на оригинал
👍1
Just another day: Вчерашний вечер, клип от Дорна "Foreign Root", я — вдохновлён.
Мысли после просмотра: "Хочу обсудить это с AI, не с кожаными же глубокие смыслы обсуждать. Делюсь ссылкой с Gemini 2.5 Pro — пусть пофилософствует со мной."
А он мне: “Вот описание с YouTube”. И всё!
Пауза.
Скидываю то же в o4-mini-high. Он: "Вот смысл и посыл, вот стилистика и лирика, вот культурные отсылки" — и я: "Тот, что я и хотел".
Ещё попытка: запускаю Gemini в режиме «Deep Research». Жду 5 минут, открываю почитать его "рассуждения" и вижу там анализ трека "Судно (Борис Рыжий)"…
На этом наша беседа закончилась.
📍Вывод: Тест продолжается, не зря ведь я подписку Pro на месяц взял
Кто Gemini Pro подписку юзает? Какой у вас опыт?
Мысли после просмотра: "Хочу обсудить это с AI, не с кожаными же глубокие смыслы обсуждать. Делюсь ссылкой с Gemini 2.5 Pro — пусть пофилософствует со мной."
А он мне: “Вот описание с YouTube”. И всё!
Пауза.
Скидываю то же в o4-mini-high. Он: "Вот смысл и посыл, вот стилистика и лирика, вот культурные отсылки" — и я: "Тот, что я и хотел".
Ещё попытка: запускаю Gemini в режиме «Deep Research». Жду 5 минут, открываю почитать его "рассуждения" и вижу там анализ трека "Судно (Борис Рыжий)"…
На этом наша беседа закончилась.
📍Вывод: Тест продолжается, не зря ведь я подписку Pro на месяц взял
Кто Gemini Pro подписку юзает? Какой у вас опыт?
Forwarded from Адель и МЛь
Команда ARC-AGI про Grok 4:
“Мы получили звонок от @xai 24 часа назад
«Мы хотим протестировать Grok 4 на ARC-AGI»
Были слухи, мы знали, что будет хорошо. Мы не ожидали, что он станет моделью номер один на ARC-AGI.
Вот как проходило тестирование и что значат результаты:
Вчера мы общались с Джимми из xAI team, он попросил нас проверить их скор Grok 4. Они сами прогнали тесты на публичном наборе ARC-AGI-1 & 2
Чтобы подтвердить цифры и проверить переобучение, мы сами прогнали новую модель на нашем полуприватном датасете.
Мы объяснили им наши правила тестирования:
- никакого сохранения данных
- чекпойнт модели должен быть предназначен для паблика
- временное увеличение rate limits для burst-тестов
Они согласились, так что мы начали тесты.
Сначала словили таймауты на обычных запросах, перешли на streaming и рроблема ушла.
Что значат эти результаты?
Во-первых, факты: Grok 4 теперь топовая публично доступная модель на ARC-AGI. Она даже обходит заточенные решения с Kaggle.
Во-вторых, ARC-AGI-2 сложен для текущих AI моделей. Чтобы набрать хороший балл, модели должны выучить мини-скилл по серии обучающих примеров и показать его на тесте.
Предыдущий топ был около 8 % (у Opus 4). Всё ниже 10 % - это шум.
Скор 15.9 % пробивает шумовой барьер, Grok 4 показывает ненулевой уровень fluid intelligence”
Source
“Мы получили звонок от @xai 24 часа назад
«Мы хотим протестировать Grok 4 на ARC-AGI»
Были слухи, мы знали, что будет хорошо. Мы не ожидали, что он станет моделью номер один на ARC-AGI.
Вот как проходило тестирование и что значат результаты:
Вчера мы общались с Джимми из xAI team, он попросил нас проверить их скор Grok 4. Они сами прогнали тесты на публичном наборе ARC-AGI-1 & 2
Чтобы подтвердить цифры и проверить переобучение, мы сами прогнали новую модель на нашем полуприватном датасете.
Мы объяснили им наши правила тестирования:
- никакого сохранения данных
- чекпойнт модели должен быть предназначен для паблика
- временное увеличение rate limits для burst-тестов
Они согласились, так что мы начали тесты.
Сначала словили таймауты на обычных запросах, перешли на streaming и рроблема ушла.
Что значат эти результаты?
Во-первых, факты: Grok 4 теперь топовая публично доступная модель на ARC-AGI. Она даже обходит заточенные решения с Kaggle.
Во-вторых, ARC-AGI-2 сложен для текущих AI моделей. Чтобы набрать хороший балл, модели должны выучить мини-скилл по серии обучающих примеров и показать его на тесте.
Предыдущий топ был около 8 % (у Opus 4). Всё ниже 10 % - это шум.
Скор 15.9 % пробивает шумовой барьер, Grok 4 показывает ненулевой уровень fluid intelligence”
Source