Алексей Цыкунов | Про AI и не только
195 subscribers
157 photos
25 videos
1 file
86 links
ML Engineer & AI Enthusiast.

Пишу про ML/AI, о личном опыте взаимодействия с ChatGPT и другими нейронками.
Download Telegram
Ну вот, мы уже почти и вернулись к старым ценам на акции NVIDIA.

Не прошло и двух недель 🙃
👍1
GPT-5 решит 50% задач из бенчмарка "Последний экзамен человечества" ⁉️

Сначала написал длинный пост, но потом сократил его до пяти пунктов:

1. Скоро (в течение пары недель или месяца) должны показать GPT-4.5/Orion, которая будет круче 4o.

2. Сейчас DeepResearch работает на основе o3 и набирает 26,6% на бенчмарке HLE — "Последний экзамен человечества". Наверное под капотом o3 токены/цепочки рассуждений генерировала 4o.

3. Скорее всего, скоро мы увидим o4, ну или внутри GPT-5 будет улучшенная reasoning-модель, основанная на GPT-4.5.

4. DeepResearch 2.0 будет работать на o4/reasoning части GPT-5 + workflow самого агента тоже улучшат.

5. Какой процент задач HLE сможет решить DeepResearch 2.0 уже в этом году?
🔥1🤔1
Какой процент задач HLE сможет решить DeepResearch 2.0 уже в этом году?
Anonymous Poll
38%
40-50%
28%
50-60%
16%
60-70%
28%
70%+
Обучение DeepSeek-R1-Zero

Взяли базовую модель DeepSeek-V3-Base.
Применили RL (Group Relative Policy Optimization, GRPO).
Никакого SFT не было – модель не обучалась заранее на размеченных данных.
Модель сама писала рассуждения (CoT - Chain-of-Thought) и давала ответы.
Если ответ был верный → модель получала награду (reward).
Если неверный → штраф (penalty).


💡 Ключевая идея:
DeepSeek-R1-Zero – это дообученная версия DeepSeek-V3-Base, но дообученная исключительно с помощью RL (без SFT), причём она сама научилась рассуждать в процессе обучения.

Что это значит?
- V3-Base не имела развитых способностей к рассуждению.
- R1-Zero научилась рассуждать исключительно через Reinforcement Learning (RL).
- Она не видела заранее размеченные CoT-примеры, но сама начала строить логические цепочки в ходе оптимизации наград.

📌 То есть, DeepSeek-R1-Zero – это "V3-Base + RL-обучение под рассуждения", без обучения на готовых CoT.
🔥1
Обучение DeepSeek-R1

Базу взяли из Cold Start, то есть:
- Взяли DeepSeek-V3-Base и дообучили её на тысячах примеров CoT, полученных из R1-Zero.
- Эти данные были приведены к читабельному виду и частично отфильтрованы людьми.
После Cold Start применили тот же RL, что и в R1-Zero.
В конце добавили RLFH (Reinforcement Learning from Human Feedback) → чтобы сделать модель удобной, полезной и безопасной.

📌 Ключевые отличия R1 от R1-Zero:
- R1 получил SFT перед RL (в отличие от R1-Zero, который стартовал с "нуля").
- R1 обучался на CoT-ответах, отфильтрованных из R1-Zero.
- R1 прошёл не только RL, но и RLFH для лучшего соответствия человеческим предпочтениям.

🎯 Что получили в DeepSeek-R1?
🔹 Лучше, чем R1-Zero в плане точности рассуждений.
🔹 Более читаемые и логично структурированные ответы.
🔹 Меньше языкового смешивания (английский/китайский).
🔹 Гораздо выше соответствие человеческим предпочтениям (RLFH помог сделать ответы полезнее и безопаснее).


p.s.: источник картинки
🔥2👍1
Думаете, AI — это просто чат-боты? Вот на что он действительно способен

🤔 Многие воспринимают искусственный интеллект лишь как инструмент для генерации текста и изображений. Однако AI решает фундаментальные научные задачи и кардинально меняет привычные парадигмы.

За 60 с лишним лет учёные экспериментально определили структуру около 150 000 белков. А DeepMind с AlphaFold2 совершили прорыв: всего за пару лет они предсказали 3D-конформацию 200 миллионов белков! 🤯

Как это работает? 🤖
🔹 Вместо дорогой рентгеновской кристаллографии (стоимость одного эксперимента может достигать десятков тысяч долларов) ИИ анализирует аминокислотные последовательности, учитывая эволюционные изменения белков.
🔹 В основе AlphaFold2 лежит архитектура EVO Former, напоминающая трансформеры. Механизм внимания объединяет эволюционные и геометрические данные, позволяя «собирать» белок, словно пазл.
🔹 Итог — точность предсказаний, сравнимая с экспериментальными методами, и результат, превзошедший порог CASP в 90 баллов!

📌 Что в итоге?
✔️ Расшифровано 200+ миллионов белков — почти все, известные науке!
✔️ Прорывы в разработке лекарств (например, против малярии).
✔️ Создание новых материалов и ферментов, разрушающих пластик и улавливающих парниковые газы.

И это только начало. AlphaFold — яркий пример того, как AI не просто ускоряет исследования, а меняет сам подход к науке. Представьте, что будет, если подобные алгоритмы появятся в физике, энергетике и других областях?

@zikunow
👍4🔥1
🤖 Когда AI начнет улучшать AI

Продолжая мысль из предыдущего поста про AlphaFold…

Что меня действительно поразило:

🔹 Скачок точности между AlphaFold-1 (75%) и AlphaFold-2 (90%).
🔹 Но ни больше данных, ни больше вычислительных ресурсов не были главными причинами улучшения.
🔹 Главное — это улучшенные алгоритмы машинного обучения и новая архитектура!

Теперь представьте, что OpenAI (или кто-то еще) создаст AI-Engineer / AI-Reseacher, который будет разбираться в алгоритмах ML на уровне топ-10 % лучших специалистов среди людей.

А теперь вообразите тысячи, а может, и миллионы таких агентов, которые начнут оптимизировать как себя, так и другие модели, например, AlphaFold-2.

Какой тогда произойдет скачок в развитии?
Вот заживём! 🙃

@zikunow
👍4💯2
Вчера вышел новый выпуск подкаста Дваркеша Пателя с Сатьей Наделлой (CEO Microsoft). Говорили о будущем ИИ, квантовых компьютеров и планах Microsoft.

Ключевые темы с таймкодами:

🔹 Ключевые игроки в AI
Обсуждение гипермасштабируемых вычислений, роли OpenAI и того, кто будет ключевым игроком в AI-индустрии.

🔹 Влияние на глобальный рынок
Может ли AI разогнать мировой ВВП до 10% в год и как технологии повлияют на глобальный рынок.

🔹 AI меняет работу
Обсуждение снижения стоимости вычислений и того, как это влияет на автоматизацию бизнес-процессов.

🔹 Квантовый прорыв Microsoft
Детали о чипе Majorana, квантовых вычислениях и их потенциале.

🔹 Muse — AI для игр
Новая AI-модель для создания игровых миров.

🔹 AGI и баланс сил
Юридические вопросы регулирования AI, ответственность компаний и государств.

🔹 Будущее человечества с AGI
Безопасность сильного AI и возможные риски.

🔹 34 года в Microsoft
Как компания сохраняет лидерство десятилетиями.

🔹 Верит ли Наделла в AGI?
Обсуждение перспектив создания AI, умнее человека.


Меня заинтересовали три темы, и, пожалуй, я напишу о них подробнее в следующих постах.
👍3
Открыл, чтобы потыкать Le Chat (аналог ChatGPT, только от французского Mistral), а потом заметил, что у них ещё есть La Plateforme (аналог Playground от OpenAI) и нашёл там прикольную фичу.

Вы можете создать простого агента всего за 5 кликов:
1. Выбираете нужную модель.
2. Настраиваете "температуру" (контроль случайности).
3. Пишете системный промпт (инструкцию).
4. Можно добавить few-shot prompts (пару примеров), чтобы агент/модель лучше адаптировалась под задачу.
5. Нажимаете кнопку "Deploy" — и ваш первый агент готов! 🥳🥳🥳

Агента можно использовать как через API (см. скрин 3), так и добавить в интерфейс своего Le Chat и использовать там (см. скрин 2). Это чем-то напоминает GPTs, но фишка в том, что здесь можно выбирать модель, чего, кажется, нет в ChatGPT — там всегда по умолчанию стоит GPT-4o.

Доступны разные модели, и сразу же в чате справа (см. скрин 2) можно протестировать, как отвечает агент.

p.s.: Как же круто, когда на рынке много игроков, и каждый старается выделиться, добавляя новые фичи!
🔥5
Media is too big
VIEW IN TELEGRAM
Наверное, вы уже слышали, что Anthropic выпустила Claude Sonnet 3.7.

Я протестировал его на нескольких промптах. Кстати, именно эти промпты использовались, чтобы продемонстрировать вау-эффект Grok-3.

В последнем промпте я подумал, что было бы куда прикольнее, если бы balls взаимодействовали друг с другом. Выглядит залипательно!
This media is not supported in your browser
VIEW IN TELEGRAM
Милота от Grok-3 Thinking.

Правда, всё приходится сохранять вручную и запускать в браузере.
🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Через 10 минут будет презентация GPT-4.5 — non-reasoning модель нового поколения. Посмотреть стрим можно здесь.

А пока жду начала стрима, решил немного поэкспериментировать с диффузионной LLM + записал небольшой ролик и замедлил его в два раза. Интересно наблюдать, как генерируется хаос/шум, а затем из него получается ответ.

Самому потыкать можно здесь, а узнал я про это чудо у Аделя.
После вчерашней презентации GPT-4.5 у меня появилась идейка/лайфхак, как экономить мульёны на GPT-4.5 (для тех, кто тратит n-количество миллионов $):

- Встраиваем в пайплайн промежуточный шаг: "сначала отправляем запрос в GPT-4o".

- Просим 4o переписать запрос, максимально сократив его, но сохранив смысл.

- Отправляем уже переписанный запрос в GPT-4.5 с промптом: «Отвечай максимально коротко и по делу, а то деньги не заплачу, и бабушка умрёт в больнице с голода».

Экономим на Input токенах + на Output токенах = жирный профит!
😁3
Hallucination Rate & Accuracy

На мой взгляд, именно эти две метрики являются ключевыми, и GPT-4.5 демонстрирует в них заметный прирост.

Почему? Потому что они важны для тренировки будущих reasoning-моделей, которые будут созданы на базе GPT-4.5, а затем — для AI-агентов.

🔹 Чем точнее модель отвечает и чем реже она галлюцинирует, тем качественнее могут быть её рассуждения.

🔹 Чем качественнее её рассуждения, тем лучше она может планировать.

🔹И, опять же, чем точнее она выполняет поставленные ей задачи и чем реже ошибается (галлюцинирует), тем лучше она справляется с выполнением поставленного плана.

Чем умнее базовая модель → тем разумнее reasoning-модель → тем мощнее агенты, построенные на их базе.
👍3
Вот что я имею в виду.

Посмотрите, насколько reasoning-модель o3-mini-high, отправной точкой для которой, вероятно, была GPT-4o, превосходит саму GPT-4o на представленных бенчмарках.

А теперь просто сравним разницу между GPT-4o и GPT-4.5 и попробуем представить/спроецировать, какой прирост производительности мы увидим, если "под капотом" будущей reasoning-модели (допустим, o4) будет базовая модель GPT-4.5. Насколько она превзойдет GPT-4.5, GPT-4o и o3-mini-high?

Далее можно поразмышлять и про агентов. На данный момент лучшая агентная система, лидирующая по большинству бенчмарков, — это DeepResearch от OpenAI, работающая на o3.

Какими возможностями будет обладать DeepResearch 2.0, если она будет работать на условной o4?
1
Ну, главный вопрос на этот вечер: смогут ли условные агенты "AI-Researcher" генерировать, создавать и добывать новые знания? Улучшать алгоритмы и самих себя? Совершать прорывы в математике, биологии или физике? Открывать новые законы, доказывать теоремы?
Anonymous Poll
31%
Да
44%
Возможно
19%
Наверное нет
6%
Нет
What?

На Plus подписке?
🤯2🤡1