Алексей Цыкунов | Про AI и не только
195 subscribers
157 photos
25 videos
1 file
86 links
ML Engineer & AI Enthusiast.

Пишу про ML/AI, о личном опыте взаимодействия с ChatGPT и другими нейронками.
Download Telegram
Как AI стал в 9 раз умнее всего за 8 месяцев 🤯🚀

Прежде чем продолжить, советую сначала прочитать мой пост выше про бенчмарк HLE.


Сегодня OpenAI показали агента — DeepResearch. Его результаты на бенчмарке HLE - 🤯🤯

Поэтому в этом посте я хочу ещё подсветить, что произошло за последние восемь месяцев. Чтобы вы осознали динамику изменений и, возможно, задумались о прогрессе, который действительно произошёл. По крайней мере, так это вижу я.

Итак, теперь всё внимание на скриншот с результатами прохождения HLE последними AI-системами.

Способность AI-систем решать задачи HLE выросла в 9 раз всего за 8 месяцев:

- С 3,3% до 9,1% благодаря переходу на новую парадигму Reasoning — рост в 2,5–3 раза.

- Затем ещё один почти трёхкратный скачок — с 9,1% до 26,6% за счёт добавления агентности, то есть возможности использовать инструменты (browsing + python) = Agent

Ещё раз: всего за восемь месяцев мы прошли путь от 3% до 26% решённых задач в самом сложном и эталонном бенчмарке.

Что же нас ждёт дальше?

@zikunow
3🔥3👍1🤯1
Вдогонку к вчерашним постам.

Вот ещё один непростой тест (GPQA Diamond) для оценки "экспертности". И здесь о3 (интересно, mini или нет?) опережает докторов наук (PhD), которые отвечают на вопросы в своей области, используя поиск информации в интернете.

Представьте агента DeepResearch, у которого под капотом новая о4 или о5, а не о3-mini. На что будет способен такой агент?

@zikunow
👍1
Задумайтесь: насколько быстро развивается AI 🫣

Открыл почитать «Международный научный отчёт о безопасности AI» и уже на первой странице увидел, что между его завершением (5 декабря 2024) и публикацией в январе 2025 произошло важное событие:

OpenAI представила предварительные результаты тестирования новой модели o3, которая значительно опережает все предыдущие версии в самых сложных тестах

В некоторых из этих тестов o3 превосходит многих (но не всех) экспертов-людей.

Кроме того, модель совершила прорыв в ключевом тесте на абстрактное мышление, который многие специалисты, включая меня, считали недостижимым в ближайшее время.



Пока умные дядьки и тётьки анализировали данные, готовили отчёт и предсказывали будущее развития AI – бах! – уже появилась новая модель с возможностями, которые считались недостижимыми в ближайшее время (интересно, что они подразумевали? 5–10 лет или больше?)

Есть ли вообще смысл читать этот отчёт дальше? 🤗


P.S.: Узнал об отчёте из любимого AIA Podcast ❤️

@zikunow
👍1🔥1
На следующей странице отчёта (некоторые выводы, которые показались мне интересными):

1️⃣ Ускорение развития AI:
Результаты модели о3 указывают на то, что темпы развития возможностей AI могут оставаться высокими или даже ускоряться.

2️⃣ Масштабирование (inference scaling):
- Увеличение вычислительных ресурсов помогает преодолеть предыдущие ограничения AI.

-Это делает использование моделей более дорогостоящим, однако новые исследования, например модель R1 от DeepSeek, направлены на снижение этих затрат.

3️⃣ Влияние на дальнейшее развитие AI:
Возрастающее использование AI разработчиками может влиять на скорость дальнейших инноваций в этой области.

Собственно, третий эффект мы уже слышали от NVIDIA: их «внутренний» AI ускоряет создание новых чипов, поскольку сотрудники становятся более эффективными.

@zikunow
👍2
Вот ещё один интересный график и строка текста:

Число слов, сгенерированных за 1 доллар, увеличилось:
▶️ В 20 раз для моделей уровня GPT-3/Llama 2 (44% MMLU);

▶️ В 40 раз для моделей уровня GPT-4o mini/Mistral (82% MMLU);

▶️ В 10 раз для моделей уровня GPT-4/o1-mini (86% MMLU).

Все эти изменения произошли менее чем за год.



Ну и прогноз из отчёта:
Новые данные свидетельствуют о том, что масштабирование вычислительных ресурсов для обучения и объёмов данных при текущих темпах технически осуществимо как минимум до 2030 года.

P.S.: если что, это 50-я страница отчёта.

@zikunow
Продолжаем 🙂

- С начала 2010-х мы наблюдаем взрывной рост в области АИ, особенно в сфере глубокого обучения.

- Вычислительные мощности, выделяемые на обучение самых крутых моделей, растут в 4 раза каждый год.

- Объем вычислений для обучения моделей удваивался каждые 6 месяцев. Это намного быстрее, чем классический закон Мура.

- Современные модели AI в десятки миллиардов раз мощнее, чем те, что были всего 10 лет назад 🤯. Представьте себе этот масштаб!

- Ресурсы растут не только для обучения, но и для использования (развертывания) AI-систем.
Привет NVIDIA 👋

- Главный двигатель этого роста – огромные инвестиции в производство чипов для ИИ. Не столько улучшение самих чипов, сколько их количество.

- Стоимость вычислительного "железа" снижается примерно в 1.35 раза в год. Или другими словами, цена уменьшается вдвое каждые ~20 месяцев.


Это делает AI доступнее, но...

@zikunow
🎉3
...Аппетиты растут и общий объем вычислений все равно растет намного быстрее, чем дешевеют чипы.


Но есть ещё 4 ограничения (скрин):

1️⃣ Энергетические ограничения (Power constraints)
- Медианное значение вычислительных мощностей: 2e29 FLOP.
- Рост по сравнению с GPT-4 (2023): в 10 000 раз.
- Ограничение связано с доступностью и эффективностью энергопотребления.

2️⃣ Производственные возможности чипов (Chip production capacity)
- 9e29 FLOP.
- Рост по сравнению с GPT-4: в 50 000 раз.
- Основной фактор — возможность производства необходимого количества чипов.

3️⃣ Дефицит данных (Data scarcity)
- 2e30 FLOP.
- Рост: в 80 000 раз.
- Проблема заключается в нехватке качественных данных для обучения.

4️⃣ Ограничения задержек (Latency wall)
- 3e31 FLOP.
- Рост: в 1 000 000 раз.
- Это верхний теоретический предел, связанный с фундаментальными ограничениями скорости обработки данных.


Потенциал x100,000: К 2030 году возможно обучать модели, в 100 000 раз более мощные, чем GPT-4! Это огромный запас для роста.
🔥2🤯1
Алгоритмы AI: Невидимый двигатель революции

Основные тезисы отчёта:

1️⃣ Прогресс искусственного интеллекта — это не только увеличение вычислительных мощностей. Алгоритмы играют огромную, но часто недооцененную роль!

2️⃣ Алгоритмы обучения AI становятся значительно эффективнее. В ключевых областях их производительность возрастает в 10 раз каждые 2–5 лет!

3️⃣ В языковом моделировании прогресс идет еще быстрее — вычислительные затраты сокращаются вдвое каждые 8 месяцев.

4️⃣ Одно из самых перспективных направлений — улучшение моделей после основного обучения (post-training enhancements). Это делает продвинутые технологии доступными даже для тех, у кого ограниченные вычислительные ресурсы.

5️⃣ AI все чаще используется для собственного развития: и в создании новых алгоритмов, и в проектировании чипов.

6️⃣ Современные языковые модели (LLM) уже активно помогают программистам, оптимизируют параметры обучения и даже предлагают новые исследовательские идеи.

7️⃣ Хотя внезапные прорывы в алгоритмах возможны, они редки и непредсказуемы. Даже если технологический скачок произойдет, его внедрение и масштабирование — это долгий процесс, требующий оптимизации и интеграции.

Главный вывод:
Алгоритмические инновации — один из ключевых факторов развития AI наряду с вычислительными мощностями и данными.

Более того, AI учится создавать AI — и это может кардинально ускорить прогресс!

@zikunow
👍2🔥1
AI vs. Человек: соревнование инженеров по разработке AI

Пожалуй, самое интересное из первой главы отчёта 🙂

В серии экспериментов AI-агенты на основе LLM, выпущенные в 2024 году, показали результаты, сравнимые с командами людей в реальных соревнованиях по разработке AI:

AI превзошёл экспертов-инженеров в выполнении открытых инженерных задач, если на работу отводилось не более двух часов.

☯️ При времени выполнения от 2 до 8 часов AI и инженеры-человеки показывали примерно одинаковые результаты.

Напротив, эксперты-люди демонстрировали лучшие результаты при времени выполнения от восьми часов и более.

========

Задачи инженерной разработки AI занимают значительную часть времени в исследованиях. Поэтому их автоматизация особенно важна.

‼️ С развитием AI общего назначения его влияние на прогресс в области алгоритмов и инженерии потребует дополнительных исследований. Мы всё ещё мало знаем об этом процессе саморазвития.


@zikunow
🔥2
Интересная градация «доступности» моделей и её аналогии с классическим софтом.

Несмотря на распространённое мнение, модели Llama не являются Open Source

@zikunow
1👍5
Ну вот, мы уже почти и вернулись к старым ценам на акции NVIDIA.

Не прошло и двух недель 🙃
👍1
GPT-5 решит 50% задач из бенчмарка "Последний экзамен человечества" ⁉️

Сначала написал длинный пост, но потом сократил его до пяти пунктов:

1. Скоро (в течение пары недель или месяца) должны показать GPT-4.5/Orion, которая будет круче 4o.

2. Сейчас DeepResearch работает на основе o3 и набирает 26,6% на бенчмарке HLE — "Последний экзамен человечества". Наверное под капотом o3 токены/цепочки рассуждений генерировала 4o.

3. Скорее всего, скоро мы увидим o4, ну или внутри GPT-5 будет улучшенная reasoning-модель, основанная на GPT-4.5.

4. DeepResearch 2.0 будет работать на o4/reasoning части GPT-5 + workflow самого агента тоже улучшат.

5. Какой процент задач HLE сможет решить DeepResearch 2.0 уже в этом году?
🔥1🤔1
Какой процент задач HLE сможет решить DeepResearch 2.0 уже в этом году?
Anonymous Poll
38%
40-50%
28%
50-60%
16%
60-70%
28%
70%+
Обучение DeepSeek-R1-Zero

Взяли базовую модель DeepSeek-V3-Base.
Применили RL (Group Relative Policy Optimization, GRPO).
Никакого SFT не было – модель не обучалась заранее на размеченных данных.
Модель сама писала рассуждения (CoT - Chain-of-Thought) и давала ответы.
Если ответ был верный → модель получала награду (reward).
Если неверный → штраф (penalty).


💡 Ключевая идея:
DeepSeek-R1-Zero – это дообученная версия DeepSeek-V3-Base, но дообученная исключительно с помощью RL (без SFT), причём она сама научилась рассуждать в процессе обучения.

Что это значит?
- V3-Base не имела развитых способностей к рассуждению.
- R1-Zero научилась рассуждать исключительно через Reinforcement Learning (RL).
- Она не видела заранее размеченные CoT-примеры, но сама начала строить логические цепочки в ходе оптимизации наград.

📌 То есть, DeepSeek-R1-Zero – это "V3-Base + RL-обучение под рассуждения", без обучения на готовых CoT.
🔥1
Обучение DeepSeek-R1

Базу взяли из Cold Start, то есть:
- Взяли DeepSeek-V3-Base и дообучили её на тысячах примеров CoT, полученных из R1-Zero.
- Эти данные были приведены к читабельному виду и частично отфильтрованы людьми.
После Cold Start применили тот же RL, что и в R1-Zero.
В конце добавили RLFH (Reinforcement Learning from Human Feedback) → чтобы сделать модель удобной, полезной и безопасной.

📌 Ключевые отличия R1 от R1-Zero:
- R1 получил SFT перед RL (в отличие от R1-Zero, который стартовал с "нуля").
- R1 обучался на CoT-ответах, отфильтрованных из R1-Zero.
- R1 прошёл не только RL, но и RLFH для лучшего соответствия человеческим предпочтениям.

🎯 Что получили в DeepSeek-R1?
🔹 Лучше, чем R1-Zero в плане точности рассуждений.
🔹 Более читаемые и логично структурированные ответы.
🔹 Меньше языкового смешивания (английский/китайский).
🔹 Гораздо выше соответствие человеческим предпочтениям (RLFH помог сделать ответы полезнее и безопаснее).


p.s.: источник картинки
🔥2👍1
Думаете, AI — это просто чат-боты? Вот на что он действительно способен

🤔 Многие воспринимают искусственный интеллект лишь как инструмент для генерации текста и изображений. Однако AI решает фундаментальные научные задачи и кардинально меняет привычные парадигмы.

За 60 с лишним лет учёные экспериментально определили структуру около 150 000 белков. А DeepMind с AlphaFold2 совершили прорыв: всего за пару лет они предсказали 3D-конформацию 200 миллионов белков! 🤯

Как это работает? 🤖
🔹 Вместо дорогой рентгеновской кристаллографии (стоимость одного эксперимента может достигать десятков тысяч долларов) ИИ анализирует аминокислотные последовательности, учитывая эволюционные изменения белков.
🔹 В основе AlphaFold2 лежит архитектура EVO Former, напоминающая трансформеры. Механизм внимания объединяет эволюционные и геометрические данные, позволяя «собирать» белок, словно пазл.
🔹 Итог — точность предсказаний, сравнимая с экспериментальными методами, и результат, превзошедший порог CASP в 90 баллов!

📌 Что в итоге?
✔️ Расшифровано 200+ миллионов белков — почти все, известные науке!
✔️ Прорывы в разработке лекарств (например, против малярии).
✔️ Создание новых материалов и ферментов, разрушающих пластик и улавливающих парниковые газы.

И это только начало. AlphaFold — яркий пример того, как AI не просто ускоряет исследования, а меняет сам подход к науке. Представьте, что будет, если подобные алгоритмы появятся в физике, энергетике и других областях?

@zikunow
👍4🔥1
🤖 Когда AI начнет улучшать AI

Продолжая мысль из предыдущего поста про AlphaFold…

Что меня действительно поразило:

🔹 Скачок точности между AlphaFold-1 (75%) и AlphaFold-2 (90%).
🔹 Но ни больше данных, ни больше вычислительных ресурсов не были главными причинами улучшения.
🔹 Главное — это улучшенные алгоритмы машинного обучения и новая архитектура!

Теперь представьте, что OpenAI (или кто-то еще) создаст AI-Engineer / AI-Reseacher, который будет разбираться в алгоритмах ML на уровне топ-10 % лучших специалистов среди людей.

А теперь вообразите тысячи, а может, и миллионы таких агентов, которые начнут оптимизировать как себя, так и другие модели, например, AlphaFold-2.

Какой тогда произойдет скачок в развитии?
Вот заживём! 🙃

@zikunow
👍4💯2
Вчера вышел новый выпуск подкаста Дваркеша Пателя с Сатьей Наделлой (CEO Microsoft). Говорили о будущем ИИ, квантовых компьютеров и планах Microsoft.

Ключевые темы с таймкодами:

🔹 Ключевые игроки в AI
Обсуждение гипермасштабируемых вычислений, роли OpenAI и того, кто будет ключевым игроком в AI-индустрии.

🔹 Влияние на глобальный рынок
Может ли AI разогнать мировой ВВП до 10% в год и как технологии повлияют на глобальный рынок.

🔹 AI меняет работу
Обсуждение снижения стоимости вычислений и того, как это влияет на автоматизацию бизнес-процессов.

🔹 Квантовый прорыв Microsoft
Детали о чипе Majorana, квантовых вычислениях и их потенциале.

🔹 Muse — AI для игр
Новая AI-модель для создания игровых миров.

🔹 AGI и баланс сил
Юридические вопросы регулирования AI, ответственность компаний и государств.

🔹 Будущее человечества с AGI
Безопасность сильного AI и возможные риски.

🔹 34 года в Microsoft
Как компания сохраняет лидерство десятилетиями.

🔹 Верит ли Наделла в AGI?
Обсуждение перспектив создания AI, умнее человека.


Меня заинтересовали три темы, и, пожалуй, я напишу о них подробнее в следующих постах.
👍3
Открыл, чтобы потыкать Le Chat (аналог ChatGPT, только от французского Mistral), а потом заметил, что у них ещё есть La Plateforme (аналог Playground от OpenAI) и нашёл там прикольную фичу.

Вы можете создать простого агента всего за 5 кликов:
1. Выбираете нужную модель.
2. Настраиваете "температуру" (контроль случайности).
3. Пишете системный промпт (инструкцию).
4. Можно добавить few-shot prompts (пару примеров), чтобы агент/модель лучше адаптировалась под задачу.
5. Нажимаете кнопку "Deploy" — и ваш первый агент готов! 🥳🥳🥳

Агента можно использовать как через API (см. скрин 3), так и добавить в интерфейс своего Le Chat и использовать там (см. скрин 2). Это чем-то напоминает GPTs, но фишка в том, что здесь можно выбирать модель, чего, кажется, нет в ChatGPT — там всегда по умолчанию стоит GPT-4o.

Доступны разные модели, и сразу же в чате справа (см. скрин 2) можно протестировать, как отвечает агент.

p.s.: Как же круто, когда на рынке много игроков, и каждый старается выделиться, добавляя новые фичи!
🔥5