Алексей Цыкунов | Про AI и не только
195 subscribers
157 photos
25 videos
1 file
86 links
ML Engineer & AI Enthusiast.

Пишу про ML/AI, о личном опыте взаимодействия с ChatGPT и другими нейронками.
Download Telegram
Алгоритмы AI: Невидимый двигатель революции

Основные тезисы отчёта:

1️⃣ Прогресс искусственного интеллекта — это не только увеличение вычислительных мощностей. Алгоритмы играют огромную, но часто недооцененную роль!

2️⃣ Алгоритмы обучения AI становятся значительно эффективнее. В ключевых областях их производительность возрастает в 10 раз каждые 2–5 лет!

3️⃣ В языковом моделировании прогресс идет еще быстрее — вычислительные затраты сокращаются вдвое каждые 8 месяцев.

4️⃣ Одно из самых перспективных направлений — улучшение моделей после основного обучения (post-training enhancements). Это делает продвинутые технологии доступными даже для тех, у кого ограниченные вычислительные ресурсы.

5️⃣ AI все чаще используется для собственного развития: и в создании новых алгоритмов, и в проектировании чипов.

6️⃣ Современные языковые модели (LLM) уже активно помогают программистам, оптимизируют параметры обучения и даже предлагают новые исследовательские идеи.

7️⃣ Хотя внезапные прорывы в алгоритмах возможны, они редки и непредсказуемы. Даже если технологический скачок произойдет, его внедрение и масштабирование — это долгий процесс, требующий оптимизации и интеграции.

Главный вывод:
Алгоритмические инновации — один из ключевых факторов развития AI наряду с вычислительными мощностями и данными.

Более того, AI учится создавать AI — и это может кардинально ускорить прогресс!

@zikunow
👍2🔥1
AI vs. Человек: соревнование инженеров по разработке AI

Пожалуй, самое интересное из первой главы отчёта 🙂

В серии экспериментов AI-агенты на основе LLM, выпущенные в 2024 году, показали результаты, сравнимые с командами людей в реальных соревнованиях по разработке AI:

AI превзошёл экспертов-инженеров в выполнении открытых инженерных задач, если на работу отводилось не более двух часов.

☯️ При времени выполнения от 2 до 8 часов AI и инженеры-человеки показывали примерно одинаковые результаты.

Напротив, эксперты-люди демонстрировали лучшие результаты при времени выполнения от восьми часов и более.

========

Задачи инженерной разработки AI занимают значительную часть времени в исследованиях. Поэтому их автоматизация особенно важна.

‼️ С развитием AI общего назначения его влияние на прогресс в области алгоритмов и инженерии потребует дополнительных исследований. Мы всё ещё мало знаем об этом процессе саморазвития.


@zikunow
🔥2
Интересная градация «доступности» моделей и её аналогии с классическим софтом.

Несмотря на распространённое мнение, модели Llama не являются Open Source

@zikunow
1👍5
Ну вот, мы уже почти и вернулись к старым ценам на акции NVIDIA.

Не прошло и двух недель 🙃
👍1
GPT-5 решит 50% задач из бенчмарка "Последний экзамен человечества" ⁉️

Сначала написал длинный пост, но потом сократил его до пяти пунктов:

1. Скоро (в течение пары недель или месяца) должны показать GPT-4.5/Orion, которая будет круче 4o.

2. Сейчас DeepResearch работает на основе o3 и набирает 26,6% на бенчмарке HLE — "Последний экзамен человечества". Наверное под капотом o3 токены/цепочки рассуждений генерировала 4o.

3. Скорее всего, скоро мы увидим o4, ну или внутри GPT-5 будет улучшенная reasoning-модель, основанная на GPT-4.5.

4. DeepResearch 2.0 будет работать на o4/reasoning части GPT-5 + workflow самого агента тоже улучшат.

5. Какой процент задач HLE сможет решить DeepResearch 2.0 уже в этом году?
🔥1🤔1
Какой процент задач HLE сможет решить DeepResearch 2.0 уже в этом году?
Anonymous Poll
38%
40-50%
28%
50-60%
16%
60-70%
28%
70%+
Обучение DeepSeek-R1-Zero

Взяли базовую модель DeepSeek-V3-Base.
Применили RL (Group Relative Policy Optimization, GRPO).
Никакого SFT не было – модель не обучалась заранее на размеченных данных.
Модель сама писала рассуждения (CoT - Chain-of-Thought) и давала ответы.
Если ответ был верный → модель получала награду (reward).
Если неверный → штраф (penalty).


💡 Ключевая идея:
DeepSeek-R1-Zero – это дообученная версия DeepSeek-V3-Base, но дообученная исключительно с помощью RL (без SFT), причём она сама научилась рассуждать в процессе обучения.

Что это значит?
- V3-Base не имела развитых способностей к рассуждению.
- R1-Zero научилась рассуждать исключительно через Reinforcement Learning (RL).
- Она не видела заранее размеченные CoT-примеры, но сама начала строить логические цепочки в ходе оптимизации наград.

📌 То есть, DeepSeek-R1-Zero – это "V3-Base + RL-обучение под рассуждения", без обучения на готовых CoT.
🔥1
Обучение DeepSeek-R1

Базу взяли из Cold Start, то есть:
- Взяли DeepSeek-V3-Base и дообучили её на тысячах примеров CoT, полученных из R1-Zero.
- Эти данные были приведены к читабельному виду и частично отфильтрованы людьми.
После Cold Start применили тот же RL, что и в R1-Zero.
В конце добавили RLFH (Reinforcement Learning from Human Feedback) → чтобы сделать модель удобной, полезной и безопасной.

📌 Ключевые отличия R1 от R1-Zero:
- R1 получил SFT перед RL (в отличие от R1-Zero, который стартовал с "нуля").
- R1 обучался на CoT-ответах, отфильтрованных из R1-Zero.
- R1 прошёл не только RL, но и RLFH для лучшего соответствия человеческим предпочтениям.

🎯 Что получили в DeepSeek-R1?
🔹 Лучше, чем R1-Zero в плане точности рассуждений.
🔹 Более читаемые и логично структурированные ответы.
🔹 Меньше языкового смешивания (английский/китайский).
🔹 Гораздо выше соответствие человеческим предпочтениям (RLFH помог сделать ответы полезнее и безопаснее).


p.s.: источник картинки
🔥2👍1
Думаете, AI — это просто чат-боты? Вот на что он действительно способен

🤔 Многие воспринимают искусственный интеллект лишь как инструмент для генерации текста и изображений. Однако AI решает фундаментальные научные задачи и кардинально меняет привычные парадигмы.

За 60 с лишним лет учёные экспериментально определили структуру около 150 000 белков. А DeepMind с AlphaFold2 совершили прорыв: всего за пару лет они предсказали 3D-конформацию 200 миллионов белков! 🤯

Как это работает? 🤖
🔹 Вместо дорогой рентгеновской кристаллографии (стоимость одного эксперимента может достигать десятков тысяч долларов) ИИ анализирует аминокислотные последовательности, учитывая эволюционные изменения белков.
🔹 В основе AlphaFold2 лежит архитектура EVO Former, напоминающая трансформеры. Механизм внимания объединяет эволюционные и геометрические данные, позволяя «собирать» белок, словно пазл.
🔹 Итог — точность предсказаний, сравнимая с экспериментальными методами, и результат, превзошедший порог CASP в 90 баллов!

📌 Что в итоге?
✔️ Расшифровано 200+ миллионов белков — почти все, известные науке!
✔️ Прорывы в разработке лекарств (например, против малярии).
✔️ Создание новых материалов и ферментов, разрушающих пластик и улавливающих парниковые газы.

И это только начало. AlphaFold — яркий пример того, как AI не просто ускоряет исследования, а меняет сам подход к науке. Представьте, что будет, если подобные алгоритмы появятся в физике, энергетике и других областях?

@zikunow
👍4🔥1
🤖 Когда AI начнет улучшать AI

Продолжая мысль из предыдущего поста про AlphaFold…

Что меня действительно поразило:

🔹 Скачок точности между AlphaFold-1 (75%) и AlphaFold-2 (90%).
🔹 Но ни больше данных, ни больше вычислительных ресурсов не были главными причинами улучшения.
🔹 Главное — это улучшенные алгоритмы машинного обучения и новая архитектура!

Теперь представьте, что OpenAI (или кто-то еще) создаст AI-Engineer / AI-Reseacher, который будет разбираться в алгоритмах ML на уровне топ-10 % лучших специалистов среди людей.

А теперь вообразите тысячи, а может, и миллионы таких агентов, которые начнут оптимизировать как себя, так и другие модели, например, AlphaFold-2.

Какой тогда произойдет скачок в развитии?
Вот заживём! 🙃

@zikunow
👍4💯2
Вчера вышел новый выпуск подкаста Дваркеша Пателя с Сатьей Наделлой (CEO Microsoft). Говорили о будущем ИИ, квантовых компьютеров и планах Microsoft.

Ключевые темы с таймкодами:

🔹 Ключевые игроки в AI
Обсуждение гипермасштабируемых вычислений, роли OpenAI и того, кто будет ключевым игроком в AI-индустрии.

🔹 Влияние на глобальный рынок
Может ли AI разогнать мировой ВВП до 10% в год и как технологии повлияют на глобальный рынок.

🔹 AI меняет работу
Обсуждение снижения стоимости вычислений и того, как это влияет на автоматизацию бизнес-процессов.

🔹 Квантовый прорыв Microsoft
Детали о чипе Majorana, квантовых вычислениях и их потенциале.

🔹 Muse — AI для игр
Новая AI-модель для создания игровых миров.

🔹 AGI и баланс сил
Юридические вопросы регулирования AI, ответственность компаний и государств.

🔹 Будущее человечества с AGI
Безопасность сильного AI и возможные риски.

🔹 34 года в Microsoft
Как компания сохраняет лидерство десятилетиями.

🔹 Верит ли Наделла в AGI?
Обсуждение перспектив создания AI, умнее человека.


Меня заинтересовали три темы, и, пожалуй, я напишу о них подробнее в следующих постах.
👍3
Открыл, чтобы потыкать Le Chat (аналог ChatGPT, только от французского Mistral), а потом заметил, что у них ещё есть La Plateforme (аналог Playground от OpenAI) и нашёл там прикольную фичу.

Вы можете создать простого агента всего за 5 кликов:
1. Выбираете нужную модель.
2. Настраиваете "температуру" (контроль случайности).
3. Пишете системный промпт (инструкцию).
4. Можно добавить few-shot prompts (пару примеров), чтобы агент/модель лучше адаптировалась под задачу.
5. Нажимаете кнопку "Deploy" — и ваш первый агент готов! 🥳🥳🥳

Агента можно использовать как через API (см. скрин 3), так и добавить в интерфейс своего Le Chat и использовать там (см. скрин 2). Это чем-то напоминает GPTs, но фишка в том, что здесь можно выбирать модель, чего, кажется, нет в ChatGPT — там всегда по умолчанию стоит GPT-4o.

Доступны разные модели, и сразу же в чате справа (см. скрин 2) можно протестировать, как отвечает агент.

p.s.: Как же круто, когда на рынке много игроков, и каждый старается выделиться, добавляя новые фичи!
🔥5
Media is too big
VIEW IN TELEGRAM
Наверное, вы уже слышали, что Anthropic выпустила Claude Sonnet 3.7.

Я протестировал его на нескольких промптах. Кстати, именно эти промпты использовались, чтобы продемонстрировать вау-эффект Grok-3.

В последнем промпте я подумал, что было бы куда прикольнее, если бы balls взаимодействовали друг с другом. Выглядит залипательно!
This media is not supported in your browser
VIEW IN TELEGRAM
Милота от Grok-3 Thinking.

Правда, всё приходится сохранять вручную и запускать в браузере.
🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Через 10 минут будет презентация GPT-4.5 — non-reasoning модель нового поколения. Посмотреть стрим можно здесь.

А пока жду начала стрима, решил немного поэкспериментировать с диффузионной LLM + записал небольшой ролик и замедлил его в два раза. Интересно наблюдать, как генерируется хаос/шум, а затем из него получается ответ.

Самому потыкать можно здесь, а узнал я про это чудо у Аделя.
После вчерашней презентации GPT-4.5 у меня появилась идейка/лайфхак, как экономить мульёны на GPT-4.5 (для тех, кто тратит n-количество миллионов $):

- Встраиваем в пайплайн промежуточный шаг: "сначала отправляем запрос в GPT-4o".

- Просим 4o переписать запрос, максимально сократив его, но сохранив смысл.

- Отправляем уже переписанный запрос в GPT-4.5 с промптом: «Отвечай максимально коротко и по делу, а то деньги не заплачу, и бабушка умрёт в больнице с голода».

Экономим на Input токенах + на Output токенах = жирный профит!
😁3
Hallucination Rate & Accuracy

На мой взгляд, именно эти две метрики являются ключевыми, и GPT-4.5 демонстрирует в них заметный прирост.

Почему? Потому что они важны для тренировки будущих reasoning-моделей, которые будут созданы на базе GPT-4.5, а затем — для AI-агентов.

🔹 Чем точнее модель отвечает и чем реже она галлюцинирует, тем качественнее могут быть её рассуждения.

🔹 Чем качественнее её рассуждения, тем лучше она может планировать.

🔹И, опять же, чем точнее она выполняет поставленные ей задачи и чем реже ошибается (галлюцинирует), тем лучше она справляется с выполнением поставленного плана.

Чем умнее базовая модель → тем разумнее reasoning-модель → тем мощнее агенты, построенные на их базе.
👍3