Обучение DeepSeek-R1
✅ Базу взяли из Cold Start, то есть:
- Взяли DeepSeek-V3-Base и дообучили её на тысячах примеров CoT, полученных из R1-Zero.
- Эти данные были приведены к читабельному виду и частично отфильтрованы людьми.
✅ После Cold Start применили тот же RL, что и в R1-Zero.
✅ В конце добавили RLFH (Reinforcement Learning from Human Feedback) → чтобы сделать модель удобной, полезной и безопасной.
📌 Ключевые отличия R1 от R1-Zero:
- R1 получил SFT перед RL (в отличие от R1-Zero, который стартовал с "нуля").
- R1 обучался на CoT-ответах, отфильтрованных из R1-Zero.
- R1 прошёл не только RL, но и RLFH для лучшего соответствия человеческим предпочтениям.
🎯 Что получили в DeepSeek-R1?
🔹 Лучше, чем R1-Zero в плане точности рассуждений.
🔹 Более читаемые и логично структурированные ответы.
🔹 Меньше языкового смешивания (английский/китайский).
🔹 Гораздо выше соответствие человеческим предпочтениям (RLFH помог сделать ответы полезнее и безопаснее).
p.s.: источник картинки
✅ Базу взяли из Cold Start, то есть:
- Взяли DeepSeek-V3-Base и дообучили её на тысячах примеров CoT, полученных из R1-Zero.
- Эти данные были приведены к читабельному виду и частично отфильтрованы людьми.
✅ После Cold Start применили тот же RL, что и в R1-Zero.
✅ В конце добавили RLFH (Reinforcement Learning from Human Feedback) → чтобы сделать модель удобной, полезной и безопасной.
📌 Ключевые отличия R1 от R1-Zero:
- R1 получил SFT перед RL (в отличие от R1-Zero, который стартовал с "нуля").
- R1 обучался на CoT-ответах, отфильтрованных из R1-Zero.
- R1 прошёл не только RL, но и RLFH для лучшего соответствия человеческим предпочтениям.
🎯 Что получили в DeepSeek-R1?
🔹 Лучше, чем R1-Zero в плане точности рассуждений.
🔹 Более читаемые и логично структурированные ответы.
🔹 Меньше языкового смешивания (английский/китайский).
🔹 Гораздо выше соответствие человеческим предпочтениям (RLFH помог сделать ответы полезнее и безопаснее).
p.s.: источник картинки
🔥2👍1
Думаете, AI — это просто чат-боты? Вот на что он действительно способен
🤔 Многие воспринимают искусственный интеллект лишь как инструмент для генерации текста и изображений. Однако AI решает фундаментальные научные задачи и кардинально меняет привычные парадигмы.
За 60 с лишним лет учёные экспериментально определили структуру около 150 000 белков. А DeepMind с AlphaFold2 совершили прорыв: всего за пару лет они предсказали 3D-конформацию 200 миллионов белков! 🤯
Как это работает? 🤖
🔹 Вместо дорогой рентгеновской кристаллографии (стоимость одного эксперимента может достигать десятков тысяч долларов) ИИ анализирует аминокислотные последовательности, учитывая эволюционные изменения белков.
🔹 В основе AlphaFold2 лежит архитектура EVO Former, напоминающая трансформеры. Механизм внимания объединяет эволюционные и геометрические данные, позволяя «собирать» белок, словно пазл.
🔹 Итог — точность предсказаний, сравнимая с экспериментальными методами, и результат, превзошедший порог CASP в 90 баллов!
📌 Что в итоге?
✔️ Расшифровано 200+ миллионов белков — почти все, известные науке!
✔️ Прорывы в разработке лекарств (например, против малярии).
✔️ Создание новых материалов и ферментов, разрушающих пластик и улавливающих парниковые газы.
И это только начало. AlphaFold — яркий пример того, как AI не просто ускоряет исследования, а меняет сам подход к науке. Представьте, что будет, если подобные алгоритмы появятся в физике, энергетике и других областях?
@zikunow
🤔 Многие воспринимают искусственный интеллект лишь как инструмент для генерации текста и изображений. Однако AI решает фундаментальные научные задачи и кардинально меняет привычные парадигмы.
За 60 с лишним лет учёные экспериментально определили структуру около 150 000 белков. А DeepMind с AlphaFold2 совершили прорыв: всего за пару лет они предсказали 3D-конформацию 200 миллионов белков! 🤯
Как это работает? 🤖
🔹 Вместо дорогой рентгеновской кристаллографии (стоимость одного эксперимента может достигать десятков тысяч долларов) ИИ анализирует аминокислотные последовательности, учитывая эволюционные изменения белков.
🔹 В основе AlphaFold2 лежит архитектура EVO Former, напоминающая трансформеры. Механизм внимания объединяет эволюционные и геометрические данные, позволяя «собирать» белок, словно пазл.
🔹 Итог — точность предсказаний, сравнимая с экспериментальными методами, и результат, превзошедший порог CASP в 90 баллов!
📌 Что в итоге?
✔️ Расшифровано 200+ миллионов белков — почти все, известные науке!
✔️ Прорывы в разработке лекарств (например, против малярии).
✔️ Создание новых материалов и ферментов, разрушающих пластик и улавливающих парниковые газы.
И это только начало. AlphaFold — яркий пример того, как AI не просто ускоряет исследования, а меняет сам подход к науке. Представьте, что будет, если подобные алгоритмы появятся в физике, энергетике и других областях?
@zikunow
YouTube
AlphaFold - The Most Useful Thing AI Has Ever Done
The biggest problems in the world might be solved by tiny molecules unlocked using AI. Take your big idea online today with https://ve42.co/hostinger - code VE at checkout.
A huge thank you to John Jumper and Kathryn Tunyasuvunakool at Google Deepmind; and…
A huge thank you to John Jumper and Kathryn Tunyasuvunakool at Google Deepmind; and…
👍4🔥1
🤖 Когда AI начнет улучшать AI
Продолжая мысль из предыдущего поста про AlphaFold…
Что меня действительно поразило:
🔹 Скачок точности между AlphaFold-1 (75%) и AlphaFold-2 (90%).
🔹 Но ни больше данных, ни больше вычислительных ресурсов не были главными причинами улучшения.
🔹 Главное — это улучшенные алгоритмы машинного обучения и новая архитектура!
Теперь представьте, что OpenAI (или кто-то еще) создаст AI-Engineer / AI-Reseacher, который будет разбираться в алгоритмах ML на уровне топ-10 % лучших специалистов среди людей.
А теперь вообразите тысячи, а может, и миллионы таких агентов, которые начнут оптимизировать как себя, так и другие модели, например, AlphaFold-2.
Какой тогда произойдет скачок в развитии?
Вот заживём! 🙃
@zikunow
Продолжая мысль из предыдущего поста про AlphaFold…
Что меня действительно поразило:
🔹 Скачок точности между AlphaFold-1 (75%) и AlphaFold-2 (90%).
🔹 Но ни больше данных, ни больше вычислительных ресурсов не были главными причинами улучшения.
🔹 Главное — это улучшенные алгоритмы машинного обучения и новая архитектура!
Теперь представьте, что OpenAI (или кто-то еще) создаст AI-Engineer / AI-Reseacher, который будет разбираться в алгоритмах ML на уровне топ-10 % лучших специалистов среди людей.
А теперь вообразите тысячи, а может, и миллионы таких агентов, которые начнут оптимизировать как себя, так и другие модели, например, AlphaFold-2.
Какой тогда произойдет скачок в развитии?
Вот заживём! 🙃
@zikunow
👍4💯2
Вчера вышел новый выпуск подкаста Дваркеша Пателя с Сатьей Наделлой (CEO Microsoft). Говорили о будущем ИИ, квантовых компьютеров и планах Microsoft.
Ключевые темы с таймкодами:
🔹 Ключевые игроки в AI
Обсуждение гипермасштабируемых вычислений, роли OpenAI и того, кто будет ключевым игроком в AI-индустрии.
🔹 Влияние на глобальный рынок
Может ли AI разогнать мировой ВВП до 10% в год и как технологии повлияют на глобальный рынок.
🔹 AI меняет работу
Обсуждение снижения стоимости вычислений и того, как это влияет на автоматизацию бизнес-процессов.
🔹 Квантовый прорыв Microsoft
Детали о чипе Majorana, квантовых вычислениях и их потенциале.
🔹 Muse — AI для игр
Новая AI-модель для создания игровых миров.
🔹 AGI и баланс сил
Юридические вопросы регулирования AI, ответственность компаний и государств.
🔹 Будущее человечества с AGI
Безопасность сильного AI и возможные риски.
🔹 34 года в Microsoft
Как компания сохраняет лидерство десятилетиями.
🔹 Верит ли Наделла в AGI?
Обсуждение перспектив создания AI, умнее человека.
Меня заинтересовали три темы, и, пожалуй, я напишу о них подробнее в следующих постах.
Ключевые темы с таймкодами:
🔹 Ключевые игроки в AI
Обсуждение гипермасштабируемых вычислений, роли OpenAI и того, кто будет ключевым игроком в AI-индустрии.
🔹 Влияние на глобальный рынок
Может ли AI разогнать мировой ВВП до 10% в год и как технологии повлияют на глобальный рынок.
🔹 AI меняет работу
Обсуждение снижения стоимости вычислений и того, как это влияет на автоматизацию бизнес-процессов.
🔹 Квантовый прорыв Microsoft
Детали о чипе Majorana, квантовых вычислениях и их потенциале.
🔹 Muse — AI для игр
Новая AI-модель для создания игровых миров.
🔹 AGI и баланс сил
Юридические вопросы регулирования AI, ответственность компаний и государств.
🔹 Будущее человечества с AGI
Безопасность сильного AI и возможные риски.
🔹 34 года в Microsoft
Как компания сохраняет лидерство десятилетиями.
🔹 Верит ли Наделла в AGI?
Обсуждение перспектив создания AI, умнее человека.
Меня заинтересовали три темы, и, пожалуй, я напишу о них подробнее в следующих постах.
YouTube
Satya Nadella — Microsoft’s AGI plan & quantum breakthrough
Satya Nadella on:
* Why he doesn’t believe in AGI but does believe in 10% economic growth,
* Microsoft’s new topological qubit breakthrough and gaming world models,
* Whether Office commoditizes LLMs or the other way around,
𝐄𝐏𝐈𝐒𝐎𝐃𝐄 𝐋𝐈𝐍𝐊𝐒
* Transcript: …
* Why he doesn’t believe in AGI but does believe in 10% economic growth,
* Microsoft’s new topological qubit breakthrough and gaming world models,
* Whether Office commoditizes LLMs or the other way around,
𝐄𝐏𝐈𝐒𝐎𝐃𝐄 𝐋𝐈𝐍𝐊𝐒
* Transcript: …
👍3
Открыл, чтобы потыкать Le Chat (аналог ChatGPT, только от французского Mistral), а потом заметил, что у них ещё есть La Plateforme (аналог Playground от OpenAI) и нашёл там прикольную фичу.
Вы можете создать простого агента всего за 5 кликов:
1. Выбираете нужную модель.
2. Настраиваете "температуру" (контроль случайности).
3. Пишете системный промпт (инструкцию).
4. Можно добавить few-shot prompts (пару примеров), чтобы агент/модель лучше адаптировалась под задачу.
5. Нажимаете кнопку "Deploy" — и ваш первый агент готов! 🥳🥳🥳
Агента можно использовать как через API (см. скрин 3), так и добавить в интерфейс своего Le Chat и использовать там (см. скрин 2). Это чем-то напоминает GPTs, но фишка в том, что здесь можно выбирать модель, чего, кажется, нет в ChatGPT — там всегда по умолчанию стоит GPT-4o.
Доступны разные модели, и сразу же в чате справа (см. скрин 2) можно протестировать, как отвечает агент.
p.s.: Как же круто, когда на рынке много игроков, и каждый старается выделиться, добавляя новые фичи!
Вы можете создать простого агента всего за 5 кликов:
1. Выбираете нужную модель.
2. Настраиваете "температуру" (контроль случайности).
3. Пишете системный промпт (инструкцию).
4. Можно добавить few-shot prompts (пару примеров), чтобы агент/модель лучше адаптировалась под задачу.
5. Нажимаете кнопку "Deploy" — и ваш первый агент готов! 🥳🥳🥳
Агента можно использовать как через API (см. скрин 3), так и добавить в интерфейс своего Le Chat и использовать там (см. скрин 2). Это чем-то напоминает GPTs, но фишка в том, что здесь можно выбирать модель, чего, кажется, нет в ChatGPT — там всегда по умолчанию стоит GPT-4o.
Доступны разные модели, и сразу же в чате справа (см. скрин 2) можно протестировать, как отвечает агент.
p.s.: Как же круто, когда на рынке много игроков, и каждый старается выделиться, добавляя новые фичи!
🔥5
Media is too big
VIEW IN TELEGRAM
Наверное, вы уже слышали, что Anthropic выпустила Claude Sonnet 3.7.
Я протестировал его на нескольких промптах. Кстати, именно эти промпты использовались, чтобы продемонстрировать вау-эффект Grok-3.
В последнем промпте я подумал, что было бы куда прикольнее, если бы balls взаимодействовали друг с другом. Выглядит залипательно!
Я протестировал его на нескольких промптах. Кстати, именно эти промпты использовались, чтобы продемонстрировать вау-эффект Grok-3.
В последнем промпте я подумал, что было бы куда прикольнее, если бы balls взаимодействовали друг с другом. Выглядит залипательно!
This media is not supported in your browser
VIEW IN TELEGRAM
Милота от Grok-3 Thinking.
Правда, всё приходится сохранять вручную и запускать в браузере.
Правда, всё приходится сохранять вручную и запускать в браузере.
🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Через 10 минут будет презентация GPT-4.5 — non-reasoning модель нового поколения. Посмотреть стрим можно здесь.
А пока жду начала стрима, решил немного поэкспериментировать с диффузионной LLM + записал небольшой ролик и замедлил его в два раза. Интересно наблюдать, как генерируется хаос/шум, а затем из него получается ответ.
Самому потыкать можно здесь, а узнал я про это чудо у Аделя.
А пока жду начала стрима, решил немного поэкспериментировать с диффузионной LLM + записал небольшой ролик и замедлил его в два раза. Интересно наблюдать, как генерируется хаос/шум, а затем из него получается ответ.
Самому потыкать можно здесь, а узнал я про это чудо у Аделя.
Media is too big
VIEW IN TELEGRAM
змейка за 5 секунд )))
После вчерашней презентации GPT-4.5 у меня появилась идейка/лайфхак, как экономить мульёны на GPT-4.5 (для тех, кто тратит n-количество миллионов $):
- Встраиваем в пайплайн промежуточный шаг: "сначала отправляем запрос в GPT-4o".
- Просим 4o переписать запрос, максимально сократив его, но сохранив смысл.
- Отправляем уже переписанный запрос в GPT-4.5 с промптом: «Отвечай максимально коротко и по делу, а то деньги не заплачу, и бабушка умрёт в больнице с голода».
Экономим на Input токенах + на Output токенах = жирный профит!
- Встраиваем в пайплайн промежуточный шаг: "сначала отправляем запрос в GPT-4o".
- Просим 4o переписать запрос, максимально сократив его, но сохранив смысл.
- Отправляем уже переписанный запрос в GPT-4.5 с промптом: «Отвечай максимально коротко и по делу, а то деньги не заплачу, и бабушка умрёт в больнице с голода».
Экономим на Input токенах + на Output токенах = жирный профит!
😁3
Hallucination Rate & Accuracy
На мой взгляд, именно эти две метрики являются ключевыми, и GPT-4.5 демонстрирует в них заметный прирост.
Почему? Потому что они важны для тренировки будущих reasoning-моделей, которые будут созданы на базе GPT-4.5, а затем — для AI-агентов.
🔹 Чем точнее модель отвечает и чем реже она галлюцинирует, тем качественнее могут быть её рассуждения.
🔹 Чем качественнее её рассуждения, тем лучше она может планировать.
🔹И, опять же, чем точнее она выполняет поставленные ей задачи и чем реже ошибается (галлюцинирует), тем лучше она справляется с выполнением поставленного плана.
На мой взгляд, именно эти две метрики являются ключевыми, и GPT-4.5 демонстрирует в них заметный прирост.
Почему? Потому что они важны для тренировки будущих reasoning-моделей, которые будут созданы на базе GPT-4.5, а затем — для AI-агентов.
🔹 Чем точнее модель отвечает и чем реже она галлюцинирует, тем качественнее могут быть её рассуждения.
🔹 Чем качественнее её рассуждения, тем лучше она может планировать.
🔹И, опять же, чем точнее она выполняет поставленные ей задачи и чем реже ошибается (галлюцинирует), тем лучше она справляется с выполнением поставленного плана.
Чем умнее базовая модель → тем разумнее reasoning-модель → тем мощнее агенты, построенные на их базе.
👍3
Вот что я имею в виду.
Посмотрите, насколько reasoning-модель o3-mini-high, отправной точкой для которой, вероятно, была GPT-4o, превосходит саму GPT-4o на представленных бенчмарках.
А теперь просто сравним разницу между GPT-4o и GPT-4.5 и попробуем представить/спроецировать, какой прирост производительности мы увидим, если "под капотом" будущей reasoning-модели (допустим, o4) будет базовая модель GPT-4.5. Насколько она превзойдет GPT-4.5, GPT-4o и o3-mini-high?
Далее можно поразмышлять и про агентов. На данный момент лучшая агентная система, лидирующая по большинству бенчмарков, — это DeepResearch от OpenAI, работающая на o3.
Какими возможностями будет обладать DeepResearch 2.0, если она будет работать на условной o4?
Посмотрите, насколько reasoning-модель o3-mini-high, отправной точкой для которой, вероятно, была GPT-4o, превосходит саму GPT-4o на представленных бенчмарках.
А теперь просто сравним разницу между GPT-4o и GPT-4.5 и попробуем представить/спроецировать, какой прирост производительности мы увидим, если "под капотом" будущей reasoning-модели (допустим, o4) будет базовая модель GPT-4.5. Насколько она превзойдет GPT-4.5, GPT-4o и o3-mini-high?
Далее можно поразмышлять и про агентов. На данный момент лучшая агентная система, лидирующая по большинству бенчмарков, — это DeepResearch от OpenAI, работающая на o3.
Какими возможностями будет обладать DeepResearch 2.0, если она будет работать на условной o4?
❤1
Ну, главный вопрос на этот вечер: смогут ли условные агенты "AI-Researcher" генерировать, создавать и добывать новые знания? Улучшать алгоритмы и самих себя? Совершать прорывы в математике, биологии или физике? Открывать новые законы, доказывать теоремы?
Anonymous Poll
31%
Да
44%
Возможно
19%
Наверное нет
6%
Нет
Лёша (ITBeard) выдал мощную БАЗУ по программированию с AI.
Главный посыл, который я уловил от Лёши — важно иметь базовое понимание того, с чем мы имеем дело. А именно: что такое LLM, как они работают, какие бывают модели, какие из них лучше подходят для разных задачи, что такое контекст и его длина, что такое RAG и т. д.
Просто скачать Cursor или GitHub Copilot, потыкать их 30–60 минут, сказать: «Фигня ваш AI!» — и забросить это дело — не самый эффективный подход.
Короче, однозначно рекомендую посмотреть всем, кто уже программирует с AI или только собирается попробовать (а рано или поздно придётся). Лёша доступным и понятным языком разложил всё по полочкам 👌
Главный посыл, который я уловил от Лёши — важно иметь базовое понимание того, с чем мы имеем дело. А именно: что такое LLM, как они работают, какие бывают модели, какие из них лучше подходят для разных задачи, что такое контекст и его длина, что такое RAG и т. д.
Просто скачать Cursor или GitHub Copilot, потыкать их 30–60 минут, сказать: «Фигня ваш AI!» — и забросить это дело — не самый эффективный подход.
Короче, однозначно рекомендую посмотреть всем, кто уже программирует с AI или только собирается попробовать (а рано или поздно придётся). Лёша доступным и понятным языком разложил всё по полочкам 👌
YouTube
AI-БАЗА по программированию в 2025 / Полный гайд разработки с ИИ: теория, инструменты, примеры
Сегодняшний видос содержит все базовые знания, необходимые для эффективного программирования в паре с ИИ: термины, подходы, инструменты и личный опыт. Считайте, что это базовый курс, необходимый каждому программисту, который собирается в 2025 году забустить…
👍5💯1
«Сверхразумный Агент»
Новый термин, который я услышал в конце этого ролика и это мне сейчас кажется более точным/понятным термином того, что какое-то время назад я представлял под словом ASI
Новый термин, который я услышал в конце этого ролика и это мне сейчас кажется более точным/понятным термином того, что какое-то время назад я представлял под словом ASI
✍1
Если вы не поняли смысл мема, который, кстати, нарисовала новая 4o (по промту пользователя), не переживайте :)
Изначально 4o тоже не до конца поняла этот мем. Интерпретация термина "vibe coding" довольно нова и, похоже, не попал в обучающую выборку модели.
После шага «загугли, что такое vibe coding» модель объяснила мем ещё раз:
Изначально 4o тоже не до конца поняла этот мем. Интерпретация термина "vibe coding" довольно нова и, похоже, не попал в обучающую выборку модели.
После шага «загугли, что такое vibe coding» модель объяснила мем ещё раз:
Теперь, зная, что vibe coding — это не просто "писать в кайф", а ещё и стиль программирования с помощью ИИ, мем играет на двойном смысле:
На поверхности (шутка):
Парень в наушниках, в яркой футболке, с закрытыми глазами и довольным лицом — он явно «ловит вайб». Подпись "the code may not work, but it speaks to my soul" — это ирония: код может быть нерабочим, но зато «душевный».
На глубине (в контексте 2025 года):
Это ещё и отсылка к современному тренду, когда люди "кодят" с помощью ИИ, не особо вникая в детали. Получается, что человек даже не понимает, как всё работает, но зато результат вдохновляет — и это нормально в новой реальности вайб-кодинга.
Дальше — интереснее.
Сегодня в чате обсуждали, что модель 4o начала отвечать мне как "друган", ну то есть стиль общения поменялся, хотя я в настройках ничего не менял (возможно, она как-то сама "дообучилась/подстроилась" под меня). А ещё она стала проактивной и в конце сообщения всегда спрашивает что-то типа: «А хочешь, расскажу про это?» или «А давай я это изобрету!» и т.д.
В итоге, после объяснения мема в посте выше, она предложила мне:
На что я ответил:
В итоге 4o сгенерировала мем, который оказался копией того, что она же сгенерировала пару часов назад 😄
P.S.: Согласитесь, очень круто. А текст на экране монитора? А? Кайф же!
Сегодня в чате обсуждали, что модель 4o начала отвечать мне как "друган", ну то есть стиль общения поменялся, хотя я в настройках ничего не менял (возможно, она как-то сама "дообучилась/подстроилась" под меня). А ещё она стала проактивной и в конце сообщения всегда спрашивает что-то типа: «А хочешь, расскажу про это?» или «А давай я это изобрету!» и т.д.
В итоге, после объяснения мема в посте выше, она предложила мне:
«Хочешь, можем сделать свой мем про вайб-кодинг?»
На что я ответил:
«Давай. Сама придумай и сделай.»
В итоге 4o сгенерировала мем, который оказался копией того, что она же сгенерировала пару часов назад 😄
P.S.: Согласитесь, очень круто. А текст на экране монитора? А? Кайф же!