Сейчас будет два взаимосвязанных поста: один вводный — про Humanity’s Last Exam, а второй — про Deep Research и события последних восьми месяцев.
Если вы уже знаете, что такое "Humanity’s Last Exam", всё равно прочитайте краткое описание — просто чтобы ещё раз осознать, насколько это сложный тест/бенчмарк.
В этом году вы ещё не раз о нём услышите — он станет одним из главных мерил для оценки моделей, агентов и AI-систем.
Итак, поехали!
Что такое Humanity’s Last Exam (HLE)?
Это многофункциональный экзамен для AI, созданный Центром безопасности искусственного интеллекта (CAIS) и компанией Scale AI. В HLE вошли 3000 сложнейших вопросов от экспертов со всего мира по различным областям знаний — от математики до гуманитарных и естественных наук.
Зачем он нужен?
HLE проверяет, могут ли современные модели AI решать задачи на уровне мировых экспертов. Это своеобразная «лакмусовая бумажка» прогресса искусственного интеллекта: результаты теста помогают понять, насколько AI приблизился к человеческому уровню в решении сложных академических задач.
Какие там вопросы?
Задания включают текстовые и мультимодальные форматы — от вопросов с выбором ответа до коротких эссе. Все они имеют однозначное решение, которое нельзя быстро найти с помощью обычного поиска в интернете.Даже самые передовые ИИ-модели сейчас показывают на этом экзамене низкую точность и недостаточную «уверенность» в своих ответах, что лишь подтверждает, насколько высока планка HLE.
Продолжение — в следующем посте
@zikunow
Если вы уже знаете, что такое "Humanity’s Last Exam", всё равно прочитайте краткое описание — просто чтобы ещё раз осознать, насколько это сложный тест/бенчмарк.
В этом году вы ещё не раз о нём услышите — он станет одним из главных мерил для оценки моделей, агентов и AI-систем.
Итак, поехали!
Что такое Humanity’s Last Exam (HLE)?
Это многофункциональный экзамен для AI, созданный Центром безопасности искусственного интеллекта (CAIS) и компанией Scale AI. В HLE вошли 3000 сложнейших вопросов от экспертов со всего мира по различным областям знаний — от математики до гуманитарных и естественных наук.
Зачем он нужен?
HLE проверяет, могут ли современные модели AI решать задачи на уровне мировых экспертов. Это своеобразная «лакмусовая бумажка» прогресса искусственного интеллекта: результаты теста помогают понять, насколько AI приблизился к человеческому уровню в решении сложных академических задач.
Какие там вопросы?
Задания включают текстовые и мультимодальные форматы — от вопросов с выбором ответа до коротких эссе. Все они имеют однозначное решение, которое нельзя быстро найти с помощью обычного поиска в интернете.
Обратите внимание на зачёркнутый текст, который был актуален всего 3–4 месяца назад, когда анонсировали проект HLE (сентябрь 2024 г.)Продолжение — в следующем посте
@zikunow
👍1
Как AI стал в 9 раз умнее всего за 8 месяцев 🤯🚀
Прежде чем продолжить, советую сначала прочитать мой пост выше про бенчмарк HLE.
Сегодня OpenAI показали агента — DeepResearch. Его результаты на бенчмарке HLE - 🤯🤯
Поэтому в этом посте я хочу ещё подсветить, что произошло за последние восемь месяцев. Чтобы вы осознали динамику изменений и, возможно, задумались о прогрессе, который действительно произошёл. По крайней мере, так это вижу я.
Итак, теперь всё внимание на скриншот с результатами прохождения HLE последними AI-системами.
Способность AI-систем решать задачи HLE выросла в 9 раз всего за 8 месяцев:
- С 3,3% до 9,1% благодаря переходу на новую парадигму Reasoning — рост в 2,5–3 раза.
- Затем ещё один почти трёхкратный скачок — с 9,1% до 26,6% за счёт добавления агентности, то есть возможности использовать инструменты (browsing + python) = Agent
Что же нас ждёт дальше?
@zikunow
Прежде чем продолжить, советую сначала прочитать мой пост выше про бенчмарк HLE.
Сегодня OpenAI показали агента — DeepResearch. Его результаты на бенчмарке HLE - 🤯🤯
Поэтому в этом посте я хочу ещё подсветить, что произошло за последние восемь месяцев. Чтобы вы осознали динамику изменений и, возможно, задумались о прогрессе, который действительно произошёл. По крайней мере, так это вижу я.
Итак, теперь всё внимание на скриншот с результатами прохождения HLE последними AI-системами.
Способность AI-систем решать задачи HLE выросла в 9 раз всего за 8 месяцев:
- С 3,3% до 9,1% благодаря переходу на новую парадигму Reasoning — рост в 2,5–3 раза.
- Затем ещё один почти трёхкратный скачок — с 9,1% до 26,6% за счёт добавления агентности, то есть возможности использовать инструменты (browsing + python) = Agent
Ещё раз: всего за восемь месяцев мы прошли путь от 3% до 26% решённых задач в самом сложном и эталонном бенчмарке.Что же нас ждёт дальше?
@zikunow
3🔥3👍1🤯1
Вдогонку к вчерашним постам.
Вот ещё один непростой тест (GPQA Diamond) для оценки "экспертности". И здесь о3 (интересно, mini или нет?) опережает докторов наук (PhD), которые отвечают на вопросы в своей области, используя поиск информации в интернете.
Представьте агента DeepResearch, у которого под капотом новая о4 или о5, а не о3-mini. На что будет способен такой агент?
@zikunow
Вот ещё один непростой тест (GPQA Diamond) для оценки "экспертности". И здесь о3 (интересно, mini или нет?) опережает докторов наук (PhD), которые отвечают на вопросы в своей области, используя поиск информации в интернете.
Представьте агента DeepResearch, у которого под капотом новая о4 или о5, а не о3-mini. На что будет способен такой агент?
@zikunow
👍1
Задумайтесь: насколько быстро развивается AI 🫣
Открыл почитать «Международный научный отчёт о безопасности AI» и уже на первой странице увидел, что между его завершением (5 декабря 2024) и публикацией в январе 2025 произошло важное событие:
Пока умные дядьки и тётьки анализировали данные, готовили отчёт и предсказывали будущее развития AI – бах! – уже появилась новая модель с возможностями, которые считались недостижимыми в ближайшее время (интересно, что они подразумевали? 5–10 лет или больше?)
Есть ли вообще смысл читать этот отчёт дальше? 🤗
P.S.: Узнал об отчёте из любимого AIA Podcast ❤️
@zikunow
Открыл почитать «Международный научный отчёт о безопасности AI» и уже на первой странице увидел, что между его завершением (5 декабря 2024) и публикацией в январе 2025 произошло важное событие:
OpenAI представила предварительные результаты тестирования новой модели o3, которая значительно опережает все предыдущие версии в самых сложных тестах
В некоторых из этих тестов o3 превосходит многих (но не всех) экспертов-людей.
Кроме того, модель совершила прорыв в ключевом тесте на абстрактное мышление, который многие специалисты, включая меня, считали недостижимым в ближайшее время.Пока умные дядьки и тётьки анализировали данные, готовили отчёт и предсказывали будущее развития AI – бах! – уже появилась новая модель с возможностями, которые считались недостижимыми в ближайшее время (интересно, что они подразумевали? 5–10 лет или больше?)
Есть ли вообще смысл читать этот отчёт дальше? 🤗
P.S.: Узнал об отчёте из любимого AIA Podcast ❤️
@zikunow
👍1🔥1
На следующей странице отчёта (некоторые выводы, которые показались мне интересными):
1️⃣ Ускорение развития AI:
Результаты модели о3 указывают на то, что темпы развития возможностей AI могут оставаться высокими или даже ускоряться.
2️⃣ Масштабирование (inference scaling):
- Увеличение вычислительных ресурсов помогает преодолеть предыдущие ограничения AI.
-Это делает использование моделей более дорогостоящим, однако новые исследования, например модель R1 от DeepSeek, направлены на снижение этих затрат.
3️⃣ Влияние на дальнейшее развитие AI:
Возрастающее использование AI разработчиками может влиять на скорость дальнейших инноваций в этой области.
Собственно, третий эффект мы уже слышали от NVIDIA: их «внутренний» AI ускоряет создание новых чипов, поскольку сотрудники становятся более эффективными.
@zikunow
1️⃣ Ускорение развития AI:
Результаты модели о3 указывают на то, что темпы развития возможностей AI могут оставаться высокими или даже ускоряться.
2️⃣ Масштабирование (inference scaling):
- Увеличение вычислительных ресурсов помогает преодолеть предыдущие ограничения AI.
-Это делает использование моделей более дорогостоящим, однако новые исследования, например модель R1 от DeepSeek, направлены на снижение этих затрат.
3️⃣ Влияние на дальнейшее развитие AI:
Возрастающее использование AI разработчиками может влиять на скорость дальнейших инноваций в этой области.
Собственно, третий эффект мы уже слышали от NVIDIA: их «внутренний» AI ускоряет создание новых чипов, поскольку сотрудники становятся более эффективными.
@zikunow
👍2
Вот ещё один интересный график и строка текста:
Число слов, сгенерированных за 1 доллар, увеличилось:
▶️ В 20 раз для моделей уровня GPT-3/Llama 2 (44% MMLU);
▶️ В 40 раз для моделей уровня GPT-4o mini/Mistral (82% MMLU);
▶️ В 10 раз для моделей уровня GPT-4/o1-mini (86% MMLU).
Все эти изменения произошли менее чем за год.
Ну и прогноз из отчёта:
P.S.: если что, это 50-я страница отчёта.
@zikunow
Число слов, сгенерированных за 1 доллар, увеличилось:
▶️ В 20 раз для моделей уровня GPT-3/Llama 2 (44% MMLU);
▶️ В 40 раз для моделей уровня GPT-4o mini/Mistral (82% MMLU);
▶️ В 10 раз для моделей уровня GPT-4/o1-mini (86% MMLU).
Все эти изменения произошли менее чем за год.
Ну и прогноз из отчёта:
Новые данные свидетельствуют о том, что масштабирование вычислительных ресурсов для обучения и объёмов данных при текущих темпах технически осуществимо как минимум до 2030 года.P.S.: если что, это 50-я страница отчёта.
@zikunow
Продолжаем 🙂
- С начала 2010-х мы наблюдаем взрывной рост в области АИ, особенно в сфере глубокого обучения.
- Вычислительные мощности, выделяемые на обучение самых крутых моделей, растут в 4 раза каждый год.
- Объем вычислений для обучения моделей удваивался каждые 6 месяцев. Это намного быстрее, чем классический закон Мура.
- Современные модели AI в десятки миллиардов раз мощнее, чем те, что были всего 10 лет назад 🤯. Представьте себе этот масштаб!
- Ресурсы растут не только для обучения, но и для использования (развертывания) AI-систем.
Привет NVIDIA 👋
- Главный двигатель этого роста – огромные инвестиции в производство чипов для ИИ. Не столько улучшение самих чипов, сколько их количество.
- Стоимость вычислительного "железа" снижается примерно в 1.35 раза в год. Или другими словами, цена уменьшается вдвое каждые ~20 месяцев.
Это делает AI доступнее, но...
@zikunow
- С начала 2010-х мы наблюдаем взрывной рост в области АИ, особенно в сфере глубокого обучения.
- Вычислительные мощности, выделяемые на обучение самых крутых моделей, растут в 4 раза каждый год.
- Объем вычислений для обучения моделей удваивался каждые 6 месяцев. Это намного быстрее, чем классический закон Мура.
- Современные модели AI в десятки миллиардов раз мощнее, чем те, что были всего 10 лет назад 🤯. Представьте себе этот масштаб!
- Ресурсы растут не только для обучения, но и для использования (развертывания) AI-систем.
Привет NVIDIA 👋
- Главный двигатель этого роста – огромные инвестиции в производство чипов для ИИ. Не столько улучшение самих чипов, сколько их количество.
- Стоимость вычислительного "железа" снижается примерно в 1.35 раза в год. Или другими словами, цена уменьшается вдвое каждые ~20 месяцев.
Это делает AI доступнее, но...
@zikunow
🎉3
...Аппетиты растут и общий объем вычислений все равно растет намного быстрее, чем дешевеют чипы.
Но есть ещё 4 ограничения (скрин):
1️⃣ Энергетические ограничения (Power constraints)
- Медианное значение вычислительных мощностей: 2e29 FLOP.
- Рост по сравнению с GPT-4 (2023): в 10 000 раз.
- Ограничение связано с доступностью и эффективностью энергопотребления.
2️⃣ Производственные возможности чипов (Chip production capacity)
- 9e29 FLOP.
- Рост по сравнению с GPT-4: в 50 000 раз.
- Основной фактор — возможность производства необходимого количества чипов.
3️⃣ Дефицит данных (Data scarcity)
- 2e30 FLOP.
- Рост: в 80 000 раз.
- Проблема заключается в нехватке качественных данных для обучения.
4️⃣ Ограничения задержек (Latency wall)
- 3e31 FLOP.
- Рост: в 1 000 000 раз.
- Это верхний теоретический предел, связанный с фундаментальными ограничениями скорости обработки данных.
Но есть ещё 4 ограничения (скрин):
1️⃣ Энергетические ограничения (Power constraints)
- Медианное значение вычислительных мощностей: 2e29 FLOP.
- Рост по сравнению с GPT-4 (2023): в 10 000 раз.
- Ограничение связано с доступностью и эффективностью энергопотребления.
2️⃣ Производственные возможности чипов (Chip production capacity)
- 9e29 FLOP.
- Рост по сравнению с GPT-4: в 50 000 раз.
- Основной фактор — возможность производства необходимого количества чипов.
3️⃣ Дефицит данных (Data scarcity)
- 2e30 FLOP.
- Рост: в 80 000 раз.
- Проблема заключается в нехватке качественных данных для обучения.
4️⃣ Ограничения задержек (Latency wall)
- 3e31 FLOP.
- Рост: в 1 000 000 раз.
- Это верхний теоретический предел, связанный с фундаментальными ограничениями скорости обработки данных.
Потенциал x100,000: К 2030 году возможно обучать модели, в 100 000 раз более мощные, чем GPT-4! Это огромный запас для роста.🔥2🤯1
Алгоритмы AI: Невидимый двигатель революции
Основные тезисы отчёта:
1️⃣ Прогресс искусственного интеллекта — это не только увеличение вычислительных мощностей. Алгоритмы играют огромную, но часто недооцененную роль!
2️⃣ Алгоритмы обучения AI становятся значительно эффективнее. В ключевых областях их производительность возрастает в 10 раз каждые 2–5 лет!
3️⃣ В языковом моделировании прогресс идет еще быстрее — вычислительные затраты сокращаются вдвое каждые 8 месяцев.
4️⃣ Одно из самых перспективных направлений — улучшение моделей после основного обучения (post-training enhancements). Это делает продвинутые технологии доступными даже для тех, у кого ограниченные вычислительные ресурсы.
5️⃣ AI все чаще используется для собственного развития: и в создании новых алгоритмов, и в проектировании чипов.
6️⃣ Современные языковые модели (LLM) уже активно помогают программистам, оптимизируют параметры обучения и даже предлагают новые исследовательские идеи.
7️⃣ Хотя внезапные прорывы в алгоритмах возможны, они редки и непредсказуемы. Даже если технологический скачок произойдет, его внедрение и масштабирование — это долгий процесс, требующий оптимизации и интеграции.
Главный вывод:
Алгоритмические инновации — один из ключевых факторов развития AI наряду с вычислительными мощностями и данными.
Более того, AI учится создавать AI — и это может кардинально ускорить прогресс!
@zikunow
Основные тезисы отчёта:
1️⃣ Прогресс искусственного интеллекта — это не только увеличение вычислительных мощностей. Алгоритмы играют огромную, но часто недооцененную роль!
2️⃣ Алгоритмы обучения AI становятся значительно эффективнее. В ключевых областях их производительность возрастает в 10 раз каждые 2–5 лет!
3️⃣ В языковом моделировании прогресс идет еще быстрее — вычислительные затраты сокращаются вдвое каждые 8 месяцев.
4️⃣ Одно из самых перспективных направлений — улучшение моделей после основного обучения (post-training enhancements). Это делает продвинутые технологии доступными даже для тех, у кого ограниченные вычислительные ресурсы.
5️⃣ AI все чаще используется для собственного развития: и в создании новых алгоритмов, и в проектировании чипов.
6️⃣ Современные языковые модели (LLM) уже активно помогают программистам, оптимизируют параметры обучения и даже предлагают новые исследовательские идеи.
7️⃣ Хотя внезапные прорывы в алгоритмах возможны, они редки и непредсказуемы. Даже если технологический скачок произойдет, его внедрение и масштабирование — это долгий процесс, требующий оптимизации и интеграции.
Главный вывод:
Алгоритмические инновации — один из ключевых факторов развития AI наряду с вычислительными мощностями и данными.
Более того, AI учится создавать AI — и это может кардинально ускорить прогресс!
@zikunow
International AI Safety Report
👍2🔥1
AI vs. Человек: соревнование инженеров по разработке AI
Пожалуй, самое интересное из первой главы отчёта 🙂
В серии экспериментов AI-агенты на основе LLM, выпущенные в 2024 году, показали результаты, сравнимые с командами людей в реальных соревнованиях по разработке AI:
✅ AI превзошёл экспертов-инженеров в выполнении открытых инженерных задач, если на работу отводилось не более двух часов.
☯️ При времени выполнения от 2 до 8 часов AI и инженеры-человеки показывали примерно одинаковые результаты.
❌ Напротив, эксперты-люди демонстрировали лучшие результаты при времени выполнения от восьми часов и более.
========
❗ Задачи инженерной разработки AI занимают значительную часть времени в исследованиях. Поэтому их автоматизация особенно важна.
‼️ С развитием AI общего назначения его влияние на прогресс в области алгоритмов и инженерии потребует дополнительных исследований. Мы всё ещё мало знаем об этом процессе саморазвития.
@zikunow
Пожалуй, самое интересное из первой главы отчёта 🙂
В серии экспериментов AI-агенты на основе LLM, выпущенные в 2024 году, показали результаты, сравнимые с командами людей в реальных соревнованиях по разработке AI:
✅ AI превзошёл экспертов-инженеров в выполнении открытых инженерных задач, если на работу отводилось не более двух часов.
☯️ При времени выполнения от 2 до 8 часов AI и инженеры-человеки показывали примерно одинаковые результаты.
❌ Напротив, эксперты-люди демонстрировали лучшие результаты при времени выполнения от восьми часов и более.
========
❗ Задачи инженерной разработки AI занимают значительную часть времени в исследованиях. Поэтому их автоматизация особенно важна.
‼️ С развитием AI общего назначения его влияние на прогресс в области алгоритмов и инженерии потребует дополнительных исследований. Мы всё ещё мало знаем об этом процессе саморазвития.
@zikunow
🔥2
Интересная градация «доступности» моделей и её аналогии с классическим софтом.
Несмотря на распространённое мнение, модели Llama не являются Open Source
@zikunow
Несмотря на распространённое мнение, модели Llama не являются Open Source
@zikunow
1👍5
GPT-5 решит 50% задач из бенчмарка "Последний экзамен человечества" ⁉️
Сначала написал длинный пост, но потом сократил его до пяти пунктов:
1. Скоро (в течение пары недель или месяца) должны показать GPT-4.5/Orion, которая будет круче 4o.
2. Сейчас DeepResearch работает на основе o3 и набирает 26,6% на бенчмарке HLE — "Последний экзамен человечества". Наверное под капотом o3 токены/цепочки рассуждений генерировала 4o.
3. Скорее всего, скоро мы увидим o4, ну или внутри GPT-5 будет улучшенная reasoning-модель, основанная на GPT-4.5.
4. DeepResearch 2.0 будет работать на o4/reasoning части GPT-5 + workflow самого агента тоже улучшат.
5. Какой процент задач HLE сможет решить DeepResearch 2.0 уже в этом году?
Сначала написал длинный пост, но потом сократил его до пяти пунктов:
1. Скоро (в течение пары недель или месяца) должны показать GPT-4.5/Orion, которая будет круче 4o.
2. Сейчас DeepResearch работает на основе o3 и набирает 26,6% на бенчмарке HLE — "Последний экзамен человечества". Наверное под капотом o3 токены/цепочки рассуждений генерировала 4o.
3. Скорее всего, скоро мы увидим o4, ну или внутри GPT-5 будет улучшенная reasoning-модель, основанная на GPT-4.5.
4. DeepResearch 2.0 будет работать на o4/reasoning части GPT-5 + workflow самого агента тоже улучшат.
5. Какой процент задач HLE сможет решить DeepResearch 2.0 уже в этом году?
🔥1🤔1
Какой процент задач HLE сможет решить DeepResearch 2.0 уже в этом году?
Anonymous Poll
38%
40-50%
28%
50-60%
16%
60-70%
28%
70%+
Обучение DeepSeek-R1-Zero
✅ Взяли базовую модель DeepSeek-V3-Base.
✅ Применили RL (Group Relative Policy Optimization, GRPO).
✅ Никакого SFT не было – модель не обучалась заранее на размеченных данных.
✅ Модель сама писала рассуждения (CoT - Chain-of-Thought) и давала ответы.
✅ Если ответ был верный → модель получала награду (reward).
✅ Если неверный → штраф (penalty).
💡 Ключевая идея:
DeepSeek-R1-Zero – это дообученная версия DeepSeek-V3-Base, но дообученная исключительно с помощью RL (без SFT), причём она сама научилась рассуждать в процессе обучения.
Что это значит?
- V3-Base не имела развитых способностей к рассуждению.
- R1-Zero научилась рассуждать исключительно через Reinforcement Learning (RL).
- Она не видела заранее размеченные CoT-примеры, но сама начала строить логические цепочки в ходе оптимизации наград.
📌 То есть, DeepSeek-R1-Zero – это "V3-Base + RL-обучение под рассуждения", без обучения на готовых CoT.
✅ Взяли базовую модель DeepSeek-V3-Base.
✅ Применили RL (Group Relative Policy Optimization, GRPO).
✅ Никакого SFT не было – модель не обучалась заранее на размеченных данных.
✅ Модель сама писала рассуждения (CoT - Chain-of-Thought) и давала ответы.
✅ Если ответ был верный → модель получала награду (reward).
✅ Если неверный → штраф (penalty).
💡 Ключевая идея:
DeepSeek-R1-Zero – это дообученная версия DeepSeek-V3-Base, но дообученная исключительно с помощью RL (без SFT), причём она сама научилась рассуждать в процессе обучения.
Что это значит?
- V3-Base не имела развитых способностей к рассуждению.
- R1-Zero научилась рассуждать исключительно через Reinforcement Learning (RL).
- Она не видела заранее размеченные CoT-примеры, но сама начала строить логические цепочки в ходе оптимизации наград.
📌 То есть, DeepSeek-R1-Zero – это "V3-Base + RL-обучение под рассуждения", без обучения на готовых CoT.
🔥1
Обучение DeepSeek-R1
✅ Базу взяли из Cold Start, то есть:
- Взяли DeepSeek-V3-Base и дообучили её на тысячах примеров CoT, полученных из R1-Zero.
- Эти данные были приведены к читабельному виду и частично отфильтрованы людьми.
✅ После Cold Start применили тот же RL, что и в R1-Zero.
✅ В конце добавили RLFH (Reinforcement Learning from Human Feedback) → чтобы сделать модель удобной, полезной и безопасной.
📌 Ключевые отличия R1 от R1-Zero:
- R1 получил SFT перед RL (в отличие от R1-Zero, который стартовал с "нуля").
- R1 обучался на CoT-ответах, отфильтрованных из R1-Zero.
- R1 прошёл не только RL, но и RLFH для лучшего соответствия человеческим предпочтениям.
🎯 Что получили в DeepSeek-R1?
🔹 Лучше, чем R1-Zero в плане точности рассуждений.
🔹 Более читаемые и логично структурированные ответы.
🔹 Меньше языкового смешивания (английский/китайский).
🔹 Гораздо выше соответствие человеческим предпочтениям (RLFH помог сделать ответы полезнее и безопаснее).
p.s.: источник картинки
✅ Базу взяли из Cold Start, то есть:
- Взяли DeepSeek-V3-Base и дообучили её на тысячах примеров CoT, полученных из R1-Zero.
- Эти данные были приведены к читабельному виду и частично отфильтрованы людьми.
✅ После Cold Start применили тот же RL, что и в R1-Zero.
✅ В конце добавили RLFH (Reinforcement Learning from Human Feedback) → чтобы сделать модель удобной, полезной и безопасной.
📌 Ключевые отличия R1 от R1-Zero:
- R1 получил SFT перед RL (в отличие от R1-Zero, который стартовал с "нуля").
- R1 обучался на CoT-ответах, отфильтрованных из R1-Zero.
- R1 прошёл не только RL, но и RLFH для лучшего соответствия человеческим предпочтениям.
🎯 Что получили в DeepSeek-R1?
🔹 Лучше, чем R1-Zero в плане точности рассуждений.
🔹 Более читаемые и логично структурированные ответы.
🔹 Меньше языкового смешивания (английский/китайский).
🔹 Гораздо выше соответствие человеческим предпочтениям (RLFH помог сделать ответы полезнее и безопаснее).
p.s.: источник картинки
🔥2👍1
Думаете, AI — это просто чат-боты? Вот на что он действительно способен
🤔 Многие воспринимают искусственный интеллект лишь как инструмент для генерации текста и изображений. Однако AI решает фундаментальные научные задачи и кардинально меняет привычные парадигмы.
За 60 с лишним лет учёные экспериментально определили структуру около 150 000 белков. А DeepMind с AlphaFold2 совершили прорыв: всего за пару лет они предсказали 3D-конформацию 200 миллионов белков! 🤯
Как это работает? 🤖
🔹 Вместо дорогой рентгеновской кристаллографии (стоимость одного эксперимента может достигать десятков тысяч долларов) ИИ анализирует аминокислотные последовательности, учитывая эволюционные изменения белков.
🔹 В основе AlphaFold2 лежит архитектура EVO Former, напоминающая трансформеры. Механизм внимания объединяет эволюционные и геометрические данные, позволяя «собирать» белок, словно пазл.
🔹 Итог — точность предсказаний, сравнимая с экспериментальными методами, и результат, превзошедший порог CASP в 90 баллов!
📌 Что в итоге?
✔️ Расшифровано 200+ миллионов белков — почти все, известные науке!
✔️ Прорывы в разработке лекарств (например, против малярии).
✔️ Создание новых материалов и ферментов, разрушающих пластик и улавливающих парниковые газы.
И это только начало. AlphaFold — яркий пример того, как AI не просто ускоряет исследования, а меняет сам подход к науке. Представьте, что будет, если подобные алгоритмы появятся в физике, энергетике и других областях?
@zikunow
🤔 Многие воспринимают искусственный интеллект лишь как инструмент для генерации текста и изображений. Однако AI решает фундаментальные научные задачи и кардинально меняет привычные парадигмы.
За 60 с лишним лет учёные экспериментально определили структуру около 150 000 белков. А DeepMind с AlphaFold2 совершили прорыв: всего за пару лет они предсказали 3D-конформацию 200 миллионов белков! 🤯
Как это работает? 🤖
🔹 Вместо дорогой рентгеновской кристаллографии (стоимость одного эксперимента может достигать десятков тысяч долларов) ИИ анализирует аминокислотные последовательности, учитывая эволюционные изменения белков.
🔹 В основе AlphaFold2 лежит архитектура EVO Former, напоминающая трансформеры. Механизм внимания объединяет эволюционные и геометрические данные, позволяя «собирать» белок, словно пазл.
🔹 Итог — точность предсказаний, сравнимая с экспериментальными методами, и результат, превзошедший порог CASP в 90 баллов!
📌 Что в итоге?
✔️ Расшифровано 200+ миллионов белков — почти все, известные науке!
✔️ Прорывы в разработке лекарств (например, против малярии).
✔️ Создание новых материалов и ферментов, разрушающих пластик и улавливающих парниковые газы.
И это только начало. AlphaFold — яркий пример того, как AI не просто ускоряет исследования, а меняет сам подход к науке. Представьте, что будет, если подобные алгоритмы появятся в физике, энергетике и других областях?
@zikunow
YouTube
AlphaFold - The Most Useful Thing AI Has Ever Done
The biggest problems in the world might be solved by tiny molecules unlocked using AI. Take your big idea online today with https://ve42.co/hostinger - code VE at checkout.
A huge thank you to John Jumper and Kathryn Tunyasuvunakool at Google Deepmind; and…
A huge thank you to John Jumper and Kathryn Tunyasuvunakool at Google Deepmind; and…
👍4🔥1
🤖 Когда AI начнет улучшать AI
Продолжая мысль из предыдущего поста про AlphaFold…
Что меня действительно поразило:
🔹 Скачок точности между AlphaFold-1 (75%) и AlphaFold-2 (90%).
🔹 Но ни больше данных, ни больше вычислительных ресурсов не были главными причинами улучшения.
🔹 Главное — это улучшенные алгоритмы машинного обучения и новая архитектура!
Теперь представьте, что OpenAI (или кто-то еще) создаст AI-Engineer / AI-Reseacher, который будет разбираться в алгоритмах ML на уровне топ-10 % лучших специалистов среди людей.
А теперь вообразите тысячи, а может, и миллионы таких агентов, которые начнут оптимизировать как себя, так и другие модели, например, AlphaFold-2.
Какой тогда произойдет скачок в развитии?
Вот заживём! 🙃
@zikunow
Продолжая мысль из предыдущего поста про AlphaFold…
Что меня действительно поразило:
🔹 Скачок точности между AlphaFold-1 (75%) и AlphaFold-2 (90%).
🔹 Но ни больше данных, ни больше вычислительных ресурсов не были главными причинами улучшения.
🔹 Главное — это улучшенные алгоритмы машинного обучения и новая архитектура!
Теперь представьте, что OpenAI (или кто-то еще) создаст AI-Engineer / AI-Reseacher, который будет разбираться в алгоритмах ML на уровне топ-10 % лучших специалистов среди людей.
А теперь вообразите тысячи, а может, и миллионы таких агентов, которые начнут оптимизировать как себя, так и другие модели, например, AlphaFold-2.
Какой тогда произойдет скачок в развитии?
Вот заживём! 🙃
@zikunow
👍4💯2
Вчера вышел новый выпуск подкаста Дваркеша Пателя с Сатьей Наделлой (CEO Microsoft). Говорили о будущем ИИ, квантовых компьютеров и планах Microsoft.
Ключевые темы с таймкодами:
🔹 Ключевые игроки в AI
Обсуждение гипермасштабируемых вычислений, роли OpenAI и того, кто будет ключевым игроком в AI-индустрии.
🔹 Влияние на глобальный рынок
Может ли AI разогнать мировой ВВП до 10% в год и как технологии повлияют на глобальный рынок.
🔹 AI меняет работу
Обсуждение снижения стоимости вычислений и того, как это влияет на автоматизацию бизнес-процессов.
🔹 Квантовый прорыв Microsoft
Детали о чипе Majorana, квантовых вычислениях и их потенциале.
🔹 Muse — AI для игр
Новая AI-модель для создания игровых миров.
🔹 AGI и баланс сил
Юридические вопросы регулирования AI, ответственность компаний и государств.
🔹 Будущее человечества с AGI
Безопасность сильного AI и возможные риски.
🔹 34 года в Microsoft
Как компания сохраняет лидерство десятилетиями.
🔹 Верит ли Наделла в AGI?
Обсуждение перспектив создания AI, умнее человека.
Меня заинтересовали три темы, и, пожалуй, я напишу о них подробнее в следующих постах.
Ключевые темы с таймкодами:
🔹 Ключевые игроки в AI
Обсуждение гипермасштабируемых вычислений, роли OpenAI и того, кто будет ключевым игроком в AI-индустрии.
🔹 Влияние на глобальный рынок
Может ли AI разогнать мировой ВВП до 10% в год и как технологии повлияют на глобальный рынок.
🔹 AI меняет работу
Обсуждение снижения стоимости вычислений и того, как это влияет на автоматизацию бизнес-процессов.
🔹 Квантовый прорыв Microsoft
Детали о чипе Majorana, квантовых вычислениях и их потенциале.
🔹 Muse — AI для игр
Новая AI-модель для создания игровых миров.
🔹 AGI и баланс сил
Юридические вопросы регулирования AI, ответственность компаний и государств.
🔹 Будущее человечества с AGI
Безопасность сильного AI и возможные риски.
🔹 34 года в Microsoft
Как компания сохраняет лидерство десятилетиями.
🔹 Верит ли Наделла в AGI?
Обсуждение перспектив создания AI, умнее человека.
Меня заинтересовали три темы, и, пожалуй, я напишу о них подробнее в следующих постах.
YouTube
Satya Nadella — Microsoft’s AGI plan & quantum breakthrough
Satya Nadella on:
* Why he doesn’t believe in AGI but does believe in 10% economic growth,
* Microsoft’s new topological qubit breakthrough and gaming world models,
* Whether Office commoditizes LLMs or the other way around,
𝐄𝐏𝐈𝐒𝐎𝐃𝐄 𝐋𝐈𝐍𝐊𝐒
* Transcript: …
* Why he doesn’t believe in AGI but does believe in 10% economic growth,
* Microsoft’s new topological qubit breakthrough and gaming world models,
* Whether Office commoditizes LLMs or the other way around,
𝐄𝐏𝐈𝐒𝐎𝐃𝐄 𝐋𝐈𝐍𝐊𝐒
* Transcript: …
👍3
Открыл, чтобы потыкать Le Chat (аналог ChatGPT, только от французского Mistral), а потом заметил, что у них ещё есть La Plateforme (аналог Playground от OpenAI) и нашёл там прикольную фичу.
Вы можете создать простого агента всего за 5 кликов:
1. Выбираете нужную модель.
2. Настраиваете "температуру" (контроль случайности).
3. Пишете системный промпт (инструкцию).
4. Можно добавить few-shot prompts (пару примеров), чтобы агент/модель лучше адаптировалась под задачу.
5. Нажимаете кнопку "Deploy" — и ваш первый агент готов! 🥳🥳🥳
Агента можно использовать как через API (см. скрин 3), так и добавить в интерфейс своего Le Chat и использовать там (см. скрин 2). Это чем-то напоминает GPTs, но фишка в том, что здесь можно выбирать модель, чего, кажется, нет в ChatGPT — там всегда по умолчанию стоит GPT-4o.
Доступны разные модели, и сразу же в чате справа (см. скрин 2) можно протестировать, как отвечает агент.
p.s.: Как же круто, когда на рынке много игроков, и каждый старается выделиться, добавляя новые фичи!
Вы можете создать простого агента всего за 5 кликов:
1. Выбираете нужную модель.
2. Настраиваете "температуру" (контроль случайности).
3. Пишете системный промпт (инструкцию).
4. Можно добавить few-shot prompts (пару примеров), чтобы агент/модель лучше адаптировалась под задачу.
5. Нажимаете кнопку "Deploy" — и ваш первый агент готов! 🥳🥳🥳
Агента можно использовать как через API (см. скрин 3), так и добавить в интерфейс своего Le Chat и использовать там (см. скрин 2). Это чем-то напоминает GPTs, но фишка в том, что здесь можно выбирать модель, чего, кажется, нет в ChatGPT — там всегда по умолчанию стоит GPT-4o.
Доступны разные модели, и сразу же в чате справа (см. скрин 2) можно протестировать, как отвечает агент.
p.s.: Как же круто, когда на рынке много игроков, и каждый старается выделиться, добавляя новые фичи!
🔥5