Deep Research от OpenAI
Автоматизация исследования. Наверняка помнишь себя, гуглящую, сидящую на форумах, пересматривающую видео в поисках ответа. Благодаря Deep Research можно делегировать это GPT.
По сути это эволюция медленного мышления (chain-of-thought), которое мы наблюдали в o1 и о3 с тюном (o3 fine-tune) в строну работы с поисковиком и экстракции и обработки найденой информации.
Трансляция началась:
https://youtu.be/jv-lpIsnLOo
Автоматизация исследования. Наверняка помнишь себя, гуглящую, сидящую на форумах, пересматривающую видео в поисках ответа. Благодаря Deep Research можно делегировать это GPT.
По сути это эволюция медленного мышления (chain-of-thought), которое мы наблюдали в o1 и о3 с тюном (o3 fine-tune) в строну работы с поисковиком и экстракции и обработки найденой информации.
Трансляция началась:
https://youtu.be/jv-lpIsnLOo
YouTube
Introduction to Deep Research
Begins at 9am JST / 4pm PT
Join Mark Chen, Josh Tobin, Neel Ajjarapu, and Isa Fulford from Tokyo as they introduce and demo deep research.
Join Mark Chen, Josh Tobin, Neel Ajjarapu, and Isa Fulford from Tokyo as they introduce and demo deep research.
❤21👍7😢1😭1
✳️ Claude 3.7 Sonnet доступна всем!
Anthropic представили Claude 3.7 Sonnet (лучшую на этой неделе) LLM в их линейке, обладающий гибридным режимом рассуждения. Это означает, что модель может выдавать мгновенные ответы или работать в расширенном reasoning-режиме.
🖥 Claude Code – интеллектуальный агент для разработки
Anthropic также представили Claude Code – инструмент для автоматизации программирования прямо из командной строки. Он умеет:
🔹 Анализировать код и редактировать файлы
🔹 Запускать тесты и отлаживать программы
🔹 Автоматически коммитить и пушить изменения в GitHub
🔹 Использовать командную строку для выполнения сложных задач
Результаты раннего тестирования показывают, что Claude Code сокращает время на выполнение сложных задач с 45 минут до одного запроса (прям так и пишут, ок, цитирую).
Но самое крутое то, что модель доступна всем, даже бесплатным пользователям!
💻 Го тестить: https://claude.ai/
Anthropic представили Claude 3.7 Sonnet (лучшую на этой неделе) LLM в их линейке, обладающий гибридным режимом рассуждения. Это означает, что модель может выдавать мгновенные ответы или работать в расширенном reasoning-режиме.
🖥 Claude Code – интеллектуальный агент для разработки
Anthropic также представили Claude Code – инструмент для автоматизации программирования прямо из командной строки. Он умеет:
🔹 Анализировать код и редактировать файлы
🔹 Запускать тесты и отлаживать программы
🔹 Автоматически коммитить и пушить изменения в GitHub
🔹 Использовать командную строку для выполнения сложных задач
Результаты раннего тестирования показывают, что Claude Code сокращает время на выполнение сложных задач с 45 минут до одного запроса (прям так и пишут, ок, цитирую).
Но самое крутое то, что модель доступна всем, даже бесплатным пользователям!
💻 Го тестить: https://claude.ai/
❤31🔥10👍3🦄2
This media is not supported in your browser
VIEW IN TELEGRAM
🤯 Я сейчас не шучу, Дональд Трамп сгенерировал видео и выложил на своей платформе Truth Social. Какая же это дичь..
https://truthsocial.com/@realDonaldTrump/posts/114068387897265338
https://truthsocial.com/@realDonaldTrump/posts/114068387897265338
😁51🙈35🥴15🔥10🤯7👍4🤪2🗿2🌚1👀1
📄 Вышла системная карточка GPT-4.5
https://cdn.openai.com/gpt-4-5-system-card.pdf
Если коротко, лучше 4o, хуже o3-mini
https://cdn.openai.com/gpt-4-5-system-card.pdf
Если коротко, лучше 4o, хуже o3-mini
❤11
Трансляция GPT-4.5
Pro — скоро
Plus юзеры — следующая неделя
Основная мысль: очень много претрейна (на нескольких датацентрах), что дало возможность получить лучшую unsupervised модель, они уже прогнали supervised-fine-tune и rlfh, получив отличные результаты базовой нон-ризонинг модели, и намекнули, что потенциальная новая ризонинг модель на базе GPT-4.5 может быть еще лучше, что логично.
https://www.youtube.com/live/cfRYp0nItZ8?si=QdHB5-bcFJd7KLq3
Pro — скоро
Plus юзеры — следующая неделя
Основная мысль: очень много претрейна (на нескольких датацентрах), что дало возможность получить лучшую unsupervised модель, они уже прогнали supervised-fine-tune и rlfh, получив отличные результаты базовой нон-ризонинг модели, и намекнули, что потенциальная новая ризонинг модель на базе GPT-4.5 может быть еще лучше, что логично.
https://www.youtube.com/live/cfRYp0nItZ8?si=QdHB5-bcFJd7KLq3
YouTube
Introduction to GPT-4.5
Mia Glaese, Rapha Gontijo Lopes, Youlong Cheng, Jason Teplitz, and Alex Paino introduce and demo GPT-4.5.
👍16
🦙 Meta представила Llama 4 — новую линейку MoE-моделей с рекордным качеством и контекстом до 10M токенов
Llama 4 — это эволюция в экосистеме LLM от Meta. Модели построены на архитектуре Mixture-of-Experts (MoE).
Основные модели:
🦅 Llama 4 Scout
— 17B активных параметров, 16 экспертов, 109B total
— Умещается в один NVIDIA H100 (в Int4)
— 10M context length (!), pre/post-trained на 256K
— Лучшая модель в классе для long-context reasoning, codebase QA, multi-doc summarization
— iRoPE: архитектура с interleaved attention без positional embeddings
— Превосходит Gemma 3, Gemini 2.0 Flash-Lite и Mistral 3.1
🚁 Llama 4 Maverick
— 17B активных, 128 экспертов, 400B total
— Бьёт GPT-4o, Gemini 2.0 Flash, близко к DeepSeek v3.1 на reasoning/coding
— ELO 1417 на LMArena (experimental chat version)
— Превосходный trade-off между качеством и затратами
— Построен через codistillation от Behemoth
🐘 Llama 4 Behemoth (preview)
— 288B активных, 16 экспертов, ~2T total
— Лучший performance на STEM-бенчмарках (GPQA Diamond, MATH-500)
— Использован как teacher для Scout и Maverick
— Обновлённая RL-инфраструктура и curriculum RL с динамическим фильтром сложности
🔬 Техдетали:
• Pretraining: 30T+ токенов (в 2× больше, чем у Llama 3), FP8 precision, early fusion мультимодальности (текст+видео+изображения)
• Post-training: новый pipeline → lightweight SFT → online RL → lightweight DPO (обучены на 200+ языках , включая визуальные задачи на 48 изображениях)
🔗 Доступны для скачивания: llama.com и Hugging Face
Llama 4 — это эволюция в экосистеме LLM от Meta. Модели построены на архитектуре Mixture-of-Experts (MoE).
Основные модели:
🦅 Llama 4 Scout
— 17B активных параметров, 16 экспертов, 109B total
— Умещается в один NVIDIA H100 (в Int4)
— 10M context length (!), pre/post-trained на 256K
— Лучшая модель в классе для long-context reasoning, codebase QA, multi-doc summarization
— iRoPE: архитектура с interleaved attention без positional embeddings
— Превосходит Gemma 3, Gemini 2.0 Flash-Lite и Mistral 3.1
🚁 Llama 4 Maverick
— 17B активных, 128 экспертов, 400B total
— Бьёт GPT-4o, Gemini 2.0 Flash, близко к DeepSeek v3.1 на reasoning/coding
— ELO 1417 на LMArena (experimental chat version)
— Превосходный trade-off между качеством и затратами
— Построен через codistillation от Behemoth
🐘 Llama 4 Behemoth (preview)
— 288B активных, 16 экспертов, ~2T total
— Лучший performance на STEM-бенчмарках (GPQA Diamond, MATH-500)
— Использован как teacher для Scout и Maverick
— Обновлённая RL-инфраструктура и curriculum RL с динамическим фильтром сложности
🔬 Техдетали:
• Pretraining: 30T+ токенов (в 2× больше, чем у Llama 3), FP8 precision, early fusion мультимодальности (текст+видео+изображения)
• Post-training: новый pipeline → lightweight SFT → online RL → lightweight DPO (обучены на 200+ языках , включая визуальные задачи на 48 изображениях)
🔗 Доступны для скачивания: llama.com и Hugging Face
🔥35👍8❤7😁1
Стрим: Новые reasoning модели от OpenAI o3 и o4-mini
— добавили возможность работать с изображениями (модель может смотреть на разные части изображения, и обрабатывать их используя утилиты python)
https://www.youtube.com/live/sq8GBPUb3rk?si=yIrS0pSPTko_Y1wo
— добавили возможность работать с изображениями (модель может смотреть на разные части изображения, и обрабатывать их используя утилиты python)
https://www.youtube.com/live/sq8GBPUb3rk?si=yIrS0pSPTko_Y1wo
YouTube
OpenAI o3 & o4-mini
Greg Brockman, Mark Chen, Eric Mitchell, Brandon McKinzie, Wenda Zhou, Fouad Matin, Michael Bolin, and Ananya Kumar introduce and demo OpenAI o3 and o4-mini.
👍15☃1⚡1❤1
😁55🔥3👍1
GPT-5: Основные особенности новой мультимодальной модели от OpenAI [Part I]
0. Модель с гибким уровнем рассуждения — думает столько, сколько требует задача.
1. Уровень PhD практически во всех областях.
2. Лучшая модель для написания кода.
3. Значительно меньше галлюцинаций — примерно в 10 раз меньше заблуждений.
👩🏫 Пользователи с подпиской Pro получат безлимитный доступ к GPT-5. Обычные пользователи после достижения лимита будут переключаться на GPT-5 Mini.
💻 Показали, как модель генерирует визуализацию эффекта Бернулли в реальном времени. По сравнению с тем, как модели кодили еще год назад, очевидно, что reasoning помогает в более точной постановке задач для самой же модели.
🖥 Также модель закодила пример продукта Midnight in Paris — очередной AI-стартап по изучению языков «за пару минут».
Генерация интерфейса, логики, интерактивных элементов, видно что GPT-5 не просто кодит, а достаточно точно понимает цель продукта и типичный интерфейс.
📄 / GPT-5: System Card /
0. Модель с гибким уровнем рассуждения — думает столько, сколько требует задача.
1. Уровень PhD практически во всех областях.
2. Лучшая модель для написания кода.
3. Значительно меньше галлюцинаций — примерно в 10 раз меньше заблуждений.
👩🏫 Пользователи с подпиской Pro получат безлимитный доступ к GPT-5. Обычные пользователи после достижения лимита будут переключаться на GPT-5 Mini.
💻 Показали, как модель генерирует визуализацию эффекта Бернулли в реальном времени. По сравнению с тем, как модели кодили еще год назад, очевидно, что reasoning помогает в более точной постановке задач для самой же модели.
🖥 Также модель закодила пример продукта Midnight in Paris — очередной AI-стартап по изучению языков «за пару минут».
Генерация интерфейса, логики, интерактивных элементов, видно что GPT-5 не просто кодит, а достаточно точно понимает цель продукта и типичный интерфейс.
📄 / GPT-5: System Card /
🔥28👍8❤4🥴2
GPT-5: Основные особенности новой мультимодальной модели от OpenAI [Part II]
🔉 Проапгрейдили голосовой режим. А также увеличили лимиты: бесплатным юзерам до часа, платным — почти безлимит (что это значит — хз)
📩 Интеграция с Google Calendar и Gmail. Позволяет OpenAI работать с расписанием и электронной почтой, типа «Есть ли у меня срочные или непрочитанные письма?»
💊 Фокус на медецинской помощи
Тут я наблюдаю манипуляцию и попытки «онко-маркетинга» — стратегии, играющей на страхе и тревогах клиентов перед раком... с о м н и т е л ь н о
⏳ Как мы поняли из вчерашней утечки в API доступны: GPT-5, GPT-5 mini и GPT-5 nano. Так же можно выбирать режим minimal reasoning (когда нужно побыстрее или/и подешевле). Контекст держит на нормальном уровне не только на 64k токенах, но и на 128k
💻 Модель показывает себя хорошо в анализе больших кодовых баз
📄 / GPT-5: For Developers /
🔉 Проапгрейдили голосовой режим. А также увеличили лимиты: бесплатным юзерам до часа, платным — почти безлимит (что это значит — хз)
📩 Интеграция с Google Calendar и Gmail. Позволяет OpenAI работать с расписанием и электронной почтой, типа «Есть ли у меня срочные или непрочитанные письма?»
💊 Фокус на медецинской помощи
Тут я наблюдаю манипуляцию и попытки «онко-маркетинга» — стратегии, играющей на страхе и тревогах клиентов перед раком... с о м н и т е л ь н о
⏳ Как мы поняли из вчерашней утечки в API доступны: GPT-5, GPT-5 mini и GPT-5 nano. Так же можно выбирать режим minimal reasoning (когда нужно побыстрее или/и подешевле). Контекст держит на нормальном уровне не только на 64k токенах, но и на 128k
💻 Модель показывает себя хорошо в анализе больших кодовых баз
📄 / GPT-5: For Developers /
❤15🥴7
4.9 = x + 4.11
Увы, X = -0.21 ✅
Главное, что GPT5 уверенно добавляет ✅ к ответу
PHD уровень, говорили они
Увы, X = -0.21 ✅
Главное, что GPT5 уверенно добавляет ✅ к ответу
PHD уровень, говорили они
😁42🫡8💯5❤1👍1🥴1