Forwarded from Анализ данных (Data analysis)
🤨 OpenAI заявила о 74.9% на SWE-Bench, чтобы обойти Opus 4.1 с его 74.5%…
Но тест они прогнали не на всех 500 задачах, а только на 477.
Ирония в том, что в официальной system card у них стоит просто 74%.
Источник: https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf
Но тест они прогнали не на всех 500 задачах, а только на 477.
Ирония в том, что в официальной system card у них стоит просто 74%.
Источник: https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf
1⚡2🔥2❤1👀1
Grok4 теперь бесплатный для всех
Илон Маск сделал Grok4 полностью бесплатным для пользователей.
Новая модель показывает прорыв в тестах на рассуждения - первая превысила 10% на бенчмарке ARC-AGI, достигнув 15,9%. В программировании набирает 72-75% на SWE-bench.
Основные фишки:
- архитектура "reasoning-first" вместо традиционных трансформеров
- нативная работа с инструментами в режиме "Grok Heavy"
- доступ к реальным данным из X в реальном времени
- меньше ограничений в ответах по сравнению с конкурентами
Пробуем тут: http://x.com/i/grok
Бесплатный сыр только в мышеловке, но пока что мышеловка выглядит довольно интересно.
До конца месяца обещают 4.5 версию.
#Grok4 #xAI
------
@tsingular
Илон Маск сделал Grok4 полностью бесплатным для пользователей.
Новая модель показывает прорыв в тестах на рассуждения - первая превысила 10% на бенчмарке ARC-AGI, достигнув 15,9%. В программировании набирает 72-75% на SWE-bench.
Основные фишки:
- архитектура "reasoning-first" вместо традиционных трансформеров
- нативная работа с инструментами в режиме "Grok Heavy"
- доступ к реальным данным из X в реальном времени
- меньше ограничений в ответах по сравнению с конкурентами
Пробуем тут: http://x.com/i/grok
Бесплатный сыр только в мышеловке, но пока что мышеловка выглядит довольно интересно.
До конца месяца обещают 4.5 версию.
#Grok4 #xAI
------
@tsingular
🔥25❤6🆒5⚡4
Forwarded from Denis Sexy IT 🤖
Это вот это же имеют ввиду под фразой «Прогресс не остановить?»
Stanford обновил полный курс по языковым моделям с нуля
CS336 от Стэнфорда учит создавать языковые модели от сбора данных до деплоя.
Ведут лекции Перси Лианг (директор CRFM) и Тацунори Хашимото. Курс покрывает трансформеры, обучение на ограниченных датасетах через синтетические данные, этику ИИ и работу с GPU.
Отдельные лекции посвящены параллелизму, оценке моделей через бенчмарки вроде MMLU и Stanford QA Dataset. Студенты проходят путь от теории до практических заданий по построению архитектуры.
Полный плейлист доступен на YouTube с детальным разбором каждого этапа создания языковых моделей.
Актуальная версия на 2025й год.
https://online.stanford.edu/courses/cs336-language-modeling-scratch
#Stanford #CS336 #обучение
------
@tsingular
CS336 от Стэнфорда учит создавать языковые модели от сбора данных до деплоя.
Ведут лекции Перси Лианг (директор CRFM) и Тацунори Хашимото. Курс покрывает трансформеры, обучение на ограниченных датасетах через синтетические данные, этику ИИ и работу с GPU.
Отдельные лекции посвящены параллелизму, оценке моделей через бенчмарки вроде MMLU и Stanford QA Dataset. Студенты проходят путь от теории до практических заданий по построению архитектуры.
Полный плейлист доступен на YouTube с детальным разбором каждого этапа создания языковых моделей.
Актуальная версия на 2025й год.
https://online.stanford.edu/courses/cs336-language-modeling-scratch
#Stanford #CS336 #обучение
------
@tsingular
❤7⚡4👍4🤝2✍1🔥1
Forwarded from Сиолошная
Sama СДУРЕЛ и решил поиграть в Деда Мороза: Plus юзеры теперь получат 3000 запросов к GPT-5-Thinking в неделю! Это кратно больше, чем все reasoning-модели вместе взятые (o3 / o4-mini) в подписке до этого.
GPU для обслуживания пользователей буквально плавятся: Sama сказал, что процент пользователей, получающих ответы от рассуждающих моделей, значительно увеличивается с каждым днем; например, для бесплатных пользователей этот показатель вырос с <1% до 7%, а для Plus-пользователей plus — с 7% до 24%.
То есть:
1) средний бесплатный пользователь всё ещё не знаком с рассуждающими моделями (но их число растёт -> существенно улучшается опыт)
2) до GPT-5 всего 7% Plus'овиков пользовалось рассуждающими моделями (я думал куда больше)
3) а теперь спрос на GPT-5-Thinking подпрыгнул в 3.5 раз и продолжает расти! Это должно существенно улучшить качество ответов для неискушенных пользователей
===
Напоминаю, что чтобы ваш запрос автоматом отправился в GPT-5-Thinking нужно в конце дописать "Think better" или "think for long" или "Подумай хорошенько над ответом". Ну или проще будет включить этот режим по умолчанию в селекторе сверху.
GPU для обслуживания пользователей буквально плавятся: Sama сказал, что процент пользователей, получающих ответы от рассуждающих моделей, значительно увеличивается с каждым днем; например, для бесплатных пользователей этот показатель вырос с <1% до 7%, а для Plus-пользователей plus — с 7% до 24%.
То есть:
1) средний бесплатный пользователь всё ещё не знаком с рассуждающими моделями (но их число растёт -> существенно улучшается опыт)
2) до GPT-5 всего 7% Plus'овиков пользовалось рассуждающими моделями (я думал куда больше)
3) а теперь спрос на GPT-5-Thinking подпрыгнул в 3.5 раз и продолжает расти! Это должно существенно улучшить качество ответов для неискушенных пользователей
===
Напоминаю, что чтобы ваш запрос автоматом отправился в GPT-5-Thinking нужно в конце дописать "Think better" или "think for long" или "Подумай хорошенько над ответом". Ну или проще будет включить этот режим по умолчанию в селекторе сверху.
😁4🔥3⚡2❤1
США берет 15% с продаж чипов Nvidia и AMD в Китай
Администрация Трампа заключила необычную сделку с Nvidia и AMD: компании будут отдавать 15% выручки от продаж ИИ-чипов в Китай американскому правительству.
Соглашение появилось через месяц после разрешения Nvidia продавать чип H20 в Поднебесную. Однако лицензии на фактические продажи до сих пор не выданы.
Главный переговорщик по сделке - CEO Nvidia Дженсен Хуанг, который встречался с Трампом на прошлой неделе в Белом доме. Механизм представляет новый подход к управлению технологическими поставками между странами.
Интересно как договорились
#Nvidia #Trump #Китай
------
@tsingular
Администрация Трампа заключила необычную сделку с Nvidia и AMD: компании будут отдавать 15% выручки от продаж ИИ-чипов в Китай американскому правительству.
Соглашение появилось через месяц после разрешения Nvidia продавать чип H20 в Поднебесную. Однако лицензии на фактические продажи до сих пор не выданы.
Главный переговорщик по сделке - CEO Nvidia Дженсен Хуанг, который встречался с Трампом на прошлой неделе в Белом доме. Механизм представляет новый подход к управлению технологическими поставками между странами.
Интересно как договорились
#Nvidia #Trump #Китай
------
@tsingular
✍4❤3⚡1👍1🔥1
Эти дни идёт интересная конференция - AGI-25
Через 2 часа начинается кейнот и будут разбирать доклады.
Посмотреть можно тут:
https://www.youtube.com/watch?v=XqYTQfQeMrE
#AGI25
———
@tsingular
Через 2 часа начинается кейнот и будут разбирать доклады.
Посмотреть можно тут:
https://www.youtube.com/watch?v=XqYTQfQeMrE
#AGI25
———
@tsingular
👍3✍2
Собираем ReAct-агент на базе LangGraph и GigaChat
Сбер опубликовал детальный гайд по созданию ReAct-агентов с помощью LangGraph на базе GigaChat Max.
ReAct-агенты объединяют пошаговое рассуждение с выполнением задач — непрерывный цикл размышления и действия.
Агенты автономно разбивают сложные задачи на подзадачи и выполняют их итеративно, динамично подключая внешние инструменты по мере необходимости.
LangGraph помогает быстро собрать такие мультиагентные процессы с параллельными ветками исполнения задач в виде графов.
В гайде подробная инструкция по сборке и код с вызовом функций, памятью, поиском в интернете и самооценкой действий.
#ReAct #LangGraph #Сбербанк #Gigachain #habr #агенты
———
@tsingular
Сбер опубликовал детальный гайд по созданию ReAct-агентов с помощью LangGraph на базе GigaChat Max.
ReAct-агенты объединяют пошаговое рассуждение с выполнением задач — непрерывный цикл размышления и действия.
Агенты автономно разбивают сложные задачи на подзадачи и выполняют их итеративно, динамично подключая внешние инструменты по мере необходимости.
LangGraph помогает быстро собрать такие мультиагентные процессы с параллельными ветками исполнения задач в виде графов.
В гайде подробная инструкция по сборке и код с вызовом функций, памятью, поиском в интернете и самооценкой действий.
#ReAct #LangGraph #Сбербанк #Gigachain #habr #агенты
———
@tsingular
⚡5👍4🔥3❤1
Llama.cpp позволил запустить 120B-параметровую MOE модель на 8GB VRAM
Новая опция --cpu-moe в llama.cpp отправляет экспертные слои MOE-архитектуры на процессор (17-25 токенов/сек на 14900K), а слои внимания оставляет на GPU.
Требуется всего 5-8GB VRAM вместо стандартных 22GB для полной модели. Система показала 25+ токенов/сек генерации на RTX 3060Ti с 64GB оперативки.
МOE-архитектура решает главную проблему домашнего AI — нехватку видеопамяти. Routing таблицы и LayerNorm остаются на GPU для быстрого prefill, гигантские MLP-веса перекочёвывают на CPU.
Видеокарточка за 300 долларов тянет модель на 120 миллиардов параметров. Скоро домашние компы будут умнее корпоративных серверов прошлого года.
народ в комментах пишет gpt-oss-120B запустили на 5090 (32GB VRAM) с 192GB DDR5 со скоростью 35 т/с
TLDR: запускаем 120B на 4090
#llamacpp #MOE #VRAM
------
@tsingular
Новая опция --cpu-moe в llama.cpp отправляет экспертные слои MOE-архитектуры на процессор (17-25 токенов/сек на 14900K), а слои внимания оставляет на GPU.
Требуется всего 5-8GB VRAM вместо стандартных 22GB для полной модели. Система показала 25+ токенов/сек генерации на RTX 3060Ti с 64GB оперативки.
МOE-архитектура решает главную проблему домашнего AI — нехватку видеопамяти. Routing таблицы и LayerNorm остаются на GPU для быстрого prefill, гигантские MLP-веса перекочёвывают на CPU.
Видеокарточка за 300 долларов тянет модель на 120 миллиардов параметров. Скоро домашние компы будут умнее корпоративных серверов прошлого года.
народ в комментах пишет gpt-oss-120B запустили на 5090 (32GB VRAM) с 192GB DDR5 со скоростью 35 т/с
TLDR: запускаем 120B на 4090
#llamacpp #MOE #VRAM
------
@tsingular
🔥18👍7
This media is not supported in your browser
VIEW IN TELEGRAM
Google выпустил LangExtract для извлечения данных из текста
Google представил библиотеку LangExtract — инструмент для извлечения структурированных данных из неструктурированного текста через Gemini.
Особенность — точная привязка к источнику. Каждый извлечённый элемент привязывается к конкретному месту в оригинальном тексте с указанием символов. Есть интерактивная визуализация для проверки результатов.
Библиотека работает с документами до 147,843 символов, использует параллельную обработку и поддерживает обучение на примерах. Подходит для медицинских, юридических и литературных документов.
Можно обрабатывать тексты прямо по URL без предварительной подготовки.
Наглядно и удобно вытаскивать смысловые сущности из документов.
Можно использовать для строительства графов.
#Google #LangExtract #Gemini
———
@tsingular
Google представил библиотеку LangExtract — инструмент для извлечения структурированных данных из неструктурированного текста через Gemini.
Особенность — точная привязка к источнику. Каждый извлечённый элемент привязывается к конкретному месту в оригинальном тексте с указанием символов. Есть интерактивная визуализация для проверки результатов.
Библиотека работает с документами до 147,843 символов, использует параллельную обработку и поддерживает обучение на примерах. Подходит для медицинских, юридических и литературных документов.
Можно обрабатывать тексты прямо по URL без предварительной подготовки.
Наглядно и удобно вытаскивать смысловые сущности из документов.
Можно использовать для строительства графов.
#Google #LangExtract #Gemini
———
@tsingular
✍8⚡3🔥2
Forwarded from Анализ данных (Data analysis)
This media is not supported in your browser
VIEW IN TELEGRAM
Что это
• Открытая и настраиваемая reasoning-VLM для физического ИИ и робототехники: модель понимает видео + текст, “думает” по шагам и принимает решения
в реальном мире.
Что умеет
👀 Видеть, рассуждать и действовать в реальном мире
🛠️ Решать многошаговые задачи и справляться с неоднозначными/новыми ситуациями
🤖 Подходит для разработки роботов, автономного транспорта и визуальных ИИ-агентов
Почему важно
• Пост-тюнинг даёт ощутимый буст: SFT ≈ +10% к базе, RL ещё ≈ +5%.
• Итог: средний результат ≈ 65.7 на профильных бенчмарках для роботов и автопилота.
📌 Подробнее
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8
This media is not supported in your browser
VIEW IN TELEGRAM
🐝 BionicBee от Festo: инженеры скопировали пчелиный рой
15 лет разработки биомиметических летательных аппаратов привели к созданию самого маленького автономного робота-пчелы весом всего 34 грамма.
Техническая начинка:
- Размах крыльев 24 см при длине 22 см — меньше чем у дрона DJI Mini
- Частота взмахов 15-20 Гц с углом 180° (как у настоящих пчел)
- 4 степени свободы через 3 сервомотора у основания крыльев
- Генеративный дизайн корпуса — ИИ просчитал оптимальную структуру для минимального веса
Революция в управлении роем:
- UWB-позиционирование через 8 меток в помещении — точность до сантиметра
- Каждая пчела самостоятельно вычисляет свою позицию по времени распространения сигнала
- Автокалибровка компенсирует производственные различия между роботами
- Центральный компьютер координирует траектории с учетом аэродинамических помех
Главный прорыв — впервые удалось создать рой из 10 роботов, летающих автономно без столкновений в замкнутом пространстве.
✔️ Черное Зеркало Сезон 3, Эпизод 6
#Festo #BionicBee #пчёлы #рой
———
@tsingular
15 лет разработки биомиметических летательных аппаратов привели к созданию самого маленького автономного робота-пчелы весом всего 34 грамма.
Техническая начинка:
- Размах крыльев 24 см при длине 22 см — меньше чем у дрона DJI Mini
- Частота взмахов 15-20 Гц с углом 180° (как у настоящих пчел)
- 4 степени свободы через 3 сервомотора у основания крыльев
- Генеративный дизайн корпуса — ИИ просчитал оптимальную структуру для минимального веса
Революция в управлении роем:
- UWB-позиционирование через 8 меток в помещении — точность до сантиметра
- Каждая пчела самостоятельно вычисляет свою позицию по времени распространения сигнала
- Автокалибровка компенсирует производственные различия между роботами
- Центральный компьютер координирует траектории с учетом аэродинамических помех
Главный прорыв — впервые удалось создать рой из 10 роботов, летающих автономно без столкновений в замкнутом пространстве.
#Festo #BionicBee #пчёлы #рой
———
@tsingular
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20👾4❤3
Forwarded from Анализ данных (Data analysis)
Многие замечали, что Mistral Small 3.2 пишет очень похоже на DeepSeek V3.
Анализ их slop-профилей это подтверждает.
Визуализация в виде сети, а не «древа родства», лучше передаёт сложные и переплетённые связи между моделями.
Полный абсурд.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁9
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Метачка только что сделала ИИ, который знает, что будет делать ваш мозг еще до того, как вы нажмете кнопку воспроизведения видео, и для этого ему не нужно проводить ни одного сканирования мозга.
Они выпустили модель TRIBE, нейронную сеть с 1B параметров, которая предсказывает реакцию человеческого мозга на фильмы, анализируя видео, аудио и текст.
TRIBE анализирует видео, аудио и диалоги из фильмов, точно предсказывая, какие зоны мозга зрителя активизируются без какого-либо сканирования мозга.
После тренировки на испытуемых, просмотревших 80 часов телепередач и фильмов, искусственный интеллект правильно предсказал более половины моделей мозговой активности в 1000 областях мозга.
Лучше всего он работает в областях мозга, где сливаются зрение, звук и язык, превосходя на 30 % модели с одним чувством.
Система Meta также показала особую точность в лобных областях мозга, которые контролируют внимание, принятие решений и эмоциональную реакцию на контент.
В перспективе такая разработка предлагает новые формулы для максимизации внимания на нейронном уровне, что потенциально может сделать думскроллинг еще более аддиктивным.
Ещё раз, на входе видео. На выходе информация какие зоны мозга возбуждаются.
И да, мультимодальность воздействует сильнее.
https://github.com/facebookresearch/algonauts-2025
https://arxiv.org/abs/2507.22229
Контент, от которого нельзя оторваться. Писал об этом в фб лет 12 назад.
@cgevent
Они выпустили модель TRIBE, нейронную сеть с 1B параметров, которая предсказывает реакцию человеческого мозга на фильмы, анализируя видео, аудио и текст.
TRIBE анализирует видео, аудио и диалоги из фильмов, точно предсказывая, какие зоны мозга зрителя активизируются без какого-либо сканирования мозга.
После тренировки на испытуемых, просмотревших 80 часов телепередач и фильмов, искусственный интеллект правильно предсказал более половины моделей мозговой активности в 1000 областях мозга.
Лучше всего он работает в областях мозга, где сливаются зрение, звук и язык, превосходя на 30 % модели с одним чувством.
Система Meta также показала особую точность в лобных областях мозга, которые контролируют внимание, принятие решений и эмоциональную реакцию на контент.
В перспективе такая разработка предлагает новые формулы для максимизации внимания на нейронном уровне, что потенциально может сделать думскроллинг еще более аддиктивным.
Ещё раз, на входе видео. На выходе информация какие зоны мозга возбуждаются.
И да, мультимодальность воздействует сильнее.
https://github.com/facebookresearch/algonauts-2025
https://arxiv.org/abs/2507.22229
Контент, от которого нельзя оторваться. Писал об этом в фб лет 12 назад.
@cgevent
👍7
Media is too big
VIEW IN TELEGRAM
🔍 Manus Wide Research — параллельное исследование сотен объектов одновременно
Manus теперь работает как коллектив исследователей.
Техническая суть:
- Один промпт → сотни агентов работают параллельно
- Автоматическая декомпозиция сложных задач на подзадачи
- Одновременная обработка множественных запросов
Доступно для Plus пользователей. Basic на очереди.
TLDR: Суперисследователь теперь запускается одним тыком.
#Manus #WideResearch
———
@tsingular
Manus теперь работает как коллектив исследователей.
Техническая суть:
- Один промпт → сотни агентов работают параллельно
- Автоматическая декомпозиция сложных задач на подзадачи
- Одновременная обработка множественных запросов
Доступно для Plus пользователей. Basic на очереди.
TLDR: Суперисследователь теперь запускается одним тыком.
#Manus #WideResearch
———
@tsingular
🔥6❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Perplexity добавил генерацию видео
Perplexity запустил функцию создания видео через Veo3.
Для подписчиков плана Max - Veo3 high quality.
Для Pro и Enterprise - Veo3 fast.
Выбрать модель нельзя, но можно перегенерить результат.
Все видео по 8 секунд со звуком и в формате 16:9
Можно генерить видео из картинок.
#Perplexity #video #generation
———
@tsingular
Perplexity запустил функцию создания видео через Veo3.
Для подписчиков плана Max - Veo3 high quality.
Для Pro и Enterprise - Veo3 fast.
Выбрать модель нельзя, но можно перегенерить результат.
Все видео по 8 секунд со звуком и в формате 16:9
Можно генерить видео из картинок.
#Perplexity #video #generation
———
@tsingular
🔥4👍3❤1