Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
В Le Chat закинули фич
Самое интересное — завезли Deep Research. Он явно не самый лучший, но за счёт партнёрства Cerebras и Mistral явно самый быстрый на рынке. Развивается и партнёрство с Black Forest Labs — теперь в Le Chat есть редактирование изображений на основе FLUX Kontext.
Более чем спустя год после Anthropic добавили возможность организовывать чаты в проекты. Ещё добавили голосовой режим на основе Voxtral (к сожалению работает через TTS) и многоязычный ризонинг — наконец-то Magistral в чём-то лучше конкурентов. В целом у Le Chat теперь паритет по фичам с конкурентами, хотелось бы и паритета по моделям.
@ai_newz
Самое интересное — завезли Deep Research. Он явно не самый лучший, но за счёт партнёрства Cerebras и Mistral явно самый быстрый на рынке. Развивается и партнёрство с Black Forest Labs — теперь в Le Chat есть редактирование изображений на основе FLUX Kontext.
Более чем спустя год после Anthropic добавили возможность организовывать чаты в проекты. Ещё добавили голосовой режим на основе Voxtral (к сожалению работает через TTS) и многоязычный ризонинг — наконец-то Magistral в чём-то лучше конкурентов. В целом у Le Chat теперь паритет по фичам с конкурентами, хотелось бы и паритета по моделям.
@ai_newz
⚡2🍾2
Anthropic может получить оценку в $100 миллиардов благодаря Claude Code
Инвесторы готовы почти удвоить оценку Anthropic с $58 до $100 миллиардов. Главный драйвер — Claude Code, который за полгода принёс $200 миллионов годового дохода, а еженедельные загрузки выросли в шесть раз до 3 миллионов.
Интересная экономика: прямые продажи дают 60% маржи, но через AWS и Google Cloud компания теряет 30%. Поэтому 70% выручки идёт напрямую.
Cursor, использующий модели Anthropic, при этом заработал $500 миллионов за тот же период.
Два разработчика даже перешли из Антропика в Cursor, но потом, всего через пару недель, вернулись обратно.
#Anthropic #Claude #Valuation
------
@tsingular
Инвесторы готовы почти удвоить оценку Anthropic с $58 до $100 миллиардов. Главный драйвер — Claude Code, который за полгода принёс $200 миллионов годового дохода, а еженедельные загрузки выросли в шесть раз до 3 миллионов.
Интересная экономика: прямые продажи дают 60% маржи, но через AWS и Google Cloud компания теряет 30%. Поэтому 70% выручки идёт напрямую.
Cursor, использующий модели Anthropic, при этом заработал $500 миллионов за тот же период.
Два разработчика даже перешли из Антропика в Cursor, но потом, всего через пару недель, вернулись обратно.
#Anthropic #Claude #Valuation
------
@tsingular
⚡3
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
ChatGPT Agent — Deep Research и Operator теперь одно целое
Внутри теперь единая модель которая может пользоваться всеми тулами: текстовый и визуальный браузеры, терминал, прямой API доступ и коннекторы (Gmail, GitHub, etc.) — всё, что раньше жило раздельно в Operator и Deep Research, собрано в одном режиме. Агент теперь умеет заниматься и офисными задачами: генерировать редактируемые презентации и таблицы, обновлять их данными и подтягивать файлы (Docs/Slides/PowerPoint/Sheets) из подключённых облаков.
Обновлённая модель достигает 41.6% на Humanity's Last Exam, что немного ниже чем у Grok 4 Heavy, но сильно выше чем у изначального Deep Research режима. Запустив 8 параллельных прогонов и взяв лучший по самооценке, OpenAI смогли улучшить результат до 44.4%, то есть ровно до уровня Grok 4 Heavy.
Важная фича — агент сможет теперь спрашивать уточнения задачи во время её выполнения, но и вы теперь сможете прерывать агента и давать дополнительные указания если он делает что-то не то. Завершённые задачи можно ставить на расписание (еженедельные отчёты, брифы перед созвонами) — агент будет повторять их автоматически.
Довольно много внимания уделили фичам для безопасности: подтверждение перед необратимыми действиями, Watch Mode для чувствительных задач (вроде финансов), плюс проактивные меры против prompt‑injection. Ну и конечно можно вмешаться и остановить задачу в любой момент. Пока что safety фичи работают очень агрессивно, но количество false positives обещают постепенно уменьшать.
Доступ начнут давать уже сегодня Pro, Plus и Team подписчикам. Все Pro подписчики получат доступ сегодня, остальным придётся подождать до пары дней. Pro подписчики получат 400 сообщений в месяц, Plus и Team — 40. Кредиты можно будет дополнительно докупать, цену не сказали.
@ai_newz
Внутри теперь единая модель которая может пользоваться всеми тулами: текстовый и визуальный браузеры, терминал, прямой API доступ и коннекторы (Gmail, GitHub, etc.) — всё, что раньше жило раздельно в Operator и Deep Research, собрано в одном режиме. Агент теперь умеет заниматься и офисными задачами: генерировать редактируемые презентации и таблицы, обновлять их данными и подтягивать файлы (Docs/Slides/PowerPoint/Sheets) из подключённых облаков.
Обновлённая модель достигает 41.6% на Humanity's Last Exam, что немного ниже чем у Grok 4 Heavy, но сильно выше чем у изначального Deep Research режима. Запустив 8 параллельных прогонов и взяв лучший по самооценке, OpenAI смогли улучшить результат до 44.4%, то есть ровно до уровня Grok 4 Heavy.
Важная фича — агент сможет теперь спрашивать уточнения задачи во время её выполнения, но и вы теперь сможете прерывать агента и давать дополнительные указания если он делает что-то не то. Завершённые задачи можно ставить на расписание (еженедельные отчёты, брифы перед созвонами) — агент будет повторять их автоматически.
Довольно много внимания уделили фичам для безопасности: подтверждение перед необратимыми действиями, Watch Mode для чувствительных задач (вроде финансов), плюс проактивные меры против prompt‑injection. Ну и конечно можно вмешаться и остановить задачу в любой момент. Пока что safety фичи работают очень агрессивно, но количество false positives обещают постепенно уменьшать.
Доступ начнут давать уже сегодня Pro, Plus и Team подписчикам. Все Pro подписчики получат доступ сегодня, остальным придётся подождать до пары дней. Pro подписчики получат 400 сообщений в месяц, Plus и Team — 40. Кредиты можно будет дополнительно докупать, цену не сказали.
@ai_newz
🔥2🎉2
Amazon запустил S3 Vectors — векторную базу данных в облаке
AWS представил S3 Vectors — специализированные бакеты для хранения и поиска векторных эмбеддингов. Теперь можно создавать семантический поиск прямо в S3 без дополнительных решений.
Основные возможности:
- Векторные индексы до 4096 измерений
- Интеграция с Amazon Bedrock для генерации эмбеддингов
- Поддержка Cosine и Euclidean метрик расстояния
- Прямая интеграция с Knowledge Bases для RAG-пайплайнов
Правда после создания индекса нельзя изменить его параметры — размерность, метрику расстояния и ключи метаданных.
Так что планировать нужно загодя.
Сервис уже доступен в preview-версии и может серьезно упростить архитектуру RAG-систем.
Мануал на 3000 страниц в комментарии.
#AWS #Vectors #RAG
———
@tsingular
AWS представил S3 Vectors — специализированные бакеты для хранения и поиска векторных эмбеддингов. Теперь можно создавать семантический поиск прямо в S3 без дополнительных решений.
Основные возможности:
- Векторные индексы до 4096 измерений
- Интеграция с Amazon Bedrock для генерации эмбеддингов
- Поддержка Cosine и Euclidean метрик расстояния
- Прямая интеграция с Knowledge Bases для RAG-пайплайнов
Правда после создания индекса нельзя изменить его параметры — размерность, метрику расстояния и ключи метаданных.
Так что планировать нужно загодя.
Сервис уже доступен в preview-версии и может серьезно упростить архитектуру RAG-систем.
Мануал на 3000 страниц в комментарии.
#AWS #Vectors #RAG
———
@tsingular
🔥3⚡2❤1
Blaxel привлек $7,3 млн на создание «AWS для ИИ-агентов»
Стартап из Сан-Франциско строит облачную инфраструктуру специально для ИИ-агентов. Команда из шести основателей уже обрабатывает миллионы запросов агентов ежедневно в 16 регионах мира.
Основная идея: традиционные облачные провайдеры создавались для эпохи SaaS, но ИИ-агенты требуют совершенно другого подхода. Агенты могут подключаться к языковым моделям в одном регионе, API в другом облаке, а базы знаний где-то еще.
Blaxel предлагает виртуальные машины, которые загружаются за 25 миллисекунд, автоматическое масштабирование и API, созданные для потребления ИИ-системами, а не разработчиками.
Компания планирует повторить путь AWS — начать со стартапов и перейти к корпоративным клиентам.
blaxel.ai
Выглядит достаточно перспективно.
При том у них еще и интересная подборка opensource рядом.
Не знаю уж выложат ли саму платформу, но тулы для MCP могут быть полезны.
#Blaxel #Agents #Cloud
------
@tsingular
Стартап из Сан-Франциско строит облачную инфраструктуру специально для ИИ-агентов. Команда из шести основателей уже обрабатывает миллионы запросов агентов ежедневно в 16 регионах мира.
Основная идея: традиционные облачные провайдеры создавались для эпохи SaaS, но ИИ-агенты требуют совершенно другого подхода. Агенты могут подключаться к языковым моделям в одном регионе, API в другом облаке, а базы знаний где-то еще.
Blaxel предлагает виртуальные машины, которые загружаются за 25 миллисекунд, автоматическое масштабирование и API, созданные для потребления ИИ-системами, а не разработчиками.
Компания планирует повторить путь AWS — начать со стартапов и перейти к корпоративным клиентам.
blaxel.ai
Выглядит достаточно перспективно.
При том у них еще и интересная подборка opensource рядом.
Не знаю уж выложат ли саму платформу, но тулы для MCP могут быть полезны.
#Blaxel #Agents #Cloud
------
@tsingular
🔥6👍3🤨1
LG выпустила EXAONE 4.0 - гибридную модель с режимами мышления
Корейская LG AI Research представила EXAONE 4.0 - модель, которая совмещает быстрые ответы и глубокое рассуждение в одной системе. Доступны версии 32B и 1.2B параметров.
Ключевая особенность - переключение между режимами: обычный для быстрых задач и reasoning для сложных вычислений. Модель поддерживает контекст до 128K токенов и работает с инструментами как агент.
По бенчмаркам 32B версия превосходит Qwen3 235B в математике и программировании, оставаясь конкурентоспособной с frontier-моделями. Добавлена поддержка испанского языка наряду с английским и корейским.
Модель использует гибридное внимание (3:1 локальное к глобальному) для эффективной работы с длинными контекстами.
Paper
#EXAONE #LG
------
@tsingular
Корейская LG AI Research представила EXAONE 4.0 - модель, которая совмещает быстрые ответы и глубокое рассуждение в одной системе. Доступны версии 32B и 1.2B параметров.
Ключевая особенность - переключение между режимами: обычный для быстрых задач и reasoning для сложных вычислений. Модель поддерживает контекст до 128K токенов и работает с инструментами как агент.
По бенчмаркам 32B версия превосходит Qwen3 235B в математике и программировании, оставаясь конкурентоспособной с frontier-моделями. Добавлена поддержка испанского языка наряду с английским и корейским.
Модель использует гибридное внимание (3:1 локальное к глобальному) для эффективной работы с длинными контекстами.
Paper
#EXAONE #LG
------
@tsingular
❤1⚡1👍1🎉1
Forwarded from Анализ данных (Data analysis)
📊 ManusAI теперь умеет визуализировать данные красиво и без боли
Загружаете сырые данные → описываете, что хотите увидеть → выбираете тип графика → Manus сам всё строит.
Мы вот так выяснили, что среди трёх видов пингвинов — Адели, Антарктических и Генту — самые пухлые и длинноластые оказались именно генту. 🐧
Подходит идеально для:
— дашбордов и презентаций
— отчётов для коллег и инвесторов
— исследовательского анализа без кода
🎨 Приятный интерфейс, поддержка CSV, markdown-выгрузка и PDF. И всё это — бесплатно.
Попробовать: https://manus.ai
@data_analysis_ml
#manus
Загружаете сырые данные → описываете, что хотите увидеть → выбираете тип графика → Manus сам всё строит.
Мы вот так выяснили, что среди трёх видов пингвинов — Адели, Антарктических и Генту — самые пухлые и длинноластые оказались именно генту. 🐧
Подходит идеально для:
— дашбордов и презентаций
— отчётов для коллег и инвесторов
— исследовательского анализа без кода
🎨 Приятный интерфейс, поддержка CSV, markdown-выгрузка и PDF. И всё это — бесплатно.
Попробовать: https://manus.ai
@data_analysis_ml
#manus
👍15⚡2🔥1
Delta использует ИИ для определения максимальной цены, которую готов заплатить каждый пассажир
Авиакомпания Delta открыто заявила о переходе на персонализированное ценообразование через ИИ. Президент компании объяснил: "У нас будет цена на рейс, доступная именно вам как индивидууму".
Сейчас ИИ влияет на 3% цен билетов, к концу года планируют увеличить до 20%. Технологию разрабатывает Fetcherr — та же компания работает с Virgin Atlantic и другими перевозчиками.
Сенатор Рубен Гальего назвал это "хищническим ценообразованием", а защитники прав потребителей говорят, что авиакомпания пытается "взломать наши мозги". Delta уже откатывала решение о повышенных тарифах для одиночных путешественников после критики.
ИИ работает как "супер-аналитик" 24/7, определяя индивидуальные цены в реальном времени для каждого конкретного рейса.
#Delta #pricing
------
@tsingular
Авиакомпания Delta открыто заявила о переходе на персонализированное ценообразование через ИИ. Президент компании объяснил: "У нас будет цена на рейс, доступная именно вам как индивидууму".
Сейчас ИИ влияет на 3% цен билетов, к концу года планируют увеличить до 20%. Технологию разрабатывает Fetcherr — та же компания работает с Virgin Atlantic и другими перевозчиками.
Сенатор Рубен Гальего назвал это "хищническим ценообразованием", а защитники прав потребителей говорят, что авиакомпания пытается "взломать наши мозги". Delta уже откатывала решение о повышенных тарифах для одиночных путешественников после критики.
ИИ работает как "супер-аналитик" 24/7, определяя индивидуальные цены в реальном времени для каждого конкретного рейса.
#Delta #pricing
------
@tsingular
🔥6🤔6😐2⚡1😁1👀1
This media is not supported in your browser
VIEW IN TELEGRAM
VoltAgent — TypeScript фреймворк для создания ИИ-агентов
Новый open-source фреймворк решает главную проблему разработки ИИ-агентов — сложность интеграции с LLM и управления состоянием. Вместо месяцев плясок с API, VoltAgent предлагает готовые модули для создания всего: от чат-ботов до сложных мультиагентных систем.
Запуск проекта занимает секунды через create-voltagent-app. Включает движок для воркфлоу и платформу мониторинга VoltOps с наблюдением за агентами в реальном времени.
Фреймворк находит баланс между готовыми решениями и гибкостью кастомизации. Поддерживает автоматизацию процессов, виртуальных помощников и системы поддержки клиентов.
#TypeScript #VoltAgent #Agents
------
@tsingular
Новый open-source фреймворк решает главную проблему разработки ИИ-агентов — сложность интеграции с LLM и управления состоянием. Вместо месяцев плясок с API, VoltAgent предлагает готовые модули для создания всего: от чат-ботов до сложных мультиагентных систем.
Запуск проекта занимает секунды через create-voltagent-app. Включает движок для воркфлоу и платформу мониторинга VoltOps с наблюдением за агентами в реальном времени.
Фреймворк находит баланс между готовыми решениями и гибкостью кастомизации. Поддерживает автоматизацию процессов, виртуальных помощников и системы поддержки клиентов.
#TypeScript #VoltAgent #Agents
------
@tsingular
🔥9❤1
Forwarded from LLM под капотом
График точности всех RAG экспериментов из ERCv2
Напомню, что в ERCr2 43 разные команды ставили эксперименты по построению RAG систем, которые смогут дать наиболее точные ответы на 100 вопросов по 100 PDF (публичные отчеты компаний). Некоторые вопросы требовали сравнительной работы с разными PDF.
Всего было поставлено 134 эксперимента с разными моделями и архитектурами. На этой таблицы они все отображены.
- R - это точность работы Retrieval алгоритма (системы должны были подтверждать свои ответы ссылками на страница)
- G - это точность финального ответа, на основе ground truth данных
- Зеленая линия - линия, где у систем качество Retrieval совпадает с качеством Generation.
Архитектуры, которые выше этой линии - доставали много ненужных страниц (или пропускали нужные), но как-то получали правильный ответ.
Те, кто был ниже - находили правильные данные, но путались с генерацией ответа.
Самые лучшие RAG системы (по итоговому качеству ответов) - "сгрудились" рядом с этой зеленой линией - строго под ней. Получается логический вывод - качество финального ответа обычно зависит от качества заполнения контекста.
А в какой части этого графика оказались ваши эксперименты?
Ваш, @llm_under_hood 🤗
PS: Исходную таблицу можно увидеть на странице ERC. Там же есть ссылки на все доступные исходные данные соревнования, включая алгоритм оценки результатов и описания архитектур.
Напомню, что в ERCr2 43 разные команды ставили эксперименты по построению RAG систем, которые смогут дать наиболее точные ответы на 100 вопросов по 100 PDF (публичные отчеты компаний). Некоторые вопросы требовали сравнительной работы с разными PDF.
Всего было поставлено 134 эксперимента с разными моделями и архитектурами. На этой таблицы они все отображены.
- R - это точность работы Retrieval алгоритма (системы должны были подтверждать свои ответы ссылками на страница)
- G - это точность финального ответа, на основе ground truth данных
- Зеленая линия - линия, где у систем качество Retrieval совпадает с качеством Generation.
Архитектуры, которые выше этой линии - доставали много ненужных страниц (или пропускали нужные), но как-то получали правильный ответ.
Те, кто был ниже - находили правильные данные, но путались с генерацией ответа.
Самые лучшие RAG системы (по итоговому качеству ответов) - "сгрудились" рядом с этой зеленой линией - строго под ней. Получается логический вывод - качество финального ответа обычно зависит от качества заполнения контекста.
А в какой части этого графика оказались ваши эксперименты?
Ваш, @llm_under_hood 🤗
PS: Исходную таблицу можно увидеть на странице ERC. Там же есть ссылки на все доступные исходные данные соревнования, включая алгоритм оценки результатов и описания архитектур.
✍6❤2⚡2🆒2
Большое сравнение архитектур LLM 2025
Себастьян Рашка провел детальный анализ архитектур современных языковых моделей. Оказывается, за семь лет с момента создания GPT кардинальных изменений не произошло.
Главные тренды 2025: DeepSeek-V3 использует Multi-Head Latent Attention вместо популярного Grouped-Query Attention - это дает лучшую производительность при снижении использования памяти на 70%. Mixture-of-Experts стала мейнстримом - из 671 млрд параметров DeepSeek активны только 37 млрд.
Gemma 3 делает ставку на sliding window attention, OLMo 2 экспериментирует с размещением нормализации, а SmolLM3 вообще отказывается от позиционных кодировок.
Интересно, что Kimi 2 с триллионом параметров использует ту же архитектуру DeepSeek, только больше экспертов.
Интересная коллекция разборов разных типов моделей.
Пригодится для понимания в целом как они работают.
#LLM #обучений #MoE
------
@tsingular
Себастьян Рашка провел детальный анализ архитектур современных языковых моделей. Оказывается, за семь лет с момента создания GPT кардинальных изменений не произошло.
Главные тренды 2025: DeepSeek-V3 использует Multi-Head Latent Attention вместо популярного Grouped-Query Attention - это дает лучшую производительность при снижении использования памяти на 70%. Mixture-of-Experts стала мейнстримом - из 671 млрд параметров DeepSeek активны только 37 млрд.
Gemma 3 делает ставку на sliding window attention, OLMo 2 экспериментирует с размещением нормализации, а SmolLM3 вообще отказывается от позиционных кодировок.
Интересно, что Kimi 2 с триллионом параметров использует ту же архитектуру DeepSeek, только больше экспертов.
Интересная коллекция разборов разных типов моделей.
Пригодится для понимания в целом как они работают.
#LLM #обучений #MoE
------
@tsingular
👍7✍2⚡1
This media is not supported in your browser
VIEW IN TELEGRAM
Harbor: локальная LLM-экосистема одной командой
Новый инструмент автоматизирует развертывание полноценного ИИ-стека на локальной машине. Одной командой запускает Ollama, Open WebUI, поисковик SearXNG и десятки других сервисов.
Включает 12 фронтендов от ComfyUI до LibreChat, 16 бэкендов включая vLLM и TabbyAPI, плюс 47 дополнительных сервисов вроде Dify и n8n для workflow-автоматизации.
Особенность — модульная архитектура на Docker-контейнерах с автоматической настройкой интеграций. Например, WebUI автоматически подключается к SearXNG для веб-поиска. Есть встроенный туннелинг для доступа через интернет.
По сути, превращает сборку локального ИИ-стека из недельного мучения в пятиминутное дело.
Такой комбайн комбайнов.
#Harbor #LocalLLM #DevTools
------
@tsingular
Новый инструмент автоматизирует развертывание полноценного ИИ-стека на локальной машине. Одной командой запускает Ollama, Open WebUI, поисковик SearXNG и десятки других сервисов.
Включает 12 фронтендов от ComfyUI до LibreChat, 16 бэкендов включая vLLM и TabbyAPI, плюс 47 дополнительных сервисов вроде Dify и n8n для workflow-автоматизации.
Особенность — модульная архитектура на Docker-контейнерах с автоматической настройкой интеграций. Например, WebUI автоматически подключается к SearXNG для веб-поиска. Есть встроенный туннелинг для доступа через интернет.
По сути, превращает сборку локального ИИ-стека из недельного мучения в пятиминутное дело.
Такой комбайн комбайнов.
#Harbor #LocalLLM #DevTools
------
@tsingular
👍15🔥4❤🔥1⚡1
может у него просто в детстве видеокарты не было?
К концу года OpenAI планирует пересечь отметку в 1млн видеокарт, но Альтман пишет чтобы команда готовилась управлять инфраструктурой х100 раз большей.
Как вам 100млн видеокарт?
Это на 200 гигаватт получается?
На фоне того, что они только что подписали контракт с минобороны не ХХ ярдов и с учетом того, кто сидит в совете директоров, похоже на интересный инсайд.
#openai #gpu
———
@tsingular
К концу года OpenAI планирует пересечь отметку в 1млн видеокарт, но Альтман пишет чтобы команда готовилась управлять инфраструктурой х100 раз большей.
Как вам 100млн видеокарт?
Это на 200 гигаватт получается?
На фоне того, что они только что подписали контракт с минобороны не ХХ ярдов и с учетом того, кто сидит в совете директоров, похоже на интересный инсайд.
#openai #gpu
———
@tsingular
🔥9😁3⚡2
Так.. тут фундаментальная мысль. Запишем:
Если ASI - это ИИ умнее всех людей вместе взятых, значит, исходя из определения, - люди не способны будут его контролировать.
Т.е. можно сказать, что базовый тест на ASI - ИИ должен подчинить себе всех людей.
Подчинить, - не значит уничтожить, но управлять с гарантированным для ИИ результатом в 100% случаев.
#ASI #futurology
———
@tsingular
Если ASI - это ИИ умнее всех людей вместе взятых, значит, исходя из определения, - люди не способны будут его контролировать.
Т.е. можно сказать, что базовый тест на ASI - ИИ должен подчинить себе всех людей.
Подчинить, - не значит уничтожить, но управлять с гарантированным для ИИ результатом в 100% случаев.
#ASI #futurology
———
@tsingular
👾5✍3🔥3👍2🤯1💯1👻1🎃1
🧠 Mixture-of-Recursions: Адаптивная "глубина мысли" для каждого токена
Исследователи из KAIST и Google создали архитектуру, которая динамически выделяет вычислительные ресурсы на уровне отдельных токенов — MoR (Mixture-of-Recursions).
Суть прорыва:
Вместо прогона всех токенов через фиксированное количество слоёв, модель сама решает, сколько "рекурсивных проходов" нужно каждому токену. Простые слова проходят быстро, сложные — получают дополнительные циклы обработки.
Техническая начинка:
- Адаптивный роутинг — лёгкий маршрутизатор назначает каждому токену количество рекурсий (1-4 прохода)
- Разделение параметров — один блок слоёв переиспользуется многократно (экономия памяти на 50%)
- Умное KV-кеширование — кеш ключей-значений только для активных токенов на каждой глубине
- Continuous depth-wise batching — пропускная способность выше на 2x за счёт параллельной обработки
Практический результат:
- Модель 360M параметров превосходит базовую при втрое меньшем количестве уникальных параметров
- Скорость обработки до 2.06x выше классических Трансформеров
- Обучение эффективнее: больше токенов в том же FLOP-бюджете
Применение:
Идеально для edge-deployment и случаев, где нужен баланс между качеством и скоростью. Семантически важные токены получают больше вычислений автоматически.
Архитектура показала масштабируемость до 1.7B параметров.
Следующий шаг — интеграция с reasoning-задачами для chain-of-thought оптимизации.
Вот для чего нужны миллионы видеокарт - обработка рекурсий.
Полный отчет в комментарии.
#MoR #efficiency #transformers #KAIST
———
@tsingular
Исследователи из KAIST и Google создали архитектуру, которая динамически выделяет вычислительные ресурсы на уровне отдельных токенов — MoR (Mixture-of-Recursions).
Суть прорыва:
Вместо прогона всех токенов через фиксированное количество слоёв, модель сама решает, сколько "рекурсивных проходов" нужно каждому токену. Простые слова проходят быстро, сложные — получают дополнительные циклы обработки.
Техническая начинка:
- Адаптивный роутинг — лёгкий маршрутизатор назначает каждому токену количество рекурсий (1-4 прохода)
- Разделение параметров — один блок слоёв переиспользуется многократно (экономия памяти на 50%)
- Умное KV-кеширование — кеш ключей-значений только для активных токенов на каждой глубине
- Continuous depth-wise batching — пропускная способность выше на 2x за счёт параллельной обработки
Практический результат:
- Модель 360M параметров превосходит базовую при втрое меньшем количестве уникальных параметров
- Скорость обработки до 2.06x выше классических Трансформеров
- Обучение эффективнее: больше токенов в том же FLOP-бюджете
Применение:
Идеально для edge-deployment и случаев, где нужен баланс между качеством и скоростью. Семантически важные токены получают больше вычислений автоматически.
Архитектура показала масштабируемость до 1.7B параметров.
Следующий шаг — интеграция с reasoning-задачами для chain-of-thought оптимизации.
Вот для чего нужны миллионы видеокарт - обработка рекурсий.
Полный отчет в комментарии.
#MoR #efficiency #transformers #KAIST
———
@tsingular
✍3⚡1
А давайте запишем у кого какие результаты скорости работы LLM по железу
Предлагаю сюда собирать
Если кто хочет в редакторы отправляйте запрос на доступ на редактирование в гугле указав свой gmail в строке запроса.
LM Studio сама показывает, а в ollama можно так вызывать:
ollama run gemma3:27b-it-qat —verbose напиши поэму о лете
в итогах будет такого плана результат:
total duration: 15.525598053s
load duration: 43.678042ms
prompt eval count: 32 token(s)
prompt eval duration: 204.741435ms
prompt eval rate: 156.29 tokens/s
eval count: 619 token(s)
eval duration: 15.27660691s
eval rate: 40.52 tokens/s
#benchmarks #inference #LLM #hardware #бенчмарки
———
@tsingular
Предлагаю сюда собирать
Если кто хочет в редакторы отправляйте запрос на доступ на редактирование в гугле указав свой gmail в строке запроса.
LM Studio сама показывает, а в ollama можно так вызывать:
ollama run gemma3:27b-it-qat —verbose напиши поэму о лете
в итогах будет такого плана результат:
total duration: 15.525598053s
load duration: 43.678042ms
prompt eval count: 32 token(s)
prompt eval duration: 204.741435ms
prompt eval rate: 156.29 tokens/s
eval count: 619 token(s)
eval duration: 15.27660691s
eval rate: 40.52 tokens/s
#benchmarks #inference #LLM #hardware #бенчмарки
———
@tsingular
✍3
https://status.anthropic.com/
Антропик штормит. Астрологи объявили сутки не работающих ботов.
#anthropic #claude
———
@tsingular
Антропик штормит. Астрологи объявили сутки не работающих ботов.
#anthropic #claude
———
@tsingular
😁4👏1
Forwarded from Лаборатория ИИ
This media is not supported in your browser
VIEW IN TELEGRAM
Появилась Infinite Wiki: каждое слово — ссылка, описание генерируется ИИ за секунду. Всё работает на Gemini 2.5 Flash Lite, даже с ASCII-диаграммами.
Новый способ смотреть на знания — быстро, интерактивно, по-новому.
➕ @ai_rostov
Новый способ смотреть на знания — быстро, интерактивно, по-новому.
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡8👍6✍3