Технозаметки Малышева

0:32

Дружелюбный ассистент ... говорили они.
Домашний безопасный помощник... говорили они.

#роботы #безопасность #REK
------
@tsingular

2.7K viewsedited 05:15

🚀 Cerebras WSE-3: революция в скорости AI благодаря полной загрузке модели в SRAM

Тут LLama4 в API режиме запустили с лютой скоростью.
Хочется особый акцент сделать на том, как и на базе чего это сделано:

Cerebras совершил настоящий технологический прорыв с архитектурой Wafer Scale Engine 3, которая позволяет в тысячи раз ускорить инференс и вычисления ИИ!

⚡️ Ключевая техническая фишка: полная загрузка модели в SRAM

На картинке:
• NVIDIA H100 использует HBM память с пропускной способностью всего 3 ТБ/с
• Cerebras WSE-3 хранит ВСЮ модель в SRAM памяти чипа с пропускной способностью 21 ПБ/с

Это даёт в 7000 раз больше пропускной способности памяти! Именно из-за этого становится возможной беспрецедентная скорость инференса.

📊 Технические характеристики:
• 900,000 AI-оптимизированных ядер — в 123 раза больше, чем у конкурентов
• 44 ГБ встроенной SRAM — в 1000 раз больше встроенной памяти
• 21 ПБ/с пропускная способность памяти — в 12,800 раз выше
• 214 ПБ/с пропускная способность межсоединений — в 45,000 раз выше

🔥 Практический результат: молниеносная генерация токенов
Cerebras объявили о партнёрстве для запуска Llama API с беспрецедентной скоростью:
• 2500+ токенов в секунду — в 70 раз быстрее ведущих GPU
• 2000+ токенов в секунду для Llama 4 Scout — в 30 раз быстрее закрытых моделей ChatGPT и Anthropic

💼 Что нам это даст в ближайшем будущем:
• Мгновенные агенты: цепочки рассуждений без задержек
• Генерация кода в реальном времени: целые функции и страницы одним запросом
• Рассуждения менее чем за 1 секунду: вместо минут ожидания

🏭 Масштаб развёртывания
Cerebras строит 6 новых дата-центров d США и Европе с тысячами систем CS-3, которые будут обрабатывать 40+ миллионов токенов в секунду к концу 2025 года.

Такая архитектурная инновация — это не просто улучшение, а полное переосмысление инфраструктуры AI.

Когда вся модель находится в быстрой памяти чипа, это устраняет бутылочное горло пропускной способности между памятью и вычислительными ядрами, что делает возможным качественный скачок в скорости рыботы всех ИИ систем.

Как и было сказано - проектируя ИИ решения, не опирайтесь на текущие возможности. Опирайтесь на полезность, которую ваши системы будут приносить людям, а техника подтянется.

Некоторые крупные компании только согласуют обоснования для бюджетирования проектов на 2026, а ИИ железо и системы тем временем за 2025й эволюционируют в х1000 раз.
Все планы морально устареют еще до их согласования.

#cerebras #chip #hardware
———
@tsingular

2.1K views06:35

1:28

Media is too big

Пока ещё все это выглядит медленно (там скорость видео местами х10, - т.е роботы двигаются еле еле)

Но, в принципе, уже вполне себе прототипы заботливых кальмаров из Матрицы, которые будут ухаживать за человечеством в капсулах киберсна.

#robots
———
@tsingular

1.4K views07:03

🛡 Meta представила новые инструменты для безопасности ИИ: LlamaFirewall и другие защитные решения

Meta* выпустила целый арсенал открытых инструментов для защиты ИИ-систем от различных типов атак.
Самое ценное тут — системный подход к безопасности агентов ИИ и открытость технологий для разработчиков.

LlamaFirewall: новая система защиты для ИИ-агентов
Система спроектирована как многоуровневая защита для предотвращения:
• Прямых атак на промпты (prompt injection)
• Непрямых манипуляций с целями агентов (goal hijacking)
• Рисков небезопасного кода
• Злонамеренного кода через инъекции промптов

Llama Guard 4: мультимодальная защита:
Мультимодальный классификатор с 12 млрд параметров — защищает как текст, так и изображения
Поддерживает классификацию при работе с несколькими изображениями
Создан на базе Llama 4 Scout и стандартизированной таксономии рисков MLCommons

PromptGuard 2
• Легковесные классификаторы (86M и 22M параметров) для определения прямых атак на промпты
• Работает в реальном времени благодаря BERT-архитектуре
• Обнаруживает до 97.5% атак при всего 1% ложных срабатываний
• 22M версия работает в 5 раз быстрее с минимальной потерей эффективности
• Показывает результаты более качественные, чем существующие открытые аналоги

AlignmentCheck
• Экспериментальный аудитор рассуждений, который инспектирует chain-of-thought агентов
• Обнаруживает отклонения от изначальной цели пользователя
• Перехватывает скрытые манипуляции, которые не улавливаются статическими фильтрами
• Показывает 80%+ точность обнаружения скомпрометированных целей

CodeShield
• Статический анализатор кода, генерируемого ИИ
• Поддерживает 8 языков программирования
• Покрывает более 50 типов уязвимостей (CWE)
• Архитектура с двумя уровнями проверки

CyberSec Eval 4: комплексный набор бенчмарков для оценки безопасности ЛЛМ:

AutoPatchBench — для оценки способности ИИ автоматически исправлять уязвимости в нативном коде до их эксплуатации
CyberSOCEval — разработан совместно с CrowdStrike для измерения эффективности ИИ в центрах управления безопасностью (SOC)
Оценивает не только риски, но и защитные возможности ИИ в реальных сценариях:
• Распознавание сложной вредоносной активности в системных логах
• Анализ инцидентов безопасности
• Обработка данных из отчетов разведки угроз

Другие важные компоненты:
Automated Sensitive Doc Classification Tool — автоматически применяет метки безопасности к внутренним документам организации
Llama Generated Audio Detector & Watermark Detector — выявляет ИИ-генерированный контент для предотвращения мошенничества
Партнерская программа Llama Defenders — объединяет партнеров (ZenDesk, Bell Canada, AT&T и др.) для интеграции защитных механизмов в их системы

Практическое применение:
• Для стартапов: защита автономных агентов без необходимости создавать собственные механизмы безопасности
• Для предприятий: снижение рисков при развертывании ИИ-инструментов в критичных средах
• Для разработчиков: создание более безопасных приложений с ИИ за счет интеграции готовых компонентов

Одно из главных преимуществ — система полностью открыта и доступна на GitHub.

Система уже используется в производственной среде Meta и помогает защитить их собственные ИИ-приложения.

(*Meta - запрещённая в РФ террористическая организация)

#Meta #LlamaFirewall #безопасность #PromptGuard #CodeShield #CybersecEval
———
@tsingular

1.5K views07:39

Forwarded from Data Secrets

0:38

Anthropic анонсировали Интеграции: теперь к Claude можно присоединить любой источник ваших данных

Это работает так: вы присоединяете какое-то свое приложение (ну, например, базу знаний Confluence), и с этого момента во время поиска бот будет искать не только в Интернете, но и по вашей интеграции.

При этом, конечно, можно попросить поискать только в базе знаний, задать по ней любой вопрос, выгрузить оттуда код и поработать с ним и прочее и прочее и прочее, любые действия с этим контекстом.

По сути это верифицированные MCP внутри чат-бота. Сейчас в партнерах уже Atlassian, GitLab, Asana, PayPal, CloudFlare и еще с десяток сервисов. Их можно подсоединить в пару кликов. Если нужного вам сервиса среди них нет, то можно и свой добавить, но потребуется чуть больше времени и сил.

www.anthropic.com/news/integrations

1.7K views08:17

Please open Telegram to view this post

VIEW IN TELEGRAM

2.6K viewsedited 09:58

0:19

Китай отрабатывает штурм с лучшим другом человека в паре.

"Редчайшая Электронная Совершенная Собака И так далее" в реале.

#Рэсси #Китай
------
@tsingular

8.2K views15:48

0:07

Короче, по вчерашнему видео с роботом напавшем на сотрудников.

Не знаю зачем, но я их нашел :)

Это не Unitree. Это не Китай.

Это стартап в Калифорнии - Robot Embodied Kombat, который создаёт Шоу Битвы Роботов

https://rek.tv/
https://x.com/RobotKombat

И это реально они тренируют роботов нападать и сражаться, но в рамках шоу, конечно.

#REK #robots
———
@tsingular

4.5K viewsedited 04:54

Тут HuggingFace прокачали ZeroGPU

Теперь за $9 в месяц вы можете использовать Nvidia H200 с 70 гигами VRAM в рамках подписки, без дополнительных расходов.

Это вообще невероятная щедрость какая-то.
(работает только с Gradio средой)

На ZeroGPU уже собраны тысячи пространств.
Вот примеры:
https://huggingface.co/spaces/black-forest-labs/FLUX.1-dev

https://huggingface.co/spaces/tencent/Hunyuan3D-2

https://huggingface.co/spaces/theseanlavery/TRELLIS-3D

https://huggingface.co/spaces/radames/Real-Time-Text-to-Image-SDXL-Lightning

#HuggingFace #ZeroGPU #Spaces
———
@tsingular

3.2K viewsedited 05:03

Невероятно полезный пример по генерации синтетики от Unsloth и Meta*.

Что делает система:
• Извлечение документов - парсит PDF, HTML, CSV
• Чанкинг и разбивка - делит длинные документы на управляемые части с учетом объема
• Генерация QA-пар - создает вопросы и ответы
• Автоматическая очистка данных - отфильтровывает низкокачественные примеры
• LoRA-обучение - дообучает модель с минимальными ресурсами (4-bit квантизация в примере)

Технический стек:
• synthetic-data-kit для автоматической генерации пар вопросов и ответов (от Meta* как раз)
• Unsloth для файнтюнинга
• VLLM в качестве бэкенда
• FastLanguageModel с оптимизированным LoRA (16 rank, использует только 23% GPU памяти на T4)

Практические кейсы:
• Обучение модели пониманию узкоспециализированных документов (например, новых исследований)
• Создание чатботов экспертов в конкретной предметной области
• Быстрый переход от сырых данных к готовой модели без ручной разметки QA-пар

Результаты из примера (там прям готовых блокнот для запуска. можно себе скопировать и под себя подстроить):
• Обучено на 3х чанках из статьи "Byte Latent Transformer"
• 35 QA-пар сгенерировано автоматически
• 1.83 минуты обучения на Tesla T4
• Модель корректно отвечает на вопросы о темпоральном патчинге байтов

Поддерживает все популярные модели (Llama 3.2, Gemma 3, Qwen 3) и экспорт в GGUF для деплоя.

(*Meta - запрещённая в РФ террористическая организация)

#Unsloth #finetuning #GoogleColab
———
@tsingular

2.4K viewsedited 05:30

Интересно, когда MCP заработает на L4

#OSI #MCP
———
@tsingular

1.6K views05:36

🚀 Наткнулся на полезный фрейм - Transformer Lab — многофункциональную "песочницу" для экспериментов с LLM!

Главное о проекте:
• 100% Open Source с GUI для работы с LLM
• Все этапы ML-жизненного цикла под одной крышей: скачивание, обучение, файнтюнинг, общение
• Работает на вашем железе — никаких облачных зависимостей

Чем круто:
✨ Один клик для загрузки топовых моделей: DeepSeek, Llama3, Qwen, Phi4, Gemma, Mistral
✨ Кроссплатформенность: Windows/Mac/Linux
✨ Гибкий инференс: MLX для Apple Silicon, HuggingFace, vLLM, Llama CPP
✨ RLHF и preference optimization: DPO, ORPO, SIMPO, Reward Modeling (для тех, кто любит потюнить модель под себя)
✨ Полноценный REST API для автоматизации

👨‍💻 Встроенный Monaco Code Editor позволяет писать свои плагины и видеть, что происходит под капотом.

Практика:
• Стартапы могут файнтюнить модели под свою специфику без ML-команды
• Исследователи получают полигон для экспериментов с различными подходами к обучению
• RAG-энтузиасты найдут здесь drag-and-drop интерфейс для работы с документами
• DevOps'ы оценят возможность раздельного деплоя UI и inference engine

Поддержка от Mozilla через Mozilla Builders Program.

Интересная альтернатива LMStudio, при этом с бОльшим набором полезностей для разработчиков.

#TransformerLab #OpenSource #frameworks
———
@tsingular

2.1K views06:00

Извините :)
Ну раз выходной, - мемы.
Добавляйте свои в комментарии, что прикольного накопилось по теме.

#мемы #юмор
———
@tsingular

2.5K viewsedited 07:15

Forwarded from Анализ данных (Data analysis)

🧩 The Ultimate LLM Benchmark Collection

Подборка живых бенчмарков, которые стоит открывать при каждом релизе новой модели — и тех, на которые можно больше не тратить время.

🌐 Общие (multi‑skill) лидерборды
SimpleBench — https://simple-bench.com/index.html

SOLO‑Bench — https://github.com/jd-3d/SOLOBench

AidanBench — https://aidanbench.com

SEAL by Scale (MultiChallenge) — https://scale.com/leaderboard

LMArena (Style Control) — https://beta.lmarena.ai/leaderboard

LiveBench — https://livebench.ai

ARC‑AGI — https://arcprize.org/leaderboard

Thematic Generalization (Lech Mazur) — https://github.com/lechmazur/generalization

дополнительные бенчмарки Lech Mazur:

Elimination Game — https://github.com/lechmazur/elimination_game

Confabulations — https://github.com/lechmazur/confabulations

EQBench (Longform Writing) — https://eqbench.com

Fiction‑Live Bench — https://fiction.live/stories/Fiction-liveBench-Mar-25-2025/oQdzQvKHw8JyXbN87

MC‑Bench (сортировать по win‑rate) — https://mcbench.ai/leaderboard

TrackingAI – IQ Bench — https://trackingai.org/home

Dubesor LLM Board — https://dubesor.de/benchtable.html

Balrog‑AI — https://balrogai.com

Misguided Attention — https://github.com/cpldcpu/MisguidedAttention

Snake‑Bench — https://snakebench.com

SmolAgents LLM (из‑за GAIA & SimpleQA) — https://huggingface.co/spaces/smolagents/smolagents-leaderboard

Context‑Arena (MRCR, Graphwalks) — https://contextarena.ai

OpenCompass — https://rank.opencompass.org.cn/home

HHEM (Hallucination) — https://huggingface.co/spaces/vectara/leaderboard

🛠️ Coding / Math / Agentic
Aider‑Polyglot‑Coding — https://aider.chat/docs/leaderboards/

BigCodeBench — https://bigcode-bench.github.io

WebDev‑Arena — https://web.lmarena.ai/leaderboard

WeirdML — https://htihle.github.io/weirdml.html

Symflower Coding Eval v1.0 — https://symflower.com/en/company/blog/2025/dev-quality-eval-v1.0-anthropic-s-claude-3.7-sonnet-is-the-king-with-help-and-deepseek-r1-disappoints/

PHYBench — https://phybench-official.github.io/phybench-demo/

MathArena — https://matharena.ai

Galileo Agent Leaderboard — https://huggingface.co/spaces/galileo-ai/agent-leaderboard

XLANG Agent Arena — https://arena.xlang.ai/leaderboard

🚀 Для отслеживания AI take‑off
METR Long‑Task Benchmarks (вкл. RE Bench) — https://metr.org

PaperBench — https://openai.com/index/paperbench/

SWE‑Lancer — https://openai.com/index/swe-lancer/

MLE‑Bench — https://github.com/openai/mle-bench

SWE‑Bench — https://swebench.com

🏆 Обязательный «классический» набор
GPQA‑Diamond — https://github.com/idavidrein/gpqa

SimpleQA — https://openai.com/index/introducing-simpleqa/

Tau‑Bench — https://github.com/sierra-research/tau-bench

SciCode — https://github.com/scicode-bench/SciCode

MMMU — https://mmmu-benchmark.github.io/#leaderboard

Humanities Last Exam (HLE) — https://github.com/centerforaisafety/hle

🔍 Классические бенчмарков

Simple‑Evals — https://github.com/openai/simple-evals

Vellum AI Leaderboard — https://vellum.ai/llm-leaderboard

Artificial Analysis — https://artificialanalysis.ai

⚠️ «Перегретые» метрики, на которые можно не смотреть
MMLU, HumanEval, BBH, DROP, MGSM

Большинство чисто‑математических датасетов: GSM8K, MATH, AIME, ...

Модели близки к верхним значениям на них и в них нет особого смысла.

1.2K views09:16

Станислава Лема если кто не читал,- рекомендую.

Вот, например, в свое время в Компьютерре читал главами :)
Сумма технологии (1964)

#futurology #Станислав #Лем
———
@tsingular

5.4K viewsedited 15:25

Amazon Q в GitHub: ИИ-разработка через тикеты — Cursor всё?

Интересное обновление вышло для Amazon Q Developer, - он теперь интегрирован в GitHub (пока в режиме preview), что позволяет делегировать целые фичи ИИ-агенту напрямую через тикеты — без необходимости подключения AWS-аккаунта и среды разработки.

Как это устроено:
• Устанавливаете приложение Amazon Q Developer в GitHub — выбираете, к каким репозиториям дать доступ
• Создаёте тикет с чётким описанием требуемой функциональности
• Добавляете метку "Amazon Q development agent" — и ИИ начинает кодить
• В результате получаете готовый pull request с реализацией и даже автоматическим code review

Кейс из примера:
Amazon Q Developer справляется с созданием проекта "с нуля": от генерации скелета приложения (.NET 9 ASP.Core в примере) до сложных бэкенд-фронтенд взаимодействий.

Причём в представленном кейсе ИИ даже реализовал интеграцию с Amazon Bedrock и Claude для генерации контента на основе пользовательских изображений отдельно предупредив о недостатке в системе авторизации. Т.е. ещё и на безопасность проверил.

Если код требует доработки — процесс итеративный: оставляете комментарии в pullrequest, и ИИ вносит необходимые изменения.
Например, добавление паттернов в .gitignore для вашей любимой IDE или переход с Invoke API на Converse API.

Бонус: трансформация кода
Отдельно доступна функция миграции Java-кода: сейчас можно обновлять с Java 8/11 до Java 17 через специальный "Amazon Q transform agent". В будущем добавят больше версий для автомиграции.

Amazon Q Developer — превращается в "разработчика по ТЗ", о котором мечтали десятилетиями.

Осталось только научиться формулировать ТЗ, а то ведь, обычно, его разработчик сам и пишет в реале. 😏

#AmazonQ #GitHub #dev
———
@tsingular

1.4K viewsedited 04:42

Graphiti: революция темпоральных графов знаний для AI-агентов

Graphiti — фреймворк для построения и запросов к темпоральным графам знаний, специально созданный для AI-агентов, работающих в динамических средах.

В отличие от традиционных методов RAG, Graphiti непрерывно интегрирует пользовательские взаимодействия, структурированные и неструктурированные корпоративные данные в целостный, запрашиваемый граф.

Ключевые преимущества:
• Инкрементальные обновления в реальном времени: интеграция новых данных без пакетного пересчета
• Би-темпоральная модель данных: точное отслеживание времени событий и времени загрузки
• Эффективный гибридный поиск: сочетает семантические вложения, ключевые слова (BM25) и обход графа
• Настраиваемые определения сущностей: через простые Pydantic-модели
• Масштабируемость: эффективное управление большими наборами данных с параллельной обработкой

Практическое применение:
• Интеграция и поддержание динамических пользовательских взаимодействий и бизнес-данных
• Облегчение рассуждений на основе состояния и автоматизации задач для агентов
• Запрос сложных, развивающихся данных с помощью семантического, ключевого и графового поиска

Graphiti лучше всего работает с LLM-сервисами, поддерживающими структурированный вывод (например, OpenAI и Gemini). Использование других сервисов может привести к некорректным схемам вывода и сбоям при загрузке, особенно при использовании небольших моделей.

Сравнение с GraphRAG:
Graphiti специально разработан для решения проблем динамических и часто обновляемых наборов данных:
• Обработка данных: Непрерывные обновления vs Пакетная обработка
• Структура знаний: Эпизодические данные и семантические сущности vs Кластеры сущностей
• Метод поиска: Гибридный семантический и графовый поиск vs Последовательное LLM-суммирование
• Временная обработка: Явное би-темпоральное отслеживание vs Базовое отслеживание временных меток
• Скорость исполнения запросов: Обычно менее секунды vs Секунды или десятки секунд

Детальнее как это работает на практике можно почитать в статье:
"Zep: A Temporal Knowledge Graph Architecture for Agent Memory".

Проект активно развивается, поддерживает различные LLM-провайдеры и имеет MCP-сервер, позволяющий AI-ассистентам взаимодействовать с возможностями графа знаний через протокол MCP. Также доступен REST API-сервис на FastAPI для взаимодействия с Graphiti API.

#Graphiti #KnowledgeGraphs #RAG
———
@tsingular

1.0K views04:56