Visa готовится раздать кредитки AI-агентам
Visa планирует позволить искусственным интеллектуальным агентам совершать покупки от имени пользователей.
Компания разрабатывает технологию делегирования платежных полномочий AI-ассистентам.
Механизм предусматривает выдачу временных учетных данных для осуществления транзакций.
Внедрение потребует создания надежных систем защиты от мошенничества и непреднамеренных трат.
Скоро ваш холодильник будет заказывать молоко, а AI-ассистент оплачивать.
Осталось только научить их зарабатывать :)
#Visa #AIpayments #automation
------
@tsingular
Visa планирует позволить искусственным интеллектуальным агентам совершать покупки от имени пользователей.
Компания разрабатывает технологию делегирования платежных полномочий AI-ассистентам.
Механизм предусматривает выдачу временных учетных данных для осуществления транзакций.
Внедрение потребует создания надежных систем защиты от мошенничества и непреднамеренных трат.
Скоро ваш холодильник будет заказывать молоко, а AI-ассистент оплачивать.
Осталось только научить их зарабатывать :)
#Visa #AIpayments #automation
------
@tsingular
Forwarded from Анализ данных (Data analysis)
🚨 Microsoft представила Phi-4 Reasoning — ризониг модель на 14B параметров для сложных задач!
📐 Phi-4 Reasoning — это версия Phi-4, дообученная для математики, науки и программирования. Несмотря на относительно компактный размер (14B параметров), она конкурирует с более крупными моделями, вроде DeepSeek-R1 и OpenAI o3-mini, на бенчмарках вроде AIME 2025 и OmniMath.
🔍 Ключевые моменты:
• 14B параметров
• версия Phi-4-Reasoning-Plus дообучена с Reinforcement Learning
• превосходит DeepSeek-R1-Distill-Llama-70B
• почти догоняет оригинальную DeepSeek-R1 (70B) по качеству
https://huggingface.co/collections/unsloth/phi-4-all-versions-677eecf93784e61afe762afa
@data_analysis_ml
📐 Phi-4 Reasoning — это версия Phi-4, дообученная для математики, науки и программирования. Несмотря на относительно компактный размер (14B параметров), она конкурирует с более крупными моделями, вроде DeepSeek-R1 и OpenAI o3-mini, на бенчмарках вроде AIME 2025 и OmniMath.
🔍 Ключевые моменты:
• 14B параметров
• версия Phi-4-Reasoning-Plus дообучена с Reinforcement Learning
• превосходит DeepSeek-R1-Distill-Llama-70B
• почти догоняет оригинальную DeepSeek-R1 (70B) по качеству
https://huggingface.co/collections/unsloth/phi-4-all-versions-677eecf93784e61afe762afa
@data_analysis_ml
This media is not supported in your browser
VIEW IN TELEGRAM
Дружелюбный ассистент ... говорили они.
Домашний безопасный помощник... говорили они.
#роботы #безопасность #REK
------
@tsingular
Домашний безопасный помощник... говорили они.
#роботы #безопасность #REK
------
@tsingular
🚀 Cerebras WSE-3: революция в скорости AI благодаря полной загрузке модели в SRAM
Тут LLama4 в API режиме запустили с лютой скоростью.
Хочется особый акцент сделать на том, как и на базе чего это сделано:
Cerebras совершил настоящий технологический прорыв с архитектурой Wafer Scale Engine 3, которая позволяет в тысячи раз ускорить инференс и вычисления ИИ!
⚡️ Ключевая техническая фишка: полная загрузка модели в SRAM
На картинке:
• NVIDIA H100 использует HBM память с пропускной способностью всего 3 ТБ/с
• Cerebras WSE-3 хранит ВСЮ модель в SRAM памяти чипа с пропускной способностью 21 ПБ/с
Это даёт в 7000 раз больше пропускной способности памяти! Именно из-за этого становится возможной беспрецедентная скорость инференса.
📊 Технические характеристики:
• 900,000 AI-оптимизированных ядер — в 123 раза больше, чем у конкурентов
• 44 ГБ встроенной SRAM — в 1000 раз больше встроенной памяти
• 21 ПБ/с пропускная способность памяти — в 12,800 раз выше
• 214 ПБ/с пропускная способность межсоединений — в 45,000 раз выше
🔥 Практический результат: молниеносная генерация токенов
Cerebras объявили о партнёрстве для запуска Llama API с беспрецедентной скоростью:
• 2500+ токенов в секунду — в 70 раз быстрее ведущих GPU
• 2000+ токенов в секунду для Llama 4 Scout — в 30 раз быстрее закрытых моделей ChatGPT и Anthropic
💼 Что нам это даст в ближайшем будущем:
• Мгновенные агенты: цепочки рассуждений без задержек
• Генерация кода в реальном времени: целые функции и страницы одним запросом
• Рассуждения менее чем за 1 секунду: вместо минут ожидания
🏭 Масштаб развёртывания
Cerebras строит 6 новых дата-центров d США и Европе с тысячами систем CS-3, которые будут обрабатывать 40+ миллионов токенов в секунду к концу 2025 года.
Такая архитектурная инновация — это не просто улучшение, а полное переосмысление инфраструктуры AI.
Когда вся модель находится в быстрой памяти чипа, это устраняет бутылочное горло пропускной способности между памятью и вычислительными ядрами, что делает возможным качественный скачок в скорости рыботы всех ИИ систем.
Как и было сказано - проектируя ИИ решения, не опирайтесь на текущие возможности. Опирайтесь на полезность, которую ваши системы будут приносить людям, а техника подтянется.
Некоторые крупные компании только согласуют обоснования для бюджетирования проектов на 2026, а ИИ железо и системы тем временем за 2025й эволюционируют в х1000 раз.
Все планы морально устареют еще до их согласования.
#cerebras #chip #hardware
———
@tsingular
Тут LLama4 в API режиме запустили с лютой скоростью.
Хочется особый акцент сделать на том, как и на базе чего это сделано:
Cerebras совершил настоящий технологический прорыв с архитектурой Wafer Scale Engine 3, которая позволяет в тысячи раз ускорить инференс и вычисления ИИ!
⚡️ Ключевая техническая фишка: полная загрузка модели в SRAM
На картинке:
• NVIDIA H100 использует HBM память с пропускной способностью всего 3 ТБ/с
• Cerebras WSE-3 хранит ВСЮ модель в SRAM памяти чипа с пропускной способностью 21 ПБ/с
Это даёт в 7000 раз больше пропускной способности памяти! Именно из-за этого становится возможной беспрецедентная скорость инференса.
📊 Технические характеристики:
• 900,000 AI-оптимизированных ядер — в 123 раза больше, чем у конкурентов
• 44 ГБ встроенной SRAM — в 1000 раз больше встроенной памяти
• 21 ПБ/с пропускная способность памяти — в 12,800 раз выше
• 214 ПБ/с пропускная способность межсоединений — в 45,000 раз выше
🔥 Практический результат: молниеносная генерация токенов
Cerebras объявили о партнёрстве для запуска Llama API с беспрецедентной скоростью:
• 2500+ токенов в секунду — в 70 раз быстрее ведущих GPU
• 2000+ токенов в секунду для Llama 4 Scout — в 30 раз быстрее закрытых моделей ChatGPT и Anthropic
💼 Что нам это даст в ближайшем будущем:
• Мгновенные агенты: цепочки рассуждений без задержек
• Генерация кода в реальном времени: целые функции и страницы одним запросом
• Рассуждения менее чем за 1 секунду: вместо минут ожидания
🏭 Масштаб развёртывания
Cerebras строит 6 новых дата-центров d США и Европе с тысячами систем CS-3, которые будут обрабатывать 40+ миллионов токенов в секунду к концу 2025 года.
Такая архитектурная инновация — это не просто улучшение, а полное переосмысление инфраструктуры AI.
Когда вся модель находится в быстрой памяти чипа, это устраняет бутылочное горло пропускной способности между памятью и вычислительными ядрами, что делает возможным качественный скачок в скорости рыботы всех ИИ систем.
Как и было сказано - проектируя ИИ решения, не опирайтесь на текущие возможности. Опирайтесь на полезность, которую ваши системы будут приносить людям, а техника подтянется.
Некоторые крупные компании только согласуют обоснования для бюджетирования проектов на 2026, а ИИ железо и системы тем временем за 2025й эволюционируют в х1000 раз.
Все планы морально устареют еще до их согласования.
#cerebras #chip #hardware
———
@tsingular
Media is too big
VIEW IN TELEGRAM
Пока ещё все это выглядит медленно (там скорость видео местами х10, - т.е роботы двигаются еле еле)
Но, в принципе, уже вполне себе прототипы заботливых кальмаров из Матрицы, которые будут ухаживать за человечеством в капсулах киберсна.
#robots
———
@tsingular
Но, в принципе, уже вполне себе прототипы заботливых кальмаров из Матрицы, которые будут ухаживать за человечеством в капсулах киберсна.
#robots
———
@tsingular
🛡 Meta представила новые инструменты для безопасности ИИ: LlamaFirewall и другие защитные решения
Meta* выпустила целый арсенал открытых инструментов для защиты ИИ-систем от различных типов атак.
Самое ценное тут — системный подход к безопасности агентов ИИ и открытость технологий для разработчиков.
LlamaFirewall: новая система защиты для ИИ-агентов
Система спроектирована как многоуровневая защита для предотвращения:
• Прямых атак на промпты (prompt injection)
• Непрямых манипуляций с целями агентов (goal hijacking)
• Рисков небезопасного кода
• Злонамеренного кода через инъекции промптов
Llama Guard 4: мультимодальная защита:
Мультимодальный классификатор с 12 млрд параметров — защищает как текст, так и изображения
Поддерживает классификацию при работе с несколькими изображениями
Создан на базе Llama 4 Scout и стандартизированной таксономии рисков MLCommons
PromptGuard 2
• Легковесные классификаторы (86M и 22M параметров) для определения прямых атак на промпты
• Работает в реальном времени благодаря BERT-архитектуре
• Обнаруживает до 97.5% атак при всего 1% ложных срабатываний
• 22M версия работает в 5 раз быстрее с минимальной потерей эффективности
• Показывает результаты более качественные, чем существующие открытые аналоги
AlignmentCheck
• Экспериментальный аудитор рассуждений, который инспектирует chain-of-thought агентов
• Обнаруживает отклонения от изначальной цели пользователя
• Перехватывает скрытые манипуляции, которые не улавливаются статическими фильтрами
• Показывает 80%+ точность обнаружения скомпрометированных целей
CodeShield
• Статический анализатор кода, генерируемого ИИ
• Поддерживает 8 языков программирования
• Покрывает более 50 типов уязвимостей (CWE)
• Архитектура с двумя уровнями проверки
CyberSec Eval 4: комплексный набор бенчмарков для оценки безопасности ЛЛМ:
AutoPatchBench — для оценки способности ИИ автоматически исправлять уязвимости в нативном коде до их эксплуатации
CyberSOCEval — разработан совместно с CrowdStrike для измерения эффективности ИИ в центрах управления безопасностью (SOC)
Оценивает не только риски, но и защитные возможности ИИ в реальных сценариях:
• Распознавание сложной вредоносной активности в системных логах
• Анализ инцидентов безопасности
• Обработка данных из отчетов разведки угроз
Другие важные компоненты:
Automated Sensitive Doc Classification Tool — автоматически применяет метки безопасности к внутренним документам организации
Llama Generated Audio Detector & Watermark Detector — выявляет ИИ-генерированный контент для предотвращения мошенничества
Партнерская программа Llama Defenders — объединяет партнеров (ZenDesk, Bell Canada, AT&T и др.) для интеграции защитных механизмов в их системы
Практическое применение:
• Для стартапов: защита автономных агентов без необходимости создавать собственные механизмы безопасности
• Для предприятий: снижение рисков при развертывании ИИ-инструментов в критичных средах
• Для разработчиков: создание более безопасных приложений с ИИ за счет интеграции готовых компонентов
Одно из главных преимуществ — система полностью открыта и доступна на GitHub.
Система уже используется в производственной среде Meta и помогает защитить их собственные ИИ-приложения.
(*Meta - запрещённая в РФ террористическая организация)
#Meta #LlamaFirewall #безопасность #PromptGuard #CodeShield #CybersecEval
———
@tsingular
Meta* выпустила целый арсенал открытых инструментов для защиты ИИ-систем от различных типов атак.
Самое ценное тут — системный подход к безопасности агентов ИИ и открытость технологий для разработчиков.
LlamaFirewall: новая система защиты для ИИ-агентов
Система спроектирована как многоуровневая защита для предотвращения:
• Прямых атак на промпты (prompt injection)
• Непрямых манипуляций с целями агентов (goal hijacking)
• Рисков небезопасного кода
• Злонамеренного кода через инъекции промптов
Llama Guard 4: мультимодальная защита:
Мультимодальный классификатор с 12 млрд параметров — защищает как текст, так и изображения
Поддерживает классификацию при работе с несколькими изображениями
Создан на базе Llama 4 Scout и стандартизированной таксономии рисков MLCommons
PromptGuard 2
• Легковесные классификаторы (86M и 22M параметров) для определения прямых атак на промпты
• Работает в реальном времени благодаря BERT-архитектуре
• Обнаруживает до 97.5% атак при всего 1% ложных срабатываний
• 22M версия работает в 5 раз быстрее с минимальной потерей эффективности
• Показывает результаты более качественные, чем существующие открытые аналоги
AlignmentCheck
• Экспериментальный аудитор рассуждений, который инспектирует chain-of-thought агентов
• Обнаруживает отклонения от изначальной цели пользователя
• Перехватывает скрытые манипуляции, которые не улавливаются статическими фильтрами
• Показывает 80%+ точность обнаружения скомпрометированных целей
CodeShield
• Статический анализатор кода, генерируемого ИИ
• Поддерживает 8 языков программирования
• Покрывает более 50 типов уязвимостей (CWE)
• Архитектура с двумя уровнями проверки
CyberSec Eval 4: комплексный набор бенчмарков для оценки безопасности ЛЛМ:
AutoPatchBench — для оценки способности ИИ автоматически исправлять уязвимости в нативном коде до их эксплуатации
CyberSOCEval — разработан совместно с CrowdStrike для измерения эффективности ИИ в центрах управления безопасностью (SOC)
Оценивает не только риски, но и защитные возможности ИИ в реальных сценариях:
• Распознавание сложной вредоносной активности в системных логах
• Анализ инцидентов безопасности
• Обработка данных из отчетов разведки угроз
Другие важные компоненты:
Automated Sensitive Doc Classification Tool — автоматически применяет метки безопасности к внутренним документам организации
Llama Generated Audio Detector & Watermark Detector — выявляет ИИ-генерированный контент для предотвращения мошенничества
Партнерская программа Llama Defenders — объединяет партнеров (ZenDesk, Bell Canada, AT&T и др.) для интеграции защитных механизмов в их системы
Практическое применение:
• Для стартапов: защита автономных агентов без необходимости создавать собственные механизмы безопасности
• Для предприятий: снижение рисков при развертывании ИИ-инструментов в критичных средах
• Для разработчиков: создание более безопасных приложений с ИИ за счет интеграции готовых компонентов
Одно из главных преимуществ — система полностью открыта и доступна на GitHub.
Система уже используется в производственной среде Meta и помогает защитить их собственные ИИ-приложения.
(*Meta - запрещённая в РФ террористическая организация)
#Meta #LlamaFirewall #безопасность #PromptGuard #CodeShield #CybersecEval
———
@tsingular
Forwarded from Data Secrets
This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic анонсировали Интеграции: теперь к Claude можно присоединить любой источник ваших данных
Это работает так: вы присоединяете какое-то свое приложение (ну, например, базу знаний Confluence), и с этого момента во время поиска бот будет искать не только в Интернете, но и по вашей интеграции.
При этом, конечно, можно попросить поискать только в базе знаний, задать по ней любой вопрос, выгрузить оттуда код и поработать с ним и прочее и прочее и прочее, любые действия с этим контекстом.
По сути это верифицированные MCP внутри чат-бота. Сейчас в партнерах уже Atlassian, GitLab, Asana, PayPal, CloudFlare и еще с десяток сервисов. Их можно подсоединить в пару кликов. Если нужного вам сервиса среди них нет, то можно и свой добавить, но потребуется чуть больше времени и сил.
www.anthropic.com/news/integrations
Это работает так: вы присоединяете какое-то свое приложение (ну, например, базу знаний Confluence), и с этого момента во время поиска бот будет искать не только в Интернете, но и по вашей интеграции.
При этом, конечно, можно попросить поискать только в базе знаний, задать по ней любой вопрос, выгрузить оттуда код и поработать с ним и прочее и прочее и прочее, любые действия с этим контекстом.
По сути это верифицированные MCP внутри чат-бота. Сейчас в партнерах уже Atlassian, GitLab, Asana, PayPal, CloudFlare и еще с десяток сервисов. Их можно подсоединить в пару кликов. Если нужного вам сервиса среди них нет, то можно и свой добавить, но потребуется чуть больше времени и сил.
www.anthropic.com/news/integrations
This media is not supported in your browser
VIEW IN TELEGRAM
Китай отрабатывает штурм с лучшим другом человека в паре.
"Редчайшая Электронная Совершенная Собака И так далее" в реале.
#Рэсси #Китай
------
@tsingular
"Редчайшая Электронная Совершенная Собака И так далее" в реале.
#Рэсси #Китай
------
@tsingular
This media is not supported in your browser
VIEW IN TELEGRAM
Короче, по вчерашнему видео с роботом напавшем на сотрудников.
Не знаю зачем, но я их нашел :)
Это не Unitree. Это не Китай.
Это стартап в Калифорнии - Robot Embodied Kombat, который создаёт Шоу Битвы Роботов
https://rek.tv/
https://x.com/RobotKombat
И это реально они тренируют роботов нападать и сражаться, но в рамках шоу, конечно.
#REK #robots
———
@tsingular
Не знаю зачем, но я их нашел :)
Это не Unitree. Это не Китай.
Это стартап в Калифорнии - Robot Embodied Kombat, который создаёт Шоу Битвы Роботов
https://rek.tv/
https://x.com/RobotKombat
И это реально они тренируют роботов нападать и сражаться, но в рамках шоу, конечно.
#REK #robots
———
@tsingular
Тут HuggingFace прокачали ZeroGPU
Теперь за $9 в месяц вы можете использовать Nvidia H200 с 70 гигами VRAM в рамках подписки, без дополнительных расходов.
Это вообще невероятная щедрость какая-то.
(работает только с Gradio средой)
На ZeroGPU уже собраны тысячи пространств.
Вот примеры:
https://huggingface.co/spaces/black-forest-labs/FLUX.1-dev
https://huggingface.co/spaces/tencent/Hunyuan3D-2
https://huggingface.co/spaces/theseanlavery/TRELLIS-3D
https://huggingface.co/spaces/radames/Real-Time-Text-to-Image-SDXL-Lightning
#HuggingFace #ZeroGPU #Spaces
———
@tsingular
Теперь за $9 в месяц вы можете использовать Nvidia H200 с 70 гигами VRAM в рамках подписки, без дополнительных расходов.
Это вообще невероятная щедрость какая-то.
(работает только с Gradio средой)
На ZeroGPU уже собраны тысячи пространств.
Вот примеры:
https://huggingface.co/spaces/black-forest-labs/FLUX.1-dev
https://huggingface.co/spaces/tencent/Hunyuan3D-2
https://huggingface.co/spaces/theseanlavery/TRELLIS-3D
https://huggingface.co/spaces/radames/Real-Time-Text-to-Image-SDXL-Lightning
#HuggingFace #ZeroGPU #Spaces
———
@tsingular
Невероятно полезный пример по генерации синтетики от Unsloth и Meta*.
Что делает система:
• Извлечение документов - парсит PDF, HTML, CSV
• Чанкинг и разбивка - делит длинные документы на управляемые части с учетом объема
• Генерация QA-пар - создает вопросы и ответы
• Автоматическая очистка данных - отфильтровывает низкокачественные примеры
• LoRA-обучение - дообучает модель с минимальными ресурсами (4-bit квантизация в примере)
Технический стек:
• synthetic-data-kit для автоматической генерации пар вопросов и ответов (от Meta* как раз)
• Unsloth для файнтюнинга
• VLLM в качестве бэкенда
• FastLanguageModel с оптимизированным LoRA (16 rank, использует только 23% GPU памяти на T4)
Практические кейсы:
• Обучение модели пониманию узкоспециализированных документов (например, новых исследований)
• Создание чатботов экспертов в конкретной предметной области
• Быстрый переход от сырых данных к готовой модели без ручной разметки QA-пар
Результаты из примера (там прям готовых блокнот для запуска. можно себе скопировать и под себя подстроить):
• Обучено на 3х чанках из статьи "Byte Latent Transformer"
• 35 QA-пар сгенерировано автоматически
• 1.83 минуты обучения на Tesla T4
• Модель корректно отвечает на вопросы о темпоральном патчинге байтов
Поддерживает все популярные модели (Llama 3.2, Gemma 3, Qwen 3) и экспорт в GGUF для деплоя.
(*Meta - запрещённая в РФ террористическая организация)
#Unsloth #finetuning #GoogleColab
———
@tsingular
Что делает система:
• Извлечение документов - парсит PDF, HTML, CSV
• Чанкинг и разбивка - делит длинные документы на управляемые части с учетом объема
• Генерация QA-пар - создает вопросы и ответы
• Автоматическая очистка данных - отфильтровывает низкокачественные примеры
• LoRA-обучение - дообучает модель с минимальными ресурсами (4-bit квантизация в примере)
Технический стек:
• synthetic-data-kit для автоматической генерации пар вопросов и ответов (от Meta* как раз)
• Unsloth для файнтюнинга
• VLLM в качестве бэкенда
• FastLanguageModel с оптимизированным LoRA (16 rank, использует только 23% GPU памяти на T4)
Практические кейсы:
• Обучение модели пониманию узкоспециализированных документов (например, новых исследований)
• Создание чатботов экспертов в конкретной предметной области
• Быстрый переход от сырых данных к готовой модели без ручной разметки QA-пар
Результаты из примера (там прям готовых блокнот для запуска. можно себе скопировать и под себя подстроить):
• Обучено на 3х чанках из статьи "Byte Latent Transformer"
• 35 QA-пар сгенерировано автоматически
• 1.83 минуты обучения на Tesla T4
• Модель корректно отвечает на вопросы о темпоральном патчинге байтов
Поддерживает все популярные модели (Llama 3.2, Gemma 3, Qwen 3) и экспорт в GGUF для деплоя.
(*Meta - запрещённая в РФ террористическая организация)
#Unsloth #finetuning #GoogleColab
———
@tsingular
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Наткнулся на полезный фрейм - Transformer Lab — многофункциональную "песочницу" для экспериментов с LLM!
Главное о проекте:
• 100% Open Source с GUI для работы с LLM
• Все этапы ML-жизненного цикла под одной крышей: скачивание, обучение, файнтюнинг, общение
• Работает на вашем железе — никаких облачных зависимостей
Чем круто:
✨ Один клик для загрузки топовых моделей: DeepSeek, Llama3, Qwen, Phi4, Gemma, Mistral
✨ Кроссплатформенность: Windows/Mac/Linux
✨ Гибкий инференс: MLX для Apple Silicon, HuggingFace, vLLM, Llama CPP
✨ RLHF и preference optimization: DPO, ORPO, SIMPO, Reward Modeling (для тех, кто любит потюнить модель под себя)
✨ Полноценный REST API для автоматизации
👨💻 Встроенный Monaco Code Editor позволяет писать свои плагины и видеть, что происходит под капотом.
Практика:
• Стартапы могут файнтюнить модели под свою специфику без ML-команды
• Исследователи получают полигон для экспериментов с различными подходами к обучению
• RAG-энтузиасты найдут здесь drag-and-drop интерфейс для работы с документами
• DevOps'ы оценят возможность раздельного деплоя UI и inference engine
Поддержка от Mozilla через Mozilla Builders Program.
Интересная альтернатива LMStudio, при этом с бОльшим набором полезностей для разработчиков.
#TransformerLab #OpenSource #frameworks
———
@tsingular
Главное о проекте:
• 100% Open Source с GUI для работы с LLM
• Все этапы ML-жизненного цикла под одной крышей: скачивание, обучение, файнтюнинг, общение
• Работает на вашем железе — никаких облачных зависимостей
Чем круто:
✨ Один клик для загрузки топовых моделей: DeepSeek, Llama3, Qwen, Phi4, Gemma, Mistral
✨ Кроссплатформенность: Windows/Mac/Linux
✨ Гибкий инференс: MLX для Apple Silicon, HuggingFace, vLLM, Llama CPP
✨ RLHF и preference optimization: DPO, ORPO, SIMPO, Reward Modeling (для тех, кто любит потюнить модель под себя)
✨ Полноценный REST API для автоматизации
👨💻 Встроенный Monaco Code Editor позволяет писать свои плагины и видеть, что происходит под капотом.
Практика:
• Стартапы могут файнтюнить модели под свою специфику без ML-команды
• Исследователи получают полигон для экспериментов с различными подходами к обучению
• RAG-энтузиасты найдут здесь drag-and-drop интерфейс для работы с документами
• DevOps'ы оценят возможность раздельного деплоя UI и inference engine
Поддержка от Mozilla через Mozilla Builders Program.
Интересная альтернатива LMStudio, при этом с бОльшим набором полезностей для разработчиков.
#TransformerLab #OpenSource #frameworks
———
@tsingular
Извините :)
Ну раз выходной, - мемы.
Добавляйте свои в комментарии, что прикольного накопилось по теме.
#мемы #юмор
———
@tsingular
Ну раз выходной, - мемы.
Добавляйте свои в комментарии, что прикольного накопилось по теме.
#мемы #юмор
———
@tsingular
Forwarded from Анализ данных (Data analysis)
🧩 The Ultimate LLM Benchmark Collection
Подборка живых бенчмарков, которые стоит открывать при каждом релизе новой модели — и тех, на которые можно больше не тратить время.
🌐 Общие (multi‑skill) лидерборды
SimpleBench — https://simple-bench.com/index.html
SOLO‑Bench — https://github.com/jd-3d/SOLOBench
AidanBench — https://aidanbench.com
SEAL by Scale (MultiChallenge) — https://scale.com/leaderboard
LMArena (Style Control) — https://beta.lmarena.ai/leaderboard
LiveBench — https://livebench.ai
ARC‑AGI — https://arcprize.org/leaderboard
Thematic Generalization (Lech Mazur) — https://github.com/lechmazur/generalization
дополнительные бенчмарки Lech Mazur:
Elimination Game — https://github.com/lechmazur/elimination_game
Confabulations — https://github.com/lechmazur/confabulations
EQBench (Longform Writing) — https://eqbench.com
Fiction‑Live Bench — https://fiction.live/stories/Fiction-liveBench-Mar-25-2025/oQdzQvKHw8JyXbN87
MC‑Bench (сортировать по win‑rate) — https://mcbench.ai/leaderboard
TrackingAI – IQ Bench — https://trackingai.org/home
Dubesor LLM Board — https://dubesor.de/benchtable.html
Balrog‑AI — https://balrogai.com
Misguided Attention — https://github.com/cpldcpu/MisguidedAttention
Snake‑Bench — https://snakebench.com
SmolAgents LLM (из‑за GAIA & SimpleQA) — https://huggingface.co/spaces/smolagents/smolagents-leaderboard
Context‑Arena (MRCR, Graphwalks) — https://contextarena.ai
OpenCompass — https://rank.opencompass.org.cn/home
HHEM (Hallucination) — https://huggingface.co/spaces/vectara/leaderboard
🛠️ Coding / Math / Agentic
Aider‑Polyglot‑Coding — https://aider.chat/docs/leaderboards/
BigCodeBench — https://bigcode-bench.github.io
WebDev‑Arena — https://web.lmarena.ai/leaderboard
WeirdML — https://htihle.github.io/weirdml.html
Symflower Coding Eval v1.0 — https://symflower.com/en/company/blog/2025/dev-quality-eval-v1.0-anthropic-s-claude-3.7-sonnet-is-the-king-with-help-and-deepseek-r1-disappoints/
PHYBench — https://phybench-official.github.io/phybench-demo/
MathArena — https://matharena.ai
Galileo Agent Leaderboard — https://huggingface.co/spaces/galileo-ai/agent-leaderboard
XLANG Agent Arena — https://arena.xlang.ai/leaderboard
🚀 Для отслеживания AI take‑off
METR Long‑Task Benchmarks (вкл. RE Bench) — https://metr.org
PaperBench — https://openai.com/index/paperbench/
SWE‑Lancer — https://openai.com/index/swe-lancer/
MLE‑Bench — https://github.com/openai/mle-bench
SWE‑Bench — https://swebench.com
🏆 Обязательный «классический» набор
GPQA‑Diamond — https://github.com/idavidrein/gpqa
SimpleQA — https://openai.com/index/introducing-simpleqa/
Tau‑Bench — https://github.com/sierra-research/tau-bench
SciCode — https://github.com/scicode-bench/SciCode
MMMU — https://mmmu-benchmark.github.io/#leaderboard
Humanities Last Exam (HLE) — https://github.com/centerforaisafety/hle
🔍 Классические бенчмарков
Simple‑Evals — https://github.com/openai/simple-evals
Vellum AI Leaderboard — https://vellum.ai/llm-leaderboard
Artificial Analysis — https://artificialanalysis.ai
⚠️ «Перегретые» метрики, на которые можно не смотреть
MMLU, HumanEval, BBH, DROP, MGSM
Большинство чисто‑математических датасетов: GSM8K, MATH, AIME, ...
Модели близки к верхним значениям на них и в них нет особого смысла.
Подборка живых бенчмарков, которые стоит открывать при каждом релизе новой модели — и тех, на которые можно больше не тратить время.
🌐 Общие (multi‑skill) лидерборды
SimpleBench — https://simple-bench.com/index.html
SOLO‑Bench — https://github.com/jd-3d/SOLOBench
AidanBench — https://aidanbench.com
SEAL by Scale (MultiChallenge) — https://scale.com/leaderboard
LMArena (Style Control) — https://beta.lmarena.ai/leaderboard
LiveBench — https://livebench.ai
ARC‑AGI — https://arcprize.org/leaderboard
Thematic Generalization (Lech Mazur) — https://github.com/lechmazur/generalization
дополнительные бенчмарки Lech Mazur:
Elimination Game — https://github.com/lechmazur/elimination_game
Confabulations — https://github.com/lechmazur/confabulations
EQBench (Longform Writing) — https://eqbench.com
Fiction‑Live Bench — https://fiction.live/stories/Fiction-liveBench-Mar-25-2025/oQdzQvKHw8JyXbN87
MC‑Bench (сортировать по win‑rate) — https://mcbench.ai/leaderboard
TrackingAI – IQ Bench — https://trackingai.org/home
Dubesor LLM Board — https://dubesor.de/benchtable.html
Balrog‑AI — https://balrogai.com
Misguided Attention — https://github.com/cpldcpu/MisguidedAttention
Snake‑Bench — https://snakebench.com
SmolAgents LLM (из‑за GAIA & SimpleQA) — https://huggingface.co/spaces/smolagents/smolagents-leaderboard
Context‑Arena (MRCR, Graphwalks) — https://contextarena.ai
OpenCompass — https://rank.opencompass.org.cn/home
HHEM (Hallucination) — https://huggingface.co/spaces/vectara/leaderboard
🛠️ Coding / Math / Agentic
Aider‑Polyglot‑Coding — https://aider.chat/docs/leaderboards/
BigCodeBench — https://bigcode-bench.github.io
WebDev‑Arena — https://web.lmarena.ai/leaderboard
WeirdML — https://htihle.github.io/weirdml.html
Symflower Coding Eval v1.0 — https://symflower.com/en/company/blog/2025/dev-quality-eval-v1.0-anthropic-s-claude-3.7-sonnet-is-the-king-with-help-and-deepseek-r1-disappoints/
PHYBench — https://phybench-official.github.io/phybench-demo/
MathArena — https://matharena.ai
Galileo Agent Leaderboard — https://huggingface.co/spaces/galileo-ai/agent-leaderboard
XLANG Agent Arena — https://arena.xlang.ai/leaderboard
🚀 Для отслеживания AI take‑off
METR Long‑Task Benchmarks (вкл. RE Bench) — https://metr.org
PaperBench — https://openai.com/index/paperbench/
SWE‑Lancer — https://openai.com/index/swe-lancer/
MLE‑Bench — https://github.com/openai/mle-bench
SWE‑Bench — https://swebench.com
🏆 Обязательный «классический» набор
GPQA‑Diamond — https://github.com/idavidrein/gpqa
SimpleQA — https://openai.com/index/introducing-simpleqa/
Tau‑Bench — https://github.com/sierra-research/tau-bench
SciCode — https://github.com/scicode-bench/SciCode
MMMU — https://mmmu-benchmark.github.io/#leaderboard
Humanities Last Exam (HLE) — https://github.com/centerforaisafety/hle
🔍 Классические бенчмарков
Simple‑Evals — https://github.com/openai/simple-evals
Vellum AI Leaderboard — https://vellum.ai/llm-leaderboard
Artificial Analysis — https://artificialanalysis.ai
⚠️ «Перегретые» метрики, на которые можно не смотреть
MMLU, HumanEval, BBH, DROP, MGSM
Большинство чисто‑математических датасетов: GSM8K, MATH, AIME, ...
Модели близки к верхним значениям на них и в них нет особого смысла.
Станислава Лема если кто не читал,- рекомендую.
Вот, например, в свое время в Компьютерре читал главами :)
Сумма технологии (1964)
#futurology #Станислав #Лем
———
@tsingular
Вот, например, в свое время в Компьютерре читал главами :)
Сумма технологии (1964)
#futurology #Станислав #Лем
———
@tsingular
Amazon Q в GitHub: ИИ-разработка через тикеты — Cursor всё?
Интересное обновление вышло для Amazon Q Developer, - он теперь интегрирован в GitHub (пока в режиме preview), что позволяет делегировать целые фичи ИИ-агенту напрямую через тикеты — без необходимости подключения AWS-аккаунта и среды разработки.
Как это устроено:
• Устанавливаете приложение Amazon Q Developer в GitHub — выбираете, к каким репозиториям дать доступ
• Создаёте тикет с чётким описанием требуемой функциональности
• Добавляете метку "Amazon Q development agent" — и ИИ начинает кодить
• В результате получаете готовый pull request с реализацией и даже автоматическим code review
Кейс из примера:
Amazon Q Developer справляется с созданием проекта "с нуля": от генерации скелета приложения (.NET 9 ASP.Core в примере) до сложных бэкенд-фронтенд взаимодействий.
Причём в представленном кейсе ИИ даже реализовал интеграцию с Amazon Bedrock и Claude для генерации контента на основе пользовательских изображений отдельно предупредив о недостатке в системе авторизации. Т.е. ещё и на безопасность проверил.
Если код требует доработки — процесс итеративный: оставляете комментарии в pullrequest, и ИИ вносит необходимые изменения.
Например, добавление паттернов в .gitignore для вашей любимой IDE или переход с Invoke API на Converse API.
Бонус: трансформация кода
Отдельно доступна функция миграции Java-кода: сейчас можно обновлять с Java 8/11 до Java 17 через специальный "Amazon Q transform agent". В будущем добавят больше версий для автомиграции.
Amazon Q Developer — превращается в "разработчика по ТЗ", о котором мечтали десятилетиями.
Осталось только научиться формулировать ТЗ, а то ведь, обычно, его разработчик сам и пишет в реале. 😏
#AmazonQ #GitHub #dev
———
@tsingular
Интересное обновление вышло для Amazon Q Developer, - он теперь интегрирован в GitHub (пока в режиме preview), что позволяет делегировать целые фичи ИИ-агенту напрямую через тикеты — без необходимости подключения AWS-аккаунта и среды разработки.
Как это устроено:
• Устанавливаете приложение Amazon Q Developer в GitHub — выбираете, к каким репозиториям дать доступ
• Создаёте тикет с чётким описанием требуемой функциональности
• Добавляете метку "Amazon Q development agent" — и ИИ начинает кодить
• В результате получаете готовый pull request с реализацией и даже автоматическим code review
Кейс из примера:
Amazon Q Developer справляется с созданием проекта "с нуля": от генерации скелета приложения (.NET 9 ASP.Core в примере) до сложных бэкенд-фронтенд взаимодействий.
Причём в представленном кейсе ИИ даже реализовал интеграцию с Amazon Bedrock и Claude для генерации контента на основе пользовательских изображений отдельно предупредив о недостатке в системе авторизации. Т.е. ещё и на безопасность проверил.
Если код требует доработки — процесс итеративный: оставляете комментарии в pullrequest, и ИИ вносит необходимые изменения.
Например, добавление паттернов в .gitignore для вашей любимой IDE или переход с Invoke API на Converse API.
Бонус: трансформация кода
Отдельно доступна функция миграции Java-кода: сейчас можно обновлять с Java 8/11 до Java 17 через специальный "Amazon Q transform agent". В будущем добавят больше версий для автомиграции.
Amazon Q Developer — превращается в "разработчика по ТЗ", о котором мечтали десятилетиями.
Осталось только научиться формулировать ТЗ, а то ведь, обычно, его разработчик сам и пишет в реале. 😏
#AmazonQ #GitHub #dev
———
@tsingular
Graphiti: революция темпоральных графов знаний для AI-агентов
Graphiti — фреймворк для построения и запросов к темпоральным графам знаний, специально созданный для AI-агентов, работающих в динамических средах.
В отличие от традиционных методов RAG, Graphiti непрерывно интегрирует пользовательские взаимодействия, структурированные и неструктурированные корпоративные данные в целостный, запрашиваемый граф.
Ключевые преимущества:
• Инкрементальные обновления в реальном времени: интеграция новых данных без пакетного пересчета
• Би-темпоральная модель данных: точное отслеживание времени событий и времени загрузки
• Эффективный гибридный поиск: сочетает семантические вложения, ключевые слова (BM25) и обход графа
• Настраиваемые определения сущностей: через простые Pydantic-модели
• Масштабируемость: эффективное управление большими наборами данных с параллельной обработкой
Практическое применение:
• Интеграция и поддержание динамических пользовательских взаимодействий и бизнес-данных
• Облегчение рассуждений на основе состояния и автоматизации задач для агентов
• Запрос сложных, развивающихся данных с помощью семантического, ключевого и графового поиска
Graphiti лучше всего работает с LLM-сервисами, поддерживающими структурированный вывод (например, OpenAI и Gemini). Использование других сервисов может привести к некорректным схемам вывода и сбоям при загрузке, особенно при использовании небольших моделей.
Сравнение с GraphRAG:
Graphiti специально разработан для решения проблем динамических и часто обновляемых наборов данных:
• Обработка данных: Непрерывные обновления vs Пакетная обработка
• Структура знаний: Эпизодические данные и семантические сущности vs Кластеры сущностей
• Метод поиска: Гибридный семантический и графовый поиск vs Последовательное LLM-суммирование
• Временная обработка: Явное би-темпоральное отслеживание vs Базовое отслеживание временных меток
• Скорость исполнения запросов: Обычно менее секунды vs Секунды или десятки секунд
Детальнее как это работает на практике можно почитать в статье:
"Zep: A Temporal Knowledge Graph Architecture for Agent Memory".
Проект активно развивается, поддерживает различные LLM-провайдеры и имеет MCP-сервер, позволяющий AI-ассистентам взаимодействовать с возможностями графа знаний через протокол MCP. Также доступен REST API-сервис на FastAPI для взаимодействия с Graphiti API.
#Graphiti #KnowledgeGraphs #RAG
———
@tsingular
Graphiti — фреймворк для построения и запросов к темпоральным графам знаний, специально созданный для AI-агентов, работающих в динамических средах.
В отличие от традиционных методов RAG, Graphiti непрерывно интегрирует пользовательские взаимодействия, структурированные и неструктурированные корпоративные данные в целостный, запрашиваемый граф.
Ключевые преимущества:
• Инкрементальные обновления в реальном времени: интеграция новых данных без пакетного пересчета
• Би-темпоральная модель данных: точное отслеживание времени событий и времени загрузки
• Эффективный гибридный поиск: сочетает семантические вложения, ключевые слова (BM25) и обход графа
• Настраиваемые определения сущностей: через простые Pydantic-модели
• Масштабируемость: эффективное управление большими наборами данных с параллельной обработкой
Практическое применение:
• Интеграция и поддержание динамических пользовательских взаимодействий и бизнес-данных
• Облегчение рассуждений на основе состояния и автоматизации задач для агентов
• Запрос сложных, развивающихся данных с помощью семантического, ключевого и графового поиска
Graphiti лучше всего работает с LLM-сервисами, поддерживающими структурированный вывод (например, OpenAI и Gemini). Использование других сервисов может привести к некорректным схемам вывода и сбоям при загрузке, особенно при использовании небольших моделей.
Сравнение с GraphRAG:
Graphiti специально разработан для решения проблем динамических и часто обновляемых наборов данных:
• Обработка данных: Непрерывные обновления vs Пакетная обработка
• Структура знаний: Эпизодические данные и семантические сущности vs Кластеры сущностей
• Метод поиска: Гибридный семантический и графовый поиск vs Последовательное LLM-суммирование
• Временная обработка: Явное би-темпоральное отслеживание vs Базовое отслеживание временных меток
• Скорость исполнения запросов: Обычно менее секунды vs Секунды или десятки секунд
Детальнее как это работает на практике можно почитать в статье:
"Zep: A Temporal Knowledge Graph Architecture for Agent Memory".
Проект активно развивается, поддерживает различные LLM-провайдеры и имеет MCP-сервер, позволяющий AI-ассистентам взаимодействовать с возможностями графа знаний через протокол MCP. Также доступен REST API-сервис на FastAPI для взаимодействия с Graphiti API.
#Graphiti #KnowledgeGraphs #RAG
———
@tsingular
ИИ-агенты перевернут игру: младшие разработчики берут реванш
Волны трансформации в разработке программного обеспечения
Стив Егге в статье от 22 марта 2025 года описывает радикальные изменения в программировании, вызванные появлением ИИ-агентов для кодирования. По его мнению, индустрия разработки ПО проходит через несколько "волн" развития технологий программирования с ИИ:
1. Традиционное кодирование (2022)
2. Программирование с автодополнением кода (2023)
3. Чат-программирование (2024)
4. Агенты для программирования (2025 H1)
5. Кластеры агентов (2025 H2)
6. Флоты агентов (2026)
Что такое Vibe Coding и как это меняет работу разработчиков
"Vibe coding" — термин, который ввел Андрей Карпати в начале февраля 2025 года. Это подход к программированию через чат, когда разработчик просит LLM написать код, получает результат и продолжает диалог в непрерывном цикле.
Однако, новая парадигма — агенты для разработки, такие как Aider.chat и Claude Code — уже начинает вытеснять чат-программирование.
Егге утверждает, что каждая последующая "волна", начиная с чата, примерно в 5 раз продуктивнее предыдущей.
Финансовые последствия и трансформация рабочего процесса
Агенты-разработчики стоят примерно $10-12 в час при текущих тарифах. По оценке Егге, один активный экземпляр агента можно приблизительно приравнять по ценности к младшему разработчику программного обеспечения, если кто-то (человек или ИИ) поддерживает его занятость 8-10 часов в день.
Ожидается, что следующая волна "кластеров агентов" позволит каждому разработчику управлять несколькими агентами одновременно, работающими над разными задачами: исправлением ошибок, доработкой задач, новыми функциями, разбором бэклога, развертыванием, документацией — фактически над любой задачей, которую может выполнять разработчик.
Изменение роли разработчика и "месть" младших разработчиков
Егге отмечает интересную тенденцию: младшие разработчики гораздо охотнее принимают ИИ-технологии, чем старшие. Он отмечает, что многие опытные разработчики сопротивляются изменениям, ошибочно считая, что сохранение статус-кво обеспечивает безопасность работы.
По словам Егге, "это не работа ИИ — доказать, что он лучше вас. Это ваша работа — стать лучше, используя ИИ". Он предсказывает, что к концу 2025 года новые должности "инженеров-программистов" будут включать мало прямого кодирования и много "присмотра" за агентами.
Прогноз на будущее
Егге прогнозирует, что появится много новых рабочих мест, но они будут иными. Компании смогут быть амбициознее, чем когда-либо прежде. Исторические прецеденты (пар, электричество, вычисления) показывают, что мы скоро увидим гораздо больше людей, создающих программное обеспечение, а волна продуктивности может увеличить национальный ВВП на поразительные суммы, 100% и более.
Чтобы не отставать, Егге советует: "Переходите на чат. Откажитесь от автодополнений. Перестаньте писать код вручную... И прежде всего, обратите пристальное внимание на новых агентов для программирования."
Например AmazonQ из предыдущей статьи
Забавно: из программистов мы превращаемся в пастухов ИИ-стада.
А потом ИИ научится пасти сам себя...
#Agents #Programming #VibeCoding #DeveloperEvolution
———
@tsingular
Волны трансформации в разработке программного обеспечения
Стив Егге в статье от 22 марта 2025 года описывает радикальные изменения в программировании, вызванные появлением ИИ-агентов для кодирования. По его мнению, индустрия разработки ПО проходит через несколько "волн" развития технологий программирования с ИИ:
1. Традиционное кодирование (2022)
2. Программирование с автодополнением кода (2023)
3. Чат-программирование (2024)
4. Агенты для программирования (2025 H1)
5. Кластеры агентов (2025 H2)
6. Флоты агентов (2026)
Что такое Vibe Coding и как это меняет работу разработчиков
"Vibe coding" — термин, который ввел Андрей Карпати в начале февраля 2025 года. Это подход к программированию через чат, когда разработчик просит LLM написать код, получает результат и продолжает диалог в непрерывном цикле.
Однако, новая парадигма — агенты для разработки, такие как Aider.chat и Claude Code — уже начинает вытеснять чат-программирование.
Егге утверждает, что каждая последующая "волна", начиная с чата, примерно в 5 раз продуктивнее предыдущей.
Финансовые последствия и трансформация рабочего процесса
Агенты-разработчики стоят примерно $10-12 в час при текущих тарифах. По оценке Егге, один активный экземпляр агента можно приблизительно приравнять по ценности к младшему разработчику программного обеспечения, если кто-то (человек или ИИ) поддерживает его занятость 8-10 часов в день.
Ожидается, что следующая волна "кластеров агентов" позволит каждому разработчику управлять несколькими агентами одновременно, работающими над разными задачами: исправлением ошибок, доработкой задач, новыми функциями, разбором бэклога, развертыванием, документацией — фактически над любой задачей, которую может выполнять разработчик.
Изменение роли разработчика и "месть" младших разработчиков
Егге отмечает интересную тенденцию: младшие разработчики гораздо охотнее принимают ИИ-технологии, чем старшие. Он отмечает, что многие опытные разработчики сопротивляются изменениям, ошибочно считая, что сохранение статус-кво обеспечивает безопасность работы.
По словам Егге, "это не работа ИИ — доказать, что он лучше вас. Это ваша работа — стать лучше, используя ИИ". Он предсказывает, что к концу 2025 года новые должности "инженеров-программистов" будут включать мало прямого кодирования и много "присмотра" за агентами.
Прогноз на будущее
Егге прогнозирует, что появится много новых рабочих мест, но они будут иными. Компании смогут быть амбициознее, чем когда-либо прежде. Исторические прецеденты (пар, электричество, вычисления) показывают, что мы скоро увидим гораздо больше людей, создающих программное обеспечение, а волна продуктивности может увеличить национальный ВВП на поразительные суммы, 100% и более.
Чтобы не отставать, Егге советует: "Переходите на чат. Откажитесь от автодополнений. Перестаньте писать код вручную... И прежде всего, обратите пристальное внимание на новых агентов для программирования."
Например AmazonQ из предыдущей статьи
Забавно: из программистов мы превращаемся в пастухов ИИ-стада.
А потом ИИ научится пасти сам себя...
#Agents #Programming #VibeCoding #DeveloperEvolution
———
@tsingular