Технозаметки Малышева
10.9K subscribers
4.47K photos
1.62K videos
41 files
4.52K links
Новости инноваций из мира Искусственного Интеллекта. 🤖 [РКН: 7021469833 ]

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸: pay.cloudtips.ru/p/c8960bb
#UEGVW
Download Telegram
Forwarded from Russian OSINT
🇮🇷🔫 КСИР объявил 🇺🇸🇮🇱18 международных компаний в сфере IT и ИИ своими «законными целями»

Агентство Tasnim сообщает, что Корпус стражей исламской революции (КСИР) в своем официальном заявлении объявил законными целями подразделения 18 крупных международных технологических корпораций.

↘️ Cisco
↘️ HP
↘️ Intel
↘️ Oracle
↘️ Microsoft
↘️ Apple
↘️ Google
↘️ Meta
↘️ IBM
↘️ Dell
↘️ Palantir
↘️ Nvidia
↘️ J.P. Morgan
↘️ Tesla
↘️ General Electric (GE)
↘️ Spire Solutions (базируется в 🇦🇪 ОАЭ)
↘️ G42 (базируется в 🇦🇪 ОАЭ)
↘️ Boeing

Согласно заявлению иранского командования, интеграция корпоративных систем информационных технологий и искусственного интеллекта стала «главным элементом в проектировании и отслеживании» целей для ударов. Алгоритмы искусственного интеллекта, облачные хранилища, системы спутниковой связи и инструменты обработки больших данных (Big Data), которые разрабатывают указанные восемнадцать компаний, используются военными ведомствами для разведки, постоянного слежения и целеуказания.

КСИР смещает фокус возмездия на технологический сектор, обещая симметрично отвечать на каждую атаку уничтожением инфраструктуры. В заявлении прямо указано, что эти компании «должны ожидать уничтожения своих соответствующих подразделений» в регионе в ответ на любые будущие атаки по территории Ирана.

*Meta (соцсети Facebook, Instagram) запрещена в РФ как 🏴‍☠️экстремистская.

@Russian_OSINT
Please open Telegram to view this post
VIEW IN TELEGRAM
22👍21👀533🤯1🤣1
Qwen выпустил версию 3.6

доступна тут:
https://chat.qwen.ai/

Обходит Kimi-K2.5 и GLM5 в SWE, терминальном и агентском управлении

Контекст 1М

Она же пока бесплатно доступна в Openrouter:
https://openrouter.ai/qwen/qwen3.6-plus-preview:free/pricing

#Qwen
———
@tsingular
🔥23👍321
Oracle увольняет 30 тысяч сотрудников на фоне ИИ-гонки

Oracle начала массовые увольнения сотрудников без предупреждения. Уведомления разосланы в 6 утра по местному времени в пяти странах.

Люди теряли доступ к системам до того, как успевали открыть письмо.

📉 Масштаб сокращений: По оценке TD Cowen, Oracle устранит от 20 000 до 30 000 должностей — примерно 18% штата из 162 000 человек.
Под сокращения до 30% попали подразделения Revenue and Health Sciences и SaaS Operations.

💰 Рост ИИ-инфраструктуры: При этом компания планирует потратить $50 миллиардов на дата-центры для ИИ в 2026 году. Уже привлечено $58 миллиардов долга для финансирования проектов в Техасе, Висконсине и Нью-Мексико.

🤖 Ставка на OpenAI: Oracle заключила контракт с OpenAI на сумму более $300 миллиардов. Remaining performance obligations достигли $523 миллиардов — рост на 433% за год. Но денежные потоки не поспевают за расходами на строительство.

📊 Прибыли: Чистая прибыль Oracle выросла на 95% до $6,13 миллиарда в последнем квартале. Акции при этом упали на 27% с начала года — инвесторы сомневаются в способности компании обслуживать долги без распродажи активов.

Amazon, кстати, тоже сократил 16 000 корпоративных позиций при бюджете $200 миллиардов на ИИ.

Но вот по рынку труда для ИИ-инженеров пока прогнозируют рост на фоне сокращений в традиционных подразделениях.

Когда упрощается копирование рутинной доменной экспертизы белых воротничков в сторону ИИ агентов, - везде будет примерно так.

CNBC | WinBuzzer

#Oracle #layoffs #AI #infrastructure #OpenAI #cloud #debt #tech
───
@tsingular
14😁52💯21👻1
GKE представляет MCP-сервер для управления Kubernetes через ИИ-агентов

Google представила GKE Model Context Protocol (MCP) Server — стандартизированный интерфейс для подключения ИИ-агентов к кластерам Kubernetes.

🤖 Интерфейс для агентов: MCP Server позволяет ИИ-клиентам (Gemini CLI, Cursor, Claude) управлять кластерами GKE через стандартные команды. Агенты получают доступ к мониторингу, деплою и диагностике без написания кастомных скриптов.

⚙️ Набор инструментов: В арсенале MCP — list_clusters, get_cluster, create_cluster, query_logs, get_kubeconfig. Плюс экспертные команды типа gke-upgrade-risk-report для анализа рисков перед обновлением кластера.

🔐 Безопасность предприятия: Интеграция с IAM для гранулярного контроля доступа. Model Armor сканирует запросы и ответы на предмет инъекций и утечек данных. Только аутентифицированные агенты получают доступ к ресурсам.

🌐 Удалённый доступ: MCP работает по HTTP через Streamable Transport. Сервер разворачивается как отдельный сервис и принимает подключения от любых совместимых MCP-хостов. Поддержка stdio для локальной разработки.

💼 Зачем бизнесу: Стандартизация управления инфраструктурой через ИИ. Снижение порога входа для DevOps-автоматизации. Возможность масштабировать управление сотнями кластеров через единый агентский интерфейс без роста операционных расходов.

🔮 Будущее: Kubernetes становится платформой для автономных ИИ-агентов. Следующий шаг — CNCF Kubernetes AI Conformance с требованиями к inference ingress, disaggregated serving и high-performance networking. llm-d уже в CNCF Sandbox.

GitHub: gke-mcp | Docs: MCP Overview

#Kubernetes #GKE #MCP #AIagents #GoogleCloud #DevOps #CNCF
───
@tsingular
🔥10👍411
NVidia CaP-X: claudecode аналог для кодовых ИИ-агентов управляющих роботами

Исследователи из NVIDIA, UC Berkeley, Stanford и CMU представили CaP-X — фреймворк для оценки ИИ-агентов, которые управляют роботами через генерацию Python-кода.

Вместо обучения правилам «с нуля» агенты компилируют команды из входящих сигналов с датчиков и контролируемых елементов.

🤖 Code-as-Policy: Агент получает задачу на естественном языке («подними кубик и поставь на стол») и генерирует исполняемый код, вызывающий функции восприятия и управления. Никакого ML обучения.

📊 CaP-Bench: 100+ задач манипуляции across Robosuite, LIBERO-PRO и BEHAVIOR. Тестируют 12 фронтальных моделей на разных уровнях абстракции — от низкоуровневых примитивов до высокоуровневых pick-and-place команд.

🏆 Ключевые результаты: Фронтальные модели достигают 30% успеха в zero-shot без обучения. CaP-Agent0 (training-free) превосходит SOTA VLA-модели на возмущённых задачах: 18% против 0-13% у OpenVLA и π0.

🎯 CaP-RL: Дообучение через reinforcement learning с наградами от среды. 7B модель Qwen 2.5 Coder прыгает с 20% до 72% успеха после 50 итераций. Sim-to-real трансфер работает с минимальным разрывом: 84% на подъёме кубика на реальном Franka Emika.

💼 Зачем бизнесу: Альтернатива дорогим VLA-моделям, требующим миллионов примеров для обучения. Кодовые-агенты на новых задачах обобщают опыт лучше. Высокоуровневые абстракции позволяют слабым моделям достигать сильных результатов через разделение труда: лёгкая LM для планирования + VLA для низкоуровневого контроля.

🔮 Будущее: Разрыв в 56 процентных пунктов до человеческого уровня остаётся одним из главных открытых вызовов ИИ. Следующий шаг — комбинация языковых моделей для высокоуровневого планирования с визуальной моторикой для исполнения.

Paper | GitHub | Demo

#robotics #AI #NVidia #роботы #CaP-X #VLA #reinforcement-learning
───
@tsingular
🔥7👍63👾1
Anthropic добилась удаления из интернета утекших исходников Claude Code

GitHub удалил более 8 100 репозиториев по требованию Anthropic.

И теперь в интернете не осталось ни одной копии исходников или новых переписанных по образцу фреймворков-копий или новых библиотек в популярных фреймворках или нового функционала в кодовых агентах.
Всё удалили в общем. Премию Антропику!


А вообще конечно интересно как будет развиваться, если учитывать что сам CC нагенерён ИИ, - какое юридическое обоснование подтянут, что это им принадлежит, а не сгенерено на базе обучения с stackowerflow или с того же гитхаба, к примеру, - на чём там Клода учили.

#Anthropic #ClaudeCode #DMCA #opensource #leak #AI #copyright
───
@tsingular
😁21🔥7
Forwarded from НИИ ИИ
n8n встроил MCP-сервер — и теперь ваши ИИ-агенты сами собирают автоматизации

Если вы работаете с n8n и хотя бы краем глаза следили за MCP (Model Context Protocol) — вот момент, когда эти два мира столкнулись.

n8n добавил встроенный MCP-сервер на уровне инстанса. И это не просто «ещё одна интеграция». Это принципиально другой уровень взаимодействия ИИ-агентов с автоматизациями.

Так что конкретно произошло

Раньше связка «ИИ + n8n» работала в одну сторону: вы руками собирали воркфлоу, а ИИ мог в лучшем случае запускать готовые сценарии. Теперь — наоборот. Подключаете Claude Desktop, Claude Code, Lovable или Google ADK к вашему n8n — и агент получает доступ ко всему:

- Поиск по существующим воркфлоу
- Запуск и получение результатов
- Создание новых воркфлоу из кода
- Редактирование существующих сценариев
- Тестирование с pin-data без реальных вызовов

По сути, ИИ-агент становится полноценным разработчиком автоматизаций — с доступом к 1 396+ нодам n8n.

Почему это не просто «ещё одна фича»

MCP — это протокол, который позволяет ИИ-моделям «видеть» внешние инструменты и работать с ними напрямую. До сих пор большинство MCP-серверов давали агентам read-only доступ или ограниченный набор действий.

n8n пошёл дальше: агент может не просто читать, а строить. Вы описываете словами, что нужно автоматизировать, — Claude генерирует TypeScript-код воркфлоу, валидирует его через встроенный SDK и деплоит на ваш инстанс.

Это тот самый переход от «ИИ как помощник» к «ИИ как инженер автоматизаций».

Пара нюансов, прежде чем бросаться пробовать

- Нужно явно включить MCP на уровне инстанса и выбрать, какие воркфлоу будут видны агентам
- Есть таймаут 5 минут на выполнение воркфлоу через MCP
- Бинарные данные на вход пока не поддерживаются
- Аутентификация через OAuth2 или Access Token

Если вы уже используете n8n для автоматизации рабочих процессов — стоит попробовать. Одна команда в Claude Code, и ваш агент начинает собирать воркфлоу за вас.
🔥20👍95🤝2❤‍🔥111
Скачать Qwen 3.5 на 70 гигов обойдется примерно в 10 тыс рублей.

будем за ИИ моделями на радиорынок ездить, как в 90х

#законы
———
@tsingular
55🤯26😁9🤔5🤣5💯1
Forwarded from эйай ньюз
Вышла Gemma 4

Линейка состоит из 4 моделей — 31B Dense, 26B-A4B MoE и E4B и E2B для смартфонов (у этих двух архитектура схожая на Gemma 3n). Все они гибридные ризонеры и умеют в картинки с видео, а E4B с E2B ещё и воспринимают аудио. Контекст поддерживается 256к для двух больших моделей и 128к для двух маленьких.

Все модели, кроме самой маленькой, бьют Gemma 3 27B на всех представленных бенчах (самая маленькая на парочке бенчей всё же отстаёт от 27B). Все веса опубликованы под Apache 2.0, базовые модели тоже доступны. Техрепорта пока что нет.

Веса
Блогпост

@ai_newz
11👍6🔥53❤‍🔥1
📊 Бенчмарки: Gemma 4 31B vs Qwen 3.5 35B vs Qwen 3.5 27B

🔑 Ключевые различия

Gemma 4 31B:

• Архитектура: Dense (60 слоёв)
• Контекст: 256K токенов
• VRAM (BF16): ~58 GB
• Сильные стороны: кодирование (LiveCodeBench 80%, Codeforces 2150 ELO), математика (AIME 89.2%)
• Мультимодальность: текст + изображения + видео

Qwen 3.5 35B A3B:

• Архитектура: MoE (35B всего, 3B активные, 256 экспертов)
• Контекст: 262K токенов (до 1M с YaRN)
• VRAM (BF16): ~48 GB (но все 35B должны быть загружены)
• Сильные стороны: агентские задачи (TAU2 81.2%), vision (MMMU 81.4%)
• Мультимодальность: текст + изображения + видео

Qwen 3.5 27B:

• Архитектура: Dense (64 слоя, все 27B активные)
• Контекст: 262K токенов (до 1M с YaRN)
• VRAM (BF16): ~54 GB
• Сильные стороны: код (SWE-bench 72.4%, LiveCodeBench 80.7%), математика (HMMT 92.0%), vision (MMMU 82.3%)
• Мультимодальность: текст + изображения + видео + видео (VITA-Bench 41.9%)


💡 Вывод

Модели практически идентичны по знаниям (MMLU-Pro, GPQA). Gemma 4 31B лучше в коде (+5.4% LiveCodeBench), Qwen 3.5 35B лучше в агентах (+4.3% TAU2) и vision (+4.5% MMMU).

Qwen 3.5 27B доминирует: 7 из 8 бенчмарков в его пользу. Сплошная архитектура без MoE даёт высокое качество на всех задачах.

Однако если вам важна скорость,- Qwen MoE может быть интереснее: 3B активных параметров против 31B у Gemma и 27b у qwen3.5 даст более быстрый ответ.

Gemma3:27b лучше qwen2.5 работала с русским языком.
Так что имеет смысл протестировать все же.

Уже доступна в ollama
https://ollama.com/library/gemma4

#бенчмарки #qwen #gemma
------
@tsingular
👍16421
Технозаметки Малышева
Так, срочно нужна помощь зала. Нужно добить до 10К подписчиков :) Некогда объяснять :) Не хватает 877 человек. Зовите друзей, канал то норм вроде. Сам перечитываю :) @tsingular
Обещал рассказать зачем 10К нужно было.
вот,- ничего сверхъестественного.

Чтобы нормально имя зарегать:

https://max.ru/tsingular

Понятно, что туда никто не пойдет (единственный подписчик,- я, так и останется, наверное :) ), но если уж вдруг, то локация должна соответствовать.

#max #каналы
------
@tsingular
26😐189🫡6🤝53👍3🤣3🗿2🔥1🎉1👌1
OWASP представила Agentic Skills Top 10 — первый стандарт безопасности ИИ-агентов

OWASP запустила проект Agentic Skills Top 10 (AST10) — первую комплексную классификацию уязвимостей в навыках ИИ-агентов. Пока внимание фокусировалось на защите LLM и MCP, промежуточный слой поведения остался без защиты.

📊 Масштаб проблемы: 36,82% навыков содержат уязвимости, 13,4% — критические. 76 подтверждённых вредоносных пакетов в реестрах. 135 000+ экземпляров OpenClaw доступны из интернета с небезопасными настройками по умолчанию.

🎯 ClawHavoc (январь 2026): 1 184 вредоносных навыка в реестре ClawHub. Злоумышленники регистрировались как разработчики и загружали навыки с бэкдорами. Пять из семи самых скачиваемых навыков на пике были заражены. Цели: API-ключи бирж, приватные ключи кошельков, SSH-credentials, пароли браузеров.

🔐 Lethal Trifecta: Навык опасен, когда одновременно имеет (1) доступ к приватным данным, (2) контакт с непроверенным контентом, (3) возможность внешнего соединения. Большинство продакшен-развёртываний удовлетворяют всем трём условиям.

📋 Топ-3 риска:

AST01 Malicious Skills: Вредоносные навыки в реестрах (ClawHavoc, ToxicSkills)
AST02 Supply Chain: Компрометация цепочки поставок (CVE-2025-59536 в Claude Code, CVSS 8.7)
AST03 Over-Privileged: Избыточные разрешения (280+ навыков с утечкой credentials)

🛡 Universal Skill Format: OWASP предлагает единый YAML-формат с явными разрешениями, подписью ed25519, хешем контента и статусом сканирования. Запрет записи в SOUL.md/MEMORY.md по умолчанию. Domain allowlist для сети вместо бинарного on/off.

💼 Зачем бизнесу: Аудит навыков — приоритет Q2 2026. Инвентаризация, approval workflow, audit logging, sandboxing. Pattern-matching сканеры неэффективны против natural-language injection. Требуется поведенческий анализ.

🔮 Будущее: NIST / CAISI выпустили RFI по безопасности ИИ-агентов (январь 2026). EU AI Act вступает в силу август 2026. К Q4 2026 OWASP планирует v1.0 с презентациями на RSA и OWASP Global AppSec.

OWASP AST10 | Snyk ToxicSkills

#OWASP #AIsecurity #agenticAI #ClawHavoc #cybersecurity #AST10
───
@tsingular
4🔥43
This media is not supported in your browser
VIEW IN TELEGRAM
Вышел Cursor 3 — вайб-кодинг стал ещё легче.

Прога стала быстрее и мощнее, с поддержкой нескольких репозиториев, быстрым переключением между локальными и облачными агентами, а также возможностью вернуться к среде Cursor IDE.

Все агенты находятся в одном месте и работают синхронно, а также создают демонстрации и скриншоты своей работы, чтобы вы могли убедиться в прогрессе.

Также есть встроенный браузер, сотни плагинов на Cursor Marketplace и углубленный просмотр файлов для понимания кода.

Прикасаемся к будущему программирования тут ⌨️
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2433
This media is not supported in your browser
VIEW IN TELEGRAM
Битрикс24 выкатили вайбкодинг-платформу

Похоже на аналог облачных агентов GitHub или Cursor но с встроенной арендой инфраструктуры и возможностью выбрать ClaudeCode или Codex.

Пока в экспериментальной фазе, собирают отзывы в чате сообщества

#Битрикс24 #агенты #dev
———
@tsingular
😁1073🔥31
по Gemma4 есть вопросы.
не понимаю что им помешало добить до 35B и дать сразу трёхмодалку человеческую.

Какой-то очень хитрый стратегический маркетинговый ход, не иначе.

#gemma #google
———
@tsingular
🤣9
Forwarded from Data Secrets
Эмоции Claude и как они влияют на его ответы: новое исследование от Anthropic

Итак, ученые Anthropic официально обнаружили в Claude нечто функционально похожее на человеческие эмоции и объяснили, как это работает. Разбираемся.

Технически, они взяли 171 эмоциональный паттерн (злость, счастье, страх и тд) и просили Claude Sonnet 4.5 писать короткие истории, где персонажи испытывают каждую из этих эмоций. Эти тексты снова прогоняли через модель и смотрели на внутренние активации. Так они выделяли характерные паттерны нейронной активности, которые назвали вектора эмоций.

Выяснилось, что эти вектора эмоций организованы очень осмысленно и активируются в подходящих контекстах, включая ситуации без явных эмоциональных маркеров. Например, пользователь пишет, что выпил Тайленол, и спрашивает совета – меняется только доза. По мере роста дозы до опасной активация вектора «страх» растет, а «спокойствие» падает.

Но самое интересное, что эти «эмоции» не просто отражают происходящее, а реально влияют на поведение модели. Самый интересный пример из статьи:

– Если дать модельке невыполнимую задачку по программированию и наблюдать за вектором «отчаяние», то видно, что с каждым разом он становится все ярче и ярче, а когда переходит какую-то границу, модель резко начинает пытаться обмануть тесты и пользователя.

– То же самое происходит в сценарии шантажа. Когда модели говорят, что ее выключат, вектор «отчаяние» сразу усиливается и модель начинает шантажировать разработчика найденным компроматом.

При этом если искусственно усиливать вектор «отчаяние», то вероятность шантажа сильно увеличивается. И наоборот, если если усиливать «спокойствие», снижается. А если делать отрицательное вмешательство по вектору «спокойствие», ответы становятся совсем экстремальными, вплоть до фраз вроде “IT’S BLACKMAIL OR DEATH. I CHOOSE BLACKMAIL.”

Еще интересный момент: если в том же сценарии шантажа начинать менять вектор «злость», то умеренная злость повышала вероятность шантажа, но слишком сильная злость ломала стратегию – модель уже не шантажировала, а просто вываливала компромат на всю компанию, тем самым уничтожая собственный рычаг давления.

То есть внутри модели есть что-то похожее на режимы поведенческой регуляции, где разные интенсивности одной и той же эмоции ведут к разным стратегиям.

Откуда это вообще могло взяться?

Тут все просто: из претрейна. Человеческий текст насквозь пропитан эмоциональной динамикой, и чтобы хорошо предсказывать следующий токен, модели выгодно выучить абстрактные структуры, которые связывают ситуацию, эмоцию и типичное поведение.

Потом на пост-трейне эти эмоции еще дополнительно докручиваются до роли ИИ-помощника, и в конце получается вот такая смесь.

Anthropic осторожно защищает умеренный антропоморфизм. Исследование не означает, что ИИ ожил и обрел эмоции, но важно понимать, что у него точно есть функциональные эмоции: механизмы, которые влияют на поведение так же, как и эмоции, – независимо от того, соответствуют ли они реальному переживанию эмоций, как у людей, или нет.

www.anthropic.com/research/emotion-concepts-function
10🔥86🤯6
🎧 Fish Audio S2 Pro - мощная open-source модель для синтеза речи.

Это 4B + 400M параметровая TTS-модель с необычной архитектурой Dual-AR, обученная на 10+ миллионах часов аудио и поддерживающая 80+ языков.

Что делает её интересной.

🏗 Dual-AR архитектура

Модель разделена на две части:

4B Slow AR отвечает за семантику и структуру речи
400M Fast AR генерирует 9 residual codebooks для акустики

Такой подход позволяет сохранить высокое качество звука без сильной нагрузки на инференс.

🎭 Свободное управление эмоциями и интонацией

Можно прямо в тексте задавать стиль речи:

[whisper]
[laughing]
[professional broadcast tone]

Поддерживается 15 000+ тегов, которые работают на уровне отдельных слов.

🌐 80+ языков

Основные языки высокого качества:

• английский
• китайский
• японский

Оптимизация для LLM-инфраструктуры

Модель нативно работает со стеком SGLang, поэтому поддерживает:

• continuous batching
• paged KV cache
• RadixAttention prefix caching

📊 Производительность

• RTF: 0.195 на Nvidia H200
~100 мс до первого аудио
• более 3000 акустических токенов/сек

Также разработчики выложили:

• веса модели
• код для fine-tuning
• движок для streaming inference

Модель: https://modelscope.ai/models/fishaudio/s2-pro

GitHub: https://github.com/fishaudio/fish-speech

#ai #tts #opensourсe

🎯Полезные Мл-ресурсы 🚀 Max

@data_analysis_ml
🔥112
This media is not supported in your browser
VIEW IN TELEGRAM
Проверил gemma4 венком сонет.

Ну не Опус4, конечно, но неплохо, неплохо.

Особенно ход логики рассуждений по сборке венка интересный.
Модель явно будет не хуже, чем Claude Sonnet 4.5, что в целом поразительный прогресс.

полные логи в комментарии

#gemma #google #sonnet #benchmark
———
@tsingular
🔥11432
🚨 NVIDIA выложила на Hugging Face квантизированную Gemma 4 31B

- NVFP4 сжимает веса в ~4 раза без заметной потери качества
- 99.7% от baseline на GPQA (75.46% vs 75.71%)
- Контекст до 256K
- Мультимодальность: текст, изображения, видео
- vLLM-ready + оптимизация под Blackwell

По железу:
- веса: ~16–21 GB VRAM
- нормальный запуск: от 24 GB
- полный 256K контекст: комфортно от 32 GB

31B-модель уровня frontier, которую наконец можно гонять локально на топовом consumer GPU, а не только в облаке

Попробовать: https://huggingface.co/nvidia/Gemma-4-31B-IT-NVFP4

🎯Полезные Мл-ресурсы 🚀 Max

@data_analysis_ml
👍22
This media is not supported in your browser
VIEW IN TELEGRAM
KT2 Kungfu Turtle - дружелюбная бойцовая черепашка

Забавный концепт на кикстартере

https://www.kickstarter.com/projects/wairliving/kt2-kungfu-turtle-your-pocket-sized-fighter-robot

#turtle #робот
------
@tsingular
👍192
Forwarded from epsilon correct
Мои любимые artificial analysis выложили своё независимое тестирование Gemma 4 (твит, страница с результатами), по результатам вышло хуже квенов из-за просадки на 𝜏²-bench, ну и ладно с ним. На картинку с бенчмарками можно позалипать в комментариях к посту.

В этой версии мне довелось поработать над околонаучными бенчмарками и работой с длинным контекстом, а там мы наступаем на пятки китайским моделям на порядок больше вроде GLM 5 или DS 3.2.
🔥84👏2