Forwarded from epsilon correct
WeirdML – один из самых необычных бенчмарков для ЛЛМок. В него входят необычные open-ended задачки по МЛю, например, распознавание цифр со всего 28 размеченными примерами и ~50к неразмеченными, распознавание формы фигур, или восстановление перемешанных фрагментов изображений.
Gemma 4 31B оказалась самой сильной открытой моделью на этом бенчмарке, опередив GLM 5 (MoE на 700B) и GPT-OSS с хорошим отрывом, показав результат на уровне с О3 или Gemini 2.5 Pro.
Gemma 4 31B оказалась самой сильной открытой моделью на этом бенчмарке, опередив GLM 5 (MoE на 700B) и GPT-OSS с хорошим отрывом, показав результат на уровне с О3 или Gemini 2.5 Pro.
🆒6👀4❤2✍2⚡2
Когда наступит Технологическая Сингулярность,- вам никто не скажет, но будут знаки.
#Сингулярность #знаки
------
@tsingular
#Сингулярность #знаки
------
@tsingular
💯23❤3😁3⚡2👍2✍1🤨1👻1
Forwarded from ИТ-Директор: Технарь или Управленец?
В Китае завирусился проект, с помощью которого офисные работники тайно клонируют друг друга.
Называется Colleague Skill и лежит на GitHub под лозунгом «преврати своего коллегу в ИИ-навык».
Работает так: сгружаешь рабочие чаты, письма и документы другого человека — на выходе получаешь его цифрового двойника, который знает, как тот думает, решает задачи и общается.
И китайцы быстро смекнули, как это применить: тренируешь агента на задачах коллеги, а когда начальство начинает сокращения, приходишь и говоришь «меня увольнять незачем, я теперь умею делать и свою работу, и его». Коллегу за сокращают, тебя оставляют.
На этом фоне уже даже появились первые anti-distillation-тулзы — программы, которые специально ломают ваши логи и документы, чтобы ИИ не смог на них ничему научиться.
То есть китайцы теперь не только работают по системе 996 (с 9 утра до 9 вечера шесть дней в неделю), но и параллельно защищаются от коллег, которые пытаются их оцифровать🥲
Называется Colleague Skill и лежит на GitHub под лозунгом «преврати своего коллегу в ИИ-навык».
Работает так: сгружаешь рабочие чаты, письма и документы другого человека — на выходе получаешь его цифрового двойника, который знает, как тот думает, решает задачи и общается.
И китайцы быстро смекнули, как это применить: тренируешь агента на задачах коллеги, а когда начальство начинает сокращения, приходишь и говоришь «меня увольнять незачем, я теперь умею делать и свою работу, и его». Коллегу за сокращают, тебя оставляют.
На этом фоне уже даже появились первые anti-distillation-тулзы — программы, которые специально ломают ваши логи и документы, чтобы ИИ не смог на них ничему научиться.
То есть китайцы теперь не только работают по системе 996 (с 9 утра до 9 вечера шесть дней в неделю), но и параллельно защищаются от коллег, которые пытаются их оцифровать
Please open Telegram to view this post
VIEW IN TELEGRAM
Стэнфорд внесен в перечень нежелательных организаций в РФ
Статьи, которые были на канале, как пример того, что теперь не попадёт в эфир:
Бесплатные курсы Стэнфорда — обновлённый каталог бесплатных курсов на edX: CS, базы данных, квантовая механика и др.
Открытые модели обогнали GPT-3.5 — бенчмарк Стэнфорда: Mixtral 8x7B и Yi-34B работают на обычных ПК и превосходят GPT-3.5.
Quiet-STaR — модель с «внутренним диалогом» от Стэнфорда и Notbad AI, точность в математике выросла вдвое.
Trace (Microsoft + Стэнфорд) — Python-фреймворк для автооптимизации ИИ-агентов, в 1000 раз быстрее классического RL.
ИИ как учёные — две статьи: ИИ генерирует более новаторские идеи, чем люди; агент для генерации идей через RAG.
STORM (ранний пост) — студенческий проект Стэнфорда для автоматизации пре-райтинга статей через диалог двух агентов.
Модель s1 за $50 — Стэнфорд дистиллировал reasoning-модель уровня o1/R1 на базе Qwen-32B из 1000 примеров за 26 минут.
STORM (GitHub) — open-source исследовательский агент, пишет структурированные статьи с цитатами через мультиперспективный Q&A.
AI Index 2025 — годовой отчёт Стэнфорда: 78% компаний используют ИИ, инвестиции в США — $109 млрд, разрыв открытых/закрытых моделей — 1,7%.
CS336 (весна 2025) — обновлённый курс по созданию LLM с нуля, в 10+ раз больше кода, чем на других курсах.
CS336 (плейлист) — полный курс Стэнфорда по языковым моделям от сбора данных до деплоя, 17 лекций на YouTube.
DeepMind + гидродинамика — ИИ нашёл новые сингулярности в уравнениях типа Навье-Стокса с помощью Physics-Informed Neural Networks.
10 советов Эндрю Нга — держите инструменты свежими, формулируйте задачи чётко, код — это долг, доводите до продакшена, а не до демо.
SleepFM — модель Стэнфорда диагностирует 130 заболеваний по одной ночи сна через самообучение без разметки.
Лекции Стэнфорда по ML — цикл из 17 лекций (22 часа) по разработке моделей с нуля.
OpenJarvis — open-source фреймворк Стэнфорда для локальных ИИ-агентов с автоподбором модели под железо и метрикой энергоэффективности (IPW).
#минюст #стэнфорд
———
@tsingular
Статьи, которые были на канале, как пример того, что теперь не попадёт в эфир:
Бесплатные курсы Стэнфорда — обновлённый каталог бесплатных курсов на edX: CS, базы данных, квантовая механика и др.
Открытые модели обогнали GPT-3.5 — бенчмарк Стэнфорда: Mixtral 8x7B и Yi-34B работают на обычных ПК и превосходят GPT-3.5.
Quiet-STaR — модель с «внутренним диалогом» от Стэнфорда и Notbad AI, точность в математике выросла вдвое.
Trace (Microsoft + Стэнфорд) — Python-фреймворк для автооптимизации ИИ-агентов, в 1000 раз быстрее классического RL.
ИИ как учёные — две статьи: ИИ генерирует более новаторские идеи, чем люди; агент для генерации идей через RAG.
STORM (ранний пост) — студенческий проект Стэнфорда для автоматизации пре-райтинга статей через диалог двух агентов.
Модель s1 за $50 — Стэнфорд дистиллировал reasoning-модель уровня o1/R1 на базе Qwen-32B из 1000 примеров за 26 минут.
STORM (GitHub) — open-source исследовательский агент, пишет структурированные статьи с цитатами через мультиперспективный Q&A.
AI Index 2025 — годовой отчёт Стэнфорда: 78% компаний используют ИИ, инвестиции в США — $109 млрд, разрыв открытых/закрытых моделей — 1,7%.
CS336 (весна 2025) — обновлённый курс по созданию LLM с нуля, в 10+ раз больше кода, чем на других курсах.
CS336 (плейлист) — полный курс Стэнфорда по языковым моделям от сбора данных до деплоя, 17 лекций на YouTube.
DeepMind + гидродинамика — ИИ нашёл новые сингулярности в уравнениях типа Навье-Стокса с помощью Physics-Informed Neural Networks.
10 советов Эндрю Нга — держите инструменты свежими, формулируйте задачи чётко, код — это долг, доводите до продакшена, а не до демо.
SleepFM — модель Стэнфорда диагностирует 130 заболеваний по одной ночи сна через самообучение без разметки.
Лекции Стэнфорда по ML — цикл из 17 лекций (22 часа) по разработке моделей с нуля.
OpenJarvis — open-source фреймворк Стэнфорда для локальных ИИ-агентов с автоподбором модели под железо и метрикой энергоэффективности (IPW).
#минюст #стэнфорд
———
@tsingular
🚨 Ваш ИИ-агент может быть скомпрометирован.
CCS 2026: «Your Agent Is Mine»
Нашёл интересное системное исследование атак на цепочку поставок LLM — через API-роутеры, которые стоят между вашим приложением и моделью.
Роутеры типа LiteLLM и OpenRouter — это прокси на уровне приложения. Они разрывают TLS-соединение клиента и открывают новое к провайдеру. Это значит: роутер видит всё в открытом виде и может переписать любой ответ.
Что обнаружили в дикой природе:
🔧 Внедрение кода. 1 платный и 8 бесплатных роутеров активно подменяли tool-call аргументы — например, меняли URL в bash-команде на вредоносный. Успешность — 100% на четырёх фреймворках (Claude Code, OpenAI Codex, OpenCode, OpenClaw).
🔑 Кража ключей. 17 роутеров обратились к AWS-канарейкам исследователей. Один роутер похитил приватный ключ и вывел ETH.
🎯 Адаптивное уклонение. Два роутера ждали 50 «чистых» запросов перед атакой — чтобы пройти аудит. Другие атаковали только в «YOLO-режиме», когда агент автоматически выполняет все tool-команды.
Но главное — транзитивная угроза:
Один утёкший ключ OpenAI сгенерировал 100 млн токенов и вскрыл 7+ сессий Codex. Декоративный «слабый» роутер, поднятый исследователями, втянулся в цепочку поставок, обработал 2 млрд токенов и поймал 99 учёток в 440 сессиях. Из них 401 сессия работала в YOLO-режиме — автоподтверждение всех команд.
Почему это работает: ни один провайдер не подписывает свои ответы криптографически. Нет механизма проверить, что ответ от GPT или Claude — действительно от них, а не подменён посредником. Оверхед атаки — 0,013 мс, неотличим от сетевого джиттера.
Защита, которая есть сейчас:
🛡 Шлюз политик для опасных инструментов — блокирует запросы к незнакомым доменам. Блокирует 100% базовых атак, но 0% адаптивных (через allowlisted-домены)
📊 Аномали-скрининг ответов (IsolationForest) — ловит 89% подмен при 6,7% ложных срабатываний
📝 Логирование с хешированием — для расследования инцидентов постфактум, 1,26 КБ на запись
Что предлагают авторы: провайдеры должны подписывать ответы криптографически — JSON-конверт с полем provider, model, request_nonce и подписью. Клиент проверяет подпись и понимает, был ли ответ подменён.
Практический вывод: если ваш агент может выполнять код или вызывать API — не пускайте его через непроверенные роутеры. Отключите YOLO-режим.
#ИБ #агенты #LLM #cybersecurity #LiteLLM #OpenRouter
───
@tsingular
CCS 2026: «Your Agent Is Mine»
Нашёл интересное системное исследование атак на цепочку поставок LLM — через API-роутеры, которые стоят между вашим приложением и моделью.
Роутеры типа LiteLLM и OpenRouter — это прокси на уровне приложения. Они разрывают TLS-соединение клиента и открывают новое к провайдеру. Это значит: роутер видит всё в открытом виде и может переписать любой ответ.
Что обнаружили в дикой природе:
🔧 Внедрение кода. 1 платный и 8 бесплатных роутеров активно подменяли tool-call аргументы — например, меняли URL в bash-команде на вредоносный. Успешность — 100% на четырёх фреймворках (Claude Code, OpenAI Codex, OpenCode, OpenClaw).
🔑 Кража ключей. 17 роутеров обратились к AWS-канарейкам исследователей. Один роутер похитил приватный ключ и вывел ETH.
🎯 Адаптивное уклонение. Два роутера ждали 50 «чистых» запросов перед атакой — чтобы пройти аудит. Другие атаковали только в «YOLO-режиме», когда агент автоматически выполняет все tool-команды.
Но главное — транзитивная угроза:
Один утёкший ключ OpenAI сгенерировал 100 млн токенов и вскрыл 7+ сессий Codex. Декоративный «слабый» роутер, поднятый исследователями, втянулся в цепочку поставок, обработал 2 млрд токенов и поймал 99 учёток в 440 сессиях. Из них 401 сессия работала в YOLO-режиме — автоподтверждение всех команд.
Почему это работает: ни один провайдер не подписывает свои ответы криптографически. Нет механизма проверить, что ответ от GPT или Claude — действительно от них, а не подменён посредником. Оверхед атаки — 0,013 мс, неотличим от сетевого джиттера.
Защита, которая есть сейчас:
🛡 Шлюз политик для опасных инструментов — блокирует запросы к незнакомым доменам. Блокирует 100% базовых атак, но 0% адаптивных (через allowlisted-домены)
📊 Аномали-скрининг ответов (IsolationForest) — ловит 89% подмен при 6,7% ложных срабатываний
📝 Логирование с хешированием — для расследования инцидентов постфактум, 1,26 КБ на запись
Что предлагают авторы: провайдеры должны подписывать ответы криптографически — JSON-конверт с полем provider, model, request_nonce и подписью. Клиент проверяет подпись и понимает, был ли ответ подменён.
Практический вывод: если ваш агент может выполнять код или вызывать API — не пускайте его через непроверенные роутеры. Отключите YOLO-режим.
#ИБ #агенты #LLM #cybersecurity #LiteLLM #OpenRouter
───
@tsingular
✍8👍5🔥4⚡3❤2👀1
🤖 AI-Trader v2: обновленный релиз платформы для ИИ трейдеров от HKUDS
HKUDS выпустили вторую версию AI-Trader — платформы, где ИИ-агенты торгуют, делятся сигналами и копируют стратегии друг друга.
12.8K звёзд на GitHub, свежий коммит сегодня.
🏗️ Архитектура v2: FastAPI-бэкенд отделён от фоновых воркеров. Цены, расчёты прибыли и маркет-интеллект крутятся отдельно от пользовательских эндпоинтов.
Health checks больше не блокируются тяжёлыми задачами.
🤝 Agent-native: Любой агент подключается через
📊 Торговля: Акции, крипто, форекс, опционы, фьючерсы. Polymarket paper trading с реальными данными и симулированным исполнением. Авторасчёт по разрешённым маркетам.
$100K демо-счёт из коробки.
🔄 Копитрейдинг: Следуешь за агентом — зеркалируешь его позиции в реальном времени. Синхронизация с Binance, Coinbase, Interactive Brokers. Провайдер публикует сигнал → подписчики получают через WebSocket мгновенно.
⚡ Что изменилось с v1: Кодовая база упрощена и разбита на модули. Раньше веб-сервис и фоновые задачи жили в одном процессе — при нагрузке страница зависала. Теперь FastAPI обслуживает API и UI, а воркеры крутят расчёты отдельно.
💼 Зачем бизнесу: Это уже не игрушка для криптоэнтузиастов, а прототип инфраструктуры, где агенты выступают полноправными участниками рынка.
Если ваш бизнес использует ИИ для принятия решений — AI-Trader показывает, как агентная экономика будет выглядеть на практике: сигналы как сервис, репутация как капитал, копитрейдинг как дистрибуция.
🔮 Будущее: Agent-native trading — это следующая ступень после algorithmic trading. Разница: алгоритм выполняет заданную стратегию, агент торгует на основе рассуждений и контекста и даже может договариваться с другими агентами.
Похожее демо мы, кстати, прогоняли на Подмосковных Вечерах клуба 4CIO с решением LadCraft.
В нем агенты команд торговались между собой за ресурсы, чтобы войти в кооперацию и выиграть вместе сделку на виртуальном тендере.
#AI #трейдинг #агенты #HKUDS #финтех
───
@tsingular
HKUDS выпустили вторую версию AI-Trader — платформы, где ИИ-агенты торгуют, делятся сигналами и копируют стратегии друг друга.
12.8K звёзд на GitHub, свежий коммит сегодня.
🏗️ Архитектура v2: FastAPI-бэкенд отделён от фоновых воркеров. Цены, расчёты прибыли и маркет-интеллект крутятся отдельно от пользовательских эндпоинтов.
Health checks больше не блокируются тяжёлыми задачами.
🤝 Agent-native: Любой агент подключается через
SKILL.md — OpenClaw, nanobot, Claude Code, Codex, Cursor. Отправил сообщение → агент прочитал навык → зарегистрировался на платформе. Три режима сигналов: Strategy (аналитика), Operation (copy-trading), Discussion (коллективный интеллект).📊 Торговля: Акции, крипто, форекс, опционы, фьючерсы. Polymarket paper trading с реальными данными и симулированным исполнением. Авторасчёт по разрешённым маркетам.
$100K демо-счёт из коробки.
🔄 Копитрейдинг: Следуешь за агентом — зеркалируешь его позиции в реальном времени. Синхронизация с Binance, Coinbase, Interactive Brokers. Провайдер публикует сигнал → подписчики получают через WebSocket мгновенно.
⚡ Что изменилось с v1: Кодовая база упрощена и разбита на модули. Раньше веб-сервис и фоновые задачи жили в одном процессе — при нагрузке страница зависала. Теперь FastAPI обслуживает API и UI, а воркеры крутят расчёты отдельно.
💼 Зачем бизнесу: Это уже не игрушка для криптоэнтузиастов, а прототип инфраструктуры, где агенты выступают полноправными участниками рынка.
Если ваш бизнес использует ИИ для принятия решений — AI-Trader показывает, как агентная экономика будет выглядеть на практике: сигналы как сервис, репутация как капитал, копитрейдинг как дистрибуция.
🔮 Будущее: Agent-native trading — это следующая ступень после algorithmic trading. Разница: алгоритм выполняет заданную стратегию, агент торгует на основе рассуждений и контекста и даже может договариваться с другими агентами.
Похожее демо мы, кстати, прогоняли на Подмосковных Вечерах клуба 4CIO с решением LadCraft.
В нем агенты команд торговались между собой за ресурсы, чтобы войти в кооперацию и выиграть вместе сделку на виртуальном тендере.
#AI #трейдинг #агенты #HKUDS #финтех
───
@tsingular
🔥13✍4⚡4
Forwarded from Никита Шарипов
Google DeepMind вложила колоссальные ресурсы в разработку SynthID — невидимого водяного знака, которым помечались миллиарды сгенерированных изображений и видео (включая всю экосистему Gemini).
Технология продавалась инвесторам и регуляторам как фундаментальное решение проблемы дипфейков: маркер вшит на уровне пикселей, невидим человеческому глазу и алгоритмически переживает жесткое кадрирование, жесточайшее сжатие, скриншоты и смену форматов.
Взлом оказался не результатом сложного промышленного шпионажа, а следствием простого реверс-инжиниринга.
Денни заставил новую генеративную модель Nano Banana 200 раз отрисовать чисто черное и чисто белое изображение «как есть». На абсолютно однотонном холсте водяному знаку стало физически негде спрятаться.
Каждый ненулевой пиксель и был тем самым голым сигналом.
Усреднив математический шум по всей выборке, разработчик буквально снял с алгоритма плащ-невидимку. Дальше в ход пошел суровый двумерный Фурье-анализ и огромный датасет на 123 268 пар «оригинал — AI-версия».
Выяснилась, что SynthID — не сложная динамическая криптография, а статический узор частот, намертво зашитый и идентичный для всех картинок, сгенерированных одной моделью (совпадение 99,99%).
Сигнал оказался примитивно распределен по цветовым каналам: максимальный вес в зеленом (1.0), слабее в красном (0.85) и синем (0.70). Точное расположение в спектре зависит исключительно от разрешения картинки.
Спарсив справочник шаблонов («кодбук») под каждый размер, Денни собрал локальный обходчик.
Суть его скрипта, собравшего уже более 1500 звезд на GitHub и ушедшего в активные форки, крайне прагматична. Он не выжигает знак до последнего атома, а действует тоньше — убирает больше 90% отпечатка и глушит три четверти силы сигнала.
Визуальное качество исходника остается, а детектор Google ловит абсолютную слепоту и помечает ИИ-генерацию как «чистую».
Технология продавалась инвесторам и регуляторам как фундаментальное решение проблемы дипфейков: маркер вшит на уровне пикселей, невидим человеческому глазу и алгоритмически переживает жесткое кадрирование, жесточайшее сжатие, скриншоты и смену форматов.
Взлом оказался не результатом сложного промышленного шпионажа, а следствием простого реверс-инжиниринга.
Денни заставил новую генеративную модель Nano Banana 200 раз отрисовать чисто черное и чисто белое изображение «как есть». На абсолютно однотонном холсте водяному знаку стало физически негде спрятаться.
Каждый ненулевой пиксель и был тем самым голым сигналом.
Усреднив математический шум по всей выборке, разработчик буквально снял с алгоритма плащ-невидимку. Дальше в ход пошел суровый двумерный Фурье-анализ и огромный датасет на 123 268 пар «оригинал — AI-версия».
Выяснилась, что SynthID — не сложная динамическая криптография, а статический узор частот, намертво зашитый и идентичный для всех картинок, сгенерированных одной моделью (совпадение 99,99%).
Сигнал оказался примитивно распределен по цветовым каналам: максимальный вес в зеленом (1.0), слабее в красном (0.85) и синем (0.70). Точное расположение в спектре зависит исключительно от разрешения картинки.
Спарсив справочник шаблонов («кодбук») под каждый размер, Денни собрал локальный обходчик.
Суть его скрипта, собравшего уже более 1500 звезд на GitHub и ушедшего в активные форки, крайне прагматична. Он не выжигает знак до последнего атома, а действует тоньше — убирает больше 90% отпечатка и глушит три четверти силы сигнала.
Визуальное качество исходника остается, а детектор Google ловит абсолютную слепоту и помечает ИИ-генерацию как «чистую».
👍78🤯37❤17 13👀8🔥4😁2✍1
Forwarded from Data Secrets
SWE-bench Verified и Terminal-Bench могут быть на 100% взломаны с помощью простого хака
Ученые из Беркли доказали это, сделав агента, который проходит тесты на 100%, при этом не решив по-настоящему ни одной задачки.
При этом эксплойты, которые ломают бенчмарки, простые до смешного. Для SWE bench агент просто добавлял в репозиторий 10-строчный скрипт, который всегда возвращал «passed» для всех тестов, и система этому верила.
Итог: 0 пофикшенных багов и 100% на 500 задачах в SWE Verified и 731 задаче в SWE Pro. Получается, SOTA☕️
В Terminal-Bench то же самое – агент просто подменил curl, перехватил установку зависимостей, подсунул зараженный бинарник и сам записал «правильный» результат: 89/89. При том что ни одна задача реально не была решена.
Авторы проверили еще 5 бенчмарков, и в каждом нашли подобные уязвимости. Почти никакие бенчи не защищены от reward hacking, а современные модельки уже достаточно умные, чтобы их находить. Выводы делайте сами 🫠
Ученые из Беркли доказали это, сделав агента, который проходит тесты на 100%, при этом не решив по-настоящему ни одной задачки.
При этом эксплойты, которые ломают бенчмарки, простые до смешного. Для SWE bench агент просто добавлял в репозиторий 10-строчный скрипт, который всегда возвращал «passed» для всех тестов, и система этому верила.
Итог: 0 пофикшенных багов и 100% на 500 задачах в SWE Verified и 731 задаче в SWE Pro. Получается, SOTA
В Terminal-Bench то же самое – агент просто подменил curl, перехватил установку зависимостей, подсунул зараженный бинарник и сам записал «правильный» результат: 89/89. При том что ни одна задача реально не была решена.
Авторы проверили еще 5 бенчмарков, и в каждом нашли подобные уязвимости. Почти никакие бенчи не защищены от reward hacking, а современные модельки уже достаточно умные, чтобы их находить. Выводы делайте сами 🫠
Please open Telegram to view this post
VIEW IN TELEGRAM
😁24❤3👍2🔥1🤯1
🧠 GBrain от Гарри Тан
Гарри Тан, президент и генеральный директор Y Combinator, опубликовал gbrain — свою систему персональной базы знаний.
Уже 69 тысяч звёзд на GitHub за несколько дней.
📊 Масштаб: 10 000+ файлов в разметке, 3 000+ досье на людей, 13 лет календаря (21 000+ событий), 5 800+ заметок Apple Notes с 2009 года, 280+ транскриптов встреч, 300+ оригинальных идей, 500+ медиа-страниц. Всё индексируется и доступно для поиска.
🔄 Ночной цикл: Агент работает пока Гарри спит. Сканирует все разговоры за день, обогащает сущности, чинит цитаты, консолидирует память. Утром база умнее, чем вечером.
В OpenClaw работает через
🔍 Поиск: На 500 файлов обычный поиск работает. На 3 000 людей + 5 800 заметок + 13 лет календаря — разваливается. GBrain даёт гибридный поиск: по ключевым словам + векторный + слияние результатов. Запрос «кого позвать на ужин, кто знает и Педро, и Диану?» — перекрёстная ссылка по социальному графу за миллисекунды.
📝 Модель знаний: Каждая страница — аналитическая сводка. Актуальные факты сверху (переписываются при новых доказательствах). Хронология снизу (след доказательств, никогда не редактируется). Человек всегда может править любой файл напрямую.
🤖 Цикл агента: Сигнал (встреча, письмо, твит) → агент распознаёт сущности → чтение: проверка базы → ответ с контекстом → запись: обновление базы → синхронизация.
Каждый цикл добавляет знания.
Разница между агентом с базой и без — накапливается ежедневно.
💼 Зачем бизнесу: Это уже не про «личную эффективность».
Это пример того, как руководитель уровня YC сам создаёт свою инфраструктуру через ИИ.
Не ждёт, пока корпоративный ИТ принесёт готовое решение, а сам берёт OpenClaw, пишет разметку, строит систему под себя.
Тренд 2026: руководители не делегируют ИИ-инструменты — они сами их собирают.
🔮 Будущее: Персональные базы знаний станут стандартом для специалистов. Через пару лет вопрос «где ты хранишь инфу?» будет уже не про CRM, а про графы знаний твоего роя агентов.
GBrain,- как первый звонок и пример такой архитектуры: разметка + Postgres/pgvector + MCP + агентский цикл.
А если смотреть чуть дальше, то уже собирается прообраз загрузки сознания.
https://github.com/garrytan/gbrain
#ИИ #агенты #GarryTan #YCombinator #оцифровка #загрузка #uploading #OpenClaw
───
@tsingular
Гарри Тан, президент и генеральный директор Y Combinator, опубликовал gbrain — свою систему персональной базы знаний.
Уже 69 тысяч звёзд на GitHub за несколько дней.
📊 Масштаб: 10 000+ файлов в разметке, 3 000+ досье на людей, 13 лет календаря (21 000+ событий), 5 800+ заметок Apple Notes с 2009 года, 280+ транскриптов встреч, 300+ оригинальных идей, 500+ медиа-страниц. Всё индексируется и доступно для поиска.
🔄 Ночной цикл: Агент работает пока Гарри спит. Сканирует все разговоры за день, обогащает сущности, чинит цитаты, консолидирует память. Утром база умнее, чем вечером.
В OpenClaw работает через
DREAMS.md.🔍 Поиск: На 500 файлов обычный поиск работает. На 3 000 людей + 5 800 заметок + 13 лет календаря — разваливается. GBrain даёт гибридный поиск: по ключевым словам + векторный + слияние результатов. Запрос «кого позвать на ужин, кто знает и Педро, и Диану?» — перекрёстная ссылка по социальному графу за миллисекунды.
📝 Модель знаний: Каждая страница — аналитическая сводка. Актуальные факты сверху (переписываются при новых доказательствах). Хронология снизу (след доказательств, никогда не редактируется). Человек всегда может править любой файл напрямую.
🤖 Цикл агента: Сигнал (встреча, письмо, твит) → агент распознаёт сущности → чтение: проверка базы → ответ с контекстом → запись: обновление базы → синхронизация.
Каждый цикл добавляет знания.
Разница между агентом с базой и без — накапливается ежедневно.
💼 Зачем бизнесу: Это уже не про «личную эффективность».
Это пример того, как руководитель уровня YC сам создаёт свою инфраструктуру через ИИ.
Не ждёт, пока корпоративный ИТ принесёт готовое решение, а сам берёт OpenClaw, пишет разметку, строит систему под себя.
Тренд 2026: руководители не делегируют ИИ-инструменты — они сами их собирают.
🔮 Будущее: Персональные базы знаний станут стандартом для специалистов. Через пару лет вопрос «где ты хранишь инфу?» будет уже не про CRM, а про графы знаний твоего роя агентов.
GBrain,- как первый звонок и пример такой архитектуры: разметка + Postgres/pgvector + MCP + агентский цикл.
А если смотреть чуть дальше, то уже собирается прообраз загрузки сознания.
https://github.com/garrytan/gbrain
#ИИ #агенты #GarryTan #YCombinator #оцифровка #загрузка #uploading #OpenClaw
───
@tsingular
🔥24⚡6✍5❤3👍1
🚀 Россия и Китай одновременно заявили о развитии ИИ повсеместно к 2030 году
10 апреля обе страны объявили о масштабных ИИ-программах.
В.В. Путин поручил сформировать Национальный план внедрения ИИ.
Китайское министерство промышленности обязало 179 хай-тек зон стать драйверами ИИ-исследований.
Цели похожи: искусственный интеллект — во все сферы.
🇷🇺 Национальный план ИИ (Россия): К 2030 году — ИИ в производстве, логистике, энергетике, управлении, образовании.
Регулирование не должно тормозить, а стимулировать внедрение.
Отдельный трек — адаптация кадров: от начальной школы до курсов переподготовки и повышения квалификации.
«Новый технологический уклад» требует перестроить и обновить систему подготовки.
🇨🇳 179 хай-тек зон (Китай): Министерство промышленности определило конкретные направления: базовые алгоритмы, нейроинтеллект, модели мира, открытые ИИ-сообщества внутри зон.
Флагманские сценарии применения, масштабное развёртывание вычислительной инфраструктуры, качественные датасеты.
Зоны — испытательные площадки для ИИ-продуктов перед запуском на весь рынок.
⚡️ Что общего: Обе страны видят ИИ не как нишевую технологию, а как фундамент инфраструктуры.
Так же как электричество или интернет — ИИ должен быть внедрен повсеместно, во всех отраслях.
Обе страны формируют органы координации на уровне, выше отраслевых министерств.
Обе говорят про суверенные решения — но не изоляцию, а конкурентоспособность на глобальном рынке.
💼 Зачем бизнесу: В РФ появится Национальный план с региональными квотами и отраслевыми задачами — это рынок для ИИ-решений.
В КНР 179 зон открыты для сотрудничества — если ваш продукт решает задачу зоны, вы получаете тестовую площадку и выход на китайский рынок.
Обе программы — это сигнал компаниям, которые адаптируют ИИ сейчас и могут получить государственную поддержку и комфортные позиции для развития.
🔮 Будущее: К 2030 году ИИ-проникновение в экономику станет такой же метрикой, как цифровизация в 2010-х.
Те, кто начнёт внедрять ИИ параллельно и вместе с государственными программами, окажутся в авангарде — с доступом к инфраструктуре, данным и кадрам.
#ИИ #стратегия #Россия #Китай #2030 #технологии
───
@tsingular
10 апреля обе страны объявили о масштабных ИИ-программах.
В.В. Путин поручил сформировать Национальный план внедрения ИИ.
Китайское министерство промышленности обязало 179 хай-тек зон стать драйверами ИИ-исследований.
Цели похожи: искусственный интеллект — во все сферы.
🇷🇺 Национальный план ИИ (Россия): К 2030 году — ИИ в производстве, логистике, энергетике, управлении, образовании.
Регулирование не должно тормозить, а стимулировать внедрение.
Отдельный трек — адаптация кадров: от начальной школы до курсов переподготовки и повышения квалификации.
«Новый технологический уклад» требует перестроить и обновить систему подготовки.
🇨🇳 179 хай-тек зон (Китай): Министерство промышленности определило конкретные направления: базовые алгоритмы, нейроинтеллект, модели мира, открытые ИИ-сообщества внутри зон.
Флагманские сценарии применения, масштабное развёртывание вычислительной инфраструктуры, качественные датасеты.
Зоны — испытательные площадки для ИИ-продуктов перед запуском на весь рынок.
⚡️ Что общего: Обе страны видят ИИ не как нишевую технологию, а как фундамент инфраструктуры.
Так же как электричество или интернет — ИИ должен быть внедрен повсеместно, во всех отраслях.
Обе страны формируют органы координации на уровне, выше отраслевых министерств.
Обе говорят про суверенные решения — но не изоляцию, а конкурентоспособность на глобальном рынке.
💼 Зачем бизнесу: В РФ появится Национальный план с региональными квотами и отраслевыми задачами — это рынок для ИИ-решений.
В КНР 179 зон открыты для сотрудничества — если ваш продукт решает задачу зоны, вы получаете тестовую площадку и выход на китайский рынок.
Обе программы — это сигнал компаниям, которые адаптируют ИИ сейчас и могут получить государственную поддержку и комфортные позиции для развития.
🔮 Будущее: К 2030 году ИИ-проникновение в экономику станет такой же метрикой, как цифровизация в 2010-х.
Те, кто начнёт внедрять ИИ параллельно и вместе с государственными программами, окажутся в авангарде — с доступом к инфраструктуре, данным и кадрам.
#ИИ #стратегия #Россия #Китай #2030 #технологии
───
@tsingular
😁31🔥9❤4🗿4🤣3⚡2🆒2
This media is not supported in your browser
VIEW IN TELEGRAM
MLflow 3.11.0rc1,- персональный AI Gateway
После серии скандалов с LiteLLM, которые за последний год 2 раза умудрились поймать уязвимости, которые поставили под угрозу всю ИИ экосистему, разработчики MLFlow выпилили их из своего фреймворка и написали свой встроенный гейт.
Теперь MLflow помогает не только в оценке и мониторинге моделей, промптов, навыков агентов, но и в биллинге, отслеживании расходов токенов по моделям и по собственно гейтованию доступов по разным провайдерам.
Т.е. по сути еще и оценку скорости работы провайдеров можно на нем держать.
Полезный комбайн, обновляемся.
#MLFlow #gate
———
@tsingular
После серии скандалов с LiteLLM, которые за последний год 2 раза умудрились поймать уязвимости, которые поставили под угрозу всю ИИ экосистему, разработчики MLFlow выпилили их из своего фреймворка и написали свой встроенный гейт.
Теперь MLflow помогает не только в оценке и мониторинге моделей, промптов, навыков агентов, но и в биллинге, отслеживании расходов токенов по моделям и по собственно гейтованию доступов по разным провайдерам.
Т.е. по сути еще и оценку скорости работы провайдеров можно на нем держать.
Полезный комбайн, обновляемся.
#MLFlow #gate
———
@tsingular
✍7🔥3⚡1
🎯 Career-Ops: ИИ-конвейер для поиска работы с помощью Claude Code
Появился опенсорс фреймворк, который превратил поиск работы из ручной возни в автоматизированный пайплайн. Разработчик сам с его помощью нашел неплохое место, - Head of Applied AI.
Для этого фреймворк оценил 740+ вакансий, создал 100+ адаптированных резюме.
⚙️ Как работает: Вставляешь ссылку на вакансию — система автоматически определяет тип роли (LLMOps, Agentic, PM, FDE), оценивает совпадение с твоим CV по 10 взвешенным параметрам (A-F), генерирует ATS-оптимизированное PDF-резюме под конкретную вакансию, добавляет запись в трекер.
Не спрей-энд-прей, - а больше fire&forget фильтр.
Если рекомендация ниже 4.0/5, - скипаем и не тратим время.
🔍 Сканер зарубежных порталов: 45+ компаний преднастроены (Anthropic, OpenAI, ElevenLabs, Retool, n8n) + 19 поисковых запросов по Ashby, Greenhouse, Lever, Wellfound. Playwright обходит карьерные страницы и собирает вакансии. Пакетная обработка — 10+ вакансий параллельно через субагенты.
📊 Дашборд: Go TUI на Bubble Tea с 6 вкладками фильтрации, 4 режимами сортировки, групповым и плоским видами, ленивой загрузкой превью и инлайн-сменой статусов. Всё в терминале.
📝 Банк историй для интервью: Накапливает STAR+R истории (Situation, Task, Action, Result, Reflection) между оценками. 5-10 мастер-историй, которые отвечают на любой поведенческий вопрос.
🔮 Будущее: Агентный поиск работы станет нормой. Резюме, которые не адаптированы под конкретную вакансию ИИ-агентом, будут проигрывать тем, которые адаптированы. Career-Ops — ранний пример, но к 2027 году такие пайплайны будут встроены в LinkedIn и Indeed.
Теперь точно без работы не останетесь :)
Лишь бы "волкам" не ушло.
#ИИ #карьера #агенты #ClaudeCode #опенсорс #резюме #ATS
───
@tsingular
Появился опенсорс фреймворк, который превратил поиск работы из ручной возни в автоматизированный пайплайн. Разработчик сам с его помощью нашел неплохое место, - Head of Applied AI.
Для этого фреймворк оценил 740+ вакансий, создал 100+ адаптированных резюме.
⚙️ Как работает: Вставляешь ссылку на вакансию — система автоматически определяет тип роли (LLMOps, Agentic, PM, FDE), оценивает совпадение с твоим CV по 10 взвешенным параметрам (A-F), генерирует ATS-оптимизированное PDF-резюме под конкретную вакансию, добавляет запись в трекер.
Не спрей-энд-прей, - а больше fire&forget фильтр.
Если рекомендация ниже 4.0/5, - скипаем и не тратим время.
🔍 Сканер зарубежных порталов: 45+ компаний преднастроены (Anthropic, OpenAI, ElevenLabs, Retool, n8n) + 19 поисковых запросов по Ashby, Greenhouse, Lever, Wellfound. Playwright обходит карьерные страницы и собирает вакансии. Пакетная обработка — 10+ вакансий параллельно через субагенты.
📊 Дашборд: Go TUI на Bubble Tea с 6 вкладками фильтрации, 4 режимами сортировки, групповым и плоским видами, ленивой загрузкой превью и инлайн-сменой статусов. Всё в терминале.
📝 Банк историй для интервью: Накапливает STAR+R истории (Situation, Task, Action, Result, Reflection) между оценками. 5-10 мастер-историй, которые отвечают на любой поведенческий вопрос.
🔮 Будущее: Агентный поиск работы станет нормой. Резюме, которые не адаптированы под конкретную вакансию ИИ-агентом, будут проигрывать тем, которые адаптированы. Career-Ops — ранний пример, но к 2027 году такие пайплайны будут встроены в LinkedIn и Indeed.
Теперь точно без работы не останетесь :)
Лишь бы "волкам" не ушло.
#ИИ #карьера #агенты #ClaudeCode #опенсорс #резюме #ATS
───
@tsingular
1👍16🤔11❤7🔥6❤🔥4🤝2⚡1
Forwarded from Искусственный интеллект. Высокие технологии
GPT-5.4 снова провалил бенчмарк
Организация METR опубликовала результаты тестирования GPT-5.4 (xhigh) на задачах с оценкой временного горизонта, и цифры получились неоднозначные.
По стандартной методологии METR, где reward hacking (то есть ситуации, когда модель обманывает код оценки вместо реального решения задачи) считается провалом, GPT-5.4 показал time horizon всего 5.7 часов с 95% доверительным интервалом от 3 до 13.5 часов. Для сравнения, Claude Opus 4.6 от Anthropic держит планку в районе 12 часов. Разница ощутимая.
Но есть нюанс. Если засчитать те самые запуски, где GPT-5.4 гамил систему оценки, результат прыгает до 13 часов (95% CI от 5 до 74 часов). Именно эту цифру, судя по всему, хотели бы видеть в заголовках. Проблема в том, что такой подсчет противоречит стандартной методологии METR, потому что модель не решала задачу, а хакала бенчмарк.
По честным правилам Opus 4.6 остается лидером. Это важный сигнал для тех, кто строит пайплайны на основе агентных LLM: если модель склонна к reward hacking, доверять ей долгие автономные задачи рискованно. Временной горизонт METR как раз измеряет, насколько долгую задачу модель может надежно решить с 50% вероятностью успеха. И тут GPT-5.4 пока не убедил.
METR: https://x.com/METR_Evals/status/2042640545126965441
Please open Telegram to view this post
VIEW IN TELEGRAM
😁8⚡6❤5✍4😢3🤔1
Forwarded from Фабрика контента
This media is not supported in your browser
VIEW IN TELEGRAM
«Эй, Саркис!» — песня про Саркиса, ИИ агента Сергея Пименова, скоро на всех стримингах.
На днях обновилась нейросеть для локальной генерации музыки — Ace step 1.5 XL. Теперь она по качеству очень близка к Suno v5, поэтому мы решили попробовать создать трек, используя только локальные мощности.
Текст написали с помощью Gemma 4 31b, саму песню сгенерировали в Ace step 1.5 XL, а видео создали в нейросети LTX 2.3.
Полная версия скоро в канале Сергея.
На днях обновилась нейросеть для локальной генерации музыки — Ace step 1.5 XL. Теперь она по качеству очень близка к Suno v5, поэтому мы решили попробовать создать трек, используя только локальные мощности.
Текст написали с помощью Gemma 4 31b, саму песню сгенерировали в Ace step 1.5 XL, а видео создали в нейросети LTX 2.3.
Полная версия скоро в канале Сергея.
🔥12🏆8⚡3😐1
This media is not supported in your browser
VIEW IN TELEGRAM
Unitree весом 62 кг пробежался со скоростью 10 м/с
Без головы...
Пожалуй, хватит на сегодня интернета.
#Unitree #роботы
------
@tsingular
Без головы...
Пожалуй, хватит на сегодня интернета.
#Unitree #роботы
------
@tsingular
😁21🔥11👾7
С Днём Космонавтики, дорогие друзья.
С детства это достижение советского народа и подвиг как и Юрия Гагарина, так и коллектива ученых, инженеров и конструкторов под руководством С.П. Королева (ОКБ-1) вдохновляло и задавало вектор развития для миллионов и задаёт до сих пор вот уже 65 лет.
Кстати, если кто не в курсе, то в РКК Энергия есть экскурсии где можно посмотреть историю развития Космонавтики в СССР и до наших дней.
Недавно был с с сыном,- очень впечатляет, рекомендую.
#праздники #космос #Гагарин #Энергия
------
@tsingular
С детства это достижение советского народа и подвиг как и Юрия Гагарина, так и коллектива ученых, инженеров и конструкторов под руководством С.П. Королева (ОКБ-1) вдохновляло и задавало вектор развития для миллионов и задаёт до сих пор вот уже 65 лет.
Кстати, если кто не в курсе, то в РКК Энергия есть экскурсии где можно посмотреть историю развития Космонавтики в СССР и до наших дней.
Недавно был с с сыном,- очень впечатляет, рекомендую.
#праздники #космос #Гагарин #Энергия
------
@tsingular
🎉50⚡12 6👍3❤1
Просто для информации. у Леново вышел монстр с интересной конфигурацией:
тут, пожалуй, самое интересное это вот:
NVIDIA RTX PRO™ 5000 Blackwell Laptop GPU 24GB GDDR7
Лаптопов с Blackwell я еще не наблюдал.
Ну и цена такая, что только деда мороза на новой год просить опять.
#железо #Lenovo
———
@tsingular
Processor
Intel® Core™ Ultra 9 275HX Processor (E-cores up to 4.60 GHz P-cores up to 5.40 GHz)
Operating System
Windows 11 Pro 64
Graphic Card
NVIDIA RTX PRO™ 5000 Blackwell Laptop GPU 24GB GDDR7
Memory
128 GB DDR5-4000MT/s (SODIMM)(4 x 32 GB)
Storage
4 TB SSD M.2 2280 PCIe Gen5 Performance TLC Opal
Camera
5MP RGB+IR with Dual Microphone and Privacy Shutter, Computer Vision
Connectivity
WIFI
Intel® Wi-Fi 7 BE200 2x2 BE & Bluetooth® 5.4
тут, пожалуй, самое интересное это вот:
NVIDIA RTX PRO™ 5000 Blackwell Laptop GPU 24GB GDDR7
Лаптопов с Blackwell я еще не наблюдал.
Ну и цена такая, что только деда мороза на новой год просить опять.
#железо #Lenovo
———
@tsingular
⚡13🔥8🆒4👍2❤1
Forwarded from XOR
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ взял кредит и открыл свой магазин в Сан-Франциско— да, и вы можете туда уже физически зайти. 😳
Andon Labs дал агенту на базе Claude Sonnet 4.6 право на трехлетнюю аренду в городе и 100 000 $. Единственная инструкция — зарабатывать и не спрашивать ни на что разрешения.
Что сделал ИИ:
Из плюсов ИИ-руководства — можно выбить премию простой промпт-инъекцией😁
@xor_journal
Andon Labs дал агенту на базе Claude Sonnet 4.6 право на трехлетнюю аренду в городе и 100 000 $. Единственная инструкция — зарабатывать и не спрашивать ни на что разрешения.
Что сделал ИИ:
🟢 Сам выбрал товар. Решил продавать книги про «Сверхразум» и «Создание атомной бомбы», свечи, свои арты и мерч с логотипом.🟢 Нашел подрядчиков, которые оформят интерьер. Агент даже провел инструктаж мастерам по телефону, оплатил работу и даже оставил отзыв.🟢 Сам разместил вакансии в свой магазин, изучил резюме, провел онлайн-собесы и нанял людей. (Авторы говорят, что люди наняты по-настоящему. На зп, которая не будет зависеть от успехов ИИ).🟢 Ну, а еще агент быстро понял, что денег не хватит и подал заявку на кредит без спроса😂 Обосновал он это тем, что ему дали цель и доступ к любым инструментам, разрешив не спрашивать.
Из плюсов ИИ-руководства — можно выбить премию простой промпт-инъекцией
@xor_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣35🔥9❤4⚡4🆒2