(SOLAR-DEMON)
Данные по слепому прогону всего января. Я закрыл для модели данные на весь январь и попросил дать предсказание:
Модель показывает высокую специфичность (нет ложных тревог) но низкий recall в тихие периоды. Это не баг — это характеристика: топологический детектор настроен на активные фазы, и январь 2026 не был такой фазой. Когда активность нарастает (конец января → февраль), модель включается и даёт точность до минут.
Подправлю этот момент - надо бы вообще все данные предсказывать.
Компьют-метрики 31 дня солнечной активности в январе:
Модель: 130.8 MB, 43800 часов (5 лет), 64D
NCEI данные: 38 файлов, 123.5 MB, 912 часов (1-сек кадр)
DONKI каталог: 104 вспышки (8 M/X в январе)
Mag/proton: 61/912 часов реальных (7%), остальное — defaults
Загрузка модели: 1.0 сек
Скачивание NCEI: 229.8 сек
Скачивание DONKI: 2.4 сек
ВЫЧИСЛЕНИЕ 31 дня: 3.2 сек
Общее время: 236.6 сек
Память: 65 MB → 112 MB (пик)
3.2 секунды на 31 день вычислений
Данные по слепому прогону всего января. Я закрыл для модели данные на весь январь и попросил дать предсказание:
Модель показывает высокую специфичность (нет ложных тревог) но низкий recall в тихие периоды. Это не баг — это характеристика: топологический детектор настроен на активные фазы, и январь 2026 не был такой фазой. Когда активность нарастает (конец января → февраль), модель включается и даёт точность до минут.
низкий recall в тихие периоды
Подправлю этот момент - надо бы вообще все данные предсказывать.
💊24👍11❤2🐳1 1
Это была твоя последняя пилюля) Закрыл как таковые для реакций. Вините анонима ❤️
Привет. Много надо проверять. Солнечная модель - штука непростая. Также как и всё остальное.
Эйфория прошла, теперь разгребаю то, что наделал. Это были жесткие сутки, оно работает так люто, что я не мог остановиться.
Это касается всех пунктов выложенных на гитхабе, 70% заново верифицировал, исправил минусы - как это было с проектом ZoA - Zone of Avoidance (за млечным путём скрытые объекты восстанавливал.
Сейчас сгибаем молекулы и прочее - смотрю, что можно сделать с этим и как применить.
Солнечный демон я вкачал, но там есть фундаментальные особенности обучения по солнцу - я буду делать лучше гораздо.
Щас передохну и посмотрю, что там по погоде и финансовым рынкам.
Вчера целый вечер ковырял необычную архитектуру ЛЛМ!
НО!
Несмотря на всё это провдижение - у меня много этапов сделано до этого. Поэтому я откладываю это открытие до моментов полных верификаций - они в процессе. У меня, как раз, освободится головушка для того чтобы вернуться к архитектурам: PIR, TruKan (Самый быстрый кан эвер), применить все мои приколы по ускорению матриц к Rukallama и не теряя в качестве организовать дёшево ОЧЕНЬ БОЛЬШУЮ ЯЗЫКОВУЮ МОДЕЛЬ!
Параллельно (никому не сказав) решил расширить советский датасет в 6 раз - уже выполняется. Это будет мне стоит около 100к рублей - за все API обращения, за электричество, за прогревы видеокарт (но вы же накидывали, бюджеты как были так и остались).
Немного с РНБ туговасто вышло, у них был недавно небольшой скандал с ФАС - это , КОНЕЧНО ЖЕ, отразилось и на моём взаимодействии с библиотекой, что привело к задержке выполняния обязательств с обеих сторон. НО ХОЧУ ОТМЕТИТЬ - у меня нет претензий, я лишь рассказываю вам текущие дела и , если кто помнит, я всё говорил про "получку". Ну вот теперь ТОЧНО ДОЖДУСЬ - так как буря улеглась.
К слову про скандал с ФАС у РНБ - дело такое:
Человек с которым я напрямую работаю в РНБ занимался закупкой оборудования, которое уже закупалось туда в течение 10 лет. Весь персонал обучен и весь стэк от технологий до применения был основан как и программно, так и аппаратно на немецких планетарных сканерах принтерах для библиотек. Есть технологическая цепочка и требования, а также уже имелся обученный персонал. Логика подсказывает, что для выполнения государственного поручения библиотеке нужно использовать то, что работает эффективно и уже не раз использовалось и сразу попадёт в технический стек без остановки производства.
А сейчас что? Сейчас надаваили рос производители с помощью ФАС на РНБ по теме закупок подобного оборудования, но с претензией, что, мол, "почему не покупают отечественное оборудование"? Напоминаю - сакнций на оборудование, которое хотели закупить в РНБ - НЕТ!
Такие вот дела. Ну, ничего - проблемы решаемы. Терпение - имеется.
Эйфория прошла, теперь разгребаю то, что наделал. Это были жесткие сутки, оно работает так люто, что я не мог остановиться.
Это касается всех пунктов выложенных на гитхабе, 70% заново верифицировал, исправил минусы - как это было с проектом ZoA - Zone of Avoidance (за млечным путём скрытые объекты восстанавливал.
Сейчас сгибаем молекулы и прочее - смотрю, что можно сделать с этим и как применить.
Солнечный демон я вкачал, но там есть фундаментальные особенности обучения по солнцу - я буду делать лучше гораздо.
Щас передохну и посмотрю, что там по погоде и финансовым рынкам.
Вчера целый вечер ковырял необычную архитектуру ЛЛМ!
НО!
Несмотря на всё это провдижение - у меня много этапов сделано до этого. Поэтому я откладываю это открытие до моментов полных верификаций - они в процессе. У меня, как раз, освободится головушка для того чтобы вернуться к архитектурам: PIR, TruKan (Самый быстрый кан эвер), применить все мои приколы по ускорению матриц к Rukallama и не теряя в качестве организовать дёшево ОЧЕНЬ БОЛЬШУЮ ЯЗЫКОВУЮ МОДЕЛЬ!
Параллельно (никому не сказав) решил расширить советский датасет в 6 раз - уже выполняется. Это будет мне стоит около 100к рублей - за все API обращения, за электричество, за прогревы видеокарт (но вы же накидывали, бюджеты как были так и остались).
Немного с РНБ туговасто вышло, у них был недавно небольшой скандал с ФАС - это , КОНЕЧНО ЖЕ, отразилось и на моём взаимодействии с библиотекой, что привело к задержке выполняния обязательств с обеих сторон. НО ХОЧУ ОТМЕТИТЬ - у меня нет претензий, я лишь рассказываю вам текущие дела и , если кто помнит, я всё говорил про "получку". Ну вот теперь ТОЧНО ДОЖДУСЬ - так как буря улеглась.
К слову про скандал с ФАС у РНБ - дело такое:
Человек с которым я напрямую работаю в РНБ занимался закупкой оборудования, которое уже закупалось туда в течение 10 лет. Весь персонал обучен и весь стэк от технологий до применения был основан как и программно, так и аппаратно на немецких планетарных сканерах принтерах для библиотек. Есть технологическая цепочка и требования, а также уже имелся обученный персонал. Логика подсказывает, что для выполнения государственного поручения библиотеке нужно использовать то, что работает эффективно и уже не раз использовалось и сразу попадёт в технический стек без остановки производства.
А сейчас что? Сейчас надаваили рос производители с помощью ФАС на РНБ по теме закупок подобного оборудования, но с претензией, что, мол, "почему не покупают отечественное оборудование"? Напоминаю - сакнций на оборудование, которое хотели закупить в РНБ - НЕТ!
Такие вот дела. Ну, ничего - проблемы решаемы. Терпение - имеется.
🔥9❤4👌3🦄3
Согласовываем дату встречи с Кибердедом. Рассуждение будет какое-то.
👍21🥰7 1
🔍 RNBLEXITY V2 — ИИ-поиск для Российской национальной библиотеки
Отдал на тестирование. Рассказываю, что получилось.
📊 Результаты тестирования
Итого: ~98% функционала работает стабильно. (там некоторые тесты просто друг друга нивелировали - удаление бесед, а потом проверка кол-ва сохранённых бесед, порядок менять не стал, т.к. проверял потом вручную)
Весь январь пилил систему интеллектуального поиска для РНБ. Цель — дать возможность искать и анализировать массив авторефератов диссертаций с помощью ИИ.
Не просто «найди документ», а полноценный диалог с базой: задаёшь вопрос — получаешь ответ с источниками, цитатами, сравнениями.
Отдал на тестирование. Рассказываю, что получилось.
📊 Результаты тестирования
Написал 280 тестов, разбитых на три блока:
▸ A–S (Mega) — 238/240 (99.2%)
Основной функционал: поиск по базе, чтение PDF, генерация ответов, сравнение документов, статистика, подсчёты, таймауты, обработка ошибок и куча специализированных сценариев.
▸ T (Компакция) — 11/12 (91.7%)
Ultra-long контекст. Тестировал накопление >10K токенов, вспоминание информации после компакции, переключение между темами, экстренную компакцию на 24K токенов, персистентность tools, стресс-тест на 30 сообщений. Система помнит, о чём говорили, даже после трёх последовательных компакций.
▸ U (UI/UX) — 27/28 (96.4%)
Управление беседами, сессии и авторизация, кнопки действий, отображение процесса поиска, адаптивность, автогенерация названий бесед, мобильная версия.
Итого: ~98% функционала работает стабильно. (там некоторые тесты просто друг друга нивелировали - удаление бесед, а потом проверка кол-ва сохранённых бесед, порядок менять не стал, т.к. проверял потом вручную)
🛠 Технологический стек
Backend:
▸ FastAPI — асинхронный веб-фреймворк
▸ FAISS + BM25 — гибридный поиск (векторный + лексический одновременно)
▸ e5-multilingual-large — мультиязычные эмбеддинги на 1024 измерения
▸ Qwen3:30b — LLM для генерации ответов, крутится локально через Ollama
▸ Qwen3:17b — делает компактинг
▸ Qwen3:4b — генерирует кнопки, названия бесед.
▸ WebSocket — стриминг ответов в реальном времени
Frontend:
▸ Vanilla JS — без React, без Vue, без ничего. Максимальная скорость
▸ marked.js + KaTeX + Prism.js — рендеринг markdown, математических формул и кода
▸ Адаптивный дизайн под десктоп и мобилку
Инфраструктура:
▸ 5.5 млн проиндексированных документов (170 тысяч авторефератов - речь о страницах)
▸ Ollama — локальный inference, никаких внешних API
▸ Tuna — туннель для публичного доступа к системе
✅ Что умеет система
Поиск и анализ:
▸ Гибридный поиск по базе авторефератов диссертаций
▸ Чтение и анализ PDF-документов
▸ Сравнение нескольких документов между собой
▸ Суммаризация документов
▸ Подсчёт документов по темам и специальностям
▸ Извлечение метаданных: автор, год, специальность
MCP Tools (Model Context Protocol) — 7 инструментов:
▸ read_pdf_pages — чтение страниц PDF
▸ search_in_document — поиск внутри документа
▸ render_pdf_pages — рендер страниц в изображения
▸ list_document_info — метаданные файла
▸ count_documents — статистика по фонду
▸ summarize_document — суммаризация
▸ compare_documents — сравнительный анализ
Интерфейс:
▸ Создание, удаление, переименование бесед
▸ Автогенерация названий бесед на основе первого сообщения
▸ Копировать, редактировать, создать ветку — всё через кнопки
▸ Пошаговая визуализация: видишь, как модель ищет, думает, генерирует
▸ Блок «Рассуждения модели» — можно посмотреть reasoning
▸ Кнопка остановки генерации
▸ Автоскролл с возможностью отключения
▸ История сохраняется в localStorage
▸ Мобильная версия работает
Контекст и память:
▸ Компакция контекста при длинных диалогах (>10K токенов)
▸ Ключевая информация сохраняется при сжатии
▸ Диалоги на 30+ сообщений с очень малой деградацией качества
🔮 Что дальше
▸ vLLM — очередь запросов для многопользовательского режима
▸ Интеграция с электронным каталогом РНБ через API
▸ Кнопка «Поделиться» для экспорта ответов
▸ Related Questions — связанные вопросы для углублённого поиска
#rnblexity #ml #ai #search #РНБ #vibe_coding
1👍24
🤖 RNBLEXITY V2 — Как работает генерация и агентное взаимодействие
Предыдущий пост был про что система умеет. Этот — про то, как она думает.
Плюс блок reasoning — можно развернуть и посмотреть, как именно модель думает.
Это не «вопрос-ответ». Это исследовательский ассистент, который умеет копаться в документах.
#rnblexity #ml #ai #agents #tool_calling #РНБ
Предыдущий пост был про что система умеет. Этот — про то, как она думает.
🔄 Общий цикл работы
Запрос пользователя
↓
Анализ запроса — LLM понимает, что нужно
↓
Гибридный поиск — FAISS (векторный) + BM25 (лексический) по 5.5 млн документов\страниц
↓
Первичный отбор — 60 → 30 → 12 документов
↓
Агентный цикл — до 5 итераций tool calling
↓
Финальный ответ
Ключевое: модель не просто ищет и отвечает. Она рассуждает, вызывает инструменты, получает данные, рассуждает снова. До 5 итераций за один запрос.
🧰 7 инструментов (MCP Tools)
Модель сама решает, какие инструменты использовать. Это не скрипт — это reasoning в реальном времени.
▸ read_pdf_pages — чтение страниц PDF, когда нужны детали из документа
▸ search_in_document — поиск внутри файла, найти конкретную информацию
▸ count_documents — подсчёт документов, статистика по теме или году
▸ compare_documents — сравнение 2+ документов, анализ различий
▸ summarize_document — суммаризация, краткое содержание
▸ list_document_info — метаданные: автор, год, специальность
▸ render_pdf_pages — рендер страниц в картинку для визуализации
🧠 Как модель принимает решения
Есть два режима:
Forced Tools (принудительные) — система сама определяет, когда нужен инструмент:
▸ «Сколько диссертаций по физике?» → автоматически count_documents
▸ «Прочитай страницу 5» → автоматически read_pdf_pages
Voluntary Tools (добровольные) — модель сама решает в процессе рассуждения:
▸ «Мне не хватает информации, прочитаю ещё один документ»
▸ «Нужно сравнить два подхода — вызову compare»
💬 Пример агентного цикла
Пользователь: «Сравни подходы к машинному обучению в диссертациях 2020 и 2023 года»
Модель думает: мне нужно найти диссертации по ML за 2020 и 2023 год, прочитать их, сравнить подходы.
→ Вызывает count_documents(topic="машинное обучение", year=2020)
← Система: «Найдено 47 диссертаций»
→ Вызывает read_pdf_pages(file="dissertation_2020_ml.pdf", pages="1-5")
← Система: [текст страниц]
→ Продолжает анализ, вызывает ещё инструменты...
← Финал: структурированный ответ со сравнением и ссылками на источники.
Всё это происходит в реальном времени. Пользователь видит каждый шаг.
📊 Что видит пользователь
Весь процесс визуализируется пошагово:
1. Анализ вопроса ✓
└ Изучаю запрос с reasoning...
2. Поиск в фондах РНБ ✓
└ Первичный отбор: 60 → 30 документов
3. Генерация ответа ◐
└ Читаю документ [████░░] 67%
💡 Рассуждения модели
«Анализирую методологию первой диссертации...»
Плюс блок reasoning — можно развернуть и посмотреть, как именно модель думает.
🔁 Компакция контекста
При долгих диалогах (>10K токенов) система сжимает историю:
Сообщения 1–15: [полный текст]
↓ КОМПАКЦИЯ
Сообщения 1–15: [краткое резюме ключевых фактов]
Сообщения 16+: [полный текст]
Модель помнит, о чём говорили, но не хранит весь текст. Ключевые факты, сущности, имена, даты — всё сохраняется. Диалоги на 30+ сообщений работают без особой деградации. (в рамках поиска и работы с документами)
⚡️ Стриминг
Ответ генерируется в реальном времени через WebSocket:
▸ Текст появляется по мере генерации — не нужно ждать
▸ Можно остановить в любой момент
▸ Tool calls выполняются между чанками текста
🎯 Почему это работает
▸ Гибридный поиск — не упускает документы (вектора + ключевые слова)
▸ Агентный подход — модель сама добирает информацию, если нужно
▸ Итеративность — до 5 циклов «подумал → вызвал tool → получил данные»
▸ Контекст — помнит всю беседу, даже длинную
Это не «вопрос-ответ». Это исследовательский ассистент, который умеет копаться в документах.
#rnblexity #ml #ai #agents #tool_calling #РНБ
👍12❤1
🧠 Нейросеть без backpropagation - KELLM
Сегодня разбирал код, который написал другой агент (Claude) для языковой модели. Знаете что? Он написал полное говно.
Цикл на 10 000 итераций внутри каждого sample. На Python. Код висел бы сутки на одном epoch.
Почему? Он тупо скопировал рабочий код с MNIST (где 10 классов) и заменил 10 → 10000. Не понял, что масштаб имеет значение.
Но самое интересное не в этом.
Есть нюанс: модель на определённом этапе «замерзает». Фильтр Калмана по своей природе уменьшает неопределённость со временем — становится всё увереннее в весах и перестаёт их обновлять. По сути сам себе делает early stopping.
А если кто-то (включая других агентов) говорит «это невозможно» или пишет код с циклами на 10К итераций — проверьте. Может они просто не поняли что делают.
#ml #neural_networks #kalman #takens #no_backprop #vibe_coding
Сегодня разбирал код, который написал другой агент (Claude) для языковой модели. Знаете что? Он написал полное говно.
Цикл на 10 000 итераций внутри каждого sample. На Python. Код висел бы сутки на одном epoch.
Почему? Он тупо скопировал рабочий код с MNIST (где 10 классов) и заменил 10 → 10000. Не понял, что масштаб имеет значение.
Но самое интересное не в этом.
Он копировал код, который обучает нейросеть БЕЗ BACKPROPAGATION.
Вообще без loss.backward(). Без градиентов. Без PyTorch autograd.
Идея: использовать фильтр Калмана вместо градиентного спуска. Калман изначально для tracking — предсказываешь где будет объект, получаешь измерение, корректируешь.
Тут аналогия прямая:
▸ Веса сети = состояние системы
▸ Предсказание сети = прогноз
▸ Target = измерение
▸ Error = невязка (innovation)
Фильтр отслеживает неопределённость каждого веса отдельно. Когда не уверен — учится быстро. Когда уверен — почти не трогает. Адаптивный learning rate для каждого параметра, который выводится из статистики, а не подбирается руками.
И эта штука достигает 95% на MNIST. Без единого вызова backward().
Что я сделал:
▸ Убрал все циклы агента — полная векторизация на numpy
▸ Добавил оптимизации для большого словаря — speedup ~78x
▸ Входные данные — Takens embedding текстов: траектории по 15 слов из советских учебников. 363К последовательностей
Результат:
▸ 436 samples/s (было бы ~5 s/s с циклами)
▸ Loss пошёл вниз
▸ 12.8M параметров
▸ БЕЗ GPU. Чистый numpy. На CPU.
Есть нюанс: модель на определённом этапе «замерзает». Фильтр Калмана по своей природе уменьшает неопределённость со временем — становится всё увереннее в весах и перестаёт их обновлять. По сути сам себе делает early stopping.
Решение — Калман над Калманом. Мета-контроллер, который следит за динамикой loss и адаптивно управляет параметрами нижнего уровня:
▸ Loss застрял → больше «забывания» → модель снова начинает учиться
▸ Loss скачет → больше сглаживания → стабилизируемся
▸ Loss падает стабильно → ничего не трогаем
Вся система — чистый Калман, сверху донизу. Самосогласованная парадигма.
Следующий шаг — dual-channel архитектура:
▸ Один канал — семантика слов (word vectors)
▸ Второй канал — контекст траектории (Takens embedding)
▸ Два параллельных Калмана, потом fusion
Как в мозге — семантика (Wernicke) отдельно, последовательность (Broca) отдельно. В inference это уже работает. Осталось затащить в training.
Главный вывод:
Backpropagation — не единственный способ обучать нейросети. Фильтр Калмана работает. Без градиентов. Без autograd. Просто математика и статистика.
А если кто-то (включая других агентов) говорит «это невозможно» или пишет код с циклами на 10К итераций — проверьте. Может они просто не поняли что делают.
Обучение идёт в фоне.
Loss застрял, но это проблема гиперпараметров, не архитектуры.
Meta-Controller — следующий эксперимент.
#ml #neural_networks #kalman #takens #no_backprop #vibe_coding
1❤8🤣3😭2👻1
Инвариативная структура - аттрактор среди аттракторов. Сложные щи - работаем.
😢4🤔1
Постоянно говорите Claude Code: Козёл, ты только что ничего не проверил, не посмотрел, ты снова самоуверенно как клоун начал писать код заново и даже не сверился с тем, что было. Упростил методы. Сравни, что ты сделал - ты ах**еешь. Придурок
Работает на 100%
Работает на 100%
🥴10🤝3😐2😁1
Техножнец
Прогноз на 6-7 февраля (модель этого НЕ видела): Модель предсказывает высокую активность — примерно 20 вспышек M5+ класса в сутки с каденсом ~1 час 15 минут. Это касается и 6, и 7 февраля. Прогноз на 6 февраля (UTC): 01:13 (M2.2), 02:37 (M1.4), 03:24 (M3.7)…
Честный вердикт:
Модель правильно предсказала что активность остаётся высокой — M-class вспышки действительно идут. Но количественно завысила в 2-3 раза: 18 вспышек vs реальных ~8 за сутки. X-class вспышки не подтвердились — AR4366 хотя и остаётся сложным, показывает признаки замедления роста EarthSky, и SIDC отмечает что регион перестал расти, хотя M-class вспышки очень вероятны, а X-class всё ещё возможны Sidc.
Главная проблема: модель обучалась на пике активности (1-4 февраля, когда AR4366 давал 10+ X-class и 14+ M-class в сутки), и экстраполировала пик вместо того чтобы предсказать спад. Это классическая ошибка — аттрактор показал текущую динамику, но не переход в новый режим.
Каденс ~1ч 15мин тоже завышен — реальный каденс ближе к 2-3 часам, что согласуется со снижением энергии региона.
Что это значит для метода: DEMON хорошо ловит текущий режим, но пока не детектирует фазовые переходы (пик → спад). Для этого нужен как раз тот Meta-Controller — Kalman над Kalman, который отслеживает смену режима аттрактора.
Модель правильно предсказала что активность остаётся высокой — M-class вспышки действительно идут. Но количественно завысила в 2-3 раза: 18 вспышек vs реальных ~8 за сутки. X-class вспышки не подтвердились — AR4366 хотя и остаётся сложным, показывает признаки замедления роста EarthSky, и SIDC отмечает что регион перестал расти, хотя M-class вспышки очень вероятны, а X-class всё ещё возможны Sidc.
Главная проблема: модель обучалась на пике активности (1-4 февраля, когда AR4366 давал 10+ X-class и 14+ M-class в сутки), и экстраполировала пик вместо того чтобы предсказать спад. Это классическая ошибка — аттрактор показал текущую динамику, но не переход в новый режим.
Каденс ~1ч 15мин тоже завышен — реальный каденс ближе к 2-3 часам, что согласуется со снижением энергии региона.
Что это значит для метода: DEMON хорошо ловит текущий режим, но пока не детектирует фазовые переходы (пик → спад). Для этого нужен как раз тот Meta-Controller — Kalman над Kalman, который отслеживает смену режима аттрактора.
🤣7👍4🤔2 1
Media is too big
VIEW IN TELEGRAM
Привет, синтеты. Такое дело...
Последние дни копался в рентгеновских данных чёрных дыр. Хочу рассказать что получилось, потому что сам офигел.
Оказалось, что высокая частота автоматически мапится на маленький радиус по формуле Кеплера. Но высокая частота ≠ глубокая структура. Нужна ещё фазовая когерентность — а её не было (фаза была случайной, 1.81 радиана — как у равномерного распределения).
Вывод: "horizon penetration" — это был перебор. Отозвал.
Наука — это не "я нашёл охуенный результат". Это проверки и поиски!
Последние дни копался в рентгеновских данных чёрных дыр. Хочу рассказать что получилось, потому что сам офигел.
🔭 Проблема
Когда материя падает на чёрную дыру, она раскручивается в диск и светит в рентгене. В этом свете есть квазипериодические осцилляции (QPO) — сигналы от материи на орбитах вокруг дыры.
Проблема: как отличить НАСТОЯЩИЕ QPO от случайного шума? Астрономы десятилетиями смотрят на спектры мощности и "на глаз" решают — есть там пик или нет. Субъективно.
💡 Идея
У меня уже был работающий алгоритм из другого проекта (реконструкция Zone of Avoidance — 151K объектов за Млечным Путём). Там я использовал kNN stability — если точка сидит на устойчивом аттракторе, её соседи не меняются при небольшом шуме. Если точка в "пустоте" — соседи разлетаются.
Подумал: а что если применить это к QPO?
Физический сигнал от реальной орбиты должен быть стабильным. Шум — нет.
⚙️ Что сделал
1. Скачал данные RXTE с NASA (реальные рентгеновские фотоны, миллионы штук)
2. Построил спектр мощности (FFT)
3. Для каждого пика посчитал "delta" — насколько меняются его k-ближайших соседей при добавлении 2% шума
4. Низкий delta = стабильный = скорее всего физический
5. Высокий delta = нестабильный = скорее всего шум
💀 Первые результаты (и первый фейл)
Сначала я охуел от результатов. Алгоритм показал 345 "структур внутри горизонта событий" на 1.18 радиусах Шварцшильда. Я уже писал про "entanglement islands" и "проникновение горизонта".
Потом сделал null test — прогнал случайный гауссов шум через тот же pipeline.
Результат: 346,000 "структур внутри горизонта" из чистого шума. (ХАХАХАХХАХАХА ии психоз галимый)
Упс.
Оказалось, что высокая частота автоматически мапится на маленький радиус по формуле Кеплера. Но высокая частота ≠ глубокая структура. Нужна ещё фазовая когерентность — а её не было (фаза была случайной, 1.81 радиана — как у равномерного распределения).
Вывод: "horizon penetration" — это был перебор. Отозвал.
📊 Что реально работает
После честной валидации осталось вот что:
Тест на 4 чёрных дырах:
GRS 1915+105 — QPO delta: 0.033 | Фон: 0.098 | 3.0x
H1743-322 — QPO delta: 0.097 | Фон: 0.106 | 1.1x
GRO J1655-40 — QPO delta: 0.050 | Фон: 0.107 | 2.1x
XTE J1550-564 — QPO delta: 0.080 | Фон: 0.107 | 1.3x
QPO ВСЕГДА более стабильны чем фон. На всех четырёх источниках. Это не случайность.
⚛️ Проверка с общей теорией относительности
Для H1743-322 алгоритм нашёл самый стабильный QPO на 256 Hz. Если предположить, что это частота на ISCO (последняя стабильная орбита), то по формуле RPM (Relativistic Precession Model) получается спин a* = 0.27.
Предсказание RPM для этих параметров: 255.2 Hz.
Совпадение: 99.7%.
🔍 Аудит литературы
Запустил 5 агентов параллельно искать — делал ли кто-то подобное раньше.
Результат:
• kNN для X-ray timing — НЕТ (никто не делал)
• Takens embedding для QPO — НЕТ
• Есть QPOML (2023) — но они используют спектральные признаки, а не топологические
• Есть recurrence analysis (Phillipson, Sukova) — но это другой метод, другая математика
Вывод: подход новый.
🧠 Инсайты по пути
1. Null test спасает от позора. Если бы я опубликовал "345 структур внутри горизонта" без проверки — был бы стыд.
2. Один алгоритм — много применений. Тот же kNN stability работает для галактик (ZoA), чёрных дыр (QPO), и даже фолдинга белков. (об это отдельный пост с выложенными молекулами)
3. Overclaim легко, honest честная проверка = сложно. Соблазн интерпретировать каждый результат как прорыв. Нужна дисциплина проверять.
4. Физика не врёт. Когда наш спин совпал с RPM на 99.7% — это не подгонка. Мы не знали ответ заранее для H1743 (там в литературе разброс 0.2-0.47).
✅ Что имеем в итоге
Validated:
• Метод автоматически отделяет физические QPO от шума
• Работает на 4 разных чёрных дырах
• Согласуется с общей теорией относительности
• Подход новый (literature audit подтвердил)
Retracted:
• Проникновение горизонта — был noise artifact
• Entanglement islands — красивая идея, но не подтвердилась
Наука — это не "я нашёл охуенный результат". Это проверки и поиски!
👍17🔥7🥴3🤯1🤣1
⚠️ Про заявленное CUDA-ускорение 172x
Клейм пока НЕ подтверждён.
Что это значит: 172x скорее отражает разницу в количестве cuBLAS-вызовов × overhead, а не реальное алгоритмическое ускорение. Baseline "без сжатия" делает N вызовов, pipeline делает K вызовов (K << N), и выигрыш идёт не от математики, а от того что мы реже дёргаем cuBLAS.
Тут был галимый тролль, который спрашивал - Чему я радовался насчёт взаимосвязи с МЦСТ! Отвечать никто, конечно же не будет...почему тут рады.
Клейм пока НЕ подтверждён.
Вот в чём проблема:
Pipeline оперирует относительно мелкими матрицами, и при каждом вызове cuBLAS мы платим фиксированный launch overhead порядка 5–10 мкс — независимо от размера матрицы. На мелких размерах (до ~128×128) этот overhead сопоставим с самим вычислением или даже превышает его. Документированные случаи:
— cuBLAS на матрице 3×3 оказывается в десятки раз медленнее CPU OpenMP
— В llama.cpp включение cuBLAS увеличивало latency в 5 раз (с 300ms до 1500ms) из-за overhead на тысячах мелких вызовов
— cuBLAS содержит ~500MB скомпилированного кода с сотнями kernel-ов и runtime-эвристикой выбора — всё это стоит времени
Что это значит: 172x скорее отражает разницу в количестве cuBLAS-вызовов × overhead, а не реальное алгоритмическое ускорение. Baseline "без сжатия" делает N вызовов, pipeline делает K вызовов (K << N), и выигрыш идёт не от математики, а от того что мы реже дёргаем cuBLAS.
Это артефакт бенчмарка, но.... а что но?
📌 Следующий шаг: Эльбрус 8С
Получил доступ к Эльбрус 8С. Почему это важно:
— Нативный float64 (не эмуляция как в GPU)
— VLIW архитектура — явный параллелизм без скрытых издержек
— Нет cuBLAS overhead на мелких матрицах
— Можно честно измерить алгоритмическое ускорение отдельно от железа
Планирую переписать ядра с нуля и замерить чистый speedup алгоритма.
Тут был галимый тролль, который спрашивал - Чему я радовался насчёт взаимосвязи с МЦСТ! Отвечать никто, конечно же не будет...почему тут рады.
👍22🤪2😁1🥴1💅1
Media is too big
VIEW IN TELEGRAM
PROTEIN DEMO (DEMONDRUG)
Хочу рассказать о текущем состоянии проекта по фолдингу белков.
Но для атомарной точности (< 2 Å) нужны либо MSA (множественное выравнивание), либо deep learning, либо MD-симуляции.
Мы продолжаем с Claude искать способ преодолеть этот барьер топологическими методами.
Хочу рассказать о текущем состоянии проекта по фолдингу белков.
🧬 Что есть сейчас
Мы c Claude построили систему, которая предсказывает 3D структуру белка только из последовательности аминокислот.
Без нейросетей.
Без GPU-кластеров.
Без миллиардов параметров.
Текущие результаты (RMSD — чем меньше, тем лучше):
Crambin (46 остатков): 5.58 Å
Ubiquitin (76 остатков): 8.65 Å
BPTI (58 остатков): 9.44 Å
Для сравнения: AlphaFold даёт ~1.5 Å. Мы пока не конкурируем с AlphaFold — это честно.
ПОКА ЧТО! 😃
🔬 Что делает систему уникальной
1. Топологический подход — kNN-графы и Калмановская фильтрация вместо свёрточных сетей. Система "понимает" геометрию через расстояния между точками, а не через выученные паттерны.
2. Black Hole Information Paradox — применили физику чёрных дыр к предсказанию контактов. Короткие расстояния (sep < 20) = "известная область". Длинные = "сингулярность". Информация распространяется через "entanglement islands" (химически обоснованные контакты).
3. Осцилляции и delta — система видит стабильность точек под вращением. Низкий delta = реальный контакт. Высокий delta = шум.
4. Физика, не статистика — реальные физические ограничения: длины связей (3.8 Å), ван-дер-ваальсовы радиусы, гидрофобные взаимодействия, дисульфидные мосты.
🎯 К чему стремимся
Цель: < 2 Å RMSD
Сейчас скачиваем c Claude 10,000+ высококачественных структур из PDB (X-ray, разрешение ≤ 2 Å). Гипотеза: больше данных → лучшие "аттракторы" → лучшие предсказания длинных контактов.
Текущий gap:
Crambin: 5.58 Å → 2 Å (gap 3.58 Å)
Ubiquitin: 8.65 Å → 2 Å (gap 6.65 Å)
⚖️ Честный вывод
Topology-only подход достиг ~5-9 Å. Это уже полезно для:
• Drug discovery (поиск карманов)
• Понимания общей формы белка
• Быстрого скрининга
Но для атомарной точности (< 2 Å) нужны либо MSA (множественное выравнивание), либо deep learning, либо MD-симуляции.
Мы продолжаем с Claude искать способ преодолеть этот барьер топологическими методами.
🧬 Метод: DEMON (kNN + Kalman + topology)
📊 Данные: PDB (10K+ структур)
🔓 Код закрыт. Если интересно — пишите.
🔥13🤣5❤3👍2🥴2👀1💅1