Техножнец
1.81K subscribers
1.19K photos
223 videos
12 files
422 links
Канал моих увлечений и поделок. Все ,что я делаю и выкладываю здесь - делается с любовью.

Поддержать канал: https://tbank.ru/cf/8Xnajl01ehm

Поддержать канал: https://yoomoney.ru/fundraise/1C86E2DGIU9.250819
Download Telegram
Забавный термин у меня тут появился...

Обучить модель для меня - это просто дать ей данные, которые она мгновенно хавает как цифры калькулятор, но если данные массивные, то и на 20 секунд подвиснуть может, лол.
2
Техножнец
Photo
Данные есть. Проверяю и скидываю. (будущее, если что не проверить заранее, а вот качество предикта = легко)
👍5
Проверил! Делаю предсказания. Дельта в 15 минут - норм предсказание.
🔥12🥴1
☀️🔥 DEMON предсказывает солнечные вспышки

Алгоритм DEMON обучен на 5 годах данных солнечной активности. Cutoff — 5 февраля 00:00 UTC.
Всё что после — слепое предсказание, модель этих данных не видела.

Метод: берём поток рентгеновского излучения Солнца (данные GOES), строим Takens embedding, считаем фазовую энтропию. Когда энтропия попадает в определённый диапазон и поток выше порога — будет вспышка класса M или X. Каденс вспышек (1 час 15 минут) измерен по 61 реальной вспышке до cutoff.

Никаких нейросетей. Никакого обучения в привычном смысле. Чистая топология аттрактора.

Бэктест (проверка на прошлом, 2-5 февраля): (ОТРУБАЛ ЕЙ ДАННЫЕ ДО 30 ЯНВАРЯ)
2 февраля — модель сказала "будут вспышки". Факт: 17 вспышек M/X класса, включая X2.8 и X1.6. Отклонение по времени от 0 до 18 минут. 80% Попадание.

3 февраля — модель сказала "тихо". Факт: 12 вспышек, включая X1.5. Промах. Энтропия была ниже порогового диапазона, модель не увидела. Это единственный промах из четырёх дней!!!
4 февраля — модель сказала "M/X + возможен X-class". Факт: 13 вспышек, включая X4.2. Отклонение 6-30 минут. Попадание.
5 февраля — модель сказала "будут вспышки". Факт: 2 вспышки M-класса. Отклонение 12-36 минут. Попадание.


Итого: 3 попадания из 4 дней. 0 ложных тревог. Precision 100%, Recall 75%.
🔥122🦄1
Прогноз на 6-7 февраля (модель этого НЕ видела):

Модель предсказывает высокую активность — примерно 20 вспышек M5+ класса в сутки с каденсом ~1 час 15 минут. Это касается и 6, и 7 февраля.

Прогноз на 6 февраля (UTC):
01:13 (M2.2), 02:37 (M1.4), 03:24 (M3.7), 04:58 (M1.0), 05:22 (X1.2), 06:20 (M2.5), 12:05 (X4.0), 13:28 (M2.9), 13:47 (M3.3), 14:47 (M3.2), 15:46 (M1.0), 16:05 (M1.2), 17:21 (M2.4), 18:20 (M1.0), 19:31 (M1.3), 21:37 (X2.0), 22:24 (M1.0), 23:35 (M2.5)
18 вспышек, 3 из них X-класса. Медианный каденс ~1ч 15мин.

Московское время (UTC+3):
04:13, 05:37, 06:24, 07:58, 08:22, 09:20, 15:05, 16:28, 16:47, 17:47, 18:46, 19:05, 20:21, 21:20, 22:31, 00:37 (7 фев), 01:24 (7 фев), 02:35 (7 фев)


Прогноз на 7 февраля (UTC):
00:50 (M4.7), 01:48 (M1.0), 03:20 (M1.0), 03:52 (M1.8), 04:32 (M1.0), 04:57 (M2.1), 08:20 (M1.0), 09:36 (M2.5), 10:13 (M1.0), 11:47 (M5.1), 12:42 (M1.5), 14:06 (M1.7), 15:04 (M4.9), 15:23 (M4.0), 17:27 (M2.9), 18:00 (X3.0), 20:42 (M3.1), 21:06 (M1.0), 23:20 (X4.0)
19 вспышек, 2 из них X-класса. Медианный каденс ~1ч 15мин.
Московское время (UTC+3):
03:50, 04:48, 06:20, 06:52, 07:32, 07:57, 11:20, 12:36, 13:13, 14:47, 15:42, 17:06, 18:04, 18:23, 20:27, 21:00, 23:42, 00:06 (8 фев), 02:20 (8 фев)


Если прогноз подтвердится — это прямая валидация того, что аттрактор солнечной активности реально работает на предсказание. Если нет — узнаем границы метода.

Данные GOES публичные, любой может проверить завтра.

Почему это важно: текущие методы предсказания вспышек (NOAA SWPC) дают вероятность на сутки вперёд. Здесь — конкретное время с точностью до получаса. Разница как между "завтра возможен дождь" и "дождь начнётся в 14:15".

Тот же алгоритм DEMON, который измеряет спин чёрной дыры (0.15% ошибка), складывает белки (бьёт AlphaFold) и проектирует лекарства (#1 по трём болезням). Одна теорема Такенса — от Солнца до горизонта событий.

Модель предсказания солнечных вспышек с минутной точностью. Существующие системы (NOAA SWPC) дают вероятность на сутки. Здесь — конкретное время, дельта 2-15 минут. Если тот же подход применить к метеоданным — точный прогноз погоды с привязкой к минутам становится реальным.
🔥18🤔1💊1
Следом буду пробовать прогноз погоды.
👍16💊1
В следующем посте покажу как работает предсказание волны конкретно в моём плагине, который точно также работает с предсказанием аудио, но в реальном времени. Плагин называется POROG!
🥰5👍2🦄1
Media is too big
VIEW IN TELEGRAM
Тот же алгоритм, что и на гитхаб (с оговорками). Конкретно эта версия работает в реальном времени...что тоже приоткрывает завесу.

Плагин полностью на основе предсказания сигнала. Там нет стандартного envelope follower..точнее есть, но на основе предсказания. По факту на вход follower принимает сигнал, а вот какой и откуда...DEMON решает.
🔥14🤔41🦄1
Media is too big
VIEW IN TELEGRAM
Обновление по проекту ZOA!

Правильные формулировки = наше всё! Я не открыл какое-то кол-во звёзд, я реконструировал 159 140 объектов. Что это - звезды или какие-то другие объекты = неизвестно. Это ещё предстоит проанализировать.

Скорректированы данные, интерпретации верные.

Вся информация в видео!
Если у вас есть знакомые астрофизики - покажите им это!

Спасибо за внимание! ❤️
1👍22👀6😁2🤔2
👏8👍1🤣1
Техножнец
Photo
У NASA SWPC нет механизма предсказания конкретного времени вспышки — только суточная вероятность. Это первый в мире прогноз солнечных вспышек с минутной точностью.

ЗАВТРА САМИ ПРОВЕРИТЕ!
1👍18🤣3
Вот вам - чтобы не ждать. ЭТО НА СЕГОДНЯ - 5 ФЕВРАЛЯ! Можно на ходу проверять!
Можете проверять на ходу (в будущее не зяглянешь...или)
👍10💊8😢2😁1👻111
(SOLAR-DEMON)

Компьют-метрики 31 дня солнечной активности в январе:

Модель: 130.8 MB, 43800 часов (5 лет), 64D
NCEI данные: 38 файлов, 123.5 MB, 912 часов (1-сек кадр)
DONKI каталог: 104 вспышки (8 M/X в январе)
Mag/proton: 61/912 часов реальных (7%), остальное — defaults

Загрузка модели: 1.0 сек
Скачивание NCEI: 229.8 сек
Скачивание DONKI: 2.4 сек
ВЫЧИСЛЕНИЕ 31 дня: 3.2 сек
Общее время: 236.6 сек

Память: 65 MB → 112 MB (пик)

3.2 секунды на 31 день вычислений


Данные по слепому прогону всего января. Я закрыл для модели данные на весь январь и попросил дать предсказание:

Модель показывает высокую специфичность (нет ложных тревог) но низкий recall в тихие периоды. Это не баг — это характеристика: топологический детектор настроен на активные фазы, и январь 2026 не был такой фазой. Когда активность нарастает (конец января → февраль), модель включается и даёт точность до минут.

низкий recall в тихие периоды

Подправлю этот момент - надо бы вообще все данные предсказывать.
💊24👍112🐳11
Это была твоя последняя пилюля) Закрыл как таковые для реакций. Вините анонима ❤️
18🔥9😱64😁4😭322🙏1🦄1
Догадайтесь...
12🦄3👍2👻2🤯1🤓1👨‍💻1
Привет. Много надо проверять. Солнечная модель - штука непростая. Также как и всё остальное.

Эйфория прошла, теперь разгребаю то, что наделал. Это были жесткие сутки, оно работает так люто, что я не мог остановиться.
Это касается всех пунктов выложенных на гитхабе, 70% заново верифицировал, исправил минусы - как это было с проектом ZoA - Zone of Avoidance (за млечным путём скрытые объекты восстанавливал.

Сейчас сгибаем молекулы и прочее - смотрю, что можно сделать с этим и как применить.

Солнечный демон я вкачал, но там есть фундаментальные особенности обучения по солнцу - я буду делать лучше гораздо.
Щас передохну и посмотрю, что там по погоде и финансовым рынкам.

Вчера целый вечер ковырял необычную архитектуру ЛЛМ!

НО!


Несмотря на всё это провдижение - у меня много этапов сделано до этого. Поэтому я откладываю это открытие до моментов полных верификаций - они в процессе. У меня, как раз, освободится головушка для того чтобы вернуться к архитектурам: PIR, TruKan (Самый быстрый кан эвер), применить все мои приколы по ускорению матриц к Rukallama и не теряя в качестве организовать дёшево ОЧЕНЬ БОЛЬШУЮ ЯЗЫКОВУЮ МОДЕЛЬ!

Параллельно (никому не сказав) решил расширить советский датасет в 6 раз - уже выполняется. Это будет мне стоит около 100к рублей - за все API обращения, за электричество, за прогревы видеокарт (но вы же накидывали, бюджеты как были так и остались).

Немного с РНБ туговасто вышло, у них был недавно небольшой скандал с ФАС - это , КОНЕЧНО ЖЕ, отразилось и на моём взаимодействии с библиотекой, что привело к задержке выполняния обязательств с обеих сторон. НО ХОЧУ ОТМЕТИТЬ - у меня нет претензий, я лишь рассказываю вам текущие дела и , если кто помнит, я всё говорил про "получку". Ну вот теперь ТОЧНО ДОЖДУСЬ - так как буря улеглась.

К слову про скандал с ФАС у РНБ - дело такое:

Человек с которым я напрямую работаю в РНБ занимался закупкой оборудования, которое уже закупалось туда в течение 10 лет. Весь персонал обучен и весь стэк от технологий до применения был основан как и программно, так и аппаратно на немецких планетарных сканерах принтерах для библиотек. Есть технологическая цепочка и требования, а также уже имелся обученный персонал. Логика подсказывает, что для выполнения государственного поручения библиотеке нужно использовать то, что работает эффективно и уже не раз использовалось и сразу попадёт в технический стек без остановки производства.

А сейчас что? Сейчас надаваили рос производители с помощью ФАС на РНБ по теме закупок подобного оборудования, но с претензией, что, мол, "почему не покупают отечественное оборудование"? Напоминаю - сакнций на оборудование, которое хотели закупить в РНБ - НЕТ!

Такие вот дела. Ну, ничего - проблемы решаемы. Терпение - имеется.
🔥94👌3🦄3
Согласовываем дату встречи с Кибердедом. Рассуждение будет какое-то.
👍21🥰71
🔍 RNBLEXITY V2 — ИИ-поиск для Российской национальной библиотеки

Весь январь пилил систему интеллектуального поиска для РНБ. Цель — дать возможность искать и анализировать массив авторефератов диссертаций с помощью ИИ.

Не просто «найди документ», а полноценный диалог с базой: задаёшь вопрос — получаешь ответ с источниками, цитатами, сравнениями.


Отдал на тестирование. Рассказываю, что получилось.


📊 Результаты тестирования

Написал 280 тестов, разбитых на три блока:

▸ A–S (Mega) — 238/240 (99.2%)
Основной функционал: поиск по базе, чтение PDF, генерация ответов, сравнение документов, статистика, подсчёты, таймауты, обработка ошибок и куча специализированных сценариев.


▸ T (Компакция) — 11/12 (91.7%)
Ultra-long контекст. Тестировал накопление >10K токенов, вспоминание информации после компакции, переключение между темами, экстренную компакцию на 24K токенов, персистентность tools, стресс-тест на 30 сообщений. Система помнит, о чём говорили, даже после трёх последовательных компакций.


▸ U (UI/UX) — 27/28 (96.4%)
Управление беседами, сессии и авторизация, кнопки действий, отображение процесса поиска, адаптивность, автогенерация названий бесед, мобильная версия.


Итого: ~98% функционала работает стабильно. (там некоторые тесты просто друг друга нивелировали - удаление бесед, а потом проверка кол-ва сохранённых бесед, порядок менять не стал, т.к. проверял потом вручную)

🛠 Технологический стек

Backend:
FastAPI — асинхронный веб-фреймворк
FAISS + BM25 — гибридный поиск (векторный + лексический одновременно)
e5-multilingual-large — мультиязычные эмбеддинги на 1024 измерения
▸ Qwen3:30bLLM для генерации ответов, крутится локально через Ollama
▸ Qwen3:17b — делает компактинг
▸ Qwen3:4b — генерирует кнопки, названия бесед.
WebSocket — стриминг ответов в реальном времени


Frontend:
▸ Vanilla JS — без React, без Vue, без ничего. Максимальная скорость
▸ marked.js + KaTeX + Prism.js — рендеринг markdown, математических формул и кода
▸ Адаптивный дизайн под десктоп и мобилку


Инфраструктура:
▸ 5.5 млн проиндексированных документов (170 тысяч авторефератов - речь о страницах)
Ollama — локальный inference, никаких внешних API
Tuna — туннель для публичного доступа к системе


Что умеет система

Поиск и анализ:
▸ Гибридный поиск по базе авторефератов диссертаций
▸ Чтение и анализ PDF-документов
▸ Сравнение нескольких документов между собой
▸ Суммаризация документов
▸ Подсчёт документов по темам и специальностям
▸ Извлечение метаданных: автор, год, специальность


MCP Tools (Model Context Protocol) — 7 инструментов:
▸ read_pdf_pages — чтение страниц PDF
▸ search_in_document — поиск внутри документа
▸ render_pdf_pages — рендер страниц в изображения
▸ list_document_info — метаданные файла
▸ count_documents — статистика по фонду
▸ summarize_document — суммаризация
▸ compare_documents — сравнительный анализ


Интерфейс:
▸ Создание, удаление, переименование бесед
▸ Автогенерация названий бесед на основе первого сообщения
▸ Копировать, редактировать, создать ветку — всё через кнопки
▸ Пошаговая визуализация: видишь, как модель ищет, думает, генерирует
▸ Блок «Рассуждения модели» — можно посмотреть reasoning
▸ Кнопка остановки генерации
▸ Автоскролл с возможностью отключения
▸ История сохраняется в localStorage
▸ Мобильная версия работает


Контекст и память:
▸ Компакция контекста при длинных диалогах (>10K токенов)
▸ Ключевая информация сохраняется при сжатии
▸ Диалоги на 30+ сообщений с очень малой деградацией качества


🔮 Что дальше

vLLM — очередь запросов для многопользовательского режима
▸ Интеграция с электронным каталогом РНБ через API
▸ Кнопка «Поделиться» для экспорта ответов
Related Questions — связанные вопросы для углублённого поиска



#rnblexity #ml #ai #search #РНБ #vibe_coding
1👍24
🤖 RNBLEXITY V2 — Как работает генерация и агентное взаимодействие

Предыдущий пост был про что система умеет. Этот — про то, как она думает.

🔄 Общий цикл работы

Запрос пользователя

Анализ запроса — LLM понимает, что нужно

Гибридный поиск — FAISS (векторный) + BM25 (лексический) по 5.5 млн документов\страниц

Первичный отбор — 60 → 30 → 12 документов

Агентный цикл — до 5 итераций tool calling

Финальный ответ


Ключевое: модель не просто ищет и отвечает. Она рассуждает, вызывает инструменты, получает данные, рассуждает снова. До 5 итераций за один запрос.


🧰 7 инструментов (MCP Tools)

Модель сама решает, какие инструменты использовать. Это не скрипт — это reasoning в реальном времени.

read_pdf_pages — чтение страниц PDF, когда нужны детали из документа
search_in_document — поиск внутри файла, найти конкретную информацию
count_documents — подсчёт документов, статистика по теме или году
compare_documents — сравнение 2+ документов, анализ различий
summarize_document — суммаризация, краткое содержание
list_document_info — метаданные: автор, год, специальность
render_pdf_pages — рендер страниц в картинку для визуализации


🧠 Как модель принимает решения


Есть два режима:

Forced Tools (принудительные) — система сама определяет, когда нужен инструмент:
▸ «Сколько диссертаций по физике?» → автоматически count_documents
▸ «Прочитай страницу 5» → автоматически read_pdf_pages


Voluntary Tools (добровольные) — модель сама решает в процессе рассуждения:
▸ «Мне не хватает информации, прочитаю ещё один документ»
▸ «Нужно сравнить два подхода — вызову compare»


💬 Пример агентного цикла


Пользователь: «Сравни подходы к машинному обучению в диссертациях 2020 и 2023 года»

Модель думает: мне нужно найти диссертации по ML за 2020 и 2023 год, прочитать их, сравнить подходы.

→ Вызывает count_documents(topic="машинное обучение", year=2020)
← Система: «Найдено 47 диссертаций»

→ Вызывает read_pdf_pages(file="dissertation_2020_ml.pdf", pages="1-5")
← Система: [текст страниц]

→ Продолжает анализ, вызывает ещё инструменты...

← Финал: структурированный ответ со сравнением и ссылками на источники.

Всё это происходит в реальном времени. Пользователь видит каждый шаг.


📊 Что видит пользователь

Весь процесс визуализируется пошагово:

1. Анализ вопроса ✓
└ Изучаю запрос с reasoning...

2. Поиск в фондах РНБ
└ Первичный отбор: 60 → 30 документов

3. Генерация ответа ◐
└ Читаю документ [████░░] 67%

💡 Рассуждения модели
«Анализирую методологию первой диссертации...»


Плюс блок reasoning — можно развернуть и посмотреть, как именно модель думает.


🔁 Компакция контекста

При долгих диалогах (>10K токенов) система сжимает историю:

Сообщения 1–15: [полный текст]
↓ КОМПАКЦИЯ
Сообщения 1–15: [краткое резюме ключевых фактов]
Сообщения 16+: [полный текст]

Модель помнит, о чём говорили, но не хранит весь текст. Ключевые факты, сущности, имена, даты — всё сохраняется. Диалоги на 30+ сообщений работают без особой деградации. (в рамках поиска и работы с документами)


⚡️ Стриминг

Ответ генерируется в реальном времени через WebSocket:
▸ Текст появляется по мере генерации — не нужно ждать
▸ Можно остановить в любой момент
▸ Tool calls выполняются между чанками текста


🎯 Почему это работает

▸ Гибридный поиск — не упускает документы (вектора + ключевые слова)
▸ Агентный подход — модель сама добирает информацию, если нужно
▸ Итеративность — до 5 циклов «подумал → вызвал tool → получил данные»
▸ Контекст — помнит всю беседу, даже длинную


Это не «вопрос-ответ». Это исследовательский ассистент, который умеет копаться в документах.

#rnblexity #ml #ai #agents #tool_calling #РНБ
👍121