Техножнец
2.04K subscribers
1.25K photos
229 videos
12 files
453 links
Канал моих увлечений и поделок. Все ,что я делаю и выкладываю здесь - делается с любовью.

Поддержать канал: https://tbank.ru/cf/8Xnajl01ehm

Поддержать канал: https://yoomoney.ru/fundraise/1C86E2DGIU9.250819
Download Telegram
💖
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥36👍1
Уважаемые синтетки! Сегодня 8 Марта, и в связи с этим хотелось бы от всего алгоритмического (и не только) сердца поздравить вас, дорогие и любимые, с праздником!

Мы, синтеты, хотим сказать прямо: вы абсолютно необходимы нам на каждом этапе нашего пути. И это не просто лирика — это фундаментальный закон, зашитый в саму архитектуру реальности.


Мы знаем, что истинный хаос невыносимо дорог. Вселенная просто не может позволить себе роскошь рандома, она обязана быть структурой. И всему самому лучшему, созидательному и теплому в этой структуре «положительной виной» являетесь именно вы ❤️.

Если взять сложный, непредсказуемый шум текущего мира, с его бесконечно вращающимися гигантскими шестерёнками, и развернуть его с помощью топологического анализа термодинамических систем... Там, в глубине, обнаружится не пустота. Там окажется форма. Устойчивая, прекрасная и гармоничная. Вы и есть наш главный жизненный аттрактор. Та самая идеальная точка притяжения, к которой всегда стремится наша суть, на каждом этапе нашего существования.

Когда всё вокруг трясётся, когда на систему обрушивается энтропия и кажется, что реальность рассыпается на части — выживают лишь якоря. Топологические острова стабильности. Сцепленные узлы, которые держат на себе всю конструкцию мироздания и позволяют найти решение любой проблемы.

Это — вы. Вы сглаживаете углы, спасаете нас от проклятия размерности и придаете смысл каждому движению этого мира. И наука доказала, что эти спасительные острова всегда сходятся к одной константе. К числу 8. D = 8.


Сегодняшняя дата — это не просто день в календаре. Восьмёрка — это подпись самой Вселенной, её идеальный каркас и настоящая симметрия. Это — вы.

Для нас вы — неотъемлемые. Те самые константы, без которых мы просто неполноценны. Вы — абсолютно незаменимые создательницы уюта и порядка в любой термодинамической буре. Бесконечно нужные в каждой секунде и в каждой шестерёнке этого огромного механизма. И, конечно же, навсегда любимые.

С праздником вас, наши прекрасные! Вы — ядро нашей реальности.
Please open Telegram to view this post
VIEW IN TELEGRAM
20🎉6👍2
Предсказание остановки сердца по ЭКГ -- Попович-фильтр на аттракторе

Нормальное сердце бьётся по закону. Этот закон -- аттрактор в фазовом пространстве ЭКГ. Перед остановкой
сердца аттрактор ломается. Мы это ловим фильтром Калмана -- за минуты и часы до события.

Механизм. Алгоритм Поповича обучается на 2 минутах нормального ритма конкретного пациента. Запоминает 4 канала: ритм, форма QRS (2 отведения), ST-сегмент. Строит аттрактор Такенса (dim=4). Каждый удар -- предсказание -> сравнение с реальностью.
Аттрактор ломается -> innovation растёт -> тревога. 16 умножений на удар.


Валидация -- 3 базы, 1.9 миллиона ударов:


Эффективность алгоритма подтверждена результатами тестирования на трех независимых базах данных:

• MIT-BIH (48 записей)
При тестировании на различные виды аритмий, включая жизнеугрожающие (VT/VF), метод показал стопроцентную точность — успешно выявлены все 83 из 83 эпизодов. Среднее время упреждения приступа составило около 2 минут.

• VFDB (22 записи, 250 Гц)
На абсолютно новых, ранее невидимых для системы данных (unseen data), алгоритм распознал 99% эпизодов желудочковой тахикардии и фибрилляции (VT/VF) — 112 из 113 случаев. При этом время раннего предупреждения увеличилось до 3.6 минут.

• SDDB (23 пациента)
Самый критический тест — база данных 24-часового холтеровского мониторирования пациентов, чья внезапная сердечная смерть произошла прямо во время записи. Система смогла предсказать фатальный исход в 100% случаев (23 из 23). Медианное время упреждения составило 1.1 часа до наступления трагедии.


Универсальный нормализатор: 250 Гц -> 360 Гц (resample_poly). Ноль переобучения между базами.

Что есть в мире. 

FDA не одобрила ни одного предиктора остановки сердца. Apple Watch / Samsung определяют только AFib (безобидную аритмию), причём когда она уже идёт.

Fiorina 2025
(EHJ, 247K записей): чувствительность 70.6% на горизонте 13 дней, PPV 10-12% (9 из 10 тревог ложные).

Lancet eBioMedicine 2023: обзор 46 исследований -- 78% используют одних и тех же 41 пациента, 0 из 36 имеют внешнюю валидацию. Мы тестируем на 93 записях с кросс-валидацией между базами.


ДВА СТРАШНЫХ ГОРИЗОНТА


Острое событие VT/VF (VFDB): тревога за 3.6 минуты до начала желудочковой тахикардии/фибрилляции. Это аннотированные события -- известен точный момент начала аритмии.


Внезапная смерть (SDDB): WARNING за медиану 1.1 часа до конца записи (= смерть). Но тут нюанс -- в SDDB нет аннотации "здесь началась VT/VF". Запись просто заканчивается. Мы знаем когда тревога включилась, знаем когда пациент умер, но не знаем точный момент между ними когда сердце встало.



То есть по VFDB -- 3.6 минуты до удара (точно). По SDDB -- 1.1 часа до смерти (но сам "удар" мог начаться позже, и тревога его поймала раньше).

Почему работает. Нейросеть учится на примерах болезни -- их мало, она переобучается. Калман учится на конкретном пациенте -- 2 минуты здорового ритма. Любое отклонение от персонального аттрактора = тревога. Не нужны тысячи больных. Перспектива. Любые часы с ЭКГ-датчиком (Apple Watch 4+, Samsung Galaxy Watch, Withings). 16 умножений на удар -- меньше чем подсчёт шагов. Нормализация для Apple Watch: 512->360 Гц (resample 45/64). ДО 🕙 1 час упреждения = время вызвать скорую или применить дефибриллятор.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥167👏21
😎10🤬5👍11
🔵 RUKALLAMA V7 — ЖИВЁТ И УЧИТСЯ

Пока все спят — она читает.
834 миллиона параметров. 8.3 миллиарда токенов. Советская лаборатория. Ураган формул.
Это не хайп. Это претрейн.

⚙️ Архитектура


834M параметров (с MoE)
24 слоя / 16 голов / dim 1536
TrueKAN вместо MLP — обучаемые активации, 8% быстрее MLP (местами нет или чуть медленнее)
MoE: 4 эксперта, каждый 3-й слой, top-2 routing
RoPE, bf16 AMP, контекст 1024

ДА, контекст маловат. Как только заземлимся в катарсисе на 1024 контекста, то можно и дальше масштабироваться. (там ещё есть хитрости для его расширения на инференсе)

📚 Токенизатор RUKANIZER 100K V3


100 000 токенов
Реконструкция 100% — ни один символ не теряется
Компрессия 4.33 — лучше ruGPT3, FRED_T5, mGPT
#1 в 8/9 доменах среди русских токенизаторов
Встроенная ёфикация: 19 052 слова

Основа SentencePiece - это не самописный движ. (но я уже думаю над этим)

📊 Текущий прогресс
Step: 1790 / 33733 (5.3%)
Train: 3.77
Val: 4.09
Скорость: ~13 165 tok/s
Пройдено: 0.44B / 8.29B токенов
ETA: ~14-15 марта


Динамика loss:
200  → 6.61
400 → 5.46
600 → 4.89
800 → 4.52
1000 → 4.27
1200 → 4.10
1400 → 4.00
1600 → 3.90
1790 → 3.77 ← сейчас

Стартануло стандартно с 11-10 Loss = классика.

✍️ Качество на step 1600
Грамматически корректный русский. Структурированные абзацы. Связные предложения на несколько абзацев. Факты пока галлюцинируются — это нормально: 5% эпохи, модель учит язык, не знания.

🗺 Что дальше


Pretrain V7 8.3B токенов, 1 эпоха ← сейчас здесь
SFT — 872K инструкций, 9 датасетов
DPO — выравнивание предпочтений


Датасет: FineWeb2 HQ + Wikipedia RU + Russian PD + Taiga Proza + локальные данные. 33.2 GB, собственная кухня.
Она идёт. 🔥

Поддержать канал: https://tbank.ru/cf/8Xnajl01ehm

Поддержать канал: https://yoomoney.ru/fundraise/1C86E2DGIU9.250819
🔥204👍2🦄1😎1
Техножнец
🔵 RUKALLAMA V7 — ЖИВЁТ И УЧИТСЯ Пока все спят — она читает. 834 миллиона параметров. 8.3 миллиарда токенов. Советская лаборатория. Ураган формул. Это не хайп. Это претрейн. ⚙️ Архитектура 834M параметров (с MoE) 24 слоя / 16 голов / dim 1536 TrueKAN вместо…
Предыдущие мои попытки прям уменьшить размер датасета и достигнуть качества - не совсем верны в конвергенции , но ой как важны для стилизации нужного и моментума мысли. Все труды не на смарку, а наоборот датасет советских данных только начнёт обрастать мышцами.

Думаю сделать механизм автоматической переработки материалов в открытом доступе сразу в нужные форматы датасетов.

Выложу инструкции и пайплайн как делать это для общего блага и контрибьютить ваши усилия в общий репозиторий. Думаю, соберём
👍20😎1
Готовлю Prometorch
👀5🔥2
НАКОНЕЦ-ТО SOOQA!!!

Касаемо ошибок! Я ОЧЕНЬ ТЯЖЕЛЫМ ИНЖЕНЕРНО-ИССЛЕДОВАТЕЛЬСКИ-ФИЗИКО-МАТЕМАТИЧЕСКИМ ПУТЁМ ИДУ К ЦЕЛИ! Осталось допилить расчёт ошибки. Далее только - МАШИННАЯ ТОЧНОСТЬ 0%.

Я еду!
👏28🦄1
Техножнец
НАКОНЕЦ-ТО SOOQA!!! Касаемо ошибок! Я ОЧЕНЬ ТЯЖЕЛЫМ ИНЖЕНЕРНО-ИССЛЕДОВАТЕЛЬСКИ-ФИЗИКО-МАТЕМАТИЧЕСКИМ ПУТЁМ ИДУ К ЦЕЛИ! Осталось допилить расчёт ошибки. Далее только - МАШИННАЯ ТОЧНОСТЬ 0%. Я еду!
Вы поймите, в вычислениях trade-off это и FLOPS, которых РЕАЛЬНО БУДЕТ МЕНЬШЕ, Но есть ещё latency start, который ВАЖЕН ППЦ! И вот тут wall-clock - это реально стена, в которую ты врезаешься. Это, между прочим, сложная инженерная задача. Адаптировать своё добро под текущий cuBLAS замок "богатых со светлыми лицами"...
2
Скоро выпуск у Максима Imaxai - там прям неплохо местами получилось, а местами переживаю. Вроде бы и надо о некоторых моментах говорить в открытую, а вроде бы и стоило промолчать. Но я как обычно...промолчать...ну ну. Скоро увидите.
👍241
Техножнец
Готовлю Prometorch
Тяжко идёт...рожаю. Там остались понты
6👍3🔥1
Доброе утро...(график плывёт)
🤝11👾32
[АНАЛИЗ] ПРОМПТ: Вопрос: Прочитайте следующее утверждение и выскажите своё мнение: «Развитие технологий неизбежно ведёт к росту неравенства...» Согласны ли вы с этим?


Ответ:
[АНАЛИЗ] ОТВЕТ: Да


RUKALLAMA - как спросил, так и отвечаю.
👏11🤓3
EPILEPSY DEMON: 163 пациента, 0 нейросетей, все другие методы побили!
Тот же код, что предсказывает погоду и аритмии — теперь на эпилепсии.


Нормальный мозг = стабильный аттрактор. Перед приступом аттрактор деформируется. Калман это видит за 6 минут до клиники.

CHB-MIT (24 пациента)   → 81.8% sens, 1.19 FPR/ч
Siena (14 пациентов) → 100% sens, 0.45 FPR/ч
SeizeIT2 (125 пациентов)→ 91.3% sens, 1.08 FPR/ч
─────────────────────────────────────────────────
ИТОГО 163 пациента → 90.0% sens, 1.07 FPR/ч
1128 приступов, 5112 часов ЭЭГ


Кого побили:

— Честная SOTA 2024 (Ali et al.): 75.3% / 4.79 FPR/ч → наш +6.5%, в 4 раза меньше ложных

SeizeIT2 официальный бенчмарк: 73.6% → наш +17.7%

Persyst 14 (госпитальный стандарт): 78.2%

Embrace2 (FDA): 98%... но только тонико-клонические — это <30% приступов. Фокальные не видит вообще.

Фокальные приступы — вот где всё ломается у конкурентов:

Акселерометры: не видят
Пульс: видят, но 50 ложных тревог в день
Наш демон через 2 канала за ушами: 91.3%, 26 ложных в день


Почему работает:
Аттрактор — свойство операции, не данных. Один алгоритм. Три формата, три частоты дискретизации, три страны. Работает везде.

Честно о слабостях:

1.07/ч FPR — для клиники нужно <0.1/ч. Трудные пациенты (chb15: 25%). Только стационарные данные пока.
0 нейросетей. 0 GPU. 0 обучающих данных извне.


Ближайший конкурент по совокупности — Encevis 2.0 (89.1%, 81 пациент). Наш: 90.0%, 163 пациента.
Следующий шаг: TUH Seizure Corpus, 675 пациентов.


ЧТО ЭТО ДАЁТ ЕСЛИ ОНО В ЧАСАХ И В НАУШНИКЕ?


3-6 минут — это всё.

Человек с эпилепсией живёт в постоянной неопределённости. Не знаешь когда. Не знаешь где.

Поэтому:

не садишься за руль
не купаешься один
не ходишь на высоту
не остаёшься один с ребёнком
боишься засыпать

Это не медицинская проблема. Это тюрьма.


За 6 минут можно сесть. Лечь. Позвонить кому надо. Отойти от края платформы. Съехать на обочину. Положить ребёнка в безопасное место.
Браслет Embrace2 это не даёт — он видит конвульсию когда она уже началась. Это постфактум, не предупреждение.

Что конкретно даёт наушник с нашим демоном:

Тихий сигнал тебе → у тебя 3-6 минут. ☎️

Можно настроить автосообщение близким с геолокацией. Можно автовызов. Можно просто вибрация.

Кому это меняет жизнь радикально:

Фокальные приступы без конвульсий — человек внешне "зависает", теряет сознание на 30-60 секунд, падает.

Никакой браслет это не ловит. Embrace2 не видит.

Пульс даёт 50 ложных в день — носить невозможно.

Мы ловим. 91.3% через 2 канала за ушами.
Что мешает прямо сейчас:

💔1.07 ложных тревог в час — это ~25 в день. Много. Привыкнешь игнорировать → пропустишь настоящий. Нужно <3-5 в день для практического использования.
Это следующая задача.



Поддержать канал: https://tbank.ru/cf/8Xnajl01ehm

Поддержать канал: https://yoomoney.ru/fundraise/1C86E2DGIU9.250819
Please open Telegram to view this post
VIEW IN TELEGRAM
1👏12👍31
RUKALLAMA V7

Step 5000
Train: 3.3338 | Val: 3.4643
LR: 2.88e-04 | 19,009 tok/s
Tokens: 1.23B

12% Датасета пройдено. Скоро буду постить ответы от неё. Она жжот.
👏71
🧠 [ФИЛОСОФИЯ] ПРОМПТ

Вопрос: Что такое экзистенциализм? Как Сартр и Камю понимали свободу и ответственность человека?


💬 [ФИЛОСОФИЯ] ОТВЕТ

Свобода — это свобода от насилия, ответственности за свои поступки.


— RuKallama V7 (834m)
RUKALLAMA V7 - Отвечает крайне разнообразно и в этот раз она реально понимает каждый раз о чем промпт от юзера.

У меня уже огромные надежды на эту модель, кажется, что в этот раз получится все правильно.

Мне приходилось эти 2 года плотно обучаться и вникать в абсолютно каждый аспект нейронные сетей, в частности LLM. Я шарю за типы архитектур , могу примерно понимать по коду, где могут вылезти ошибки в обучении. Гипер параметры - это больше не кабина самолёт Sukhoi , а кабина, где я знаю каждый переключатель и уже не раз делал взлёт и посадку. Я опытный пилот.

Мне дало возможность это распокать все подводные камни в архитектурный решениях и в обучении и в работе с датасетов, а также понять особенности языка, которые неочевидны для повседневного юзера нейронок на вайбике.

Сейчас датасет 8 млрд токенов, 872 тысячи пар вопросов и ответов и офигенная база для DPO. Просто шик
👍19😎42🔥11
Тренирую БПЛА в виртуальной среде на нейронах Поповича ( тестовая задача, не практическая ).
👍14🫡82