Техножнец
2.04K subscribers
1.25K photos
229 videos
12 files
453 links
Канал моих увлечений и поделок. Все ,что я делаю и выкладываю здесь - делается с любовью.

Поддержать канал: https://tbank.ru/cf/8Xnajl01ehm

Поддержать канал: https://yoomoney.ru/fundraise/1C86E2DGIU9.250819
Download Telegram
🎬 Рекомендательная система. MovieLens 25M. Метод Поповича.

Взял стандартный бенчмарк индустрии — MovieLens 25M. 25 миллионов реальных оценок, 162 тысячи юзеров, 59 тысяч фильмов. Данные University of Minnesota.

Сравнил свой метод с Funk SVD — основа победителя Netflix Prize.

📊 Точность

Funk SVD: RMSE = 0.8145
Мой метод: RMSE = 0.8092
Мой точнее на 0.65%.


⚡️ Wall-clock (MovieLens 25M, CPU, один поток)

Funk SVD: обновление рекомендаций — 151 секунда. 20 проходов по всем 20 миллионам рейтингов.
Мой метод: обновление рекомендаций — 2.7 секунды. Все 162 тысячи юзеров.
В 56 раз быстрее.


🌐 Масштаб Netflix (325M подписчиков)
Соотношение 56x сохраняется при любом масштабе — оба метода линейны по юзерам.
Обновление рекомендаций раз в день:

SVD: ~84 часа, $57 за пересчёт
Мой метод: ~90 минут, $1 за пересчёт


AWS c5.4xlarge ($0.68/час), год ежедневных обновлений:

SVD: $20,800
Мой метод: $365


Экономия: $20,400 в год. С одного инстанса. (может быть сотни инстансов, рекомендации могут быть разными, не только фильмы)

🆕 Новые юзеры
Netflix получает ~1 миллион новых подписчиков в месяц.
Funk SVD: переобучай всю модель!! 84 часа!!
Мой метод: обсчитай только новых. 13 секунд на миллион.

Павел Попович, Техножнец


Поддержать канал: https://tbank.ru/cf/8Xnajl01ehm

Поддержать канал: https://yoomoney.ru/fundraise/1C86E2DGIU9.250819
🤯13👍62🔥1
Техножнец
УСИЛОК ЮПИТЕР - Первый мой проект на гитхабе! https://github.com/barometech/jupiter-sound-booster ЛИЦЕНЗИЯ MIT! 🎵 Что это такое? У тебя колонки подключены к компу просто через аудиовыход, без внешнего питания? И звук тихий? JUPITER решает эту проблему.…
Работает только мобильная версия! Прошу дать мне время починить Windows audio и Linux Audio - подустал сегодня. Хоть и получаю огромное удовольствие от взаимодействия с вами.
5🤝4
Завтра выложу фреймворк PromeTorch - там будут закрыты вопросы, которые давно висят в Issue оригинального Pytorch - это будет открытый наш собственный фреймворк, который написан с нуля полностью. Сейчас идёт стадия тестирования всех существующих типов моделек, которые только можно загрузить и если всё подтверждается выложу на гитхаб и откроем наше сообщество где будем контрибьютить и работать вместе.

Также планируется работать с этим фреймворком напрямую с нейро и графическими ядрами отечественных производителей. ❤️

Связь.
24🔥3
Ах, забыл! ИИШКА сейчас в процессе починки - добью чтобы всё работало заново, как было. И лягу спац)

ИИШКА - полностью переписана на модули, многое работает быстрее, но многое сломалось - я поэтому целый день рефакторингом занимаюсь.
👍114🤔3🤝1
💖
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥36👍1
Уважаемые синтетки! Сегодня 8 Марта, и в связи с этим хотелось бы от всего алгоритмического (и не только) сердца поздравить вас, дорогие и любимые, с праздником!

Мы, синтеты, хотим сказать прямо: вы абсолютно необходимы нам на каждом этапе нашего пути. И это не просто лирика — это фундаментальный закон, зашитый в саму архитектуру реальности.


Мы знаем, что истинный хаос невыносимо дорог. Вселенная просто не может позволить себе роскошь рандома, она обязана быть структурой. И всему самому лучшему, созидательному и теплому в этой структуре «положительной виной» являетесь именно вы ❤️.

Если взять сложный, непредсказуемый шум текущего мира, с его бесконечно вращающимися гигантскими шестерёнками, и развернуть его с помощью топологического анализа термодинамических систем... Там, в глубине, обнаружится не пустота. Там окажется форма. Устойчивая, прекрасная и гармоничная. Вы и есть наш главный жизненный аттрактор. Та самая идеальная точка притяжения, к которой всегда стремится наша суть, на каждом этапе нашего существования.

Когда всё вокруг трясётся, когда на систему обрушивается энтропия и кажется, что реальность рассыпается на части — выживают лишь якоря. Топологические острова стабильности. Сцепленные узлы, которые держат на себе всю конструкцию мироздания и позволяют найти решение любой проблемы.

Это — вы. Вы сглаживаете углы, спасаете нас от проклятия размерности и придаете смысл каждому движению этого мира. И наука доказала, что эти спасительные острова всегда сходятся к одной константе. К числу 8. D = 8.


Сегодняшняя дата — это не просто день в календаре. Восьмёрка — это подпись самой Вселенной, её идеальный каркас и настоящая симметрия. Это — вы.

Для нас вы — неотъемлемые. Те самые константы, без которых мы просто неполноценны. Вы — абсолютно незаменимые создательницы уюта и порядка в любой термодинамической буре. Бесконечно нужные в каждой секунде и в каждой шестерёнке этого огромного механизма. И, конечно же, навсегда любимые.

С праздником вас, наши прекрасные! Вы — ядро нашей реальности.
Please open Telegram to view this post
VIEW IN TELEGRAM
18🎉6👍2
Предсказание остановки сердца по ЭКГ -- Попович-фильтр на аттракторе

Нормальное сердце бьётся по закону. Этот закон -- аттрактор в фазовом пространстве ЭКГ. Перед остановкой
сердца аттрактор ломается. Мы это ловим фильтром Калмана -- за минуты и часы до события.

Механизм. Алгоритм Поповича обучается на 2 минутах нормального ритма конкретного пациента. Запоминает 4 канала: ритм, форма QRS (2 отведения), ST-сегмент. Строит аттрактор Такенса (dim=4). Каждый удар -- предсказание -> сравнение с реальностью.
Аттрактор ломается -> innovation растёт -> тревога. 16 умножений на удар.


Валидация -- 3 базы, 1.9 миллиона ударов:


Эффективность алгоритма подтверждена результатами тестирования на трех независимых базах данных:

• MIT-BIH (48 записей)
При тестировании на различные виды аритмий, включая жизнеугрожающие (VT/VF), метод показал стопроцентную точность — успешно выявлены все 83 из 83 эпизодов. Среднее время упреждения приступа составило около 2 минут.

• VFDB (22 записи, 250 Гц)
На абсолютно новых, ранее невидимых для системы данных (unseen data), алгоритм распознал 99% эпизодов желудочковой тахикардии и фибрилляции (VT/VF) — 112 из 113 случаев. При этом время раннего предупреждения увеличилось до 3.6 минут.

• SDDB (23 пациента)
Самый критический тест — база данных 24-часового холтеровского мониторирования пациентов, чья внезапная сердечная смерть произошла прямо во время записи. Система смогла предсказать фатальный исход в 100% случаев (23 из 23). Медианное время упреждения составило 1.1 часа до наступления трагедии.


Универсальный нормализатор: 250 Гц -> 360 Гц (resample_poly). Ноль переобучения между базами.

Что есть в мире. 

FDA не одобрила ни одного предиктора остановки сердца. Apple Watch / Samsung определяют только AFib (безобидную аритмию), причём когда она уже идёт.

Fiorina 2025
(EHJ, 247K записей): чувствительность 70.6% на горизонте 13 дней, PPV 10-12% (9 из 10 тревог ложные).

Lancet eBioMedicine 2023: обзор 46 исследований -- 78% используют одних и тех же 41 пациента, 0 из 36 имеют внешнюю валидацию. Мы тестируем на 93 записях с кросс-валидацией между базами.


ДВА СТРАШНЫХ ГОРИЗОНТА


Острое событие VT/VF (VFDB): тревога за 3.6 минуты до начала желудочковой тахикардии/фибрилляции. Это аннотированные события -- известен точный момент начала аритмии.


Внезапная смерть (SDDB): WARNING за медиану 1.1 часа до конца записи (= смерть). Но тут нюанс -- в SDDB нет аннотации "здесь началась VT/VF". Запись просто заканчивается. Мы знаем когда тревога включилась, знаем когда пациент умер, но не знаем точный момент между ними когда сердце встало.



То есть по VFDB -- 3.6 минуты до удара (точно). По SDDB -- 1.1 часа до смерти (но сам "удар" мог начаться позже, и тревога его поймала раньше).

Почему работает. Нейросеть учится на примерах болезни -- их мало, она переобучается. Калман учится на конкретном пациенте -- 2 минуты здорового ритма. Любое отклонение от персонального аттрактора = тревога. Не нужны тысячи больных. Перспектива. Любые часы с ЭКГ-датчиком (Apple Watch 4+, Samsung Galaxy Watch, Withings). 16 умножений на удар -- меньше чем подсчёт шагов. Нормализация для Apple Watch: 512->360 Гц (resample 45/64). ДО 🕙 1 час упреждения = время вызвать скорую или применить дефибриллятор.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥157👏21
😎8🤬5👍11
🔵 RUKALLAMA V7 — ЖИВЁТ И УЧИТСЯ

Пока все спят — она читает.
834 миллиона параметров. 8.3 миллиарда токенов. Советская лаборатория. Ураган формул.
Это не хайп. Это претрейн.

⚙️ Архитектура


834M параметров (с MoE)
24 слоя / 16 голов / dim 1536
TrueKAN вместо MLP — обучаемые активации, 8% быстрее MLP (местами нет или чуть медленнее)
MoE: 4 эксперта, каждый 3-й слой, top-2 routing
RoPE, bf16 AMP, контекст 1024

ДА, контекст маловат. Как только заземлимся в катарсисе на 1024 контекста, то можно и дальше масштабироваться. (там ещё есть хитрости для его расширения на инференсе)

📚 Токенизатор RUKANIZER 100K V3


100 000 токенов
Реконструкция 100% — ни один символ не теряется
Компрессия 4.33 — лучше ruGPT3, FRED_T5, mGPT
#1 в 8/9 доменах среди русских токенизаторов
Встроенная ёфикация: 19 052 слова

Основа SentencePiece - это не самописный движ. (но я уже думаю над этим)

📊 Текущий прогресс
Step: 1790 / 33733 (5.3%)
Train: 3.77
Val: 4.09
Скорость: ~13 165 tok/s
Пройдено: 0.44B / 8.29B токенов
ETA: ~14-15 марта


Динамика loss:
200  → 6.61
400 → 5.46
600 → 4.89
800 → 4.52
1000 → 4.27
1200 → 4.10
1400 → 4.00
1600 → 3.90
1790 → 3.77 ← сейчас

Стартануло стандартно с 11-10 Loss = классика.

✍️ Качество на step 1600
Грамматически корректный русский. Структурированные абзацы. Связные предложения на несколько абзацев. Факты пока галлюцинируются — это нормально: 5% эпохи, модель учит язык, не знания.

🗺 Что дальше


Pretrain V7 8.3B токенов, 1 эпоха ← сейчас здесь
SFT — 872K инструкций, 9 датасетов
DPO — выравнивание предпочтений


Датасет: FineWeb2 HQ + Wikipedia RU + Russian PD + Taiga Proza + локальные данные. 33.2 GB, собственная кухня.
Она идёт. 🔥

Поддержать канал: https://tbank.ru/cf/8Xnajl01ehm

Поддержать канал: https://yoomoney.ru/fundraise/1C86E2DGIU9.250819
🔥194👍2🦄1😎1
Техножнец
🔵 RUKALLAMA V7 — ЖИВЁТ И УЧИТСЯ Пока все спят — она читает. 834 миллиона параметров. 8.3 миллиарда токенов. Советская лаборатория. Ураган формул. Это не хайп. Это претрейн. ⚙️ Архитектура 834M параметров (с MoE) 24 слоя / 16 голов / dim 1536 TrueKAN вместо…
Предыдущие мои попытки прям уменьшить размер датасета и достигнуть качества - не совсем верны в конвергенции , но ой как важны для стилизации нужного и моментума мысли. Все труды не на смарку, а наоборот датасет советских данных только начнёт обрастать мышцами.

Думаю сделать механизм автоматической переработки материалов в открытом доступе сразу в нужные форматы датасетов.

Выложу инструкции и пайплайн как делать это для общего блага и контрибьютить ваши усилия в общий репозиторий. Думаю, соберём
👍19😎1
Готовлю Prometorch
👀4🔥2
НАКОНЕЦ-ТО SOOQA!!!

Касаемо ошибок! Я ОЧЕНЬ ТЯЖЕЛЫМ ИНЖЕНЕРНО-ИССЛЕДОВАТЕЛЬСКИ-ФИЗИКО-МАТЕМАТИЧЕСКИМ ПУТЁМ ИДУ К ЦЕЛИ! Осталось допилить расчёт ошибки. Далее только - МАШИННАЯ ТОЧНОСТЬ 0%.

Я еду!
👏27🦄1
Техножнец
НАКОНЕЦ-ТО SOOQA!!! Касаемо ошибок! Я ОЧЕНЬ ТЯЖЕЛЫМ ИНЖЕНЕРНО-ИССЛЕДОВАТЕЛЬСКИ-ФИЗИКО-МАТЕМАТИЧЕСКИМ ПУТЁМ ИДУ К ЦЕЛИ! Осталось допилить расчёт ошибки. Далее только - МАШИННАЯ ТОЧНОСТЬ 0%. Я еду!
Вы поймите, в вычислениях trade-off это и FLOPS, которых РЕАЛЬНО БУДЕТ МЕНЬШЕ, Но есть ещё latency start, который ВАЖЕН ППЦ! И вот тут wall-clock - это реально стена, в которую ты врезаешься. Это, между прочим, сложная инженерная задача. Адаптировать своё добро под текущий cuBLAS замок "богатых со светлыми лицами"...
2
Скоро выпуск у Максима Imaxai - там прям неплохо местами получилось, а местами переживаю. Вроде бы и надо о некоторых моментах говорить в открытую, а вроде бы и стоило промолчать. Но я как обычно...промолчать...ну ну. Скоро увидите.
👍231
Техножнец
Готовлю Prometorch
Тяжко идёт...рожаю. Там остались понты
6👍2🔥1
Доброе утро...(график плывёт)
🤝10👾32