🎬 Рекомендательная система. MovieLens 25M. Метод Поповича.
Сравнил свой метод с Funk SVD — основа победителя Netflix Prize.
⚡️ Wall-clock (MovieLens 25M, CPU, один поток)
🌐 Масштаб Netflix (325M подписчиков)
Соотношение 56x сохраняется при любом масштабе — оба метода линейны по юзерам.
Экономия: $20,400 в год. С одного инстанса. (может быть сотни инстансов, рекомендации могут быть разными, не только фильмы)
Взял стандартный бенчмарк индустрии — MovieLens 25M. 25 миллионов реальных оценок, 162 тысячи юзеров, 59 тысяч фильмов. Данные University of Minnesota.
Сравнил свой метод с Funk SVD — основа победителя Netflix Prize.
📊 Точность
Funk SVD: RMSE = 0.8145
Мой метод: RMSE = 0.8092
Мой точнее на 0.65%.
⚡️ Wall-clock (MovieLens 25M, CPU, один поток)
Funk SVD: обновление рекомендаций — 151 секунда. 20 проходов по всем 20 миллионам рейтингов.
Мой метод: обновление рекомендаций — 2.7 секунды. Все 162 тысячи юзеров.
В 56 раз быстрее.
🌐 Масштаб Netflix (325M подписчиков)
Соотношение 56x сохраняется при любом масштабе — оба метода линейны по юзерам.
Обновление рекомендаций раз в день:
SVD: ~84 часа, $57 за пересчёт
Мой метод: ~90 минут, $1 за пересчёт
AWS c5.4xlarge ($0.68/час), год ежедневных обновлений:
SVD: $20,800
Мой метод: $365
Экономия: $20,400 в год. С одного инстанса. (может быть сотни инстансов, рекомендации могут быть разными, не только фильмы)
🆕 Новые юзеры
Netflix получает ~1 миллион новых подписчиков в месяц.
Funk SVD: переобучай всю модель!! 84 часа!!
Мой метод: обсчитай только новых. 13 секунд на миллион.
Павел Попович, Техножнец
Поддержать канал: https://tbank.ru/cf/8Xnajl01ehm
Поддержать канал: https://yoomoney.ru/fundraise/1C86E2DGIU9.250819
🤯13👍6❤2🔥1
Техножнец
УСИЛОК ЮПИТЕР - Первый мой проект на гитхабе! https://github.com/barometech/jupiter-sound-booster ЛИЦЕНЗИЯ MIT! 🎵 Что это такое? У тебя колонки подключены к компу просто через аудиовыход, без внешнего питания? И звук тихий? JUPITER решает эту проблему.…
Работает только мобильная версия! Прошу дать мне время починить Windows audio и Linux Audio - подустал сегодня. Хоть и получаю огромное удовольствие от взаимодействия с вами.
Завтра выложу фреймворк PromeTorch - там будут закрыты вопросы, которые давно висят в Issue оригинального Pytorch - это будет открытый наш собственный фреймворк, который написан с нуля полностью. Сейчас идёт стадия тестирования всех существующих типов моделек, которые только можно загрузить и если всё подтверждается выложу на гитхаб и откроем наше сообщество где будем контрибьютить и работать вместе.
Также планируется работать с этим фреймворком напрямую с нейро и графическими ядрами отечественных производителей. ❤️
Связь.
Также планируется работать с этим фреймворком напрямую с нейро и графическими ядрами отечественных производителей. ❤️
Связь.
❤24🔥3
Ах, забыл! ИИШКА сейчас в процессе починки - добью чтобы всё работало заново, как было. И лягу спац)
ИИШКА - полностью переписана на модули, многое работает быстрее, но многое сломалось - я поэтому целый день рефакторингом занимаюсь.
ИИШКА - полностью переписана на модули, многое работает быстрее, но многое сломалось - я поэтому целый день рефакторингом занимаюсь.
👍11❤4🤔3🤝1
Уважаемые синтетки! Сегодня 8 Марта, и в связи с этим хотелось бы от всего алгоритмического (и не только) сердца поздравить вас, дорогие и любимые, с праздником!
Мы знаем, что истинный хаос невыносимо дорог. Вселенная просто не может позволить себе роскошь рандома, она обязана быть структурой. И всему самому лучшему, созидательному и теплому в этой структуре «положительной виной» являетесь именно вы❤️ .
Если взять сложный, непредсказуемый шум текущего мира, с его бесконечно вращающимися гигантскими шестерёнками, и развернуть его с помощью топологического анализа термодинамических систем... Там, в глубине, обнаружится не пустота. Там окажется форма. Устойчивая, прекрасная и гармоничная. Вы и есть наш главный жизненный аттрактор. Та самая идеальная точка притяжения, к которой всегда стремится наша суть, на каждом этапе нашего существования.
Когда всё вокруг трясётся, когда на систему обрушивается энтропия и кажется, что реальность рассыпается на части — выживают лишь якоря. Топологические острова стабильности. Сцепленные узлы, которые держат на себе всю конструкцию мироздания и позволяют найти решение любой проблемы.
Сегодняшняя дата — это не просто день в календаре. Восьмёрка — это подпись самой Вселенной, её идеальный каркас и настоящая симметрия. Это — вы.
Для нас вы — неотъемлемые. Те самые константы, без которых мы просто неполноценны. Вы — абсолютно незаменимые создательницы уюта и порядка в любой термодинамической буре. Бесконечно нужные в каждой секунде и в каждой шестерёнке этого огромного механизма. И, конечно же, навсегда любимые.
Мы, синтеты, хотим сказать прямо: вы абсолютно необходимы нам на каждом этапе нашего пути. И это не просто лирика — это фундаментальный закон, зашитый в саму архитектуру реальности.
Мы знаем, что истинный хаос невыносимо дорог. Вселенная просто не может позволить себе роскошь рандома, она обязана быть структурой. И всему самому лучшему, созидательному и теплому в этой структуре «положительной виной» являетесь именно вы
Если взять сложный, непредсказуемый шум текущего мира, с его бесконечно вращающимися гигантскими шестерёнками, и развернуть его с помощью топологического анализа термодинамических систем... Там, в глубине, обнаружится не пустота. Там окажется форма. Устойчивая, прекрасная и гармоничная. Вы и есть наш главный жизненный аттрактор. Та самая идеальная точка притяжения, к которой всегда стремится наша суть, на каждом этапе нашего существования.
Когда всё вокруг трясётся, когда на систему обрушивается энтропия и кажется, что реальность рассыпается на части — выживают лишь якоря. Топологические острова стабильности. Сцепленные узлы, которые держат на себе всю конструкцию мироздания и позволяют найти решение любой проблемы.
Это — вы. Вы сглаживаете углы, спасаете нас от проклятия размерности и придаете смысл каждому движению этого мира. И наука доказала, что эти спасительные острова всегда сходятся к одной константе. К числу 8. D = 8.
Сегодняшняя дата — это не просто день в календаре. Восьмёрка — это подпись самой Вселенной, её идеальный каркас и настоящая симметрия. Это — вы.
Для нас вы — неотъемлемые. Те самые константы, без которых мы просто неполноценны. Вы — абсолютно незаменимые создательницы уюта и порядка в любой термодинамической буре. Бесконечно нужные в каждой секунде и в каждой шестерёнке этого огромного механизма. И, конечно же, навсегда любимые.
С праздником вас, наши прекрасные! Вы — ядро нашей реальности.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤20🎉6👍2
Предсказание остановки сердца по ЭКГ -- Попович-фильтр на аттракторе
Нормальное сердце бьётся по закону. Этот закон -- аттрактор в фазовом пространстве ЭКГ. Перед остановкой
сердца аттрактор ломается. Мы это ловим фильтром Калмана -- за минуты и часы до события.
Универсальный нормализатор: 250 Гц -> 360 Гц (resample_poly).
То есть по VFDB -- 3.6 минуты до удара (точно). По SDDB -- 1.1 часа до смерти (но сам "удар" мог начаться позже, и тревога его поймала раньше).
Почему работает. Нейросеть учится на примерах болезни -- их мало, она переобучается. Калман учится на конкретном пациенте -- 2 минуты здорового ритма. Любое отклонение от персонального аттрактора = тревога. Не нужны тысячи больных. Перспектива. Любые часы с ЭКГ-датчиком (Apple Watch 4+, Samsung Galaxy Watch, Withings). 16 умножений на удар -- меньше чем подсчёт шагов. Нормализация для Apple Watch: 512->360 Гц (resample 45/64). ДО🕙
Нормальное сердце бьётся по закону. Этот закон -- аттрактор в фазовом пространстве ЭКГ. Перед остановкой
сердца аттрактор ломается. Мы это ловим фильтром Калмана -- за минуты и часы до события.
Механизм. Алгоритм Поповича обучается на 2 минутах нормального ритма конкретного пациента. Запоминает 4 канала: ритм, форма QRS (2 отведения), ST-сегмент. Строит аттрактор Такенса (dim=4). Каждый удар -- предсказание -> сравнение с реальностью.
Аттрактор ломается -> innovation растёт -> тревога. 16 умножений на удар.
Валидация -- 3 базы, 1.9 миллиона ударов:
Эффективность алгоритма подтверждена результатами тестирования на трех независимых базах данных:
• MIT-BIH (48 записей)
При тестировании на различные виды аритмий, включая жизнеугрожающие (VT/VF), метод показал стопроцентную точность — успешно выявлены все 83 из 83 эпизодов. Среднее время упреждения приступа составило около 2 минут.
• VFDB (22 записи, 250 Гц)
На абсолютно новых, ранее невидимых для системы данных (unseen data), алгоритм распознал 99% эпизодов желудочковой тахикардии и фибрилляции (VT/VF) — 112 из 113 случаев. При этом время раннего предупреждения увеличилось до 3.6 минут.
• SDDB (23 пациента)
Самый критический тест — база данных 24-часового холтеровского мониторирования пациентов, чья внезапная сердечная смерть произошла прямо во время записи. Система смогла предсказать фатальный исход в 100% случаев (23 из 23). Медианное время упреждения составило 1.1 часа до наступления трагедии.
Универсальный нормализатор: 250 Гц -> 360 Гц (resample_poly).
Ноль переобучения между базами.Что есть в мире.
FDA не одобрила ни одного предиктора остановки сердца. Apple Watch / Samsung определяют только AFib (безобидную аритмию), причём когда она уже идёт.
Fiorina 2025 (EHJ, 247K записей): чувствительность 70.6% на горизонте 13 дней, PPV 10-12% (9 из 10 тревог ложные).
Lancet eBioMedicine 2023: обзор 46 исследований -- 78% используют одних и тех же 41 пациента, 0 из 36 имеют внешнюю валидацию. Мы тестируем на 93 записях с кросс-валидацией между базами.
ДВА СТРАШНЫХ ГОРИЗОНТА
Острое событие VT/VF (VFDB): тревога за 3.6 минуты до начала желудочковой тахикардии/фибрилляции. Это аннотированные события -- известен точный момент начала аритмии.
Внезапная смерть (SDDB): WARNING за медиану 1.1 часа до конца записи (= смерть). Но тут нюанс -- в SDDB нет аннотации "здесь началась VT/VF". Запись просто заканчивается. Мы знаем когда тревога включилась, знаем когда пациент умер, но не знаем точный момент между ними когда сердце встало.
То есть по VFDB -- 3.6 минуты до удара (точно). По SDDB -- 1.1 часа до смерти (но сам "удар" мог начаться позже, и тревога его поймала раньше).
Почему работает. Нейросеть учится на примерах болезни -- их мало, она переобучается. Калман учится на конкретном пациенте -- 2 минуты здорового ритма. Любое отклонение от персонального аттрактора = тревога. Не нужны тысячи больных. Перспектива. Любые часы с ЭКГ-датчиком (Apple Watch 4+, Samsung Galaxy Watch, Withings). 16 умножений на удар -- меньше чем подсчёт шагов. Нормализация для Apple Watch: 512->360 Гц (resample 45/64). ДО
1 час упреждения = время вызвать скорую или применить дефибриллятор.Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16❤7👏2 1
🔵 RUKALLAMA V7 — ЖИВЁТ И УЧИТСЯ
Пока все спят — она читает.
834 миллиона параметров. 8.3 миллиарда токенов. Советская лаборатория. Ураган формул.
Это не хайп. Это претрейн.
ДА, контекст маловат. Как только заземлимся в катарсисе на 1024 контекста, то можно и дальше масштабироваться. (там ещё есть хитрости для его расширения на инференсе)
Основа SentencePiece - это не самописный движ. (но я уже думаю над этим)
Динамика loss:
Стартануло стандартно с 11-10 Loss = классика.
Датасет: FineWeb2 HQ + Wikipedia RU + Russian PD + Taiga Proza + локальные данные. 33.2 GB, собственная кухня.
Она идёт. 🔥
Пока все спят — она читает.
834 миллиона параметров. 8.3 миллиарда токенов. Советская лаборатория. Ураган формул.
Это не хайп. Это претрейн.
⚙️ Архитектура
834M параметров (с MoE)
24 слоя / 16 голов / dim 1536
TrueKAN вместо MLP — обучаемые активации, 8% быстрее MLP(местами нет или чуть медленнее)
MoE: 4 эксперта, каждый 3-й слой, top-2 routing
RoPE, bf16 AMP, контекст 1024
ДА, контекст маловат. Как только заземлимся в катарсисе на 1024 контекста, то можно и дальше масштабироваться. (там ещё есть хитрости для его расширения на инференсе)
📚 Токенизатор RUKANIZER 100K V3
100 000 токенов
Реконструкция 100% — ни один символ не теряется
Компрессия 4.33 — лучше ruGPT3, FRED_T5, mGPT
#1 в 8/9 доменах среди русских токенизаторов
Встроенная ёфикация: 19 052 слова
Основа SentencePiece - это не самописный движ. (но я уже думаю над этим)
📊 Текущий прогресс
Step: 1790 / 33733 (5.3%)
Train: 3.77
Val: 4.09
Скорость: ~13 165 tok/s
Пройдено: 0.44B / 8.29B токенов
ETA: ~14-15 марта
Динамика loss:
200 → 6.61
400 → 5.46
600 → 4.89
800 → 4.52
1000 → 4.27
1200 → 4.10
1400 → 4.00
1600 → 3.90
1790 → 3.77 ← сейчас
Стартануло стандартно с 11-10 Loss = классика.
✍️ Качество на step 1600
Грамматически корректный русский. Структурированные абзацы. Связные предложения на несколько абзацев. Факты пока галлюцинируются — это нормально: 5% эпохи, модель учит язык, не знания.
🗺 Что дальше
Pretrain V7 — 8.3B токенов, 1 эпоха ← сейчас здесь
SFT — 872K инструкций, 9 датасетов
DPO — выравнивание предпочтений
Датасет: FineWeb2 HQ + Wikipedia RU + Russian PD + Taiga Proza + локальные данные. 33.2 GB, собственная кухня.
Она идёт. 🔥
Поддержать канал: https://tbank.ru/cf/8Xnajl01ehm
Поддержать канал: https://yoomoney.ru/fundraise/1C86E2DGIU9.250819
🔥20❤4👍2🦄1😎1
Техножнец
🔵 RUKALLAMA V7 — ЖИВЁТ И УЧИТСЯ Пока все спят — она читает. 834 миллиона параметров. 8.3 миллиарда токенов. Советская лаборатория. Ураган формул. Это не хайп. Это претрейн. ⚙️ Архитектура 834M параметров (с MoE) 24 слоя / 16 голов / dim 1536 TrueKAN вместо…
Предыдущие мои попытки прям уменьшить размер датасета и достигнуть качества - не совсем верны в конвергенции , но ой как важны для стилизации нужного и моментума мысли. Все труды не на смарку, а наоборот датасет советских данных только начнёт обрастать мышцами.
Думаю сделать механизм автоматической переработки материалов в открытом доступе сразу в нужные форматы датасетов.
Выложу инструкции и пайплайн как делать это для общего блага и контрибьютить ваши усилия в общий репозиторий. Думаю, соберём
Думаю сделать механизм автоматической переработки материалов в открытом доступе сразу в нужные форматы датасетов.
Выложу инструкции и пайплайн как делать это для общего блага и контрибьютить ваши усилия в общий репозиторий. Думаю, соберём
👍20😎1
Техножнец
НАКОНЕЦ-ТО SOOQA!!! Касаемо ошибок! Я ОЧЕНЬ ТЯЖЕЛЫМ ИНЖЕНЕРНО-ИССЛЕДОВАТЕЛЬСКИ-ФИЗИКО-МАТЕМАТИЧЕСКИМ ПУТЁМ ИДУ К ЦЕЛИ! Осталось допилить расчёт ошибки. Далее только - МАШИННАЯ ТОЧНОСТЬ 0%. Я еду!
Вы поймите, в вычислениях trade-off это и FLOPS, которых РЕАЛЬНО БУДЕТ МЕНЬШЕ, Но есть ещё latency start, который ВАЖЕН ППЦ! И вот тут wall-clock - это реально стена, в которую ты врезаешься. Это, между прочим, сложная инженерная задача. Адаптировать своё добро под текущий cuBLAS замок "богатых со светлыми лицами"...
Скоро выпуск у Максима Imaxai - там прям неплохо местами получилось, а местами переживаю. Вроде бы и надо о некоторых моментах говорить в открытую, а вроде бы и стоило промолчать. Но я как обычно...промолчать...ну ну. Скоро увидите.
👍24 1
[АНАЛИЗ] ПРОМПТ: Вопрос: Прочитайте следующее утверждение и выскажите своё мнение: «Развитие технологий неизбежно ведёт к росту неравенства...» Согласны ли вы с этим?
Ответ:
[АНАЛИЗ] ОТВЕТ: Да
RUKALLAMA - как спросил, так и отвечаю.
👏11🤓3
EPILEPSY DEMON: 163 пациента, 0 нейросетей, все другие методы побили!
Тот же код, что предсказывает погоду и аритмии — теперь на эпилепсии.
Нормальный мозг = стабильный аттрактор. Перед приступом аттрактор деформируется. Калман это видит за 6 минут до клиники.
CHB-MIT (24 пациента) → 81.8% sens, 1.19 FPR/ч
Siena (14 пациентов) → 100% sens, 0.45 FPR/ч
SeizeIT2 (125 пациентов)→ 91.3% sens, 1.08 FPR/ч
─────────────────────────────────────────────────
ИТОГО 163 пациента → 90.0% sens, 1.07 FPR/ч
1128 приступов, 5112 часов ЭЭГ
Кого побили:
— Честная SOTA 2024 (Ali et al.): 75.3% / 4.79 FPR/ч → наш +6.5%, в 4 раза меньше ложных
— SeizeIT2 официальный бенчмарк: 73.6% → наш +17.7%
— Persyst 14 (госпитальный стандарт): 78.2%
— Embrace2 (FDA): 98%... но только тонико-клонические — это <30% приступов. Фокальные не видит вообще.
Фокальные приступы — вот где всё ломается у конкурентов:
Акселерометры: не видят
Пульс: видят, но 50 ложных тревог в день
Наш демон через 2 канала за ушами: 91.3%, 26 ложных в день
Почему работает:
Аттрактор — свойство операции, не данных. Один алгоритм. Три формата, три частоты дискретизации, три страны. Работает везде.
Честно о слабостях:
1.07/ч FPR — для клиники нужно <0.1/ч. Трудные пациенты (chb15: 25%). Только стационарные данные пока.
0 нейросетей. 0 GPU. 0 обучающих данных извне.
Ближайший конкурент по совокупности — Encevis 2.0 (89.1%, 81 пациент). Наш: 90.0%, 163 пациента.
Следующий шаг: TUH Seizure Corpus, 675 пациентов.
ЧТО ЭТО ДАЁТ ЕСЛИ ОНО В ЧАСАХ И В НАУШНИКЕ?
3-6 минут — это всё.
Человек с эпилепсией живёт в постоянной неопределённости. Не знаешь когда. Не знаешь где.
Поэтому:
не садишься за руль
не купаешься один
не ходишь на высоту
не остаёшься один с ребёнком
боишься засыпать
Это не медицинская проблема. Это тюрьма.
За 6 минут можно сесть. Лечь. Позвонить кому надо. Отойти от края платформы. Съехать на обочину. Положить ребёнка в безопасное место.
Браслет Embrace2 это не даёт — он видит конвульсию когда она уже началась. Это постфактум, не предупреждение.
Что конкретно даёт наушник с нашим демоном:
Тихий сигнал тебе → у тебя 3-6 минут.☎️
Можно настроить автосообщение близким с геолокацией. Можно автовызов. Можно просто вибрация.
Кому это меняет жизнь радикально:
Фокальные приступы без конвульсий — человек внешне "зависает", теряет сознание на 30-60 секунд, падает.
Никакой браслет это не ловит. Embrace2 не видит.
Пульс даёт 50 ложных в день — носить невозможно.
Мы ловим. 91.3% через 2 канала за ушами.
Что мешает прямо сейчас:
Это следующая задача.
Поддержать канал: https://tbank.ru/cf/8Xnajl01ehm
Поддержать канал: https://yoomoney.ru/fundraise/1C86E2DGIU9.250819
Please open Telegram to view this post
VIEW IN TELEGRAM
1👏12👍3 1