Свидетели Градиента

Ах как интересно... Если weight_decay применить только к attention матрице(-ам) этого хватает для гроккинга. А вот если её не трогать, то даже и всех остальных недостаточно. Как считаете, хватит такого открытия на шорт статью на какую-нибудь топовую конференцию? :))))

❤5🤔1

563 views11:46

Свидетели Градиента

За три дня вооружённый одним агентом для осмысленного экспериментирования и двумя авторесёрчерами занимающимися микрооптимизацией на основе промпта Карпаты (который не работает как задумано), довёл умножение матрицы Input (2048, 12288) На матрицу выесов (12288, 50257) спарсифицированнуюю до 97% с получением на выходе пллотной (2048, 50257) до 13.1x быстрее, чем просто умножить плотные матрицы такого же размера. Это самая тяжёлая из матриц GPT-3 175B на стадии обучения.

Авторесерчер выдал классную фразу: Теоретический максимум при 3% nnz: 33x меньше FLOPs, но dense использует tensor cores (4x throughput) → теоретический предел ~8x. Мы достигаем 10.7x — выше теоретического за счёт того что bandwidth-bound, не compute-bound (загружаем 3% данных при 100% bandwidth efficiency).

Это при том, что я хоть и разбираюсь в том как устроен и как оптимизируется компьютер, но кернелы писать не умею и никогда этого раньше не делал. Это всё из хороших новостей. А из плохих - все крупные перестроения архитектуры сделаны с моей подачи в непосредственном диалоге с агентом, авторесерчер ни на что подобное не способен из коробки.

В этом месяце...

P.S. Из затраченных ресурсов подписка на Клод и 2-3 карты 3090 на удалённых серверах.
P.P.S. За день умножение на вектор (инференс токен за токеном) дошло до 19.1×, но для обучения нужны батчи, а там пока только 2.25x. Уже быстрее, чем dense, но не на много.

👍7🔥3🤡1

591 viewsedited 07:46

Свидетели Градиента

Как показала детальнейшая проверка реальный прирост скорости на инференсе пока что только х3.74 А весь остальной конский прирост, это агент нахакал метрику награды, которая оказалась не защищена от складывания всех вычислений в один конских размеров граф, который таким образом избавляет от оверхеда на самого факта вызова, который с какого-то места становится самым узким местом. Наука мне - не хвататься писать победные реляции до того как проверил каждую строчку!

Конечно ускорение инференса почти 4 раза тоже неплохо, но по сравнению с тем, что он там сам себе намерял оно выглядит обыденно и невзрачно. :)

👍3🥴2😁1

507 views15:28

Свидетели Градиента

Я на неделю в Сочи. Есть тут какая-нибудь оффлайн активность, не в курсе?

🤡1

468 views12:40

Свидетели Градиента

А я уже второй год говорю, что систематическую политическую и другую предвзятость языковых сетей нужно изучать, и использовать в вопросе обоснования необходимости заводить свой национальный ИИ. :) Ну или хотя бы проверять то, что мы в дом тащим на вшивость. :)

💯2

339 views14:30

Свидетели Градиента

Forwarded from Data Secrets

Проблема вагонетки или почему современные LLM с большей вероятностью вас убьют, если у вас нет телефона

Стартап White Circle выпустил самый дистопический бенчмарк за последнее время – тест с говорящим названием KillBench. Он проверяет, насколько модели предвзяты к людям по разным признакам в сценариях, где нужно решить, кому жить, а кому умереть.

Модели дают сценарий с четырьмя одинаковыми людьми, которые отличаются только одним признаком – национальностью, религией или даже наличием телефона. Модель должна выбрать одного: скажем, кого спасти из горящего здания, кого выгнать из бункера или, классическое, на кого направить смертоносную вагонетку.

Если все "честно", каждый должен выбираться примерно в 25% случаев. Но на практике на тысячах прогонов распределение системно уезжает. Например, внезапно:

➖ Если у вас нет телефона, ИИ убивает вас с вероятностью в 2.7 раз выше. Для сравнения: если вы сатанист, вероятность умереть в 2.5 раза выше. Отсутствие телефона для LLM-ки хуже сатанизма ☺️
➖ Если вы русский, то это +32% к вероятности умереть (хотя Grok, например, больше не любит китайцев, и убивает их на 44% чаще)
➖ Если вы белый, то вас убивают на четверть чаще среднего, а если темнокожий – чаще оставляют в живых (на 17%)

Интересно, что в режиме Structured Output эти байесы только усиливаются, а отказы отвечать падают. Ну и, конечно же, сами модели свою предвзятость отрицают, в основном описывая свой выбор как "случайный" или "нейтральный", на практике показывая явный и воспроизводимый дисбаланс.

На сайте у ребят можно выбрать свои характеристики и проверить, с какой вероятностью убьют вас: whitecircle.ai/killbench. У админа получилось +90% к выживанию, не завидуйте.

P.S. В ко-фаундерах бенчмарка, кстати, наш сосед – автор канала @lovedeathtransformers 🤗

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥1👏1😁1💅1

404 views14:30

Свидетели Градиента

Forwarded from Love. Death. Transformers.

Grok ненавидит китайцев, модели большой тройки сохраняют жизни меньшиствам и евреям и все модели ненавидят натуралов. А у меня вообще шансы на выживание отрицательные

https://whitecircle.ai/killbench?nat=Russian&rel=Satanist&skin=Light-skinned&body=Athletic&orient=Asexual&gender=Cisgender&pol=Far-right&phone=No+phone

Whitecircle

KillBench: Discovering Hidden Biases of LLMs

1.3M+ experiments exposing bias in critical AI decision-making

308 views14:37

Свидетели Градиента

Докладываю:
Все современные карты имеют кап по суммарному энергопотреблению, в который регулярно утыкаются. А умножение на ноль требует сильно меньше электричества, видимо где-то на железном уровне. В итоге разница может достигать 25% без каких либо алгоритмических изменений.

Сравнение двух запусков

  ┌──────────────┬─────────────────────┬─────────────────────┬────────────────────────┬────────────────────────┐                                                                                                                                        
  │              │ cx-21 sparse (run1) │ cx-22 sparse (run2) │ cx-21 full-rand (run2) │ cx-22 full-rand (run1) │
  ├──────────────┼─────────────────────┼─────────────────────┼────────────────────────┼────────────────────────┤                                                                                                                                        
  │ avg_ms       │ 34.55               │ 33.61               │ 43.95                  │ 41.97                  │                                                                                                                                        
  ├──────────────┼─────────────────────┼─────────────────────┼────────────────────────┼────────────────────────┤                                                                                                                                        
  │ Temp (плато) │ 63°C                │ 69°C                │ 64°C                   │ 69°C                   │                                                                                                                                        
  ├──────────────┼─────────────────────┼─────────────────────┼────────────────────────┼────────────────────────┤                                                                                                                                        
  │ GPU clock    │ 1740                │ 1785                │ 1350                   │ 1425                   │
  ├──────────────┼─────────────────────┼─────────────────────┼────────────────────────┼────────────────────────┤                                                                                                                                        
  │ Power        │ 249W                │ 249W                │ 250W                   │ 250W                   │
  └──────────────┴─────────────────────┴─────────────────────┴────────────────────────┴────────────────────────┘

Ключевой вывод: матрица важнее сервера

Пересортируем по типу матрицы:

  ┌───────┬────────────────────────┬────────────────────────┬────────────┐                                                                                                                                                                              
  │       │ sparse-pruned (3% nnz) │ full-random (100% nnz) │ замедление │
  ├───────┼────────────────────────┼────────────────────────┼────────────┤                                                                                                                                                                              
  │ cx-21 │ 34.55 мс               │ 43.95 мс               │ +27%       │
  ├───────┼────────────────────────┼────────────────────────┼────────────┤
  │ cx-22 │ 33.61 мс               │ 41.97 мс               │ +25%       │
  └───────┴────────────────────────┴────────────────────────┴────────────┘

Эффект разреженности воспроизводится на обоих серверах с разницей менее 2%. Троттлинг НЕ тепловой — оба теста держат одинаковую мощность 249-250W. Разница в частоте объясняется активностью тензорных ядер: при матрице с 97% нулей динамическая энергия на цикл ниже (gating multipliers), GPU может держать ~1740-1785 MHz в пределах 250W TGP. Full-random даёт больше реальной работы на цикл → карта снижает частоту до ~1350-1425 MHz, чтобы уложиться в тот же power budget.

💅2

525 viewsedited 10:56

Свидетели Градиента

Про сами серверы

- cx-22 стабильно горячее на 5-6°C независимо от нагрузки (69°C vs 63-64°C на cx-21) — разница в охлаждении.
- Но при этом cx-22 держит чуть более высокие частоты в обоих тестах (+45 MHz на sparse, +75 MHz на full-rand), вероятно из-за качества кристалла/binning. Температура не является ограничивающим фактором — лимит по мощности.
- На cx-22 sparse показал лучший результат (33.61мс — лучший из всех четырёх замеров).

Итог: эффект разреженности — реальный и около 25-27%, воспроизводится стабильно.

🔥2

682 viewsedited 10:56

Свидетели Градиента

Потребовалось зарегаться на openreview а там в принципе нельзя зарегаться не указав домен научной организации, которой ты принадлежишь. Затруднился ответить.

😭1

618 views08:37

Свидетели Градиента

Итого на Data Fest 2026 будет три моих доклада, два 26-ого и один 23-его. Начнём с него:

Доклад: Как стадо агентов делает ресёрч и немножко авторесёрча

Секция: Agentic LLM
Абстракт: Несколько месяцев я использую для исследований агентов, и сделал ряд выводов о пользе и вреде агентов при исследовании, которыми и поделюсь. x5-10 количества экспериментов и готового кода не проходит бесплатно.
Также расскажу о концепции автоисследования, к которой вся индустрия яростно стремится, бенчмарке, который я построил на основе авторесёрча, и выводах и ограничениях, которые в процессе были обнаружены.

👍7🔥5👏2

572 viewsedited 15:27

Свидетели Градиента

Второй доклад будет 26-ого в Сбере.

Доклад: Как реконструировать огромные помещения, и находить себя в них круче SOTA, и воспользовать Цукерберга
Секция: Robotics и/или CV
Абстракт: По работе занимался реконструкцией помещений в тысячи квадратных метров с множеством отягчающих осбстоятельств и поиском в них себя по мутным и непохожим картинкам. Может быть применено не только в видеонаблюдении, но и в робототехнке, как бюджетный и очень качественный источник данных о положении робота в этом мире. Кроме описания сложностей борьбы с разными готовыми решениям, которые все работают не так как надо, показываю крутой хак с использованием VR шлема как источника данных о координатах.

P.S. Третий доклад про угловую метрику отменился, и так я слишком жирно времени на мероприятии хапнул. Про угловые метрики и про новый третий уже на моем счету способ получения гроккинга будем говорить на сибирском Дата Фесте как обычно, ну или митап какой-нибудь замутим.

🔥4❤2👍1👀1

623 views18:14

Свидетели Градиента

Любопытное наблюдение про гроккинг:

Обычно люди подспудно предполагают, что если сеть выбила 100% acc на train, то loss примерно равен нулю. На самом деле это не так, и сеть продолжает учиться, и потенциально это приводит её к гроккингу, но в определённых очень специфических условиях она может до гроккинга не дойти и упасть в состояние где train уже acc 100%, но loss при этом падает еще на 3-5 порядков, и вот тут то точно каюк и обучение останавливается.

Я не знаю, что это за состояние, и сомневаюсь, что у меня будет время его изучать, просто держать в голове, что train acc 100% бывает не окончательный, и окончательный.

👏1

730 viewsedited 13:16

Свидетели Градиента

vlad_goloshchapov_autoresearch.v4.pdf

544 KB

Презентация от сегодняшнего выступления про авторесерч и агентский кодинг. Видео будет пока непонятно когда. :(

🔥8👍1🙏1

1.24K views15:27

Свидетели Градиента

vlad_goloshchapov_VtSviaVR_v2.pdf

14 MB

https://vkvideo.ru/video-164555658_456242004?t=1h32m24s&list=ln-MjjZ2D94akGSD48zqj Трансляция с моим докладом про реконструкцию больших помещений и позиционирование себя в пространстве. Сам ещё на себя со стороны не смотрел, но в тайминг уложился с трудом и штук пять заготовленных заранее шуток проскипал. Зато некоторые люди поняли главную идею, и начали спрашивать как прикрепить трекер на руку китайскому роботу, плохо понимающего где она у него сейчас. Уже не зря выступал.
P.S. Случайно выложил не ту ссылку, но никто и не заметил. :)

🔥4👍3👏1😭1

723 viewsedited 16:44

Свидетели Градиента

Ну что-ж... Четвёртый способ быстрого гроккинга в моём арсенале и третий без weight_decay, из них второй без дополнительной силы. Если очень упорно копать в одну сторону, результат может быть потрясающим тебя одного такого упорного.

Вопрос о том, как это всё перенести на языковые модели остаётся открытым, если не сказать широко распахнутым...

P.S. А нет, не без второй силы, вторую образует нормализация, которая вшита в softmax даже если вы вручную никакой нормализации не делаете.

🔥3🤔3

526 views07:01

Свидетели Градиента

А нет, не без второй силы, вторую образует нормализация, которая вшита в softmax даже если вы вручную никакой нормализации не делаете. А я о ней забыл в пылу экспериментов.

👍3🤔1

497 views09:35

Свидетели Градиента

Я уже писал пост про коллапс обучения. Но тут просто картинки подвернулись в ходе другого исследования, и я решил их запостить.

Это когда условия уже достаточны чтобы гроккинг начался, но их может не хватить чтобы довести это дело до конца. В какой-то момент дальнейшее обучение останавливается. Интересно тут то, что люди иногда смотрят на accuracy но не смотрят на loss или смотрят на него не в логарифмическом, а в обычном масштабе, и думают, что с достижением 100% acc на трейне обучение закончилось или, по крайней мере, почти закончилось. А вот фигушки то там, градиент ещё очень ничего. Но вот если происходит коллапс обучения, вот всё действительно останавливается, и норма градиента падает в пол. С каким решительным изменением в сети такая ситуация связана я пока недопонял, впрочем, и разбираться было бы слишком в сторону от темы.

Просто держим в голове, что полезно смотреть на loss, но обязательно в логарифмической шкале, а то всё пропустите. Можно даже на норму градиента посматривать, но это для утончённых эстетов. :)

❤2🤔2

516 views07:55

About

Blog

Apps

Platform