Ах как интересно... Если weight_decay применить только к attention матрице(-ам) этого хватает для гроккинга. А вот если её не трогать, то даже и всех остальных недостаточно. Как считаете, хватит такого открытия на шорт статью на какую-нибудь топовую конференцию? :))))
❤5🤔1
За три дня вооружённый одним агентом для осмысленного экспериментирования и двумя авторесёрчерами занимающимися микрооптимизацией на основе промпта Карпаты (который не работает как задумано), довёл умножение матрицы Input (2048, 12288) На матрицу выесов (12288, 50257) спарсифицированнуюю до 97% с получением на выходе пллотной (2048, 50257) до 13.1x быстрее, чем просто умножить плотные матрицы такого же размера. Это самая тяжёлая из матриц GPT-3 175B на стадии обучения.
Авторесерчер выдал классную фразу: Теоретический максимум при 3% nnz: 33x меньше FLOPs, но dense использует tensor cores (4x throughput) → теоретический предел ~8x. Мы достигаем 10.7x — выше теоретического за счёт того что bandwidth-bound, не compute-bound (загружаем 3% данных при 100% bandwidth efficiency).
Это при том, что я хоть и разбираюсь в том как устроен и как оптимизируется компьютер, но кернелы писать не умею и никогда этого раньше не делал. Это всё из хороших новостей. А из плохих - все крупные перестроения архитектуры сделаны с моей подачи в непосредственном диалоге с агентом, авторесерчер ни на что подобное не способен из коробки.
В этом месяце...
P.S. Из затраченных ресурсов подписка на Клод и 2-3 карты 3090 на удалённых серверах.
P.P.S. За день умножение на вектор (инференс токен за токеном) дошло до 19.1×, но для обучения нужны батчи, а там пока только 2.25x. Уже быстрее, чем dense, но не на много.
Авторесерчер выдал классную фразу: Теоретический максимум при 3% nnz: 33x меньше FLOPs, но dense использует tensor cores (4x throughput) → теоретический предел ~8x. Мы достигаем 10.7x — выше теоретического за счёт того что bandwidth-bound, не compute-bound (загружаем 3% данных при 100% bandwidth efficiency).
Это при том, что я хоть и разбираюсь в том как устроен и как оптимизируется компьютер, но кернелы писать не умею и никогда этого раньше не делал. Это всё из хороших новостей. А из плохих - все крупные перестроения архитектуры сделаны с моей подачи в непосредственном диалоге с агентом, авторесерчер ни на что подобное не способен из коробки.
В этом месяце...
P.S. Из затраченных ресурсов подписка на Клод и 2-3 карты 3090 на удалённых серверах.
P.P.S. За день умножение на вектор (инференс токен за токеном) дошло до 19.1×, но для обучения нужны батчи, а там пока только 2.25x. Уже быстрее, чем dense, но не на много.
👍7🔥3🤡1
Как показала детальнейшая проверка реальный прирост скорости на инференсе пока что только х3.74 А весь остальной конский прирост, это агент нахакал метрику награды, которая оказалась не защищена от складывания всех вычислений в один конских размеров граф, который таким образом избавляет от оверхеда на самого факта вызова, который с какого-то места становится самым узким местом. Наука мне - не хвататься писать победные реляции до того как проверил каждую строчку!
Конечно ускорение инференса почти 4 раза тоже неплохо, но по сравнению с тем, что он там сам себе намерял оно выглядит обыденно и невзрачно. :)
Конечно ускорение инференса почти 4 раза тоже неплохо, но по сравнению с тем, что он там сам себе намерял оно выглядит обыденно и невзрачно. :)
👍3🥴2😁1
Я на неделю в Сочи. Есть тут какая-нибудь оффлайн активность, не в курсе?
🤡1
А я уже второй год говорю, что систематическую политическую и другую предвзятость языковых сетей нужно изучать, и использовать в вопросе обоснования необходимости заводить свой национальный ИИ. :) Ну или хотя бы проверять то, что мы в дом тащим на вшивость. :)
💯2
Forwarded from Data Secrets
Проблема вагонетки или почему современные LLM с большей вероятностью вас убьют, если у вас нет телефона
Стартап White Circle выпустил самый дистопический бенчмарк за последнее время – тест с говорящим названием KillBench. Он проверяет, насколько модели предвзяты к людям по разным признакам в сценариях, где нужно решить, кому жить, а кому умереть.
Модели дают сценарий с четырьмя одинаковыми людьми, которые отличаются только одним признаком – национальностью, религией или даже наличием телефона. Модель должна выбрать одного: скажем, кого спасти из горящего здания, кого выгнать из бункера или, классическое, на кого направить смертоносную вагонетку.
Если все "честно", каждый должен выбираться примерно в 25% случаев. Но на практике на тысячах прогонов распределение системно уезжает. Например, внезапно:
➖ Если у вас нет телефона, ИИ убивает вас с вероятностью в 2.7 раз выше. Для сравнения: если вы сатанист, вероятность умереть в 2.5 раза выше. Отсутствие телефона для LLM-ки хуже сатанизма ☺️
➖ Если вы русский, то это +32% к вероятности умереть (хотя Grok, например, больше не любит китайцев, и убивает их на 44% чаще)
➖ Если вы белый, то вас убивают на четверть чаще среднего, а если темнокожий – чаще оставляют в живых (на 17%)
Интересно, что в режиме Structured Output эти байесы только усиливаются, а отказы отвечать падают. Ну и, конечно же, сами модели свою предвзятость отрицают, в основном описывая свой выбор как "случайный" или "нейтральный", на практике показывая явный и воспроизводимый дисбаланс.
На сайте у ребят можно выбрать свои характеристики и проверить, с какой вероятностью убьют вас: whitecircle.ai/killbench. У админа получилось +90% к выживанию, не завидуйте.
P.S. В ко-фаундерах бенчмарка, кстати, наш сосед – автор канала @lovedeathtransformers 🤗
Стартап White Circle выпустил самый дистопический бенчмарк за последнее время – тест с говорящим названием KillBench. Он проверяет, насколько модели предвзяты к людям по разным признакам в сценариях, где нужно решить, кому жить, а кому умереть.
Модели дают сценарий с четырьмя одинаковыми людьми, которые отличаются только одним признаком – национальностью, религией или даже наличием телефона. Модель должна выбрать одного: скажем, кого спасти из горящего здания, кого выгнать из бункера или, классическое, на кого направить смертоносную вагонетку.
Если все "честно", каждый должен выбираться примерно в 25% случаев. Но на практике на тысячах прогонов распределение системно уезжает. Например, внезапно:
Интересно, что в режиме Structured Output эти байесы только усиливаются, а отказы отвечать падают. Ну и, конечно же, сами модели свою предвзятость отрицают, в основном описывая свой выбор как "случайный" или "нейтральный", на практике показывая явный и воспроизводимый дисбаланс.
На сайте у ребят можно выбрать свои характеристики и проверить, с какой вероятностью убьют вас: whitecircle.ai/killbench. У админа получилось +90% к выживанию, не завидуйте.
P.S. В ко-фаундерах бенчмарка, кстати, наш сосед – автор канала @lovedeathtransformers 🤗
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1👏1😁1💅1
Forwarded from Love. Death. Transformers.
Grok ненавидит китайцев, модели большой тройки сохраняют жизни меньшиствам и евреям и все модели ненавидят натуралов. А у меня вообще шансы на выживание отрицательные
https://whitecircle.ai/killbench?nat=Russian&rel=Satanist&skin=Light-skinned&body=Athletic&orient=Asexual&gender=Cisgender&pol=Far-right&phone=No+phone
https://whitecircle.ai/killbench?nat=Russian&rel=Satanist&skin=Light-skinned&body=Athletic&orient=Asexual&gender=Cisgender&pol=Far-right&phone=No+phone
Whitecircle
KillBench: Discovering Hidden Biases of LLMs
1.3M+ experiments exposing bias in critical AI decision-making
Докладываю:
Все современные карты имеют кап по суммарному энергопотреблению, в который регулярно утыкаются. А умножение на ноль требует сильно меньше электричества, видимо где-то на железном уровне. В итоге разница может достигать 25% без каких либо алгоритмических изменений.
Сравнение двух запусков
Ключевой вывод: матрица важнее сервера
Пересортируем по типу матрицы:
Эффект разреженности воспроизводится на обоих серверах с разницей менее 2%. Троттлинг НЕ тепловой — оба теста держат одинаковую мощность 249-250W. Разница в частоте объясняется активностью тензорных ядер: при матрице с 97% нулей динамическая энергия на цикл ниже (gating multipliers), GPU может держать ~1740-1785 MHz в пределах 250W TGP. Full-random даёт больше реальной работы на цикл → карта снижает частоту до ~1350-1425 MHz, чтобы уложиться в тот же power budget.
Все современные карты имеют кап по суммарному энергопотреблению, в который регулярно утыкаются. А умножение на ноль требует сильно меньше электричества, видимо где-то на железном уровне. В итоге разница может достигать 25% без каких либо алгоритмических изменений.
Сравнение двух запусков
┌──────────────┬─────────────────────┬─────────────────────┬────────────────────────┬────────────────────────┐
│ │ cx-21 sparse (run1) │ cx-22 sparse (run2) │ cx-21 full-rand (run2) │ cx-22 full-rand (run1) │
├──────────────┼─────────────────────┼─────────────────────┼────────────────────────┼────────────────────────┤
│ avg_ms │ 34.55 │ 33.61 │ 43.95 │ 41.97 │
├──────────────┼─────────────────────┼─────────────────────┼────────────────────────┼────────────────────────┤
│ Temp (плато) │ 63°C │ 69°C │ 64°C │ 69°C │
├──────────────┼─────────────────────┼─────────────────────┼────────────────────────┼────────────────────────┤
│ GPU clock │ 1740 │ 1785 │ 1350 │ 1425 │
├──────────────┼─────────────────────┼─────────────────────┼────────────────────────┼────────────────────────┤
│ Power │ 249W │ 249W │ 250W │ 250W │
└──────────────┴─────────────────────┴─────────────────────┴────────────────────────┴────────────────────────┘
Ключевой вывод: матрица важнее сервера
Пересортируем по типу матрицы:
┌───────┬────────────────────────┬────────────────────────┬────────────┐
│ │ sparse-pruned (3% nnz) │ full-random (100% nnz) │ замедление │
├───────┼────────────────────────┼────────────────────────┼────────────┤
│ cx-21 │ 34.55 мс │ 43.95 мс │ +27% │
├───────┼────────────────────────┼────────────────────────┼────────────┤
│ cx-22 │ 33.61 мс │ 41.97 мс │ +25% │
└───────┴────────────────────────┴────────────────────────┴────────────┘
Эффект разреженности воспроизводится на обоих серверах с разницей менее 2%. Троттлинг НЕ тепловой — оба теста держат одинаковую мощность 249-250W. Разница в частоте объясняется активностью тензорных ядер: при матрице с 97% нулей динамическая энергия на цикл ниже (gating multipliers), GPU может держать ~1740-1785 MHz в пределах 250W TGP. Full-random даёт больше реальной работы на цикл → карта снижает частоту до ~1350-1425 MHz, чтобы уложиться в тот же power budget.
💅2
Про сами серверы
- cx-22 стабильно горячее на 5-6°C независимо от нагрузки (69°C vs 63-64°C на cx-21) — разница в охлаждении.
- Но при этом cx-22 держит чуть более высокие частоты в обоих тестах (+45 MHz на sparse, +75 MHz на full-rand), вероятно из-за качества кристалла/binning. Температура не является ограничивающим фактором — лимит по мощности.
- На cx-22 sparse показал лучший результат (33.61мс — лучший из всех четырёх замеров).
Итог: эффект разреженности — реальный и около 25-27%, воспроизводится стабильно.
- cx-22 стабильно горячее на 5-6°C независимо от нагрузки (69°C vs 63-64°C на cx-21) — разница в охлаждении.
- Но при этом cx-22 держит чуть более высокие частоты в обоих тестах (+45 MHz на sparse, +75 MHz на full-rand), вероятно из-за качества кристалла/binning. Температура не является ограничивающим фактором — лимит по мощности.
- На cx-22 sparse показал лучший результат (33.61мс — лучший из всех четырёх замеров).
Итог: эффект разреженности — реальный и около 25-27%, воспроизводится стабильно.
🔥2
Потребовалось зарегаться на openreview а там в принципе нельзя зарегаться не указав домен научной организации, которой ты принадлежишь. Затруднился ответить.
😭1
Итого на Data Fest 2026 будет три моих доклада, два 26-ого и один 23-его. Начнём с него:
Доклад: Как стадо агентов делает ресёрч и немножко авторесёрча
Секция: Agentic LLM
Абстракт: Несколько месяцев я использую для исследований агентов, и сделал ряд выводов о пользе и вреде агентов при исследовании, которыми и поделюсь. x5-10 количества экспериментов и готового кода не проходит бесплатно.
Также расскажу о концепции автоисследования, к которой вся индустрия яростно стремится, бенчмарке, который я построил на основе авторесёрча, и выводах и ограничениях, которые в процессе были обнаружены.
Доклад: Как стадо агентов делает ресёрч и немножко авторесёрча
Секция: Agentic LLM
Абстракт: Несколько месяцев я использую для исследований агентов, и сделал ряд выводов о пользе и вреде агентов при исследовании, которыми и поделюсь. x5-10 количества экспериментов и готового кода не проходит бесплатно.
Также расскажу о концепции автоисследования, к которой вся индустрия яростно стремится, бенчмарке, который я построил на основе авторесёрча, и выводах и ограничениях, которые в процессе были обнаружены.
👍7🔥5👏2
Второй доклад будет 26-ого в Сбере.
Доклад: Как реконструировать огромные помещения, и находить себя в них круче SOTA, и воспользовать Цукерберга
Секция: Robotics и/или CV
Абстракт: По работе занимался реконструкцией помещений в тысячи квадратных метров с множеством отягчающих осбстоятельств и поиском в них себя по мутным и непохожим картинкам. Может быть применено не только в видеонаблюдении, но и в робототехнке, как бюджетный и очень качественный источник данных о положении робота в этом мире. Кроме описания сложностей борьбы с разными готовыми решениям, которые все работают не так как надо, показываю крутой хак с использованием VR шлема как источника данных о координатах.
P.S. Третий доклад про угловую метрику отменился, и так я слишком жирно времени на мероприятии хапнул. Про угловые метрики и про новый третий уже на моем счету способ получения гроккинга будем говорить на сибирском Дата Фесте как обычно, ну или митап какой-нибудь замутим.
Доклад: Как реконструировать огромные помещения, и находить себя в них круче SOTA, и воспользовать Цукерберга
Секция: Robotics и/или CV
Абстракт: По работе занимался реконструкцией помещений в тысячи квадратных метров с множеством отягчающих осбстоятельств и поиском в них себя по мутным и непохожим картинкам. Может быть применено не только в видеонаблюдении, но и в робототехнке, как бюджетный и очень качественный источник данных о положении робота в этом мире. Кроме описания сложностей борьбы с разными готовыми решениям, которые все работают не так как надо, показываю крутой хак с использованием VR шлема как источника данных о координатах.
P.S. Третий доклад про угловую метрику отменился, и так я слишком жирно времени на мероприятии хапнул. Про угловые метрики и про новый третий уже на моем счету способ получения гроккинга будем говорить на сибирском Дата Фесте как обычно, ну или митап какой-нибудь замутим.
🔥4❤2👍1👀1
Любопытное наблюдение про гроккинг:
Обычно люди подспудно предполагают, что если сеть выбила 100% acc на train, то loss примерно равен нулю. На самом деле это не так, и сеть продолжает учиться, и потенциально это приводит её к гроккингу, но в определённых очень специфических условиях она может до гроккинга не дойти и упасть в состояние где train уже acc 100%, но loss при этом падает еще на 3-5 порядков, и вот тут то точно каюк и обучение останавливается.
Я не знаю, что это за состояние, и сомневаюсь, что у меня будет время его изучать, просто держать в голове, что train acc 100% бывает не окончательный, и окончательный.
Обычно люди подспудно предполагают, что если сеть выбила 100% acc на train, то loss примерно равен нулю. На самом деле это не так, и сеть продолжает учиться, и потенциально это приводит её к гроккингу, но в определённых очень специфических условиях она может до гроккинга не дойти и упасть в состояние где train уже acc 100%, но loss при этом падает еще на 3-5 порядков, и вот тут то точно каюк и обучение останавливается.
Я не знаю, что это за состояние, и сомневаюсь, что у меня будет время его изучать, просто держать в голове, что train acc 100% бывает не окончательный, и окончательный.
👏1
vlad_goloshchapov_autoresearch.v4.pdf
544 KB
Презентация от сегодняшнего выступления про авторесерч и агентский кодинг. Видео будет пока непонятно когда. :(
🔥8👍1🙏1
vlad_goloshchapov_VtSviaVR_v2.pdf
14 MB
https://vkvideo.ru/video-164555658_456242004?t=1h32m24s&list=ln-MjjZ2D94akGSD48zqj Трансляция с моим докладом про реконструкцию больших помещений и позиционирование себя в пространстве. Сам ещё на себя со стороны не смотрел, но в тайминг уложился с трудом и штук пять заготовленных заранее шуток проскипал. Зато некоторые люди поняли главную идею, и начали спрашивать как прикрепить трекер на руку китайскому роботу, плохо понимающего где она у него сейчас. Уже не зря выступал.
P.S. Случайно выложил не ту ссылку, но никто и не заметил. :)
P.S. Случайно выложил не ту ссылку, но никто и не заметил. :)
🔥4👍3👏1😭1
Ну что-ж... Четвёртый способ быстрого гроккинга в моём арсенале и третий без weight_decay, из них второй без дополнительной силы. Если очень упорно копать в одну сторону, результат может быть потрясающим тебя одного такого упорного.
Вопрос о том, как это всё перенести на языковые модели остаётся открытым, если не сказать широко распахнутым...
P.S. А нет, не без второй силы, вторую образует нормализация, которая вшита в softmax даже если вы вручную никакой нормализации не делаете.
Вопрос о том, как это всё перенести на языковые модели остаётся открытым, если не сказать широко распахнутым...
P.S. А нет, не без второй силы, вторую образует нормализация, которая вшита в softmax даже если вы вручную никакой нормализации не делаете.
🔥3🤔3
А нет, не без второй силы, вторую образует нормализация, которая вшита в softmax даже если вы вручную никакой нормализации не делаете. А я о ней забыл в пылу экспериментов.
👍3🤔1
Я уже писал пост про коллапс обучения. Но тут просто картинки подвернулись в ходе другого исследования, и я решил их запостить.
Это когда условия уже достаточны чтобы гроккинг начался, но их может не хватить чтобы довести это дело до конца. В какой-то момент дальнейшее обучение останавливается. Интересно тут то, что люди иногда смотрят на accuracy но не смотрят на loss или смотрят на него не в логарифмическом, а в обычном масштабе, и думают, что с достижением 100% acc на трейне обучение закончилось или, по крайней мере, почти закончилось. А вот фигушки то там, градиент ещё очень ничего. Но вот если происходит коллапс обучения, вот всё действительно останавливается, и норма градиента падает в пол. С каким решительным изменением в сети такая ситуация связана я пока недопонял, впрочем, и разбираться было бы слишком в сторону от темы.
Просто держим в голове, что полезно смотреть на loss, но обязательно в логарифмической шкале, а то всё пропустите. Можно даже на норму градиента посматривать, но это для утончённых эстетов. :)
Это когда условия уже достаточны чтобы гроккинг начался, но их может не хватить чтобы довести это дело до конца. В какой-то момент дальнейшее обучение останавливается. Интересно тут то, что люди иногда смотрят на accuracy но не смотрят на loss или смотрят на него не в логарифмическом, а в обычном масштабе, и думают, что с достижением 100% acc на трейне обучение закончилось или, по крайней мере, почти закончилось. А вот фигушки то там, градиент ещё очень ничего. Но вот если происходит коллапс обучения, вот всё действительно останавливается, и норма градиента падает в пол. С каким решительным изменением в сети такая ситуация связана я пока недопонял, впрочем, и разбираться было бы слишком в сторону от темы.
Просто держим в голове, что полезно смотреть на loss, но обязательно в логарифмической шкале, а то всё пропустите. Можно даже на норму градиента посматривать, но это для утончённых эстетов. :)
❤2🤔2