S-Adam: оптимизатор для неровного ландшафта, где AdamW уже начинает дрожать
В arXiv вышел Singularity-aware Adam (S-Adam) — оптимизатор, который динамически меняет шаг через локальную геометрическую нестабильность.
Ключевая метрика — Local Geometric Instability (LGI): она оценивает диаметр субдифференциала Clarke по дисперсии случайных направленных производных.
Авторы добавляют демпфирование
В теории заявлена сходимость почти наверное к
На практике это интересно там, где обычный AdamW начинает ловить осцилляции: QAT, маленькие батчи, шумные градиенты.
В экспериментах S-Adam обошёл AdamW и Prox-SGD: до +6% на CIFAR-100 и до +3% на TinyImageNet.
Если у вас файнтюн под жёсткую квантизацию или нестабильный лосс, такой адаптивный damping стоит смотреть раньше, чем опять крутить lr и weight decay.
В arXiv вышел Singularity-aware Adam (S-Adam) — оптимизатор, который динамически меняет шаг через локальную геометрическую нестабильность.
Ключевая метрика — Local Geometric Instability (LGI): она оценивает диаметр субдифференциала Clarke по дисперсии случайных направленных производных.
Авторы добавляют демпфирование
exp(-λρ): в зонах с высокой нестабильностью шаги замедляются, а в гладких басинах скорость сохраняется. В теории заявлена сходимость почти наверное к
(δ,ε)-Clarke stationary points со скоростью O(1/√T).На практике это интересно там, где обычный AdamW начинает ловить осцилляции: QAT, маленькие батчи, шумные градиенты.
В экспериментах S-Adam обошёл AdamW и Prox-SGD: до +6% на CIFAR-100 и до +3% на TinyImageNet.
Если у вас файнтюн под жёсткую квантизацию или нестабильный лосс, такой адаптивный damping стоит смотреть раньше, чем опять крутить lr и weight decay.
Fusion-модели больше не обязаны совпадать «по слоям». Теперь их сводят через нейроны
На arXiv вышел Model Fusion via Retrofitting: авторы предлагают neuron-centric family of fusion algorithms, где fusion формулируется как representation-matching.
Метод применим к архитектурам, которые можно разложить в DAG уровней; в экспериментах его прогнали на VGG, ResNet и ViT. Лучшие приросты — в zero-shot и non-IID сценариях. Есть GitHub-код.
Для команд, которые склеивают несколько чекпоинтов или собирают доменные модели без полного retrain, это важный сдвиг: alignment идёт не только по «одинаковым блокам», а по более устойчивым нейронам и их attribution scores.
Практически это означает меньше ручной подгонки при merge и больше шансов сохранить полезные признаки, когда модели обучались на разных распределениях.
Если вы уже играете с model soup / weight merging / task arithmetic, следующий тест очевиден: сравнить fusion по слоям и через retrofitting на своём домене, особенно если данные non-IID.
https://github.com/AndrewSpano/model-fusion-via-retrofitting
На arXiv вышел Model Fusion via Retrofitting: авторы предлагают neuron-centric family of fusion algorithms, где fusion формулируется как representation-matching.
Метод применим к архитектурам, которые можно разложить в DAG уровней; в экспериментах его прогнали на VGG, ResNet и ViT. Лучшие приросты — в zero-shot и non-IID сценариях. Есть GitHub-код.
Для команд, которые склеивают несколько чекпоинтов или собирают доменные модели без полного retrain, это важный сдвиг: alignment идёт не только по «одинаковым блокам», а по более устойчивым нейронам и их attribution scores.
Практически это означает меньше ручной подгонки при merge и больше шансов сохранить полезные признаки, когда модели обучались на разных распределениях.
Если вы уже играете с model soup / weight merging / task arithmetic, следующий тест очевиден: сравнить fusion по слоям и через retrofitting на своём домене, особенно если данные non-IID.
https://github.com/AndrewSpano/model-fusion-via-retrofitting
Jailbreak Scaling Laws: short prompts — power-law ASR, long — exponential с samples. Главный инсайт для open-source LLM 3B-70B?
Anonymous Poll
0%
Short prompts: power-law scaling
0%
Long prompts: exponential рост
0%
Стабильно across methods/datasets
0%
Spin-glass модель proxy language
Простой sentence-level multilingual CSD улучшает perf по en/ja/ko/zh за пределами bilingual. Протестируете в файнтюнах?
Anonymous Poll
0%
Да, для Qwen/DeepSeek
0%
Нет, bilingual transfer хватит
0%
Сначала бенчмарки на Belebele
0%
Не мои языки
В self-play RL для Big 2: какой метод обходит Monte Carlo Q, SARSA и Q-learning против random/greedy/heuristic оппонентов?
Anonymous Poll
0%
PPO
0%
Monte Carlo Q approximation
0%
SARSA
0%
Q-learning
Beyond Consensus в MoA: majority voting с потолком или новый подход?
Anonymous Poll
0%
Majority voting
0%
Trace-level synthesis
0%
Single model + perturbation
0%
Self-Consistent MoA
Манила на три дня стала дорогим рынком: CAC в Tier-1 Азии уже +15% год к году
В Маниле официально стартовала SiGMA ASIA 2026. Конференция идёт с 31 мая по 03 июня 2026 года и собирает операторов, аффилиатов, поставщиков технологий и регуляторов.
На фоне события озвучили цифры, которые неприятно читаются в медиаплане: CAC в высококонкурентных Tier-1 странах Азии вырос на 15% год к году, а более 85% трафика в регионе уже приходит с мобильных устройств. Фокус сдвинулся в ИИ, compliance и удержание.
Для open-source LLM это не «новости индустрии», а прямой сигнал по стеку. Если у вас креативы, саппорт, антифрод и CRM до сих пор завязаны на дорогие API, считайте self-hosted. В mobile-heavy Азии даже небольшой выигрыш в latency и стоимости 1M токенов быстро превращается в маржу. ИИ в compliance и retention — как раз та зона, где Llama/Qwen/DeepSeek на своём inference начинают окупаться раньше всего.
Кто первым переложит это в продакшен-воронку: vLLM, TGI или llama.cpp?
В Маниле официально стартовала SiGMA ASIA 2026. Конференция идёт с 31 мая по 03 июня 2026 года и собирает операторов, аффилиатов, поставщиков технологий и регуляторов.
На фоне события озвучили цифры, которые неприятно читаются в медиаплане: CAC в высококонкурентных Tier-1 странах Азии вырос на 15% год к году, а более 85% трафика в регионе уже приходит с мобильных устройств. Фокус сдвинулся в ИИ, compliance и удержание.
Для open-source LLM это не «новости индустрии», а прямой сигнал по стеку. Если у вас креативы, саппорт, антифрод и CRM до сих пор завязаны на дорогие API, считайте self-hosted. В mobile-heavy Азии даже небольшой выигрыш в latency и стоимости 1M токенов быстро превращается в маржу. ИИ в compliance и retention — как раз та зона, где Llama/Qwen/DeepSeek на своём inference начинают окупаться раньше всего.
Кто первым переложит это в продакшен-воронку: vLLM, TGI или llama.cpp?
Реклама ВКонтакте умерла: что происходит с Vk ADS в 2026 году
С апреля 2026 года реклама нутры во ВК стала убыточной из-за ужесточения модерации и изменений в её алгоритме. Креативы либо не проходят проверку по надуманным причинам, либо модерируются частично — одобрены только на площадках вне таргета, что исключает показы. Домены чаще банят, ссылки приходится менять, пиксели пересчитываются. В итоге цена лида выросла настолько, что вместо 10-20% ROI арбитражники получают -20% или -30% даже на объёме. На см…
С апреля 2026 года реклама нутры во ВК стала убыточной из-за ужесточения модерации и изменений в её алгоритме. Креативы либо не проходят проверку по надуманным причинам, либо модерируются частично — одобрены только на площадках вне таргета, что исключает показы. Домены чаще банят, ссылки приходится менять, пиксели пересчитываются. В итоге цена лида выросла настолько, что вместо 10-20% ROI арбитражники получают -20% или -30% даже на объёме. На см…
S2S Postback пропускает до 30% конверсий. Остальное улетает в атрибуцию
AppsFlyer пишет прямо: без S2S Postback до 30% конверсий могут теряться или приписываться неверному источнику.
Параллельно «чистый» BIN в 2023–2024 сократил срок жизни с нескольких месяцев до 2–3 недель, а выпуск карты с «трастовым» BIN в Q1 2024 подорожал на 15–20%.
Для тех, кто строит свои трекинг-цепочки и платёжную инфраструктуру, это не косметика. Если postback не закрыт на сервере, вы платите за шум в данных. Если BIN-слой не обновляется быстро, экономика карты и воронки едет быстрее, чем успеваете пересчитать EPC.
Минимум, который стоит проверить завтра: S2S в трекере, дедупликацию конверсий, TTL по BIN и реальную стоимость выпуска карты в текущем окне. Иначе атрибуция считается, а прибыль — уже нет.
—
Тему oss прокачать — @oss_saas_desk ведёт системную рубрику
AppsFlyer пишет прямо: без S2S Postback до 30% конверсий могут теряться или приписываться неверному источнику.
Параллельно «чистый» BIN в 2023–2024 сократил срок жизни с нескольких месяцев до 2–3 недель, а выпуск карты с «трастовым» BIN в Q1 2024 подорожал на 15–20%.
Для тех, кто строит свои трекинг-цепочки и платёжную инфраструктуру, это не косметика. Если postback не закрыт на сервере, вы платите за шум в данных. Если BIN-слой не обновляется быстро, экономика карты и воронки едет быстрее, чем успеваете пересчитать EPC.
Минимум, который стоит проверить завтра: S2S в трекере, дедупликацию конверсий, TTL по BIN и реальную стоимость выпуска карты в текущем окне. Иначе атрибуция считается, а прибыль — уже нет.
—
Тему oss прокачать — @oss_saas_desk ведёт системную рубрику
Self-hosted LLM окупается не от “дешёвых токенов”, а от стабильной нагрузки и контроля SLA
Если считать честно, self-hosted — это не альтернатива OpenAI “в лоб”, а отдельная экономика. В расходы входят не только GPU, но и простои, DevOps, квантизация, резервирование, мониторинг и время на деградацию качества после компрессии.
Считаем по формуле:
• CAPEX/GPU amortization
• электричество и охлаждение
• оркестрация: vLLM / TGI / llama.cpp
• стоимость поддержки пайплайна
• цена ошибок: повторные запросы, bad outputs, ручная модерация
Самая частая ошибка — сравнивать только
— поток запросов достаточно ровный;
— модель используется много часов в сутки;
— можно держать высокую утилизацию GPU;
— качество на open-source модели уже приемлемо без постоянного fallback в коммерческий API.
Отдельно смотрите на контекст. 128k в маркетинге и 128k в проде — разные вещи: длинный контекст резко повышает latency и съедает throughput, особенно на скромной VRAM. Иногда выгоднее сделать RAG и держать короткое окно, чем покупать больше памяти ради “запаса”.
Если хотите считать правильно, ведите три метрики: средняя загрузка GPU, стоимость 1M токенов на реальной смеси запросов и долю запросов, которые всё равно уходят в fallback. Именно эта тройка показывает, где self-hosted уже экономит, а где пока только красиво выглядит.
Если считать честно, self-hosted — это не альтернатива OpenAI “в лоб”, а отдельная экономика. В расходы входят не только GPU, но и простои, DevOps, квантизация, резервирование, мониторинг и время на деградацию качества после компрессии.
Считаем по формуле:
• CAPEX/GPU amortization
• электричество и охлаждение
• оркестрация: vLLM / TGI / llama.cpp
• стоимость поддержки пайплайна
• цена ошибок: повторные запросы, bad outputs, ручная модерация
Самая частая ошибка — сравнивать только
$ / 1M tokens. На малом объёме API почти всегда выигрывает: нет простоя, нет недозагрузки, нет инженерного налога. Self-hosted начинает сходиться, когда:— поток запросов достаточно ровный;
— модель используется много часов в сутки;
— можно держать высокую утилизацию GPU;
— качество на open-source модели уже приемлемо без постоянного fallback в коммерческий API.
Отдельно смотрите на контекст. 128k в маркетинге и 128k в проде — разные вещи: длинный контекст резко повышает latency и съедает throughput, особенно на скромной VRAM. Иногда выгоднее сделать RAG и держать короткое окно, чем покупать больше памяти ради “запаса”.
Если хотите считать правильно, ведите три метрики: средняя загрузка GPU, стоимость 1M токенов на реальной смеси запросов и долю запросов, которые всё равно уходят в fallback. Именно эта тройка показывает, где self-hosted уже экономит, а где пока только красиво выглядит.
На Githab выложили Opengram - самостоятельный сервер Telegram
Opengram — open-source аналог Telegram, который позволяет развернуть мессенджер на собственном сервере для внутренних нужд компании. Платформа поддерживает основной функционал официального клиента: группы, каналы, боты, видеозвонки и Bot API. Для работы можно использовать стандартные приложения Telegram (десктоп и мобила), изменив параметры подключения. Архитектура базируется на микросервисах в Docker Compose с инфраструктурой MongoDB, Redis, Ra…
Opengram — open-source аналог Telegram, который позволяет развернуть мессенджер на собственном сервере для внутренних нужд компании. Платформа поддерживает основной функционал официального клиента: группы, каналы, боты, видеозвонки и Bot API. Для работы можно использовать стандартные приложения Telegram (десктоп и мобила), изменив параметры подключения. Архитектура базируется на микросервисах в Docker Compose с инфраструктурой MongoDB, Redis, Ra…
Self-hosted LLM выгоден не тогда, когда «дёшево», а когда у вас есть стабильный объём
Если считать экономику честно, сравнивать надо не «цена GPU vs цена API», а
— При малом и рваном трафике API почти всегда выигрывает: нет простоя, нет DevOps-накладных, не нужен резерв под пики.
— При стабильной загрузке self-hosted начинает брать своё за счёт утилизации GPU. Ключевой параметр — не peak throughput, а
— Длинный контекст резко меняет экономику: 32k и 128k токенов бьют по памяти и снижают throughput сильнее, чем кажется на бумаге.
— Квантизация уменьшает стоимость инференса, но добавляет риск деградации качества на сложных инструкциях и tool-use.
Минимальная формула для прикидки:
Для продакшна считайте ещё три вещи:
— очередь: если p95 latency растёт, вы переплачиваете простоями пользователя;
— fallback: часть запросов всё равно уйдёт в внешний API;
— резерв: одна перегруженная GPU дешевле на слайде, но дороже в инциденте.
Self-hosted окупается не «на модели», а на профиле нагрузки. Если у вас предсказуемый поток, повторяемые задачи и свой стек вокруг inference — считайте окупаемость. Если нагрузка хаотичная, API часто рациональнее.
Если считать экономику честно, сравнивать надо не «цена GPU vs цена API», а
стоимость 1M токенов при вашем реальном паттерне нагрузки: длина промпта, длина ответа, процент повторных запросов, требования к контексту и SLA.— При малом и рваном трафике API почти всегда выигрывает: нет простоя, нет DevOps-накладных, не нужен резерв под пики.
— При стабильной загрузке self-hosted начинает брать своё за счёт утилизации GPU. Ключевой параметр — не peak throughput, а
average utilization.— Длинный контекст резко меняет экономику: 32k и 128k токенов бьют по памяти и снижают throughput сильнее, чем кажется на бумаге.
— Квантизация уменьшает стоимость инференса, но добавляет риск деградации качества на сложных инструкциях и tool-use.
Минимальная формула для прикидки:
cost_per_1M = (GPU_hour_cost + infra + ops) / throughput_per_hour
Для продакшна считайте ещё три вещи:
— очередь: если p95 latency растёт, вы переплачиваете простоями пользователя;
— fallback: часть запросов всё равно уйдёт в внешний API;
— резерв: одна перегруженная GPU дешевле на слайде, но дороже в инциденте.
Self-hosted окупается не «на модели», а на профиле нагрузки. Если у вас предсказуемый поток, повторяемые задачи и свой стек вокруг inference — считайте окупаемость. Если нагрузка хаотичная, API часто рациональнее.
Tap trading - новая игра на основе курса Solana
Duelbits запустила Tap Trading — игру на предсказание движения курса Solana за 10 секунд на основе реального биржевого курса. По сути это переупакованные бинарные опционы с двумя кнопками (вверх/вниз) и графиком цены, без выбора времени и валютной пары. Разработчик позиционирует продукт как прорыв в криптоиграх, но реально это копия давно известной схемы. Обновление на рынке, где бинарные опционы никто не забывал и остаются привлекательными для …
🧠 ещё больше CPA-инсайтов → https://t.me/+iRC9bTowfLw4ZDc8
Duelbits запустила Tap Trading — игру на предсказание движения курса Solana за 10 секунд на основе реального биржевого курса. По сути это переупакованные бинарные опционы с двумя кнопками (вверх/вниз) и графиком цены, без выбора времени и валютной пары. Разработчик позиционирует продукт как прорыв в криптоиграх, но реально это копия давно известной схемы. Обновление на рынке, где бинарные опционы никто не забывал и остаются привлекательными для …
🧠 ещё больше CPA-инсайтов → https://t.me/+iRC9bTowfLw4ZDc8
Qwen в проде: 5 ошибок, из-за которых модель кажется хуже, чем она есть
Qwen часто ругают за “плавающее качество”, но в 80% случаев проблема не в весах, а в настройке пайплайна. Если у вас задача на русском, англоязычных tool-calls и длинном контексте, модель может быть очень сильной — но только при правильном режиме инференса.
— Слишком маленький контекстный буфер. Если модель учат работать на 32k, а в проде режут до 8k, она теряет связность и начинает “додумывать”.
— Неправильная квантизация. Для генерации кода и строгих ответов int4 иногда даёт заметную деградацию на сложных шагах; для чата чаще хватает int8 или аккуратного gguf-Q5/Q6.
— Низкий max_new_tokens. Qwen часто раскрывается не в первом абзаце, а после нескольких связных ходов; слишком короткий лимит убивает качество ответа.
— Неверный формат промпта. Если смешать system/user/tool без дисциплины, модель хуже следует инструкциям и чаще уходит в болтовню.
— Переоценка одной метрики. Хороший throughput не спасает, если падает точность в extraction, JSON и многошаговых рассуждениях.
Для отбора делайте не общий “чатовый” тест, а 3 коротких набора: structured output, long-context recall и tool-use. Если модель проходит их стабильно, значит проблема была не в Qwen, а в вашем inference stack.
Qwen часто ругают за “плавающее качество”, но в 80% случаев проблема не в весах, а в настройке пайплайна. Если у вас задача на русском, англоязычных tool-calls и длинном контексте, модель может быть очень сильной — но только при правильном режиме инференса.
— Слишком маленький контекстный буфер. Если модель учат работать на 32k, а в проде режут до 8k, она теряет связность и начинает “додумывать”.
— Неправильная квантизация. Для генерации кода и строгих ответов int4 иногда даёт заметную деградацию на сложных шагах; для чата чаще хватает int8 или аккуратного gguf-Q5/Q6.
— Низкий max_new_tokens. Qwen часто раскрывается не в первом абзаце, а после нескольких связных ходов; слишком короткий лимит убивает качество ответа.
— Неверный формат промпта. Если смешать system/user/tool без дисциплины, модель хуже следует инструкциям и чаще уходит в болтовню.
— Переоценка одной метрики. Хороший throughput не спасает, если падает точность в extraction, JSON и многошаговых рассуждениях.
Для отбора делайте не общий “чатовый” тест, а 3 коротких набора: structured output, long-context recall и tool-use. Если модель проходит их стабильно, значит проблема была не в Qwen, а в вашем inference stack.
5 ошибок при выборе Llama для продакшена: от «дёшево» до дорогого простоя
Llama в проде оценивают не по хайпу, а по четырём осям: качество, скорость, цена инференса и лицензия. Если у вас свой API, сначала фиксируйте сценарий: чат, классификация, суммаризация, tool-calling. Для каждого сценария нужен свой размер модели и свой потолок контекста, иначе вы переплачиваете за VRAM и получаете просадку latency.
Первая ошибка — брать слишком большую модель «на вырост». На одном GPU рост размера почти всегда бьёт по throughput сильнее, чем даёт прирост качества. Вторая — игнорировать квантизацию: fp16 для прототипа ок, но в проде 8-bit или 4-bit часто дают кратный выигрыш по памяти без критичной потери качества.
Третья — не мерить реальный prompt length. Контекст 128k на бумаге не равен 128k в рабочем режиме: после роста prompt’а latency и расход KV-cache быстро съедают токены/сек. Четвёртая — не сравнивать движки. vLLM обычно берут за throughput и батчинг, TGI — за стабильный serving, llama.cpp — когда нужен CPU/edge и gguf. Один и тот же Llama на разных стекках даёт очень разный cost per 1M tokens.
Пятая — забывать про лицензию и источник весов. Для коммерческого API это не формальность: сначала проверка условий, потом интеграция и только потом нагрузочное тестирование.
Правильный порядок такой: сценарий → размер → квантизация → фреймворк → замер throughput на своём железе.
Llama в проде оценивают не по хайпу, а по четырём осям: качество, скорость, цена инференса и лицензия. Если у вас свой API, сначала фиксируйте сценарий: чат, классификация, суммаризация, tool-calling. Для каждого сценария нужен свой размер модели и свой потолок контекста, иначе вы переплачиваете за VRAM и получаете просадку latency.
Первая ошибка — брать слишком большую модель «на вырост». На одном GPU рост размера почти всегда бьёт по throughput сильнее, чем даёт прирост качества. Вторая — игнорировать квантизацию: fp16 для прототипа ок, но в проде 8-bit или 4-bit часто дают кратный выигрыш по памяти без критичной потери качества.
Третья — не мерить реальный prompt length. Контекст 128k на бумаге не равен 128k в рабочем режиме: после роста prompt’а latency и расход KV-cache быстро съедают токены/сек. Четвёртая — не сравнивать движки. vLLM обычно берут за throughput и батчинг, TGI — за стабильный serving, llama.cpp — когда нужен CPU/edge и gguf. Один и тот же Llama на разных стекках даёт очень разный cost per 1M tokens.
Пятая — забывать про лицензию и источник весов. Для коммерческого API это не формальность: сначала проверка условий, потом интеграция и только потом нагрузочное тестирование.
Правильный порядок такой: сценарий → размер → квантизация → фреймворк → замер throughput на своём железе.
Media is too big
VIEW IN TELEGRAM
Санкции на крипте: что делать с меченой криптовалютой
В конце мая 2026 года Великобритания санкционировала криптовалютные сервисы за работу с Россией, включая биржи Huobi Global и Exmo. Пользователи, получившие крипту от этих платформ, поймали метку «опасные источники» при AML-проверке, что затрудняет обмен и может привести к блокировке средств. При возникновении проблем нужно немедленно писать в поддержку с доказательствами легальности транзакций: скриншотами P2P-сделок, квитанциями от партнёрок …
🧠 Ещё больше инсайтов → в канале AFF.top
В конце мая 2026 года Великобритания санкционировала криптовалютные сервисы за работу с Россией, включая биржи Huobi Global и Exmo. Пользователи, получившие крипту от этих платформ, поймали метку «опасные источники» при AML-проверке, что затрудняет обмен и может привести к блокировке средств. При возникновении проблем нужно немедленно писать в поддержку с доказательствами легальности транзакций: скриншотами P2P-сделок, квитанциями от партнёрок …
🧠 Ещё больше инсайтов → в канале AFF.top
🔗 Рекомендуем @oss_saas_desk — соседи по теме (oss).
This media is not supported in your browser
VIEW IN TELEGRAM
В России введут комиссию за обмен USDT
Российский законопроект впервые чтения вводит регулирование криптовалют через пять категорий организаций и требует налогообложения прибыли криптообменников. Закон затронет популярные активы типа USDT и BNB, контролируемые недружественными странами. Основная цель — обязать обменники делиться доходами с бюджетом через комиссии и экономические стимулы, что в итоге увеличит затраты для рядовых пользователей и может стимулировать переход на альтернат…
➡️ Читайте на сайте: https://aff.top/blog/v-rossii-vvedut-komissiiu-za-obmen-usdt
🧠 Ещё больше инсайтов → в канале AFF.top
Российский законопроект впервые чтения вводит регулирование криптовалют через пять категорий организаций и требует налогообложения прибыли криптообменников. Закон затронет популярные активы типа USDT и BNB, контролируемые недружественными странами. Основная цель — обязать обменники делиться доходами с бюджетом через комиссии и экономические стимулы, что в итоге увеличит затраты для рядовых пользователей и может стимулировать переход на альтернат…
➡️ Читайте на сайте: https://aff.top/blog/v-rossii-vvedut-komissiiu-za-obmen-usdt
🧠 Ещё больше инсайтов → в канале AFF.top
