Open Source LLM — Llama / Qwen / DeepSeek

Channel created

12:55

Channel photo updated

14:42

Open Source LLM — Llama / Qwen / DeepSeek

S-Adam: оптимизатор для неровного ландшафта, где AdamW уже начинает дрожать

В arXiv вышел Singularity-aware Adam (S-Adam) — оптимизатор, который динамически меняет шаг через локальную геометрическую нестабильность.
Ключевая метрика — Local Geometric Instability (LGI): она оценивает диаметр субдифференциала Clarke по дисперсии случайных направленных производных.

Авторы добавляют демпфирование exp(-λρ): в зонах с высокой нестабильностью шаги замедляются, а в гладких басинах скорость сохраняется.
В теории заявлена сходимость почти наверное к (δ,ε)-Clarke stationary points со скоростью O(1/√T).

На практике это интересно там, где обычный AdamW начинает ловить осцилляции: QAT, маленькие батчи, шумные градиенты.
В экспериментах S-Adam обошёл AdamW и Prox-SGD: до +6% на CIFAR-100 и до +3% на TinyImageNet.

Если у вас файнтюн под жёсткую квантизацию или нестабильный лосс, такой адаптивный damping стоит смотреть раньше, чем опять крутить lr и weight decay.

1 view19:10

Open Source LLM — Llama / Qwen / DeepSeek

Fusion-модели больше не обязаны совпадать «по слоям». Теперь их сводят через нейроны

На arXiv вышел Model Fusion via Retrofitting: авторы предлагают neuron-centric family of fusion algorithms, где fusion формулируется как representation-matching.
Метод применим к архитектурам, которые можно разложить в DAG уровней; в экспериментах его прогнали на VGG, ResNet и ViT. Лучшие приросты — в zero-shot и non-IID сценариях. Есть GitHub-код.

Для команд, которые склеивают несколько чекпоинтов или собирают доменные модели без полного retrain, это важный сдвиг: alignment идёт не только по «одинаковым блокам», а по более устойчивым нейронам и их attribution scores.
Практически это означает меньше ручной подгонки при merge и больше шансов сохранить полезные признаки, когда модели обучались на разных распределениях.

Если вы уже играете с model soup / weight merging / task arithmetic, следующий тест очевиден: сравнить fusion по слоям и через retrofitting на своём домене, особенно если данные non-IID.
https://github.com/AndrewSpano/model-fusion-via-retrofitting

1 view19:18

Open Source LLM — Llama / Qwen / DeepSeek

Jailbreak Scaling Laws: short prompts — power-law ASR, long — exponential с samples. Главный инсайт для open-source LLM 3B-70B?

Anonymous Poll

Short prompts: power-law scaling

Long prompts: exponential рост

Стабильно across methods/datasets

Spin-glass модель proxy language

0 voter1 view07:04

Open Source LLM — Llama / Qwen / DeepSeek

Простой sentence-level multilingual CSD улучшает perf по en/ja/ko/zh за пределами bilingual. Протестируете в файнтюнах?

Anonymous Poll

Да, для Qwen/DeepSeek

Нет, bilingual transfer хватит

Сначала бенчмарки на Belebele

Не мои языки

0 voter1 view07:04

Open Source LLM — Llama / Qwen / DeepSeek

В self-play RL для Big 2: какой метод обходит Monte Carlo Q, SARSA и Q-learning против random/greedy/heuristic оппонентов?

Anonymous Poll

PPO

Monte Carlo Q approximation

SARSA

Q-learning

0 voter1 view21:49

Open Source LLM — Llama / Qwen / DeepSeek

Beyond Consensus в MoA: majority voting с потолком или новый подход?

Anonymous Poll

Majority voting

Trace-level synthesis

Single model + perturbation

Self-Consistent MoA

0 voter1 view11:51

Open Source LLM — Llama / Qwen / DeepSeek

Манила на три дня стала дорогим рынком: CAC в Tier-1 Азии уже +15% год к году

В Маниле официально стартовала SiGMA ASIA 2026. Конференция идёт с 31 мая по 03 июня 2026 года и собирает операторов, аффилиатов, поставщиков технологий и регуляторов.

На фоне события озвучили цифры, которые неприятно читаются в медиаплане: CAC в высококонкурентных Tier-1 странах Азии вырос на 15% год к году, а более 85% трафика в регионе уже приходит с мобильных устройств. Фокус сдвинулся в ИИ, compliance и удержание.

Для open-source LLM это не «новости индустрии», а прямой сигнал по стеку. Если у вас креативы, саппорт, антифрод и CRM до сих пор завязаны на дорогие API, считайте self-hosted. В mobile-heavy Азии даже небольшой выигрыш в latency и стоимости 1M токенов быстро превращается в маржу. ИИ в compliance и retention — как раз та зона, где Llama/Qwen/DeepSeek на своём inference начинают окупаться раньше всего.

Кто первым переложит это в продакшен-воронку: vLLM, TGI или llama.cpp?

1 view18:11

Open Source LLM — Llama / Qwen / DeepSeek

Реклама ВКонтакте умерла: что происходит с Vk ADS в 2026 году

С апреля 2026 года реклама нутры во ВК стала убыточной из-за ужесточения модерации и изменений в её алгоритме. Креативы либо не проходят проверку по надуманным причинам, либо модерируются частично — одобрены только на площадках вне таргета, что исключает показы. Домены чаще банят, ссылки приходится менять, пиксели пересчитываются. В итоге цена лида выросла настолько, что вместо 10-20% ROI арбитражники получают -20% или -30% даже на объёме. На см…

1 view18:47

📖 Читать на сайте

🔁 Поделиться

Open Source LLM — Llama / Qwen / DeepSeek

S2S Postback пропускает до 30% конверсий. Остальное улетает в атрибуцию

AppsFlyer пишет прямо: без S2S Postback до 30% конверсий могут теряться или приписываться неверному источнику.
Параллельно «чистый» BIN в 2023–2024 сократил срок жизни с нескольких месяцев до 2–3 недель, а выпуск карты с «трастовым» BIN в Q1 2024 подорожал на 15–20%.

Для тех, кто строит свои трекинг-цепочки и платёжную инфраструктуру, это не косметика. Если postback не закрыт на сервере, вы платите за шум в данных. Если BIN-слой не обновляется быстро, экономика карты и воронки едет быстрее, чем успеваете пересчитать EPC.

Минимум, который стоит проверить завтра: S2S в трекере, дедупликацию конверсий, TTL по BIN и реальную стоимость выпуска карты в текущем окне. Иначе атрибуция считается, а прибыль — уже нет.

—
Тему oss прокачать — @oss_saas_desk ведёт системную рубрику

1 view14:48

Open Source LLM — Llama / Qwen / DeepSeek

Self-hosted LLM окупается не от “дешёвых токенов”, а от стабильной нагрузки и контроля SLA

Если считать честно, self-hosted — это не альтернатива OpenAI “в лоб”, а отдельная экономика. В расходы входят не только GPU, но и простои, DevOps, квантизация, резервирование, мониторинг и время на деградацию качества после компрессии.

Считаем по формуле:
• CAPEX/GPU amortization
• электричество и охлаждение
• оркестрация: vLLM / TGI / llama.cpp
• стоимость поддержки пайплайна
• цена ошибок: повторные запросы, bad outputs, ручная модерация

Самая частая ошибка — сравнивать только $ / 1M tokens. На малом объёме API почти всегда выигрывает: нет простоя, нет недозагрузки, нет инженерного налога. Self-hosted начинает сходиться, когда:
— поток запросов достаточно ровный;
— модель используется много часов в сутки;
— можно держать высокую утилизацию GPU;
— качество на open-source модели уже приемлемо без постоянного fallback в коммерческий API.

Отдельно смотрите на контекст. 128k в маркетинге и 128k в проде — разные вещи: длинный контекст резко повышает latency и съедает throughput, особенно на скромной VRAM. Иногда выгоднее сделать RAG и держать короткое окно, чем покупать больше памяти ради “запаса”.

Если хотите считать правильно, ведите три метрики: средняя загрузка GPU, стоимость 1M токенов на реальной смеси запросов и долю запросов, которые всё равно уходят в fallback. Именно эта тройка показывает, где self-hosted уже экономит, а где пока только красиво выглядит.

1 view07:16

Open Source LLM — Llama / Qwen / DeepSeek

На Githab выложили Opengram - самостоятельный сервер Telegram

Opengram — open-source аналог Telegram, который позволяет развернуть мессенджер на собственном сервере для внутренних нужд компании. Платформа поддерживает основной функционал официального клиента: группы, каналы, боты, видеозвонки и Bot API. Для работы можно использовать стандартные приложения Telegram (десктоп и мобила), изменив параметры подключения. Архитектура базируется на микросервисах в Docker Compose с инфраструктурой MongoDB, Redis, Ra…

1 view08:23

📖 Читать на сайте

🔁 Поделиться

Open Source LLM — Llama / Qwen / DeepSeek

Self-hosted LLM выгоден не тогда, когда «дёшево», а когда у вас есть стабильный объём

Если считать экономику честно, сравнивать надо не «цена GPU vs цена API», а стоимость 1M токенов при вашем реальном паттерне нагрузки: длина промпта, длина ответа, процент повторных запросов, требования к контексту и SLA.

— При малом и рваном трафике API почти всегда выигрывает: нет простоя, нет DevOps-накладных, не нужен резерв под пики.
— При стабильной загрузке self-hosted начинает брать своё за счёт утилизации GPU. Ключевой параметр — не peak throughput, а average utilization.
— Длинный контекст резко меняет экономику: 32k и 128k токенов бьют по памяти и снижают throughput сильнее, чем кажется на бумаге.
— Квантизация уменьшает стоимость инференса, но добавляет риск деградации качества на сложных инструкциях и tool-use.

Минимальная формула для прикидки:

cost_per_1M = (GPU_hour_cost + infra + ops) / throughput_per_hour

Для продакшна считайте ещё три вещи:
— очередь: если p95 latency растёт, вы переплачиваете простоями пользователя;
— fallback: часть запросов всё равно уйдёт в внешний API;
— резерв: одна перегруженная GPU дешевле на слайде, но дороже в инциденте.

Self-hosted окупается не «на модели», а на профиле нагрузки. Если у вас предсказуемый поток, повторяемые задачи и свой стек вокруг inference — считайте окупаемость. Если нагрузка хаотичная, API часто рациональнее.

1 view08:34

Open Source LLM — Llama / Qwen / DeepSeek

Tap trading - новая игра на основе курса Solana

Duelbits запустила Tap Trading — игру на предсказание движения курса Solana за 10 секунд на основе реального биржевого курса. По сути это переупакованные бинарные опционы с двумя кнопками (вверх/вниз) и графиком цены, без выбора времени и валютной пары. Разработчик позиционирует продукт как прорыв в криптоиграх, но реально это копия давно известной схемы. Обновление на рынке, где бинарные опционы никто не забывал и остаются привлекательными для …

🧠 ещё больше CPA-инсайтов → https://t.me/+iRC9bTowfLw4ZDc8

1 view14:37

📖 Читать на сайте

💰 Ваша реклама

Open Source LLM — Llama / Qwen / DeepSeek

Qwen в проде: 5 ошибок, из-за которых модель кажется хуже, чем она есть

Qwen часто ругают за “плавающее качество”, но в 80% случаев проблема не в весах, а в настройке пайплайна. Если у вас задача на русском, англоязычных tool-calls и длинном контексте, модель может быть очень сильной — но только при правильном режиме инференса.

— Слишком маленький контекстный буфер. Если модель учат работать на 32k, а в проде режут до 8k, она теряет связность и начинает “додумывать”.
— Неправильная квантизация. Для генерации кода и строгих ответов int4 иногда даёт заметную деградацию на сложных шагах; для чата чаще хватает int8 или аккуратного gguf-Q5/Q6.
— Низкий max_new_tokens. Qwen часто раскрывается не в первом абзаце, а после нескольких связных ходов; слишком короткий лимит убивает качество ответа.
— Неверный формат промпта. Если смешать system/user/tool без дисциплины, модель хуже следует инструкциям и чаще уходит в болтовню.
— Переоценка одной метрики. Хороший throughput не спасает, если падает точность в extraction, JSON и многошаговых рассуждениях.

Для отбора делайте не общий “чатовый” тест, а 3 коротких набора: structured output, long-context recall и tool-use. Если модель проходит их стабильно, значит проблема была не в Qwen, а в вашем inference stack.

1 view07:16

📢 Реклама в канале

Open Source LLM — Llama / Qwen / DeepSeek

5 ошибок при выборе Llama для продакшена: от «дёшево» до дорогого простоя

Llama в проде оценивают не по хайпу, а по четырём осям: качество, скорость, цена инференса и лицензия. Если у вас свой API, сначала фиксируйте сценарий: чат, классификация, суммаризация, tool-calling. Для каждого сценария нужен свой размер модели и свой потолок контекста, иначе вы переплачиваете за VRAM и получаете просадку latency.

Первая ошибка — брать слишком большую модель «на вырост». На одном GPU рост размера почти всегда бьёт по throughput сильнее, чем даёт прирост качества. Вторая — игнорировать квантизацию: fp16 для прототипа ок, но в проде 8-bit или 4-bit часто дают кратный выигрыш по памяти без критичной потери качества.

Третья — не мерить реальный prompt length. Контекст 128k на бумаге не равен 128k в рабочем режиме: после роста prompt’а latency и расход KV-cache быстро съедают токены/сек. Четвёртая — не сравнивать движки. vLLM обычно берут за throughput и батчинг, TGI — за стабильный serving, llama.cpp — когда нужен CPU/edge и gguf. Один и тот же Llama на разных стекках даёт очень разный cost per 1M tokens.

Пятая — забывать про лицензию и источник весов. Для коммерческого API это не формальность: сначала проверка условий, потом интеграция и только потом нагрузочное тестирование.

Правильный порядок такой: сценарий → размер → квантизация → фреймворк → замер throughput на своём железе.

1 view07:49

📢 Реклама в канале

Open Source LLM — Llama / Qwen / DeepSeek

0:05

Media is too big

VIEW IN TELEGRAM

Санкции на крипте: что делать с меченой криптовалютой

В конце мая 2026 года Великобритания санкционировала криптовалютные сервисы за работу с Россией, включая биржи Huobi Global и Exmo. Пользователи, получившие крипту от этих платформ, поймали метку «опасные источники» при AML-проверке, что затрудняет обмен и может привести к блокировке средств. При возникновении проблем нужно немедленно писать в поддержку с доказательствами легальности транзакций: скриншотами P2P-сделок, квитанциями от партнёрок …

🧠 Ещё больше инсайтов → в канале AFF.top

1 view10:37

📖 Читать на сайте

💰 Ваша реклама

Open Source LLM — Llama / Qwen / DeepSeek

🔗 Рекомендуем @oss_saas_desk — соседи по теме (oss).

1 view13:05

📢 Реклама в канале

Open Source LLM — Llama / Qwen / DeepSeek

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

В России введут комиссию за обмен USDT

Российский законопроект впервые чтения вводит регулирование криптовалют через пять категорий организаций и требует налогообложения прибыли криптообменников. Закон затронет популярные активы типа USDT и BNB, контролируемые недружественными странами. Основная цель — обязать обменники делиться доходами с бюджетом через комиссии и экономические стимулы, что в итоге увеличит затраты для рядовых пользователей и может стимулировать переход на альтернат…

➡️ Читайте на сайте: https://aff.top/blog/v-rossii-vvedut-komissiiu-za-obmen-usdt

🧠 Ещё больше инсайтов → в канале AFF.top

2 views19:07

📖 Читать на сайте

💰 Ваша реклама

About

Blog

Apps

Platform