Open Source LLM — Llama / Qwen / DeepSeek
1.49K subscribers
8 photos
2 videos
28 links
Open Source LLM — про open-source LLM глазами арбитражника:
свой API без OpenAI, локальный inference, файнтюны.
Канал сети public.tg.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Chat GPT-5.6 будут выдавать лишь избранным

США ограничивают публичный доступ к новым ИИ-моделям: теперь его выдают только проверенным пользователям после обязательной 30-дневной процедуры верификации. Сэм Альтман называет это самым быстрым путём к публичному релизу. Эффективность меры вызывает сомнения — китайские разработчики традиционно копируют модели в течение суток после выхода.

➡️ Читайте на сайте: https://aff.top/blog/chat-gpt-5-6-budut-vydavat-lish-izbrannym

🧠 Ещё больше инсайтов → в канале AFF.top
This media is not supported in your browser
VIEW IN TELEGRAM
Vk удалили из App store: что дальше?

Удаление VK из App Store заблокировало доступ для владельцев iPhone в России, но проблема решаема. Арбитражники теряют один канал, но не аудиторию — 20–30 млн пользователей iOS остались на месте. Вместо VK стоит переориентироваться на альтернативные источники: Telegram Ads с таргетингом на iOS, push-сети типа AdProfex, MTS Ads и Beeline Ads. VK может последовать примеру Max и запустить PWA-приложение для восстановления уведомлений. Главный вывод…

➡️ Читайте на сайте: https://aff.top/blog/vk-udalili-iz-app-store-chto-dalshe

🧠 Ещё больше инсайтов → в канале AFF.top
Qwen в проде: 5 ошибок, из-за которых модель кажется «слабой» без вины самой модели

Qwen часто ругают за качество, хотя проблема обычно не в весах, а в обвязке: контекст, квантизация, шаблон чата и длина промпта.

— Не путайте instruct и base. Base-модель без правильного system/user шаблона почти всегда проигрывает на прикладных задачах.
— Не кормите её простынёй без структуры. Для Qwen лучше работают короткие инструкции, списки и явные роли, чем длинный «человеческий» текст.
— Не занижайте precision слишком агрессивно. На 4-bit квантизации на сложных многошаговых задачах быстрее ловится деградация логики и формата ответа.
— Не тестируйте только на коротком контексте. Модель может выглядеть стабильной на 2–4k токенов, а дальше начинать терять связь между блоками.
— Не сравнивайте разные семейства без одинакового prompt template. У Qwen формат диалога критичен: одинаковый вопрос, но разная разметка — и метрика уже плывёт.

Если нужен честный тест, сравнивайте модели на одном наборе: извлечение фактов, строгое форматирование, многошаговый reasoning, длинный контекст.

Чаще всего Qwen «чинится» не дообучением, а нормальным шаблоном, адекватной квантизацией и правильным бенчмарком.
DeepSeek в проде ломается не на “качестве”, а на неправильном выборе режима инференса

У DeepSeek сильная сторона — хороший баланс reasoning/код/инструменты, но в проде его часто ставят как “универсальную” модель и получают лишнюю задержку и перерасход GPU.

Если нужен быстрый чат или автодополнение — смотрите на маленькие dense-версии и агрессивную квантизацию. Если нужен сложный reasoning — берите более крупную модель, но сразу закладывайте: контекст держать длинным, а batch — умеренным, иначе latency растёт скачком.

Для self-hosted стека важны три вещи:
— vLLM: лучший вариант, когда нужен высокий throughput и нормальная работа с batching
— TGI: удобен для стабильного API и предсказуемого поведения под нагрузкой
— llama.cpp: полезен для локальных и дешёвых сценариев, но не для максимального QPS

Отдельно проверьте prompts: у DeepSeek чувствительность к формату выше, чем у многих “чатовых” моделей. Короткий системный промпт, жёсткая структура ответа и ограничение на длину часто дают больше, чем попытка “докрутить” модель ещё одним GPU.

Если модель не укладывается в SLA, проблема обычно не в ней, а в связке размер модели + квантизация + сервер. Сначала меряйте tokens/sec и p95 latency, потом уже принимайте решение, что резать.
Forwarded from Потрачено! Клуб спящих бизнесменов!
Коллеги, тут типа серьёзный пост про кое что новое....

Последние месяцы я всё глубже ухожу в AI, автоматизацию и вайб-кодинг. И каждый день нахожу вещи, которые реально можно применять в арбитраже уже сегодня.

Новые MCP, AI-агенты, GitHub-репозитории, скрипты, сервисы, автоматизация, генерация контента, Telegram, инфраструктура… Короче всё, что помогает работать быстрее и зарабатывать больше.

Но публиковать это здесь не хочется.

Этот канал всё-таки про арбитраж, рынок, движуху и мои проекты.

Поэтому сделал отдельный канал AFF//AI.

Туда будут улетать:
• лучшие AI-инструменты для арбитражников;
• GitHub-репозитории и готовые решения;
• промпты, MCP, AI-агенты и автоматизация;
• разборы новых GPT, Claude и других моделей;
• всё, что реально экономит время и даёт преимущество в работе.

Если кажется, что AI скоро изменит арбитраж сильнее, чем очередной антидетект или новый спай-сервис, скорее всего так и будет.

Поэтому AFF//AI станет местом, куда я буду складывать всё самое полезное, что нахожу каждый день.
Когда брать Gemma, а когда Mistral: 4 критерия, которые экономят недели тестов

Если смотреть на open-source LLM как на продовый инструмент, а не на «лучшую модель по ощущениям», выбор обычно ломается о 4 оси: качество, скорость, лицензия, инфраструктура.

Gemma чаще удобна, когда нужен компактный inference и предсказуемая работа на ограниченной VRAM. Для edge-сценариев и локальных ассистентов это частый кандидат.
Mistral обычно интереснее, если важны сильный общий интеллект и хорошее поведение в instruction-задачах при адекватной цене инференса.
— Для короткого контекста обе линейки могут быть очень эффективны, но длинный контекст нельзя считать «бесплатным»: после роста окна резко падает throughput, а latency уходит в хвост.
— Квантизация меняет картину сильнее, чем кажется: fp16 даёт максимум качества, но int4/gguf часто выигрывают по стоимости и плотности размещения на GPU.

Главная ошибка — выбирать модель по одному бенчмарку. Для продакшена важнее прогнать свой набор: генерация, классификация, extraction, tool-calls, длинный диалог. Именно там видно, где модель ошибается системно.

Отдельно смотрите на лицензии и ограничения использования: для коммерческого проекта это не формальность, а часть P&L.

Правильный выбор здесь не «лучшая модель», а модель с лучшим trade-off под вашу VRAM, latency и задачу.
Forwarded from Потрачено! Клуб спящих бизнесменов!
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 aff.top — вся индустрия арбитража в одном месте
🧠 Блог про арбитраж и ИИ — как нейросети меняют залив и антифрод
🚨 База спамеров — ежедневно собираем спамеров и ведём рейтинг
🛠 70+ инструментов — от клоаки до антифрод-чека
🎬 1000+ видео — весь YouTube про трафик в одной ленте
👤 2400+ персон — байеры и фаундеры с контактами напрямую
Без регистрации, без платных «премиумов».
👇 Подписывайся на канал
Mistral и Gemma в проде: как не выбрать модель по красивому бенчмарку и потом страдать

Если смотреть только на leaderboard, легко ошибиться. Для продакшена у Mistral и Gemma важнее не «кто умнее», а как модель ведёт себя на вашем железе и под ваш трафик.

Первый фильтр — лицензия. У одной задачи может быть нормальная коммерческая история, у другой — ограничения на использование, которые всплывают уже после интеграции. Проверяйте не только модель, но и условия на fine-tune, redistribution и API-обёртку.

Второй фильтр — инференс. На одной и той же 7B/9B модели разница между vLLM, TGI и llama.cpp может быть решающей:
— для high-throughput батчей нужен сервер с paged attention и нормальной работой с KV cache;
— для одного GPU и дешёвого запуска часто выигрывает GGUF-квантование;
— для длинного контекста важнее стабильность latency, чем пик tokens/sec.

Третий фильтр — формат задачи. Mistral часто удобнее там, где важны компактность и скорость на ограниченной VRAM. Gemma имеет смысл смотреть, если нужен аккуратный баланс качества и размера, но только после проверки на ваших промптах: суммаризация, extraction, support-бот, классификация.

Не оценивайте модель по одному запросу. Прогоняйте хотя бы 50-100 реальных примеров, считайте:
— accuracy на вашей разметке;
— % ответов с галлюцинациями;
— токены ответа;
— стоимость 1M токенов на вашем стеке.

Правильный выбор — это не «лучшая модель», а лучшая модель под ваш SLA, VRAM и unit economics.
This media is not supported in your browser
VIEW IN TELEGRAM
Алиса AI будет конкурировать с Google AI Studio

Яндекс разворачивает экосистему AI-агентов на базе Алисы с доступом сначала для компаний, затем для всех. Агенты уже работают в Яндекс Такси и Лавке, скоро появятся в браузере и студии разработки. Платформа интегрирует стандартные функции — заказ такси, покупки, анализ данных. Алиса AI показывает неплохие результаты: менее известна, чем конкуренты, поэтому предлагает щедрые лимиты на видеогенерацию и работу с контентом. Яндекс планирует внедрить…

➡️ Читайте на сайте: https://aff.top/blog/alisa-ai-budet-konkurirovat-s-google-ai-studio

🧠 Ещё больше инсайтов → в канале AFF.top
This media is not supported in your browser
VIEW IN TELEGRAM
В Zennoposter добавили ИИ-помощник

Zennolab добавил в Zennoposter встроенный ИИ-кубик с доступом к четырём моделям (Gemini, DeepSeek, Claude, ChatGPT) — 50 бесплатных запросов в сутки. Есть режимы Assistant (чтение) и Agent (автоматическое создание скриптов), плюс новый GET-запрос по API. Нейросети хорошо справляются с регистрацией, постингом, фармингом аккаунтов и простым кодированием, но требуют проверки при парсинге динамических сайтов и диагностике ошибок. В связке с Zennoobr…

➡️ Читайте на сайте: https://aff.top/blog/v-zennoposter-dobavili-ii-pomoschnik

🧠 Ещё больше инсайтов → в канале AFF.top
vLLM и TGI часто сравнивают по названию, но выбирать надо по профилю нагрузки

Если у вас много коротких запросов и важна максимальная утилизация GPU, vLLM обычно выигрывает за счёт paged attention и агрессивного batching. Он лучше раскрывается на смешанном потоке: когда рядом живут 128 токенов и 4k токенов, а очередь не должна разваливаться.

TGI сильнее там, где важны предсказуемость, стабильный serving-пайплайн и аккуратная интеграция с production-обвязкой. Его чаще берут как «сервер без сюрпризов», особенно если вокруг уже есть мониторинг, ограничения по SLA и привычный Docker/Kubernetes контур.

На практике смотрите не на название, а на 4 метрики:
— throughput в tokens/sec на одной GPU;
— p95 latency при реальной длине промптов;
— максимальный контекст без заметной деградации;
— поведение при concurrency 8/16/32.

Типовая ошибка — мерить только один запрос в вакууме. В инференсе почти всегда решает очередь: как сервер ведёт себя под параллельной нагрузкой, как растёт latency, не падает ли качество ответа из-за слишком агрессивного batching.

Если нужен максимум токенов на ватт и плотная утилизация железа — начинайте с vLLM. Если важнее предсказуемый продовый сервис и простая эксплуатация — смотрите в сторону TGI. Идеальный выбор делается не по вкусу, а по профилю запросов и цене ошибки.
This media is not supported in your browser
VIEW IN TELEGRAM
Новую Google reCapcha прошли статичной картинкой

Google выпустил обновленную reCAPTCHA, требующую движений рук для прохождения, но система оказалась уязвима к обходу. Достаточно транслировать статичное изображение с нужным жестом через виртуальную камеру с помощью простого Python-скрипта, чтобы нейросеть пропустила пользователя. Это создает серьёзный риск для сайтов: защита от ботов, позиционировавшаяся как прорыв, на деле не работает. Баг остается актуальным и позволяет спамерам легко автомат…

➡️ Читайте на сайте: https://aff.top/blog/novuiu-google-recapcha-proshli-statichnoi-kartinkoi

🧠 Ещё больше инсайтов → в канале AFF.top