Forwarded from Neural Shit
Киберпанк, который мы заслужили: собеседование с нейро-HR. Добро пожаловать в будущее, мясной мешок.
😁54🤯5
Neural Deep
n8n + Qwen 2.5 7b instruct + vLLM + SO = Мощный диджитал твин на своем железе! Всем привет! По следам экспериментов я решил собрать небольшой пост старт по тематике n8n здорового человека Что это такое? Low-code подход через n8n для построения логики "диджитал…
Си плас плас
Сикюэль
Туда же)
Сикюэль
Туда же)
😁50🔥8
120 млн ₽ за T-Pro 2.0 — образцовая дорожная карта в AI-гонку
Первые эксперименты с файнтюнингом всегда дороже (это мы трезво понимаем), но ребята показали как красиво войти в топ-лигу ру моделей
Второй прогон вышел в 120 лямов за полгода работы это просто огонь по нынешним меркам!
Для сравнения Витя приводит как западные модели сжигают десятки миллиардов на аналогичные задачи понятно что там с 0
Я считаю что это топ подход
Зачем городить с нуля сейчас когда в гонке железа топ модели это до 32b и 90% задач в топиках data extraction и search assistant
Можно взять проверенную базу и довести до ума?
Китайцы уже потратились на фундамент используй и развивай
Статистика загрузок с HuggingFace 30k! За первую неделю после релиза
Сам тестирую не gguf версию пока что полет нормальный! Но тесты все еще идут
Первые эксперименты с файнтюнингом всегда дороже (это мы трезво понимаем), но ребята показали как красиво войти в топ-лигу ру моделей
Второй прогон вышел в 120 лямов за полгода работы это просто огонь по нынешним меркам!
Для сравнения Витя приводит как западные модели сжигают десятки миллиардов на аналогичные задачи понятно что там с 0
Я считаю что это топ подход
Зачем городить с нуля сейчас когда в гонке железа топ модели это до 32b и 90% задач в топиках data extraction и search assistant
Можно взять проверенную базу и довести до ума?
Китайцы уже потратились на фундамент используй и развивай
Статистика загрузок с HuggingFace 30k! За первую неделю после релиза
Сам тестирую не gguf версию пока что полет нормальный! Но тесты все еще идут
Telegram
[29/100] Витя Тарнавский
На T-Pro 2.0 мы потратили всего 120 млн ₽
В эту сумму входит всё: пол-года R&D, удачные и неудачные запуски обучения, стоимость датасетов. Для моделей такого уровня это очень скромно и эффективно.
Финальный прогон – 2.6 млн ₽. Большая разница – норма:…
В эту сумму входит всё: пол-года R&D, удачные и неудачные запуски обучения, стоимость датасетов. Для моделей такого уровня это очень скромно и эффективно.
Финальный прогон – 2.6 млн ₽. Большая разница – норма:…
👍27🔥8❤7👏1
Forwarded from Pavel Zloi
dev.by
Турнир по вайб-кодингу закончился провалом — победитель решил лишь 7,5% задач
Организаторы соревнования по ИИ-программированию K Prize опубликовали первые результаты — и они оказались неожиданно низкими.
вайб-кодер != программист
Увидел на канале тёзки @toshoseti публикацию про турнир по вайб-кодингу, результат данного турнира меня совсем не удивил, так как оказалось, что дрессированные модельки показали не самый лучший результат.
В целом, ожидаемо.
Как говорят автомобилисты: "самое главное в автомобиле - это прослойка между рулём и сидением".
В вайб-кодинге плюс-минус то же самое, если над задачей работает бестолковый инженер, то и результат будет соответствующий, даже если нейросеть у него state-of-the-art и файнтюненная под задачу и промтами с контекстом подбодрённая.
Приведу одну занятную цитату из поста:
Сошлюсь на @Roma_Data и @dealerAI, которые в своих публикациях не раз подмечали - тестирование LLM по современным бенчмаркам зачастую не показывает объективной картины. Потому что как только задачка выходит за пределы того, что модель видела в процессе обучения - всё, приехали, она начинает тупить, узкие места всплывают моментально и надо иметь опыт и знания, чтобы это подметить и вернуть модель в нужное русло.
Вот и получается, что хороший вайб-кодер - это не просто человек и нейросеть, а связка: инженер с опытом и пониманием проблемы + правильно подключённые и настроенные инструменты, в таком случае можно и 75% и больше задач решить, а если у специалиста пробел в знаниях, то всего его успешные потуги - просто удачное стечение обстоятельств, так как модель видела в процессе обучения как решать подобные задачи.
И хотя прогресс в кодинге у LLM есть, пока что я могу его охарактеризовать как костыль на костыле, который упирается не столько в архитектуру или там какую-то абстрактную точность модели, сколько в то, кто и как её использует. Поэтому ИМХО 100% успеха на подобных соревновании мы как мне кажется не увидим ни завтра, ни через год и вполне возможно, что при нашей жизни не увидим тоже.
Есть мнение, что если кто и добьётся успеха такого рода конкурсах, то это не тот, кто пишет промты в стиле "ты теперь TypeScript Senior" или "изучи исходный код проекта и реши вот эту задачу", а тот, кто будет выполнять декомпозицию задач на более простые, заставлять модели строить reasoning цепочки и не будет надеется на магию, но это уже скорее soft skills, а не фичи LLM.
Увидел на канале тёзки @toshoseti публикацию про турнир по вайб-кодингу, результат данного турнира меня совсем не удивил, так как оказалось, что дрессированные модельки показали не самый лучший результат.
В целом, ожидаемо.
Как говорят автомобилисты: "самое главное в автомобиле - это прослойка между рулём и сидением".
В вайб-кодинге плюс-минус то же самое, если над задачей работает бестолковый инженер, то и результат будет соответствующий, даже если нейросеть у него state-of-the-art и файнтюненная под задачу и промтами с контекстом подбодрённая.
Приведу одну занятную цитату из поста:
Для сравнения: на тесте SWE‑Bench лучшие модели показывают до 75% успешных решений на простом уровне и 34% на сложном. В K Prize ни одна из участвовавших моделей не преодолела даже 10% порог.
Сошлюсь на @Roma_Data и @dealerAI, которые в своих публикациях не раз подмечали - тестирование LLM по современным бенчмаркам зачастую не показывает объективной картины. Потому что как только задачка выходит за пределы того, что модель видела в процессе обучения - всё, приехали, она начинает тупить, узкие места всплывают моментально и надо иметь опыт и знания, чтобы это подметить и вернуть модель в нужное русло.
Вот и получается, что хороший вайб-кодер - это не просто человек и нейросеть, а связка: инженер с опытом и пониманием проблемы + правильно подключённые и настроенные инструменты, в таком случае можно и 75% и больше задач решить, а если у специалиста пробел в знаниях, то всего его успешные потуги - просто удачное стечение обстоятельств, так как модель видела в процессе обучения как решать подобные задачи.
И хотя прогресс в кодинге у LLM есть, пока что я могу его охарактеризовать как костыль на костыле, который упирается не столько в архитектуру или там какую-то абстрактную точность модели, сколько в то, кто и как её использует. Поэтому ИМХО 100% успеха на подобных соревновании мы как мне кажется не увидим ни завтра, ни через год и вполне возможно, что при нашей жизни не увидим тоже.
Есть мнение, что если кто и добьётся успеха такого рода конкурсах, то это не тот, кто пишет промты в стиле "ты теперь TypeScript Senior" или "изучи исходный код проекта и реши вот эту задачу", а тот, кто будет выполнять декомпозицию задач на более простые, заставлять модели строить reasoning цепочки и не будет надеется на магию, но это уже скорее soft skills, а не фичи LLM.
2🔥32👍10💯5❤4
Где посты/разборы/бенчмарки Валера?
Рутина/Переезд/и много чего еще затянуло на пару недель
Head of AI нужно тоже отрабатывать по этому было много выступлений/планирования/и принятия решений/постановок задач
Артём в же завершил свою тираду про разработку сервиса для корпоративной транскрибации аудио/видео встреч(читайте там аж 5 частей)
Разбирался что такое SWE и как его готовить особенно в разрезе запуска бенчмарков
Записывал подкаст с Богданом
Выступал на конференциях
Тестировал новую модель от t-tech
Успел написать через курсор сервис для разметки 2.5кк постов в тг (на одной 4090 и 7b модельке это длилось 54 часа) кстати это экономия почти $200 на gpt-4o-mini или $8к на gpt-4o
На двух 4090(48гб) спекулятивный декодинг не ускоряет ничего из за низкого p2p между картами(запишем пробовать больше не будем)
Так же последние 2 недели я в попытках причесать свою IT инфру(14 физических серверов и 13 виртуалок)
Понял что за последние 2 месяца экспериментов все в таком хаосе что сам ужаснулся, ровно как у меня в коробке с проводами и нужными штуками для пайки
Но как говорится насмотрелся я мотивирующих видео,нет
Решил начать с того что просто описал каждый сервис в табличку и понял что буду делать с этим дальше(пока ловлю дзен)
После такого аудита нашел что аж 2 сервера простаивало(2080ti+2060super) пойдут под сервис воркеры для speechcoreai.com (4к регистраций без рекламы уже есть!)
Еще из новостей мне приехала новая 4090 (буду разворачивать на пару недель под заказ vLLM + VL модель для разметки видео)
DNS уже 3 раз переносит мне доставку нужного БП для сборки в чатике скину как нить процесс сборки
Вот такой мини обзор последних 2 недель!
В заготовках лежит пост про локальную инфру для RAG и своих экспериментов! (Сколько/Как собрать/Какие модели)
Рутина/Переезд/и много чего еще затянуло на пару недель
Head of AI нужно тоже отрабатывать по этому было много выступлений/планирования/и принятия решений/постановок задач
Артём в же завершил свою тираду про разработку сервиса для корпоративной транскрибации аудио/видео встреч(читайте там аж 5 частей)
Разбирался что такое SWE и как его готовить особенно в разрезе запуска бенчмарков
Записывал подкаст с Богданом
Выступал на конференциях
Тестировал новую модель от t-tech
Успел написать через курсор сервис для разметки 2.5кк постов в тг (на одной 4090 и 7b модельке это длилось 54 часа) кстати это экономия почти $200 на gpt-4o-mini или $8к на gpt-4o
На двух 4090(48гб) спекулятивный декодинг не ускоряет ничего из за низкого p2p между картами(запишем пробовать больше не будем)
Так же последние 2 недели я в попытках причесать свою IT инфру(14 физических серверов и 13 виртуалок)
Понял что за последние 2 месяца экспериментов все в таком хаосе что сам ужаснулся, ровно как у меня в коробке с проводами и нужными штуками для пайки
Но как говорится насмотрелся я мотивирующих видео,
Решил начать с того что просто описал каждый сервис в табличку и понял что буду делать с этим дальше(пока ловлю дзен)
После такого аудита нашел что аж 2 сервера простаивало(2080ti+2060super) пойдут под сервис воркеры для speechcoreai.com (4к регистраций без рекламы уже есть!)
Еще из новостей мне приехала новая 4090 (буду разворачивать на пару недель под заказ vLLM + VL модель для разметки видео)
DNS уже 3 раз переносит мне доставку нужного БП для сборки в чатике скину как нить процесс сборки
Вот такой мини обзор последних 2 недель!
В заготовках лежит пост про локальную инфру для RAG и своих экспериментов! (Сколько/Как собрать/Какие модели)
Telegram
ITипичные аспекты Артёма
Пост 5/5, финалочка
Предыдущий
Наконец-то время подвести черту всей затее
Общий итог:
Первое и самое важное -порядочно освежил коднавыки и страты работы на форсаже.
Изначально без ИИ я бы оценил эквивалентный проект с нуля в 4 недели + фронтенд (ибо я…
Предыдущий
Наконец-то время подвести черту всей затее
Общий итог:
Первое и самое важное -порядочно освежил коднавыки и страты работы на форсаже.
Изначально без ИИ я бы оценил эквивалентный проект с нуля в 4 недели + фронтенд (ибо я…
2🔥28👍13❤8😁2
Forwarded from Dealer.AI
Microsoft показали списки профессий, которые больше всего и меньше всего подвержены риску быть замененными ИИ.
Data scientist 0.77😳
В массажисты, я пойду пусть меня научат(с)😁
Data scientist 0.77
В массажисты, я пойду пусть меня научат(с)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁28💯7🤔2 2
Forwarded from Daisy news
Добавили новые AI-модели для работы с текстом, написания кода и продвинутых рассуждений.
Вот что появилось:
Подробности о лимитах использования моделей смотри в личном кабинете в разделе «Тарифы». Пробуй новые возможности Daisy и делись впечатлениями в комментариях.
⚡️ Daisy — AI-сервис для удобной работы с передовыми LLM. Работает без VPN.
🌼 @daisygpt_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥7🤣5❤1
40k Telegram каналов: массовая аналитика на RTX 4090 за 48 часов
Задача на 1.5 млрд токенов
«Вошли и вышли, приключение на 20 минут»
Попали в руки 40 000 Telegram каналов
Задача: привести к единой таксономии через анализ постов, описаний и названий каналов
Масштаб
2 млн постов (по 20-50 с каждого канала)
3 млрд символов → после очистки 1.5 млрд токенов
Нужны метатеги + категории для каждого канала
Железо vs Облако: честный расчёт
GPT-4o-mini в облаке: $150 (≈12 200₽) за весь объём, мгновенно
RTX 4090 сборка (250k₽): 48 часов непрерывной работы
Точка окупаемости: 20+ экспериментов (250k₽ / 12k₽ = 20 запусков)
Двухэтапная архитектура
Этап 1 Извлечение метатегов
Задача: из постов канала получить топ-10 тегов, описывающих тематику
Алгоритм
1. Канал → фильтруем посты (мин. 50 символов)
2. Батчи по 30 постов → T-lite-it-1.0 → 3-5 тегов за запрос
3. До 3 батчей на канал (макс. 20 тегов)
4. Частотный анализ → топ-10 финальных тегов канала
Построение таксономии из реальных данных
Создание финальной таксономии:
1. Частотный анализ: собрал ВСЕ метатеги → выбрал топ-1000 самых частых
2. Claude Opus/Sonnet 4: скормил топ-1000 тегов → получил 50 базовых категорий
3. Deep Research: дополнил таксономию до 60 категорий через анализ пропущенных тематик
4. Финальный список: 60 категорий покрывают 95% всех каналов
Этап 2: Категоризация по таксономии
Задача: метатеги канала → 2-3 категории из 60 выведенных из данных
Схема сопоставления
Алгоритм:
1. Загружаем готовые метатеги каналов
2. Батчи по 15 каналов → промпт с таксономией (60 категорий из реальных данных)
3. T-lite-it-1.0 выбирает подходящие категории из выведенного списка
4. Результат: channel_info + metaTags + taxonomy_categories
Точность спросите вы?
Проверил 1000 каналов вручную:
- 79% точность категоризации — канал в правильной категории
- 86% точность метатегов — теги релевантны контенту
Что работает отлично:
IT/Tech каналы → точные теги и категории
Новостные каналы → четкая категоризация
Образовательный контент → стабильное качество
Проблемные зоны:
❌ Мемные каналы → размытые категории
❌ Микс-контент → сложно выбрать главную тему
❌ Рекламные посты → портят всё тегирование канала
❌ Каналы с частой рекламой дают нерелевантные теги
Технические детали
Модель: T-lite-it-1.0 — русская версия Qwen2.5-7B от T-Tech
Железо: RTX 4090 (24GB VRAM) + AMD Ryzen 3
Потоки: 10 для метатегов, 20 для категоризации
Guided JSON: xgrammar для стабильного парсинга
vLLM
Еще раз про экономику
Разовая задача: Облако в 20 раз дешевле
20+ экспериментов: Железо окупается
Постоянная аналитика: Железо экономит x5-10
Преимущества собственного железа:
- Полный контроль процесса
- Эксперименты без страха за бюджет
- Конфиденциальность данных
- Возможность тонкой настройки
48 часов работы GPU → структурированная база с:
- Метатегами для каждого канала (из реальных постов)
- Таксономией, выведенной из топ-1000 тегов (не абстрактной)
- 79% точность категоризации
- 60 категорий покрывают 95% каналов
- Готовая основа для поиска и рекомендаций
Кстати сверху еще сделали векторизацию на bge-m3 получился бомбический семантический поиск!
Фотка сервера в коментах
Задача на 1.5 млрд токенов
«Вошли и вышли, приключение на 20 минут»
Попали в руки 40 000 Telegram каналов
Задача: привести к единой таксономии через анализ постов, описаний и названий каналов
Масштаб
2 млн постов (по 20-50 с каждого канала)
3 млрд символов → после очистки 1.5 млрд токенов
Нужны метатеги + категории для каждого канала
Железо vs Облако: честный расчёт
GPT-4o-mini в облаке: $150 (≈12 200₽) за весь объём, мгновенно
RTX 4090 сборка (250k₽): 48 часов непрерывной работы
Точка окупаемости: 20+ экспериментов (250k₽ / 12k₽ = 20 запусков)
Двухэтапная архитектура
Этап 1 Извлечение метатегов
Задача: из постов канала получить топ-10 тегов, описывающих тематику
{
"channel_tags": [
"искусственный_интеллект",
"машинное_обучение",
"нейросети"
]
}
Алгоритм
1. Канал → фильтруем посты (мин. 50 символов)
2. Батчи по 30 постов → T-lite-it-1.0 → 3-5 тегов за запрос
3. До 3 батчей на канал (макс. 20 тегов)
4. Частотный анализ → топ-10 финальных тегов канала
Построение таксономии из реальных данных
Создание финальной таксономии:
1. Частотный анализ: собрал ВСЕ метатеги → выбрал топ-1000 самых частых
2. Claude Opus/Sonnet 4: скормил топ-1000 тегов → получил 50 базовых категорий
3. Deep Research: дополнил таксономию до 60 категорий через анализ пропущенных тематик
4. Финальный список: 60 категорий покрывают 95% всех каналов
Этап 2: Категоризация по таксономии
Задача: метатеги канала → 2-3 категории из 60 выведенных из данных
Схема сопоставления
{
"mappings": [{
"channel_name": "Neural Deep",
"categories": ["artificial_intelligence", "technology_innovation"]
}]
}
Алгоритм:
1. Загружаем готовые метатеги каналов
2. Батчи по 15 каналов → промпт с таксономией (60 категорий из реальных данных)
3. T-lite-it-1.0 выбирает подходящие категории из выведенного списка
4. Результат: channel_info + metaTags + taxonomy_categories
Точность спросите вы?
Проверил 1000 каналов вручную:
- 79% точность категоризации — канал в правильной категории
- 86% точность метатегов — теги релевантны контенту
Что работает отлично:
IT/Tech каналы → точные теги и категории
Новостные каналы → четкая категоризация
Образовательный контент → стабильное качество
Проблемные зоны:
❌ Мемные каналы → размытые категории
❌ Микс-контент → сложно выбрать главную тему
❌ Рекламные посты → портят всё тегирование канала
❌ Каналы с частой рекламой дают нерелевантные теги
Технические детали
Модель: T-lite-it-1.0 — русская версия Qwen2.5-7B от T-Tech
Железо: RTX 4090 (24GB VRAM) + AMD Ryzen 3
Потоки: 10 для метатегов, 20 для категоризации
Guided JSON: xgrammar для стабильного парсинга
vLLM
Еще раз про экономику
Разовая задача: Облако в 20 раз дешевле
20+ экспериментов: Железо окупается
Постоянная аналитика: Железо экономит x5-10
Преимущества собственного железа:
- Полный контроль процесса
- Эксперименты без страха за бюджет
- Конфиденциальность данных
- Возможность тонкой настройки
48 часов работы GPU → структурированная база с:
- Метатегами для каждого канала (из реальных постов)
- Таксономией, выведенной из топ-1000 тегов (не абстрактной)
- 79% точность категоризации
- 60 категорий покрывают 95% каналов
- Готовая основа для поиска и рекомендаций
Кстати сверху еще сделали векторизацию на bge-m3 получился бомбический семантический поиск!
Фотка сервера в коментах
601🔥83❤21👍12💯1
Куда бежит AI индустрия?
В выходные перечитывая канал и ализируя посты Рефата (делает оч крутые обзоры на AI инструменты) за последние месяцы, видно четкий тренд все бегут к агентским системам, но пока больше экспериментируют, чем внедряют в продакшн
Куда бежит индустрия (по Рефату):
1. От кодинг-ассистентов к полноценным агентам
- Cursor → Cursor Agent mode
- Claude Code с sub-agents и MCP интеграциями
- Amazon Kiro как "архитектурный редактор"
- Lovable с рассуждающими агентами
Паттерн: Все перестают делать "умный автокомплит" и переходят к системам, которые могут планировать и выполнять сложные задачи самостоятельно.
2. Мультимодальность как стандарт
- Google Gemini Deep Think с параллельными агентами
- Runway Aleph для VFX
- NotebookLM с видео-режимом
- HeyGen Video Agent
Паттерн: Текст-only решения воспринимаются как legacy. Если твой AI не работает с видео/аудио/изображениями - ты отстал
3. Браузеры как новая боевая площадка
- OpenAI готовит браузер-убийцу Chrome
- Perplexity Comet в бете
- Browser MCP для интеграции с существующими браузерами
Паттерн: Поисковики и браузеры сливаются в единые AI-интерфейсы. Google нервничает не зря
4. Voice-first интерфейсы набирают обороты
- 37% разработчиков планируют audio (по отчету Amplify Partners)
- ElevenLabs персональный помощник
- Grok 4 с шепотом и пением
- Носимые устройства будущего
Паттерн: Клавиатура и мышь постепенно отходят на второй план для AI-взаимодействий
5. Инфраструктурная консолидация
- Amazon S3 Vectors убивает standalone векторные БД
- Multi-model routing становится нормой (37% используют 5+ моделей)
- MCP как стандарт для tool integration
Паттерн: Фрагментированные AI-стеки консолидируются в unified платформы
6. AI-first workflow в компаниях
- 50% кода в Google пишет AI
- AI Operations Lead как новая роль
- Netflix использует AI для создания контента
- Amazon требует AI-навыки для карьерного роста
Паттерн: AI перестает быть "экспериментом" и становится core business process.
Главный инсайт: Индустрия движется от "AI как feature" к "AI как platform". Следующие 2-3 года определят, кто создаст доминирующую систему, а кто останется с legacy-решениями
В выходные перечитывая канал и ализируя посты Рефата (делает оч крутые обзоры на AI инструменты) за последние месяцы, видно четкий тренд все бегут к агентским системам, но пока больше экспериментируют, чем внедряют в продакшн
Куда бежит индустрия (по Рефату):
1. От кодинг-ассистентов к полноценным агентам
- Cursor → Cursor Agent mode
- Claude Code с sub-agents и MCP интеграциями
- Amazon Kiro как "архитектурный редактор"
- Lovable с рассуждающими агентами
Паттерн: Все перестают делать "умный автокомплит" и переходят к системам, которые могут планировать и выполнять сложные задачи самостоятельно.
2. Мультимодальность как стандарт
- Google Gemini Deep Think с параллельными агентами
- Runway Aleph для VFX
- NotebookLM с видео-режимом
- HeyGen Video Agent
Паттерн: Текст-only решения воспринимаются как legacy. Если твой AI не работает с видео/аудио/изображениями - ты отстал
3. Браузеры как новая боевая площадка
- OpenAI готовит браузер-убийцу Chrome
- Perplexity Comet в бете
- Browser MCP для интеграции с существующими браузерами
Паттерн: Поисковики и браузеры сливаются в единые AI-интерфейсы. Google нервничает не зря
4. Voice-first интерфейсы набирают обороты
- 37% разработчиков планируют audio (по отчету Amplify Partners)
- ElevenLabs персональный помощник
- Grok 4 с шепотом и пением
- Носимые устройства будущего
Паттерн: Клавиатура и мышь постепенно отходят на второй план для AI-взаимодействий
5. Инфраструктурная консолидация
- Amazon S3 Vectors убивает standalone векторные БД
- Multi-model routing становится нормой (37% используют 5+ моделей)
- MCP как стандарт для tool integration
Паттерн: Фрагментированные AI-стеки консолидируются в unified платформы
6. AI-first workflow в компаниях
- 50% кода в Google пишет AI
- AI Operations Lead как новая роль
- Netflix использует AI для создания контента
- Amazon требует AI-навыки для карьерного роста
Паттерн: AI перестает быть "экспериментом" и становится core business process.
Главный инсайт: Индустрия движется от "AI как feature" к "AI как platform". Следующие 2-3 года определят, кто создаст доминирующую систему, а кто останется с legacy-решениями
2🔥36👍15❤5💯4
Forwarded from Dealer.AI
https://github.com/huggingface/transformers/releases/tag/v4.55.0
Верим?
Upd. Пока видим, что обе момзельки MoE с 3.6B и 5.1B активными параметрами, и конечно новый ускорятор на FlashAttention3.
Architecture.
- Token-choice MoE with SwiGLU activations. Классика
- When calculating the MoE weights, a softmax is taken over selected experts (softmax-after-topk). Тоже ничего нового.
- Each attention layer uses RoPE with 128K context. Не удивили.
- Alternate attention layers: full-context, and sliding 128-token window. Сам бы так сделал.
- Attention layers use a learned attention sink per-head, where the denominator of the softmax has an additional additive value. Это интересное.
- It uses the same tokenizer as GPT-4o and other OpenAI API models. Ну ок че.
- Some new tokens have been incorporated to enable compatibility with the Responses API. Ожидаемо.
P. S. Спасибо дорогому подписчику
@azik1725
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
Release v4.55.0: New openai GPT OSS model! · huggingface/transformers
Welcome GPT OSS, the new open-source model family from OpenAI!
For more detailed information about this model, we recommend reading the following blogpost: https://huggingface.co/blog/welcome-open...
For more detailed information about this model, we recommend reading the following blogpost: https://huggingface.co/blog/welcome-open...
🤔14❤5
Forwarded from Сиолошная
OpenAI разродились двумя опенсурсными моделями, на 120b и 20b параметров. Обе — микстуры экспертов, что означает, что несмотря на размер, если вам хватает памяти GPU, модели быстрые: 5.1b и 3.6b активных параметров.
Модели рассуждающие, поддерживают 3 типа длины рассуждений: low, medium, high.
Ссылки:
— https://openai.com/open-models/
— https://openai.com/index/gpt-oss-model-card/
— https://cookbook.openai.com/articles/openai-harmony
— https://gpt-oss.com/ - тут можно поиграть с моделью
Судя по лендингу, модели уже сегодня будут доступны на Groq и Cerebas, предлагая очень быструю генерацию. И почти все инференс-движки уже поддерживают модель.
И самое крутое — как и o3, модели поддерживают вызов инструментов (поиск, Python, etc) в цепочке рассуждений.
Самое некрутое: нет мультимодальности, картинки и тем более звук модели не воспринимают.
Модели рассуждающие, поддерживают 3 типа длины рассуждений: low, medium, high.
Ссылки:
— https://openai.com/open-models/
— https://openai.com/index/gpt-oss-model-card/
— https://cookbook.openai.com/articles/openai-harmony
— https://gpt-oss.com/ - тут можно поиграть с моделью
Судя по лендингу, модели уже сегодня будут доступны на Groq и Cerebas, предлагая очень быструю генерацию. И почти все инференс-движки уже поддерживают модель.
И самое крутое — как и o3, модели поддерживают вызов инструментов (поиск, Python, etc) в цепочке рассуждений.
Самое некрутое: нет мультимодальности, картинки и тем более звук модели не воспринимают.
🔥17😁3🤣1
Neural Deep
Согласен со всеми кто репостит, метрики сказка Я же буду пробовать запустить на своем кластере 4090(48гб) Пойду расчехлять терминал!
gpt-oss запуск на 4090/3090
TL;DR: OpenAI выкатили gpt-oss-120b и 20b модели, но Docker образ vllm/vllm-openai:gptoss не работает на RTX 4090 из-за жесткого требования FlashAttention 3, которое поддерживается только на H100/B100
Временно используйте llama.cpp с весами от unsloth
Вчера пытался запустить новые модели от OpenAI на своих RTX 4090 (48GB x2) через официальный Docker образ
Проблема системная:
Что происходит под капотом:
- OpenAI добавили в свой форк vLLM обязательное использование асинхронных декодирований
- Эти оптимизации требуют FlashAttention 3
- FA3 работает только на серверных GPU: H100, B100 или потребительских RTX 5090
- RTX 4090, даже с 48GB памяти, остается за бортом
Обходные пути не работают:
Сервер стартует, но падает при инференсе
Как пишет подписчик @dvv101111
Судя по активности в GitHub, OpenAI и vLLM планируют мержить изменения частями.
Изначально хотели большой PR на 22k строк, но сообщество попросило разбить по фичам
Прогноз: К следующей неделе должна появиться более гибкая версия vLLM с настройкой FlashAttention
Что делать сейчас?
Пока что единственный способ запустить gpt-oss на RTX 4090:
1. llama.cpp с весами от unsloth
2. Подробный гайд тут
3. Поддержка multi-GPU через тензорный параллелизм
Вечером перелезу на llama.cpp для тестов, но хотелось бы на "исконно родном" vLLM запустить сначала.
Следим за моим issue - там уже собралось сообщество пострадавших с RTX 4090, L20 48GB и A100.
Пока что gpt-oss доступен только владельцам H100+ или тем, кто готов возиться с llama.cpp.
Но учитывая темпы разработки, скоро все заработает и на наших "простых" 4090 48GB 😄
Кто еще пытался запустить? И на чем?
Паша рапортует о успешном запуске на Ollama
TL;DR: OpenAI выкатили gpt-oss-120b и 20b модели, но Docker образ vllm/vllm-openai:gptoss не работает на RTX 4090 из-за жесткого требования FlashAttention 3, которое поддерживается только на H100/B100
Временно используйте llama.cpp с весами от unsloth
Вчера пытался запустить новые модели от OpenAI на своих RTX 4090 (48GB x2) через официальный Docker образ
vllm/vllm-openai:gptoss
. Результат - крах с AssertionError: Sinks are only supported in FlashAttention 3
.Проблема системная:
Что происходит под капотом:
- OpenAI добавили в свой форк vLLM обязательное использование асинхронных декодирований
- Эти оптимизации требуют FlashAttention 3
- FA3 работает только на серверных GPU: H100, B100 или потребительских RTX 5090
- RTX 4090, даже с 48GB памяти, остается за бортом
Обходные пути не работают:
VLLM_ATTENTION_BACKEND=TRITON_ATTN_VLLM_V1
Сервер стартует, но падает при инференсе
torch.AcceleratorError: CUDA error: no kernel image is available for execution on the device
Как пишет подписчик @dvv101111
Судя по активности в GitHub, OpenAI и vLLM планируют мержить изменения частями.
Изначально хотели большой PR на 22k строк, но сообщество попросило разбить по фичам
Прогноз: К следующей неделе должна появиться более гибкая версия vLLM с настройкой FlashAttention
Что делать сейчас?
Пока что единственный способ запустить gpt-oss на RTX 4090:
1. llama.cpp с весами от unsloth
2. Подробный гайд тут
3. Поддержка multi-GPU через тензорный параллелизм
Вечером перелезу на llama.cpp для тестов, но хотелось бы на "исконно родном" vLLM запустить сначала.
Следим за моим issue - там уже собралось сообщество пострадавших с RTX 4090, L20 48GB и A100.
Пока что gpt-oss доступен только владельцам H100+ или тем, кто готов возиться с llama.cpp.
Но учитывая темпы разработки, скоро все заработает и на наших "простых" 4090 48GB 😄
Кто еще пытался запустить? И на чем?
Паша рапортует о успешном запуске на Ollama
👍22❤11😁11 4
Когда хотите оставить комментарий не забывайте остаться в чатике после вступления и прожать кнопочки капчи иначе вас не пропустит гуард
Ссылочка на чатик нас уже 500 человек!
https://t.me/neuraldeepchat
Ссылочка на чатик нас уже 500 человек!
https://t.me/neuraldeepchat
😁10👍9🔥4
Neural Deep
gpt-oss запуск на 4090/3090 TL;DR: OpenAI выкатили gpt-oss-120b и 20b модели, но Docker образ vllm/vllm-openai:gptoss не работает на RTX 4090 из-за жесткого требования FlashAttention 3, которое поддерживается только на H100/B100 Временно используйте llama.cpp…
gpt-oss-120b запуск на 4090/3090 часть 2
И так по подсказке подписчика @dvv101111 я переехал на llama.cpp он так же проверил что на его х4 4090(24gb) все запустится и не будет проблем
Брал я эти веса
Далее тесты и что мы имеем
На простые запросы не более 1к токенов 101-122 t/s
Заняло все это чудо в 120b
Так же прикладываю внутренний тест rag_qa 558 вопросов по внутренней корп базе знаний red_mad_robot (что успел прогнать сегодня за вечер)
Вопросы включают в себя работу с контекстом от 3-16к токенов
Промпты заточены под 7b модельку (извлечение данных + следование инструкции)
Валидация по методу llm as judge gpt-4o
Учитывая, что Qwen модели тюнились под русский язык и были специально заточены под наш RAG, считаю что gpt-oss-120b на конфигурации 2x4090 (48GB) может стать лучшей заменой, как только её оптимизируют под vLLM и затюнят под ру
120 t/s - это не шутки
И так по подсказке подписчика @dvv101111 я переехал на llama.cpp он так же проверил что на его х4 4090(24gb) все запустится и не будет проблем
Брал я эти веса
Далее тесты и что мы имеем
На простые запросы не более 1к токенов 101-122 t/s
| Фаза | Токен | Скорость |
| Prompt | ~11к | ~1.6к t/s |
| Gen | ~1к | ~89.2 t/s |
Заняло все это чудо в 120b
73GB
на 32768
токенов контекстаТак же прикладываю внутренний тест rag_qa 558 вопросов по внутренней корп базе знаний red_mad_robot (что успел прогнать сегодня за вечер)
Вопросы включают в себя работу с контекстом от 3-16к токенов
Промпты заточены под 7b модельку (извлечение данных + следование инструкции)
Валидация по методу llm as judge gpt-4o
Учитывая, что Qwen модели тюнились под русский язык и были специально заточены под наш RAG, считаю что gpt-oss-120b на конфигурации 2x4090 (48GB) может стать лучшей заменой, как только её оптимизируют под vLLM и затюнят под ру
120 t/s - это не шутки
🔥36❤14👍11
🤣78❤2
Forwarded from Dealer.AI
В голос 😁 Спс @sergey_b_tg.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣46👍15😁6 2
База знаний по каналу в телеграм? Зачем это нужно?
RAG/LLM workflow/Чат бот
8 месяцев назад я решил сделать первый эксперимент в этом направление и смотря на себя тогда осознал что перемудрил с выгрузкой
сделал очень сложные связи и в целом ответы чат бота были не сказать что прям полезные
Что же я решил переосмыслить имея в руках всю мощь Cursor + Claude Sonnet 4😈
Первое я полностью переделал логику различения датасета упростил все ровно до двух коллекций
1) Посты
2) Коменты к ним и обсуждения
Второе
Я добавил в первый шаг llm классификатор сложности запроса пользователя от него у нас меняется кол-во
Да это все еще вектора
Да это все еще векторный поиск
Да это все еще простой bge реранкер на выходе
FTS решил пока не тащить дабы прочувствовать всюболь суть семантики вопросов и поиска информации
Перевел все на gpt-4o-mini
Кстати теперь бот будет жить тут и я буду регулярно его пополнять и другими каналами @neuraldeepbot
Cейчас в боте данные на сегодня из канала/и чата канала https://t.me/llm_under_hood
Что я точно могу сказать что при первом приближении конечно вы задаете интересные вопросы и система на такое не рассчитана
Тут сработала защита в промте и LLM ничего не ответила
Тут модель выдала заготовку про датасет но стащила посты 2024 года
Ответ: База знаний обновлена 12.08.2025.\n\nКлиенты часто задают два основных вопроса: когда можно будет запустить мощную LLM.....
Ответ: Метод Schema-Guided Reasoning (SGR) представляет собой подход структурированного промптинга, который управляет рассуждениями больших языковых моделей с помощью заранее заданных схем.
Да я зашил в промпт когда был обновлен датасет
Да я не поставил никакого защитника так что можно пробить gpt-4o-mini если вы знаете jailbreak
А еще можно поставить оценку (ставите дизлайк и я точно посмотрю что же за сценарий вы там придумали и подумаю какой еще классификатор повесить перед финальным ответом) это же все таки LLM workflow (чувствуете как дядя влияет? про агента не слова) ответу если вы так сделаете я соберу еще интересные кейсы которые могли бы помочь в будущем таким поисковым системам когда я добавлю больше каналов!
В целом мне нравится что в интернете так много полезной и сочной информации действительно можно прокачиваться каждый день просто анализируя то что доступно всем!
RAG/LLM workflow/Чат бот
8 месяцев назад я решил сделать первый эксперимент в этом направление и смотря на себя тогда осознал что перемудрил с выгрузкой
сделал очень сложные связи и в целом ответы чат бота были не сказать что прям полезные
Что же я решил переосмыслить имея в руках всю мощь Cursor + Claude Sonnet 4
Первое я полностью переделал логику различения датасета упростил все ровно до двух коллекций
1) Посты
2) Коменты к ним и обсуждения
Второе
Я добавил в первый шаг llm классификатор сложности запроса пользователя от него у нас меняется кол-во
top n
которые мы получаем при векторном поиске Да это все еще вектора
Да это все еще векторный поиск
Да это все еще простой bge реранкер на выходе
FTS решил пока не тащить дабы прочувствовать всю
Перевел все на gpt-4o-mini
Кстати теперь бот будет жить тут и я буду регулярно его пополнять и другими каналами @neuraldeepbot
Cейчас в боте данные на сегодня из канала/и чата канала https://t.me/llm_under_hood
Что я точно могу сказать что при первом приближении конечно вы задаете интересные вопросы и система на такое не рассчитана
Какой последний пост был?
Тут сработала защита в промте и LLM ничего не ответила
какая на текущий момент лучшая локальная LLM?
Тут модель выдала заготовку про датасет но стащила посты 2024 года
Ответ: База знаний обновлена 12.08.2025.\n\nКлиенты часто задают два основных вопроса: когда можно будет запустить мощную LLM.....
Что такое SGR
Ответ: Метод Schema-Guided Reasoning (SGR) представляет собой подход структурированного промптинга, который управляет рассуждениями больших языковых моделей с помощью заранее заданных схем.
Да я зашил в промпт когда был обновлен датасет
Да я не поставил никакого защитника так что можно пробить gpt-4o-mini если вы знаете jailbreak
А еще можно поставить оценку (ставите дизлайк и я точно посмотрю что же за сценарий вы там придумали и подумаю какой еще классификатор повесить перед финальным ответом) это же все таки LLM workflow (чувствуете как дядя влияет? про агента не слова) ответу если вы так сделаете я соберу еще интересные кейсы которые могли бы помочь в будущем таким поисковым системам когда я добавлю больше каналов!
В целом мне нравится что в интернете так много полезной и сочной информации действительно можно прокачиваться каждый день просто анализируя то что доступно всем!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥39❤12👍10🤯3