Дистилляция экономит миллиарды: как исследователи из Стэнфорда создали reasoning-модель за $50
Интересный технический кейс появился на прошлой неделе - исследователи из Стэнфорда и Университета Вашингтона показали, как можно воспроизвести возможности современных reasoning-моделей с минимальными затратами. Их модель s1 демонстрирует результаты, сопоставимые с OpenAI o1 и DeepSeek R1, но при этом потребовала всего около $50 на облачные вычисления.
Технические детали
Самое интересное в этой работе - элегантность подхода. Вместо того чтобы тренировать модель с нуля (что требует огромных вычислительных ресурсов), исследователи:
1. Взяли готовую базовую модель Qwen-32B
2. Создали датасет из 1000 тщательно отобранных задач с решениями
3. Получили "reasoning traces" (цепочки рассуждений) от Gemini 2.0 Flash Thinking
4. Применили supervised fine-tuning всего на 26 минут используя 16 H100 GPU
Использовали три критерия для отбора задач:
- Сложность (отбирались задачи, которые базовая модель не могла решить)
- Разнообразие (равномерное распределение по 50 различным доменам)
- Качество (тщательная валидация форматирования и содержания)
Математическая находка
Интересный трюк они применили для улучшения точности ответов - так называемый "budget forcing". Идея в том, что когда модель пытается завершить рассуждение, ей вместо этого добавляется слово "Wait", заставляя продолжить анализ. Это простое решение позволило поднять точность на AIME24 с 50% до 57%.
Применимость
Конечно, это не значит что инвестиции Google и OpenAI в инфраструктуру теперь бессмысленны. Дистилляция хороша для воспроизведения существующих возможностей, но не для создания принципиально новых моделей.
Но сам факт, что команда исследователей смогла получить результаты, сравнимые с лидерами с минимальными ресурсами - показывает как быстро демократизируется эта технология.
Технический стек
- Base model: Qwen2.5-32B-Instruct
- Training: PyTorch FSDP
- Dataset: 1000 samples (vs 800K у R1)
- Fine-tuning time: 26 минут
- Hardware: 16 NVIDIA H100 GPUs
- Evaluation: AIME24, MATH500, GPQA Diamond benchmarks
Код и данные доступны на GitHub, что позволяет воспроизвести результаты.
Правда, Google уже заявил что его ToS запрещает такое использование Gemini API - так что юридическая сторона вопроса пока под вопросом.
paper
GitHub
Но сама работа - отличный пример как правильный инженерный подход может компенсировать отсутствие гигантских ресурсов. Будет интересно посмотреть, как дальше будет развиваться направление "бюджетных" AI моделей.
Не списал, а опирался на труды предшественников :)
Отдельное спасибо @alyxst за наводку :)
#s1 #Gemini #finetunung #Qwen
———
@tsingular
Интересный технический кейс появился на прошлой неделе - исследователи из Стэнфорда и Университета Вашингтона показали, как можно воспроизвести возможности современных reasoning-моделей с минимальными затратами. Их модель s1 демонстрирует результаты, сопоставимые с OpenAI o1 и DeepSeek R1, но при этом потребовала всего около $50 на облачные вычисления.
Технические детали
Самое интересное в этой работе - элегантность подхода. Вместо того чтобы тренировать модель с нуля (что требует огромных вычислительных ресурсов), исследователи:
1. Взяли готовую базовую модель Qwen-32B
2. Создали датасет из 1000 тщательно отобранных задач с решениями
3. Получили "reasoning traces" (цепочки рассуждений) от Gemini 2.0 Flash Thinking
4. Применили supervised fine-tuning всего на 26 минут используя 16 H100 GPU
Использовали три критерия для отбора задач:
- Сложность (отбирались задачи, которые базовая модель не могла решить)
- Разнообразие (равномерное распределение по 50 различным доменам)
- Качество (тщательная валидация форматирования и содержания)
Математическая находка
Интересный трюк они применили для улучшения точности ответов - так называемый "budget forcing". Идея в том, что когда модель пытается завершить рассуждение, ей вместо этого добавляется слово "Wait", заставляя продолжить анализ. Это простое решение позволило поднять точность на AIME24 с 50% до 57%.
Применимость
Конечно, это не значит что инвестиции Google и OpenAI в инфраструктуру теперь бессмысленны. Дистилляция хороша для воспроизведения существующих возможностей, но не для создания принципиально новых моделей.
Но сам факт, что команда исследователей смогла получить результаты, сравнимые с лидерами с минимальными ресурсами - показывает как быстро демократизируется эта технология.
Технический стек
- Base model: Qwen2.5-32B-Instruct
- Training: PyTorch FSDP
- Dataset: 1000 samples (vs 800K у R1)
- Fine-tuning time: 26 минут
- Hardware: 16 NVIDIA H100 GPUs
- Evaluation: AIME24, MATH500, GPQA Diamond benchmarks
Код и данные доступны на GitHub, что позволяет воспроизвести результаты.
Правда, Google уже заявил что его ToS запрещает такое использование Gemini API - так что юридическая сторона вопроса пока под вопросом.
paper
GitHub
Но сама работа - отличный пример как правильный инженерный подход может компенсировать отсутствие гигантских ресурсов. Будет интересно посмотреть, как дальше будет развиваться направление "бюджетных" AI моделей.
Не списал, а опирался на труды предшественников :)
Отдельное спасибо @alyxst за наводку :)
#s1 #Gemini #finetunung #Qwen
———
@tsingular
🔥8👍4⚡3❤2✍1👏1🤯1
Forwarded from AI Product | Igor Akimov
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI тут на конфе в Японии показали, как они сделали AI сейлза по входящим лидам.
Вот как работает:
- Клиент заполняет форму Contact Sales.
- Контактные данные попадают в панель задач OpenAI в качестве лида
- Агент по продажам анализирует заявку и вызывает несколько функций
- Инструмент enrich_lead выполняет глубокое исследование лида, чтобы заполнить его информацией, например данными о роли, секторе, размере компании и т. д.
- Вызывает get_calendar_availability, чтобы проверить свободное время для назначения встречи.
- Вызывает send_email, чтобы составить проект электронного письма для планирования встречи.
- завершает задачу.
Так что сапожник - с сапогами (хотя честно говоря сколько не заполнял форму на общение с сейлзами OpenAI, ни разу не отвечали...)
Вот как работает:
- Клиент заполняет форму Contact Sales.
- Контактные данные попадают в панель задач OpenAI в качестве лида
- Агент по продажам анализирует заявку и вызывает несколько функций
- Инструмент enrich_lead выполняет глубокое исследование лида, чтобы заполнить его информацией, например данными о роли, секторе, размере компании и т. д.
- Вызывает get_calendar_availability, чтобы проверить свободное время для назначения встречи.
- Вызывает send_email, чтобы составить проект электронного письма для планирования встречи.
- завершает задачу.
Так что сапожник - с сапогами (хотя честно говоря сколько не заполнял форму на общение с сейлзами OpenAI, ни разу не отвечали...)
👍3😢1
Евгений Касперский у себя в Х. 😀
Делаем ставки,- кто кого купит?
- Так! На видеокартах сэкономили, на датасетах тоже... На чём бы еще?! 🤔
#Касперский #DeepSeek #Китай
------
@tsingular
Делаем ставки,- кто кого купит?
- Так! На видеокартах сэкономили, на датасетах тоже... На чём бы еще?! 🤔
#Касперский #DeepSeek #Китай
------
@tsingular
😁11👻5🤔4😈2
Регулярная рубрика, - инструкции от AWS.
На этот раз интересный материал по мульти-интерфейсным AI-ассистентам. Разберем технические детали! 🤓
1. RAG:
- Amazon Kendra как векторная база данных (вместо популярных Pinecone/Weaviate)
- Amazon S3 для хранения документации
- CloudFront для раздачи ссылок на источники
- AWS Lambda для подгрузки данных из Slack
2. Интересно, что используют CloudFront вместо прямых Slack-ссылок. Это решает проблему доступа к источникам для пользователей без доступа к Slack. Умно! 🎯
3. Интеграция построена через два основных интерфейса:
- Amazon Q Business (нативное решение AWS)
- Slack (через API интеграцию)
4. Технический лайфхак: они используют метаданные в Kendra для каждого файла-источника, что позволяет обоим интерфейсам корректно привязывать первоисточники документов.
5. Мониторинг реализован через:
- Встроенную аналитику Amazon Q
- Кастомный CloudWatch дашборд для Slack-метрик
- Автоматические дейли-репорты в Slack
Автоматическое обновление данных через EventBridge - система сама подтягивает новые данные из Slack каждый день.
Kendra под вектор, - ещё не слышал. 🤔
Ну AWS/не AWS тут не так важно, интересна архитектура и подходы.
У AWS и архитекторы, - огонь и методология и практика описания этих архитектур очень круто отлажена.
Изучаем.
#AWS #RAG #Cloud #обучение
———
@tsingular
На этот раз интересный материал по мульти-интерфейсным AI-ассистентам. Разберем технические детали! 🤓
1. RAG:
- Amazon Kendra как векторная база данных (вместо популярных Pinecone/Weaviate)
- Amazon S3 для хранения документации
- CloudFront для раздачи ссылок на источники
- AWS Lambda для подгрузки данных из Slack
2. Интересно, что используют CloudFront вместо прямых Slack-ссылок. Это решает проблему доступа к источникам для пользователей без доступа к Slack. Умно! 🎯
3. Интеграция построена через два основных интерфейса:
- Amazon Q Business (нативное решение AWS)
- Slack (через API интеграцию)
4. Технический лайфхак: они используют метаданные в Kendra для каждого файла-источника, что позволяет обоим интерфейсам корректно привязывать первоисточники документов.
5. Мониторинг реализован через:
- Встроенную аналитику Amazon Q
- Кастомный CloudWatch дашборд для Slack-метрик
- Автоматические дейли-репорты в Slack
Автоматическое обновление данных через EventBridge - система сама подтягивает новые данные из Slack каждый день.
Kendra под вектор, - ещё не слышал. 🤔
Ну AWS/не AWS тут не так важно, интересна архитектура и подходы.
У AWS и архитекторы, - огонь и методология и практика описания этих архитектур очень круто отлажена.
Изучаем.
#AWS #RAG #Cloud #обучение
———
@tsingular
👍6🔥2
Media is too big
VIEW IN TELEGRAM
🚀Le Chat 2025: Mistral AI выпускает "самого быстрого" AI-ассистента
Mistral AI выпустил обновление своего AI-ассистента Le Chat, и, похоже, собирается серьёзно потеснить конкурентов на рынке (как минимум Groq).
Flash Answers: огромная скорость
Главная фишка обновления - функция Flash Answers. Le Chat теперь генерирует ответы со скоростью до 1000 токенов в секунду. Mistral AI утверждает, что это делает их ассистента самым быстрым на рынке. (тут, конечно, вопрос в размерности модели. Groq на малых моделях тоже может за 1000+ улететь)
Что умеет новый Le Chat?
• Code Interpreter: Появилась возможность запускать код прямо в чате, проводить научный анализ и создавать визуализации. Удобно для разработчиков и аналитиков, которым нужно быстро проверить гипотезы.
• Генерация изображений: За это отвечает модель Flux Ultra от Black Forest Labs - текущий лидер в области генерации изображений.
• Работа с документами: Le Chat научился работать с разными форматами файлов - от PDF до сложных таблиц. Причём разработчики хвастаются "лучшим в индустрии" распознаванием текста (интересно будет его на таблицах в PDF проверить, да еще на листах с разворотом в скане с печатями :) но мы это делать, конечно, не будем, потому, что печати.).
Тарифы и доступность 💰
Mistral AI предлагает четыре тарифных плана:
• Бесплатный: Доступ к базовым функциям, включая последние модели, генерацию изображений и загрузку документов.
• Pro (14.99$/месяц): Расширенные лимиты для активных пользователей.
• Team (24.99$/месяц на пользователя): Включает единый биллинг, приоритетную поддержку и кредиты la Plateforme.
• Enterprise: Индивидуальное ценообразование, возможность развертывания в своей инфраструктуре и настройка под нужды компании.
Что еще интересно? 🤔
Le Chat теперь доступен на iOS и Android, что делает его по-настоящему мобильным помощником. Скоро появится функция Memories - система будет запоминать ваши предпочтения для более персонализированных ответов (личное дело на каждого и социальный рейтинг в следующих версиях :) ).
Mistral AI позиционирует себя как "демократизатора AI" - большинство продвинутых функций доступно в бесплатной версии. При этом цена Pro-версии (14.99$) выглядит довольно конкурентной на фоне других игроков рынка.
Что дальше?
Mistral AI обещает скоро добавить интеграцию с рабочими инструментами (почта, базы данных, мессенджеры) и возможность создавать многошаговых агентов для автоматизации рутинных задач (конкурент MS Copilot 365).
#Mistral #LeChat
———
@tsingular
Mistral AI выпустил обновление своего AI-ассистента Le Chat, и, похоже, собирается серьёзно потеснить конкурентов на рынке (как минимум Groq).
Flash Answers: огромная скорость
Главная фишка обновления - функция Flash Answers. Le Chat теперь генерирует ответы со скоростью до 1000 токенов в секунду. Mistral AI утверждает, что это делает их ассистента самым быстрым на рынке. (тут, конечно, вопрос в размерности модели. Groq на малых моделях тоже может за 1000+ улететь)
Что умеет новый Le Chat?
• Code Interpreter: Появилась возможность запускать код прямо в чате, проводить научный анализ и создавать визуализации. Удобно для разработчиков и аналитиков, которым нужно быстро проверить гипотезы.
• Генерация изображений: За это отвечает модель Flux Ultra от Black Forest Labs - текущий лидер в области генерации изображений.
• Работа с документами: Le Chat научился работать с разными форматами файлов - от PDF до сложных таблиц. Причём разработчики хвастаются "лучшим в индустрии" распознаванием текста (интересно будет его на таблицах в PDF проверить, да еще на листах с разворотом в скане с печатями :) но мы это делать, конечно, не будем, потому, что печати.).
Тарифы и доступность 💰
Mistral AI предлагает четыре тарифных плана:
• Бесплатный: Доступ к базовым функциям, включая последние модели, генерацию изображений и загрузку документов.
• Pro (14.99$/месяц): Расширенные лимиты для активных пользователей.
• Team (24.99$/месяц на пользователя): Включает единый биллинг, приоритетную поддержку и кредиты la Plateforme.
• Enterprise: Индивидуальное ценообразование, возможность развертывания в своей инфраструктуре и настройка под нужды компании.
Что еще интересно? 🤔
Le Chat теперь доступен на iOS и Android, что делает его по-настоящему мобильным помощником. Скоро появится функция Memories - система будет запоминать ваши предпочтения для более персонализированных ответов (личное дело на каждого и социальный рейтинг в следующих версиях :) ).
Mistral AI позиционирует себя как "демократизатора AI" - большинство продвинутых функций доступно в бесплатной версии. При этом цена Pro-версии (14.99$) выглядит довольно конкурентной на фоне других игроков рынка.
Что дальше?
Mistral AI обещает скоро добавить интеграцию с рабочими инструментами (почта, базы данных, мессенджеры) и возможность создавать многошаговых агентов для автоматизации рутинных задач (конкурент MS Copilot 365).
#Mistral #LeChat
———
@tsingular
🔥4👍2
🚀 DeepMind покоряет математику: AI превзошел олимпиадников в геометрии
Google DeepMind представила AlphaGeometry2 — AI-систему, которая решает геометрические задачи лучше золотых медалистов Международной математической олимпиады (IMO).
Что умеет AlphaGeometry2?
Система решила 42 из 50 олимпиадных задач. Это превышает средний показатель золотых медалистов (40.9 задач)!
AlphaGeometry2 использует гибридный подход, из двух технологий:
- Языковую модель Gemini от Google
- "Символьный движок", работающий по строгим математическим правилам
Как это работает? 🤔
Модель Gemini предлагает возможные шаги решения на формальном математическом языке, а символьный движок проверяет их логическую правильность. При этом система может вести несколько параллельных поисков решения и сохранять полезные находки в общей базе знаний.
Из-за нехватки обучающих данных DeepMind пришлось создать собственный синтетический датасет из более чем 300 миллионов теорем и доказательств разной сложности!
AlphaGeometry2 пока не может решать задачи с переменным числом точек, нелинейными уравнениями и неравенствами.
Из 29 более сложных задач, предложенных экспертами для будущих олимпиад, система осилила только 20.
Исследователи обнаружили, что языковая модель AlphaGeometry2 способна генерировать частичные решения задач даже без помощи символьного движка.
Правда, пока что для математических приложений символьные инструменты остаются необходимыми — нужно улучшить скорость работы и решить проблему галлюцинаций.
Почему это важно?
DeepMind видит в этом проекте нечто большее, чем просто решение школьных задач.
Способность доказывать теоремы требует как логического мышления, так и умения выбирать правильные шаги из множества возможных.
Эти навыки могут стать ключевыми для создания более универсальных AI-систем будущего.
Летом прошлого года DeepMind продемонстрировала впечатляющий результат: комбинация AlphaGeometry2 с системой AlphaProof смогла решить 4 из 6 задач IMO 2024 года.
В картинку вынес отдельно метод поиска, который описан в документе.
Т.е.: текстом генерим варианты решений, а дальше параллельными вызовами дёргаем разные другие модели, чтобы получить достоверный результат. Каждая ветка скидывает "идеи" в "общий чат моделей".
Может быть полезно вообще в любых проектах.
#DeepMind #Mathematics #математика
———
@tsingular
Google DeepMind представила AlphaGeometry2 — AI-систему, которая решает геометрические задачи лучше золотых медалистов Международной математической олимпиады (IMO).
Что умеет AlphaGeometry2?
Система решила 42 из 50 олимпиадных задач. Это превышает средний показатель золотых медалистов (40.9 задач)!
AlphaGeometry2 использует гибридный подход, из двух технологий:
- Языковую модель Gemini от Google
- "Символьный движок", работающий по строгим математическим правилам
Как это работает? 🤔
Модель Gemini предлагает возможные шаги решения на формальном математическом языке, а символьный движок проверяет их логическую правильность. При этом система может вести несколько параллельных поисков решения и сохранять полезные находки в общей базе знаний.
Из-за нехватки обучающих данных DeepMind пришлось создать собственный синтетический датасет из более чем 300 миллионов теорем и доказательств разной сложности!
AlphaGeometry2 пока не может решать задачи с переменным числом точек, нелинейными уравнениями и неравенствами.
Из 29 более сложных задач, предложенных экспертами для будущих олимпиад, система осилила только 20.
Исследователи обнаружили, что языковая модель AlphaGeometry2 способна генерировать частичные решения задач даже без помощи символьного движка.
Правда, пока что для математических приложений символьные инструменты остаются необходимыми — нужно улучшить скорость работы и решить проблему галлюцинаций.
Почему это важно?
DeepMind видит в этом проекте нечто большее, чем просто решение школьных задач.
Способность доказывать теоремы требует как логического мышления, так и умения выбирать правильные шаги из множества возможных.
Эти навыки могут стать ключевыми для создания более универсальных AI-систем будущего.
Летом прошлого года DeepMind продемонстрировала впечатляющий результат: комбинация AlphaGeometry2 с системой AlphaProof смогла решить 4 из 6 задач IMO 2024 года.
В картинку вынес отдельно метод поиска, который описан в документе.
Т.е.: текстом генерим варианты решений, а дальше параллельными вызовами дёргаем разные другие модели, чтобы получить достоверный результат. Каждая ветка скидывает "идеи" в "общий чат моделей".
Может быть полезно вообще в любых проектах.
#DeepMind #Mathematics #математика
———
@tsingular
👍10🔥4❤🔥1
Forwarded from Малоизвестное интересное
Кто получит «Мандат Неба»?
Динамика «гонки вооружений» LLM одним слайдом.
«Гонка вооружений» на рынке больших языковых моделей (LLM) определяется просто: все стараются получить максимально высокую точность при минимальной цене. А а «фронтир» отражает лучшие на данный момент варианты по сочетанию этих двух параметров.
Диаграмма показывает [1], как разные версии языковых моделей (от OpenAI, Deepseek, Google «Gemini», Anthropic и др.) соотносятся по:
• стоимости (ось X): цена за миллион токенов - чем левее точка, тем дешевле использование модели (ниже стоимость за миллион токенов).
• качеству (ось Y): рейтинг LMSys Elo - чем выше точка, тем сильнее модель (лучшее качество ответов/результатов).
Ключевые выводы (по состоянию на февраль 2025)
• Чемпион в соотношении цена-производительность - Gemini 2.0 Flash Thinking (лучше, чем DeepSeek r1 (по ELO) и дешевле
• Стоимость возможностей GPT-4 упала в 1000 раз за 18 месяцев
• Скорость роста возможностей моделей просто немыслимая – так не бывает, … но так есть!
PS Спецы из Google DeepMind полагают, что они близки к получению «Мандата Неба» ("Mandate of Heaven" (天命, Тяньмин)) [2]. Когда говорят, что компания имеет "Mandate of Heaven" в сфере ИИ, это означает, что она занимает лидирующую позицию не просто благодаря рыночной доле, но и благодаря признанию её технологического превосходства и инновационного лидерства.
Но вряд ли конкуренты согласятся 😊
#ИИгонка
Динамика «гонки вооружений» LLM одним слайдом.
«Гонка вооружений» на рынке больших языковых моделей (LLM) определяется просто: все стараются получить максимально высокую точность при минимальной цене. А а «фронтир» отражает лучшие на данный момент варианты по сочетанию этих двух параметров.
Диаграмма показывает [1], как разные версии языковых моделей (от OpenAI, Deepseek, Google «Gemini», Anthropic и др.) соотносятся по:
• стоимости (ось X): цена за миллион токенов - чем левее точка, тем дешевле использование модели (ниже стоимость за миллион токенов).
• качеству (ось Y): рейтинг LMSys Elo - чем выше точка, тем сильнее модель (лучшее качество ответов/результатов).
На диаграмме видны две основные "границы эффективности" (pareto frontier):
• Синяя линия от OpenAI, показывающая их модели
• Оранжевая линия от Gemini 2, которая, судя по надписи, предлагает "лучше, дешевле, круче"
• Более дорогие и мощные модели в верхней левой части (например, различные версии GPT-4)
• Средний сегмент в центре (Claude 3.5, Gemini 1.5)
• Более доступные модели в правой части (Amazon Nova Lite, Gemini 1.5 Flash)
Ключевые выводы (по состоянию на февраль 2025)
• Чемпион в соотношении цена-производительность - Gemini 2.0 Flash Thinking (лучше, чем DeepSeek r1 (по ELO) и дешевле
• Стоимость возможностей GPT-4 упала в 1000 раз за 18 месяцев
• Скорость роста возможностей моделей просто немыслимая – так не бывает, … но так есть!
PS Спецы из Google DeepMind полагают, что они близки к получению «Мандата Неба» ("Mandate of Heaven" (天命, Тяньмин)) [2]. Когда говорят, что компания имеет "Mandate of Heaven" в сфере ИИ, это означает, что она занимает лидирующую позицию не просто благодаря рыночной доле, но и благодаря признанию её технологического превосходства и инновационного лидерства.
Но вряд ли конкуренты согласятся 😊
#ИИгонка
🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
GitLab выходит на поле ИИ ассистентов разработчика
Gitlab Duo — это AI-помощник, который внедряется во все этапы разработки.
Ключевой функционал:
🤖 Code Suggestions
- Работает с 20+ языками программирования
- Встраивается в популярные IDE
- Генерирует и дополняет код на лету
- Помогает с рефакторингом
🔍 Chat и Code Explanation
- Объясняет код на человеческом языке
- Помогает разобраться в больших кусках legacy-кода
- Отвечает на вопросы прямо в IDE или веб-интерфейсе
- Генерирует тесты (что особенно круто для рутинного юнит-тестирования)
🛡 Security-функции
- Анализирует уязвимости и предлагает фиксы
- Блокирует случайные утечки секретов (API-ключи, токены)
- Создаёт автоматические MR с исправлениями
📊 CI/CD и аналитика
- Разбирается с падающими пайплайнами (root cause analysis)
- Отслеживает метрики эффективности AI
- Прогнозирует value stream
Интересные технические детали:
В последних релизах (17.5-17.6) появились крутые фичи:
- Поддержка self-hosted моделей (в дополнение к облачным)
- Duo Quick Chat — AI-подсказки прямо в редакторе без переключения контекста
- Реестр ML-моделей с интеграцией в CI/CD
- GraphQL API для анализа эффективности подсказок
Цены и лицензии
Duo Pro — $19/месяц с человека
- Code Suggestions
- Базовый Chat
- Генерация тестов
- Основные инструменты безопасности
Duo Enterprise - $39/месяц с человека
- Всё из Pro
- Продвинутый анализ уязвимостей
- AI-аналитика
- Поддержка self-hosted моделей
- Автоматическое резюме MR и дискуссий
Особенности безопасности:
- Можно развернуть LLM на своих серверах
- Администраторы могут точечно контролировать доступ к AI-функциям
- Ваш код не используется для обучения моделей
В общем, GitLab Duo выглядит как серьезная заявка на революцию в DevSecOps. Особенно интересно будет посмотреть, как пойдет недавно анонсированный Duo Workflow — автономный агент для автоматизации рутины. Правда, пока он доступен только для Enterprise-клиентов. 🤔
#GitLab #Duo #dev #агенты
———
@tsingular
Gitlab Duo — это AI-помощник, который внедряется во все этапы разработки.
Ключевой функционал:
🤖 Code Suggestions
- Работает с 20+ языками программирования
- Встраивается в популярные IDE
- Генерирует и дополняет код на лету
- Помогает с рефакторингом
🔍 Chat и Code Explanation
- Объясняет код на человеческом языке
- Помогает разобраться в больших кусках legacy-кода
- Отвечает на вопросы прямо в IDE или веб-интерфейсе
- Генерирует тесты (что особенно круто для рутинного юнит-тестирования)
🛡 Security-функции
- Анализирует уязвимости и предлагает фиксы
- Блокирует случайные утечки секретов (API-ключи, токены)
- Создаёт автоматические MR с исправлениями
📊 CI/CD и аналитика
- Разбирается с падающими пайплайнами (root cause analysis)
- Отслеживает метрики эффективности AI
- Прогнозирует value stream
Интересные технические детали:
В последних релизах (17.5-17.6) появились крутые фичи:
- Поддержка self-hosted моделей (в дополнение к облачным)
- Duo Quick Chat — AI-подсказки прямо в редакторе без переключения контекста
- Реестр ML-моделей с интеграцией в CI/CD
- GraphQL API для анализа эффективности подсказок
Цены и лицензии
Duo Pro — $19/месяц с человека
- Code Suggestions
- Базовый Chat
- Генерация тестов
- Основные инструменты безопасности
Duo Enterprise - $39/месяц с человека
- Всё из Pro
- Продвинутый анализ уязвимостей
- AI-аналитика
- Поддержка self-hosted моделей
- Автоматическое резюме MR и дискуссий
Особенности безопасности:
- Можно развернуть LLM на своих серверах
- Администраторы могут точечно контролировать доступ к AI-функциям
- Ваш код не используется для обучения моделей
В общем, GitLab Duo выглядит как серьезная заявка на революцию в DevSecOps. Особенно интересно будет посмотреть, как пойдет недавно анонсированный Duo Workflow — автономный агент для автоматизации рутины. Правда, пока он доступен только для Enterprise-клиентов. 🤔
#GitLab #Duo #dev #агенты
———
@tsingular
✍3❤1👍1🔥1
Forwarded from DigitalEDU
Media is too big
VIEW IN TELEGRAM
Вот когда смотришь на такое, задумаешься - что же станет с профессией актеров???
⚡19🤯6❤🔥2❤2🔥2👀2
Вьетнам: новый азиатский игрок в мире ИИ
За три года количество ИИ-стартапов увеличилось с 60 до 278.
80% компаний уже интегрировали генеративные технологии.
Венчурные фонды инвестируют до $15 млн в каждый перспективный проект.
Рынок вырастет с $470 млн до $1.52 млрд к 2030 году.
Правительство запустило программу развития локальных языковых моделей.
Основной фокус на IoT, здравоохранение и умные города.
Создается правовая база для этики и регулирования технологий.
Азиатский дракон проснулся не только в Китае и учится говорить на языке нейросетей 🐉
ИИ расширает скорость распространения и видимость культуры страны. Она становится ближе и понятнее всему международному сообществу.
И вот вы уже будете конкурировать с ИИ решениями не только из Китая, но скоро и из Вьетнама.
Зато узнаете много интересного про Вьетнам 😀
#Вьетнам #startups #VentureCapital
------
@tsingular
За три года количество ИИ-стартапов увеличилось с 60 до 278.
80% компаний уже интегрировали генеративные технологии.
Венчурные фонды инвестируют до $15 млн в каждый перспективный проект.
Рынок вырастет с $470 млн до $1.52 млрд к 2030 году.
Правительство запустило программу развития локальных языковых моделей.
Основной фокус на IoT, здравоохранение и умные города.
Создается правовая база для этики и регулирования технологий.
Азиатский дракон проснулся не только в Китае и учится говорить на языке нейросетей 🐉
ИИ расширает скорость распространения и видимость культуры страны. Она становится ближе и понятнее всему международному сообществу.
И вот вы уже будете конкурировать с ИИ решениями не только из Китая, но скоро и из Вьетнама.
Зато узнаете много интересного про Вьетнам 😀
#Вьетнам #startups #VentureCapital
------
@tsingular
👍8🔥5⚡3✍1🤣1
Видео генератор Pika обновился и теперь тоже, как и Kling.ai позволяет объединять видео и картинки.
Нейрорендер переходит в формат нейромонтажа, отжирая поляну у Adobe Aftereffect.
Пробуем тут: pika.art
#pika #нейрорендер
------
@tsingular
Нейрорендер переходит в формат нейромонтажа, отжирая поляну у Adobe Aftereffect.
Пробуем тут: pika.art
#pika #нейрорендер
------
@tsingular
🔥12
Forwarded from LLM под капотом
Что лучше - ставить вопрос в промпте до текста или после текста?
В прошлом посте про новые бенчмарки я написал:
Кстати, обратим внимание, что я вопрос ставлю до исходников файла. Это мне портит кэш, зато позволяет в среднем облегчить жизнь моделям и повысить качество на несколько процентов.
На что в чате возник резонный вопрос:
Это гипотеза, а гипотезы можно и нужно проверять. Поэтому я взял текущие coding задачи (там больше всего контекста) с вопросом до кода и добавил туда второй вариант промпта - чтобы вопрос был в конце. Плюс сделал градацию ошибок более плавной, как в других категориях. И добавил "Averages" внизу.
Итак, категория prefix - это точность моделей на задачах с вопросом в начале. Postfix - точность моделей на тех же задачах, но вопрос идет в конце.
Пока вышло, что в среднем по моделям промпты с вопросом в самом начале набирали 62%, а промпты с вопросом в конце - 55%.
Разница есть, но я не сказал бы, что она пока статистически значима - слишком мало тестов в этой категории. Я потом еще добавлю в эти категории пару задачек с большим контекстом. Может, картина станет яснее.
А пока можете предварительно посмотреть, как ведет себя ваша любимая модель, если ставить вопрос в начале или в конце промпта.
Ваш, @llm_under_hood 🤗
В прошлом посте про новые бенчмарки я написал:
Кстати, обратим внимание, что я вопрос ставлю до исходников файла. Это мне портит кэш, зато позволяет в среднем облегчить жизнь моделям и повысить качество на несколько процентов.
На что в чате возник резонный вопрос:
я бы сказал, это разворачивает бенчмарк в сторону 4о и других моделей опенаи. Из-за такого становится понятно, почему они так высоко в рейтинге по сравнению с действительно сильными моделями, тем же клодом.
Это гипотеза, а гипотезы можно и нужно проверять. Поэтому я взял текущие coding задачи (там больше всего контекста) с вопросом до кода и добавил туда второй вариант промпта - чтобы вопрос был в конце. Плюс сделал градацию ошибок более плавной, как в других категориях. И добавил "Averages" внизу.
Итак, категория prefix - это точность моделей на задачах с вопросом в начале. Postfix - точность моделей на тех же задачах, но вопрос идет в конце.
Пока вышло, что в среднем по моделям промпты с вопросом в самом начале набирали 62%, а промпты с вопросом в конце - 55%.
Разница есть, но я не сказал бы, что она пока статистически значима - слишком мало тестов в этой категории. Я потом еще добавлю в эти категории пару задачек с большим контекстом. Может, картина станет яснее.
А пока можете предварительно посмотреть, как ведет себя ваша любимая модель, если ставить вопрос в начале или в конце промпта.
Ваш, @llm_under_hood 🤗
✍5❤🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Роботы выгуливают роботов.
Через Клода по 2м стоп-кадрам нашел точную локацию в Польше, где это было снято.
Что интересно, - сначала, когда спросил по 1 кадру, Клод сказал - монтаж какой-то, у Бостон Дайнамикс нет таких роботов, поэтому выдумки :)
#Unitree #robots
———
@tsingular
Через Клода по 2м стоп-кадрам нашел точную локацию в Польше, где это было снято.
Что интересно, - сначала, когда спросил по 1 кадру, Клод сказал - монтаж какой-то, у Бостон Дайнамикс нет таких роботов, поэтому выдумки :)
#Unitree #robots
———
@tsingular
🔥6👍3😁3
Forwarded from TechSparks
Media is too big
VIEW IN TELEGRAM
Вот и OpenAI стали настолько взрослыми, что рекламируются на СуперКубке в офлайне (хотя, конечно, по онлайну ролики растекаются тоже в громадных количествах, да и зрителей там хватает).
Рекламное агентство Accenture Song сумело классно выбрать стиль — то ли паунтилизм живописцев, то ли компьютерная графика, — и смотрится очень круто, куда круче навороченных роликов. Теглайн коротенький, и других текстов нет: All progress has a starting point; показать после этого ChatGPT - красиво.
Взгляните, он идет ровно минутку и реально освежающий.
https://marketech-apac.com/openai-debuts-at-the-super-bowl-with-ad-from-accenture-song/
Рекламное агентство Accenture Song сумело классно выбрать стиль — то ли паунтилизм живописцев, то ли компьютерная графика, — и смотрится очень круто, куда круче навороченных роликов. Теглайн коротенький, и других текстов нет: All progress has a starting point; показать после этого ChatGPT - красиво.
Взгляните, он идет ровно минутку и реально освежающий.
https://marketech-apac.com/openai-debuts-at-the-super-bowl-with-ad-from-accenture-song/
🔥8👍6
🔍 Anthropic представила индекс влияния AI на экономику
Самое интересное из свежего отчета Anthropic, который они выпустили сегодня:
🤖 Как используют ИИ прямо сейчас:
- 36% профессий уже используют ИИ минимум для четверти своих задач
- Только 4% профессий активно применяют ИИ в большинстве рабочих процессов (75%+ задач)
- Топ-пользователи: программисты, технические писатели и аналитики данных
💡 Неожиданные находки:
- ИИ чаще усиливает человека (57%), чем заменяет (43%) — люди предпочитают использовать его как умного помощника
- Пик использования — у профессий с зарплатой выше среднего, но не у самых высокооплачиваемых (хирурги, топ-менеджеры почти не используют)
- Минимум применения у профессий с физическим трудом (строители, медсестры) и у самых низкооплачиваемых
🔬 Технические детали:
- Проанализировали миллионы диалогов с Claude через систему Clio (она сохраняет приватность данных)
- Использовали иерархическую классификацию ~20K профессиональных задач из базы O*NET
- Валидировали результаты на живых примерах с точностью 86-95%
- Разработали фреймворк для отслеживания изменений в реальном времени
🤔 Что дальше:
- Anthropic будет регулярно обновлять индекс
- Открыли доступ к датасету для исследователей
- Запустили форму для обратной связи от экономистов и аналитиков
Интересно, что реальность оказалась и круче, и спокойнее прогнозов: ИИ уже глубоко проник в работу, но революции пока не случилось — он скорее дополняет людей, чем заменяет их.
#Clio #Anthropic #аналитика
———
@tsingular
Самое интересное из свежего отчета Anthropic, который они выпустили сегодня:
🤖 Как используют ИИ прямо сейчас:
- 36% профессий уже используют ИИ минимум для четверти своих задач
- Только 4% профессий активно применяют ИИ в большинстве рабочих процессов (75%+ задач)
- Топ-пользователи: программисты, технические писатели и аналитики данных
💡 Неожиданные находки:
- ИИ чаще усиливает человека (57%), чем заменяет (43%) — люди предпочитают использовать его как умного помощника
- Пик использования — у профессий с зарплатой выше среднего, но не у самых высокооплачиваемых (хирурги, топ-менеджеры почти не используют)
- Минимум применения у профессий с физическим трудом (строители, медсестры) и у самых низкооплачиваемых
🔬 Технические детали:
- Проанализировали миллионы диалогов с Claude через систему Clio (она сохраняет приватность данных)
- Использовали иерархическую классификацию ~20K профессиональных задач из базы O*NET
- Валидировали результаты на живых примерах с точностью 86-95%
- Разработали фреймворк для отслеживания изменений в реальном времени
🤔 Что дальше:
- Anthropic будет регулярно обновлять индекс
- Открыли доступ к датасету для исследователей
- Запустили форму для обратной связи от экономистов и аналитиков
Интересно, что реальность оказалась и круче, и спокойнее прогнозов: ИИ уже глубоко проник в работу, но революции пока не случилось — он скорее дополняет людей, чем заменяет их.
#Clio #Anthropic #аналитика
———
@tsingular
👍8✍3
🎓 Hugging Face сегодня запустил бесплатный курс по AI-агентам!
Обещанный ранее курс стартовал (на английском).
📚 Что интересного:
- Полностью бесплатный
- Ведут инженеры Hugging Face с боевым опытом в разработке агентов
- Будем работать с популярными фреймворками: smolagents, LangChain, LlamaIndex
- Все агенты будут храниться на Hugging Face Hub (можно будет подсмотреть чужие решения 😉)
🎯 Самое вкусное:
- Есть два трека: базовый (для понимания концепций) и полный с сертификатом
- В конце курса - соревнование агентов между собой (с лидербордом!)
- Дедлайн по сертификации - до 1 мая 2025
⏰ Темп занятий комфортный: примерно 3-4 часа в неделю.
🔥 А уже в эту среду (12 февраля, 19:00 МСК) будет первый live-стрим, где расскажут все детали. (на Youtube)
Кстати, для участия нужен только комп с интернетом и базовые знания Python. Ну и аккаунт на Hugging Face, конечно.
#агенты #huggingface
———
@tsingular
Обещанный ранее курс стартовал (на английском).
📚 Что интересного:
- Полностью бесплатный
- Ведут инженеры Hugging Face с боевым опытом в разработке агентов
- Будем работать с популярными фреймворками: smolagents, LangChain, LlamaIndex
- Все агенты будут храниться на Hugging Face Hub (можно будет подсмотреть чужие решения 😉)
🎯 Самое вкусное:
- Есть два трека: базовый (для понимания концепций) и полный с сертификатом
- В конце курса - соревнование агентов между собой (с лидербордом!)
- Дедлайн по сертификации - до 1 мая 2025
⏰ Темп занятий комфортный: примерно 3-4 часа в неделю.
🔥 А уже в эту среду (12 февраля, 19:00 МСК) будет первый live-стрим, где расскажут все детали. (на Youtube)
Кстати, для участия нужен только комп с интернетом и базовые знания Python. Ну и аккаунт на Hugging Face, конечно.
#агенты #huggingface
———
@tsingular
🔥13👍5🙏3
This media is not supported in your browser
VIEW IN TELEGRAM
В порядке PoC сделал плагин для Excel, который работает локально с ollama для ответов на вопросы по таблицам.
Чисто технически это позволяет сделать вообще любые ИИ интеграции в офисные продукты без необходимости в Копайлотах и VPN.
Точно так же можно сделать и для R7, например.
Кому нужен исходник, - нажимайте 🌟
#ollama #Excel #office #PoC
———
@tsingular
Чисто технически это позволяет сделать вообще любые ИИ интеграции в офисные продукты без необходимости в Копайлотах и VPN.
Точно так же можно сделать и для R7, например.
Кому нужен исходник, - нажимайте 🌟
#ollama #Excel #office #PoC
———
@tsingular
2🔥11👍3
Forwarded from эйай ньюз
На AI Action Summit, президент Эммануэль Макрон анонсировал гигантские инвестиции во французскую ИИ индустрию - 109 миллиардов евро в течении следующих нескольких лет. Вплоть до 50 миллиардов придёт от фонда MGX из ОАЭ (он также участвует в финансировании Stargate), 20 миллиардов - от канадской инвестионной фирмы Brookfield, остальные деньги от плеяды более мелких инвесторов.
Значительная часть из вычислительных ресурсов, построенных на эти деньги, явно уйдёт Mistral - это сейчас единственная европейская компания способная выдавать конкурентноспособные LLM. Стартапам поменьше тоже достанется порядочно, но вот сколько - вопрос.
Похоже, что это всё - часть единой европейской стратегии по ИИ, которую должны представить завтра. Франция в ней должна сыграть лидирующую роль - у страны есть и куча талантов, и большие избытки атомной электроэнергии и доступ к современным чипам.
Государства всё ещё лишь начинают играть мышцами в сфере ИИ, это не последний такой анонс в этом году. Мои выводы после анонса Stargate лишь подтверждаются.
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥4
Forwarded from Не баг, а фича
⚡️ Илон Маск ПОКУПАЕТ OpenAI — миллиардер вместе с инвесторами готов выкупить контрольный пакет компании за 100 МИЛЛИАРДОВ ДОЛЛАРОВ!
Он хочет снова получить контроль над разработчиками ChatGPT, потому что они в шаге от AGI — по его словам, их нужно вернуть в русло открытого кода и отказаться от коммерческих целей.
Альтман уже отказался от оффера и предложил Маску «продать Твиттер за $9 млрд» — в ответ Маск назвал его мошенником и Скам Альтманом.
Решение должен принять совет директоров. Будущее ChatGPT решается в прямом эфире!
🙂 Не баг, а фича
Он хочет снова получить контроль над разработчиками ChatGPT, потому что они в шаге от AGI — по его словам, их нужно вернуть в русло открытого кода и отказаться от коммерческих целей.
Альтман уже отказался от оффера и предложил Маску «продать Твиттер за $9 млрд» — в ответ Маск назвал его мошенником и Скам Альтманом.
Решение должен принять совет директоров. Будущее ChatGPT решается в прямом эфире!
Please open Telegram to view this post
VIEW IN TELEGRAM
😁16👍4🤯3