Вот почему я не люблю вешать ИИ приложения на облачные сервисы :)
Одна ошибка, - и ты ошибся.
Разработчица, при среднем счёте в $50 в месяц, однажды утром увидела счёт за сутки на $70К и теперь Гугл грозит ей коллекторами.
Недавно у меня бот за ночь так на $100 накрутил тоже из-за ошибки.
Так что все эти guardrails - не шутки. Окружайте среду вызовов проверками и промежуточными лимитами по вызовам.
#cloud #fails
———
@tsingular
Одна ошибка, - и ты ошибся.
Разработчица, при среднем счёте в $50 в месяц, однажды утром увидела счёт за сутки на $70К и теперь Гугл грозит ей коллекторами.
Недавно у меня бот за ночь так на $100 накрутил тоже из-за ошибки.
Так что все эти guardrails - не шутки. Окружайте среду вызовов проверками и промежуточными лимитами по вызовам.
#cloud #fails
———
@tsingular
👍10😭5✍2😍1🤨1
Неразрешенный инцидент: повышенный коэффициент ошибок для ChatGPT и API.
https://status.openai.com/
Запустили Operator :)
#openai
------
@tsingular
https://status.openai.com/
Запустили Operator :)
#openai
------
@tsingular
😁6👍1
Forwarded from эйай ньюз
Последний экзамен человечества
Новый бенчмарк, на котором все наилучшие LLM набирают меньше 10%. Собирали его всем миром - была открыта форма, где принимались вопросы, если на вопросе фейлились основные передовые LLM - его давали на обсуждение панели экспертов, которая которая отсеивала неподходящие вопросы и модифицировала прошедшие ценз вопросы. Всего LLM не прошли 13000 вопросов, из которых выбрали 3000, на более чем сотню разных тем. Авторы топ 50 лучших вопросов получили $5000, за следующие 500 вопросов уже платили $500, что тоже солидно.
На бенче лидируют o1 и R1, причём кто лучше тут сказать сложно. 10% бенчмарка - мультимодальные вопросы, R1 в изображения не умеет, поэтому её тестили лишь на текстовой части, где она обогнала всех (так что то что она на уровне o1 - не байт). А на полном бенче всех обгоняет o1. Что интересно - у всех моделей, кроме Grok 2, при переходе на текстовую часть бенчмарка, слегка падает точность, но результаты моделей пока что слишком плохие чтобы делать из этого какие-то выводы.
Кроме качества ответов, бенч тестит ещё и самооценку - вместе с самим ответом, модель просят выдать и её уверенность в этом ответе. Это позволяет понять, насколько хорошо модель может оценить свои собственные возможности. У хорошо откалиброванной модели результаты на бенчмарке и среднеквадратичная уверенность должны быть довольно близко. На этой части, с заметным отрывом, лидирует та же R1, но всё равно Calibration Error у неё за 80%. Надеюсь, из-за этого бенча, заоблачную самооценку современных LLM немного поумерят.
Название, конечно, слишком пафосное и далеко не факт что насыщение этого бенчмарка означает что модель - это AGI. Бенч ведь публичный, а это означает что он явно будет потихоньку протекать в претрейн. Жаль что не оставили приватный сабсет вопросов, на котором можно тестить оверфит моделей на бенче. Но новые, ненасыщенные бенчмарки сейчас на вес золота, создавать их крайне сложно, так что грех жаловаться. Авторы ожидают что до конца года новые модели могут выдать более 50% точность на этом бенче, посмотрим как на нём себя покажет o3.
Пейпер
Бенчмарк
Сайт проекта
@ai_newz
Новый бенчмарк, на котором все наилучшие LLM набирают меньше 10%. Собирали его всем миром - была открыта форма, где принимались вопросы, если на вопросе фейлились основные передовые LLM - его давали на обсуждение панели экспертов, которая которая отсеивала неподходящие вопросы и модифицировала прошедшие ценз вопросы. Всего LLM не прошли 13000 вопросов, из которых выбрали 3000, на более чем сотню разных тем. Авторы топ 50 лучших вопросов получили $5000, за следующие 500 вопросов уже платили $500, что тоже солидно.
На бенче лидируют o1 и R1, причём кто лучше тут сказать сложно. 10% бенчмарка - мультимодальные вопросы, R1 в изображения не умеет, поэтому её тестили лишь на текстовой части, где она обогнала всех (так что то что она на уровне o1 - не байт). А на полном бенче всех обгоняет o1. Что интересно - у всех моделей, кроме Grok 2, при переходе на текстовую часть бенчмарка, слегка падает точность, но результаты моделей пока что слишком плохие чтобы делать из этого какие-то выводы.
Кроме качества ответов, бенч тестит ещё и самооценку - вместе с самим ответом, модель просят выдать и её уверенность в этом ответе. Это позволяет понять, насколько хорошо модель может оценить свои собственные возможности. У хорошо откалиброванной модели результаты на бенчмарке и среднеквадратичная уверенность должны быть довольно близко. На этой части, с заметным отрывом, лидирует та же R1, но всё равно Calibration Error у неё за 80%. Надеюсь, из-за этого бенча, заоблачную самооценку современных LLM немного поумерят.
Название, конечно, слишком пафосное и далеко не факт что насыщение этого бенчмарка означает что модель - это AGI. Бенч ведь публичный, а это означает что он явно будет потихоньку протекать в претрейн. Жаль что не оставили приватный сабсет вопросов, на котором можно тестить оверфит моделей на бенче. Но новые, ненасыщенные бенчмарки сейчас на вес золота, создавать их крайне сложно, так что грех жаловаться. Авторы ожидают что до конца года новые модели могут выдать более 50% точность на этом бенче, посмотрим как на нём себя покажет o3.
Пейпер
Бенчмарк
Сайт проекта
@ai_newz
👍6🆒2
o3-mini будет доступен в бесплатном вебе.
А по API, вероятно, он будет неприлично дешёв, так как и в Plus версии его будет много и недорого.
На фоне лавины бесплатных рассуждающих моделей, - предсказуемо, конечно, но как-то быстро.
#OpenAI
———
@tsingular
А по API, вероятно, он будет неприлично дешёв, так как и в Plus версии его будет много и недорого.
На фоне лавины бесплатных рассуждающих моделей, - предсказуемо, конечно, но как-то быстро.
#OpenAI
———
@tsingular
🔥7
Forwarded from CodeCamp
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI показали своего первого ИИ-агента Operator. Эта штука перевернёт жизнь на «до» и «после»:
— У него свой защищённый браузер в облаке, через который можно совершать действия;
— В случае чего всегда можно перехватить управление;
— Нейросеть не всесильная: капчу и номер кредитки придётся вводить самому😢
— Работает со всеми https-сайтами. Ну, то есть почти со всеми;
— Пока раскатали онли для USA и только для подписчиков за 200$. Всем остальным обещают дать доступ через пару недель.
200$ жалко, жду в Plus-подписке.
— У него свой защищённый браузер в облаке, через который можно совершать действия;
— В случае чего всегда можно перехватить управление;
— Нейросеть не всесильная: капчу и номер кредитки придётся вводить самому
— Работает со всеми https-сайтами. Ну, то есть почти со всеми;
— Пока раскатали онли для USA и только для подписчиков за 200$. Всем остальным обещают дать доступ через пару недель.
200$ жалко, жду в Plus-подписке.
Please open Telegram to view this post
VIEW IN TELEGRAM
💯4
Вот это сильно.
Все ИИ будут завязаны на крипту, похоже, скоро.
Ждём биткоин по $1млн. через пару лет.
И повсюду цифровые контракты.
Web 3.0 и новая экономика.
#bitcoin #economy
------
@tsingular
Все ИИ будут завязаны на крипту, похоже, скоро.
Ждём биткоин по $1млн. через пару лет.
И повсюду цифровые контракты.
Web 3.0 и новая экономика.
#bitcoin #economy
------
@tsingular
👍9🔥1👾1
Gemini расширяет возможности в области управления умным домом
Google запускает масштабное обновление функционала умного дома в Gemini для глобальной аудитории.
- Gemini теперь понимает естественный язык: достаточно сказать "солнце слишком яркое" и он закроет жалюзи
- Появилась поддержка сложных команд: "включи свет у кресла, но приглуши лампу на кухне"
- Можно управлять устройствами прямо с заблокированного экрана (кроме устройств безопасности)
- Обновился дизайн управления термостатом — теперь как в Google Home
Функции станут доступны в течение нескольких недель.
Как Оператор, только для дома.
#Gemini #SmartHome #GoogleHome
-------
@tsingular
Google запускает масштабное обновление функционала умного дома в Gemini для глобальной аудитории.
- Gemini теперь понимает естественный язык: достаточно сказать "солнце слишком яркое" и он закроет жалюзи
- Появилась поддержка сложных команд: "включи свет у кресла, но приглуши лампу на кухне"
- Можно управлять устройствами прямо с заблокированного экрана (кроме устройств безопасности)
- Обновился дизайн управления термостатом — теперь как в Google Home
Функции станут доступны в течение нескольких недель.
Как Оператор, только для дома.
#Gemini #SmartHome #GoogleHome
-------
@tsingular
👍12
DeepSeek R1 прогнали по тестам и получилось очень круто.
💪 Качество на уровне лидеров рынка
• Идёт практически на равных с OpenAI o1 по качеству ответов
• Поддерживает расширенные возможности рассуждений через специальные теги <thinking>
💰 Комфортное ценообразование
• В 25 раз дешевле, чем OpenAI o1
• Всего $0.55 за миллион токенов на входе и $2.19 на выходе
• Бонус: 70% скидка при повторных запросах через кэширование
⚡️ Впечатляющая производительность
• 71 токен в секунду на выходе
• Скорость сравнима с DeepSeek V3
• Есть нюанс, но он общий для всех моделей с рассуждениями: высокая начальная задержка по сравнению с не-reasoning моделями
Сам сайт с различными сравнениями интересный:
https://artificialanalysis.ai
#DeepSeek #ArtificialAnalysis
———
@tsingular
💪 Качество на уровне лидеров рынка
• Идёт практически на равных с OpenAI o1 по качеству ответов
• Поддерживает расширенные возможности рассуждений через специальные теги <thinking>
💰 Комфортное ценообразование
• В 25 раз дешевле, чем OpenAI o1
• Всего $0.55 за миллион токенов на входе и $2.19 на выходе
• Бонус: 70% скидка при повторных запросах через кэширование
⚡️ Впечатляющая производительность
• 71 токен в секунду на выходе
• Скорость сравнима с DeepSeek V3
• Есть нюанс, но он общий для всех моделей с рассуждениями: высокая начальная задержка по сравнению с не-reasoning моделями
Сам сайт с различными сравнениями интересный:
https://artificialanalysis.ai
#DeepSeek #ArtificialAnalysis
———
@tsingular
🔥5👍3❤2
This media is not supported in your browser
VIEW IN TELEGRAM
Чем ещё занять самую умную модель за $200 в месяц?
Ну, пусть в DOOM поиграет что ли... :)
Люди, как всегда.
Не сразу, но подключился, разобрался и даже поиграл.
#OpenAI #DOOM #Operator
———
@tsingular
Ну, пусть в DOOM поиграет что ли... :)
Люди, как всегда.
Не сразу, но подключился, разобрался и даже поиграл.
#OpenAI #DOOM #Operator
———
@tsingular
🤣5👻4👍1
Forwarded from e/acc
Вот лучший в мире бизнес.
У Rocketable (YC W25) идеальная бизнес модель:
1. Покупаешь любой software бизнес с выручкой как минимум $100k/год
2. Увольняешь всех сотрудников
3. Заменяешь их на ИИ, получаешь сверхчеловеческий перформанс
4. Профит
Если вы не делаете такое, то я не понимаю вообще что вы делаете :)
У Rocketable (YC W25) идеальная бизнес модель:
1. Покупаешь любой software бизнес с выручкой как минимум $100k/год
2. Увольняешь всех сотрудников
3. Заменяешь их на ИИ, получаешь сверхчеловеческий перформанс
4. Профит
Если вы не делаете такое, то я не понимаю вообще что вы делаете :)
🔥8👍3😁1
Невероятщина какая-то на арене.
"Как Deepseek планирует зарабатывать деньги?"
"Материнская компания Deepseek — '幻方量化' (Хуань Фан Лян Хуа) — это квантовая трейдинговая компания, существующая уже много лет. Они нанимают высококвалифицированных математиков и накопили большое количество GPU для торговых операций и майнинга.
Deepseek — их побочный проект для использования свободных мощностей GPU."
"Поскольку мой ответ стал вирусным, добавлю кое-что. Я давно знаю о '幻方量化' (компании высокочастотного трейдинга). Даже в конце 2023 года ходили слухи, что они запускали языковую модель Deepseek LLM как побочный проект на излишках мощностей GPU. Однако в Китае к ним никто не относится особенно серьёзно. Это не пример того, как китайские AI-команды особенно эффективно делают великие вещи при минимальных затратах — такой подход характерен только для Deepseek. Китайские AI-компании на самом деле так же сильно ориентированы на маркетинг и требуют столько же ресурсов, как и их американские конкуренты."
Т.е. ещё раз, - самая мощная ИИ модель мира, - это петпроект высокочастотных трейдеров и майнеров!
Wikipedia
https://www.high-flyer.cn/en/history
Как тебе такое, Илон Маск?! :)
#DeepSeek #HFT
———
@tsingular
"Как Deepseek планирует зарабатывать деньги?"
"Материнская компания Deepseek — '幻方量化' (Хуань Фан Лян Хуа) — это квантовая трейдинговая компания, существующая уже много лет. Они нанимают высококвалифицированных математиков и накопили большое количество GPU для торговых операций и майнинга.
Deepseek — их побочный проект для использования свободных мощностей GPU."
"Поскольку мой ответ стал вирусным, добавлю кое-что. Я давно знаю о '幻方量化' (компании высокочастотного трейдинга). Даже в конце 2023 года ходили слухи, что они запускали языковую модель Deepseek LLM как побочный проект на излишках мощностей GPU. Однако в Китае к ним никто не относится особенно серьёзно. Это не пример того, как китайские AI-команды особенно эффективно делают великие вещи при минимальных затратах — такой подход характерен только для Deepseek. Китайские AI-компании на самом деле так же сильно ориентированы на маркетинг и требуют столько же ресурсов, как и их американские конкуренты."
Т.е. ещё раз, - самая мощная ИИ модель мира, - это петпроект высокочастотных трейдеров и майнеров!
Wikipedia
https://www.high-flyer.cn/en/history
Как тебе такое, Илон Маск?! :)
#DeepSeek #HFT
———
@tsingular
🔥19👍7❤1😁1
🚀 Цукерберг идёт ва-банк: гигантский ИИ-центр и миллионы GPU
Марк Цукерберг выдал анонс про амбициозные планы на 2025 год.
Во-первых, масштаб: дата-центр размером с половину Манхэттена (!) мощностью 2+ ГВт.
- 1.3 миллиона GPU к концу года
- $60-65 млрд инвестиций
- 1 миллиард пользователей их ИИ-ассистента
Особенно интригует заявление про ИИ-инженера, который будет сам писать код для их R&D.
Похоже, Марк решил не просто догнать OpenAI и Anthropic, а перепрыгнуть их одним махом.
Забавно, что ещё год назад все говорили про "метавселенную" (не прокатило, не взлетело :) ), а теперь Цукерберг полностью переключился на ИИ.
Ну и про Llama 4 заявление смелое - назвать её заранее "ведущей" моделью года...
Хотя, с такими инвестициями, может, и правда что-то революционное готовят?
Но ведь для этого им придётся перегнать уже открытую DeepSeekR1, которая уже в открытом доступе... 🤔
В общем будет весело.🍿
#Zuckerberg #Meta - запрещённая в РФ организация.
———
@tsingular
Марк Цукерберг выдал анонс про амбициозные планы на 2025 год.
Во-первых, масштаб: дата-центр размером с половину Манхэттена (!) мощностью 2+ ГВт.
- 1.3 миллиона GPU к концу года
- $60-65 млрд инвестиций
- 1 миллиард пользователей их ИИ-ассистента
Особенно интригует заявление про ИИ-инженера, который будет сам писать код для их R&D.
Похоже, Марк решил не просто догнать OpenAI и Anthropic, а перепрыгнуть их одним махом.
Забавно, что ещё год назад все говорили про "метавселенную" (не прокатило, не взлетело :) ), а теперь Цукерберг полностью переключился на ИИ.
Ну и про Llama 4 заявление смелое - назвать её заранее "ведущей" моделью года...
Хотя, с такими инвестициями, может, и правда что-то революционное готовят?
Но ведь для этого им придётся перегнать уже открытую DeepSeekR1, которая уже в открытом доступе... 🤔
В общем будет весело.🍿
#Zuckerberg #Meta - запрещённая в РФ организация.
———
@tsingular
👍12
Forwarded from Machinelearning
Материнская компания Tik-Tok, ByteDance, выпустила Doubao-1.5-pro.:
🔸На бенчмарках с GPT-4o они идут рука об руку
🔸Экономичная цена:
- 0,022 доллара за миллион кэшированных токенов
- 0,11 доллара за миллион токенов
- 0,275 доллара за миллион выходных токенов
🔸Преимущество в стоимости:
- в 5 раз дешевле, чем DeepSeek
- Более чем в 200 раз доступнее, чем OpenAI o1
🔸Особенности:
- контекстное окно размером 32k + 256k
✅Архитектура: Для повышения эффективности используется MoE
✅ Влияние на рынок: Этот шаг является частью широкой китайской инициативы в области искусственного интеллекта от ByteDance и DeepSeek для доминировали на ИИ рынке
https://team.doubao.com/zh/special/doubao_1_5_pro
#Doubao #llm #ml #ai #release
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍1
🚀HuggingFace выпустил Open-R1: клон DeepSeek-R1 под свободной лицензией
Команда HuggingFace представила полностью открытую репродукцию модели DeepSeek-R1.
Начали бодро - уже 192 звезды, 11 контрибьюторов и 10 форков!
Взяли paper DeepSeek-R1 за основу и воспроизвели пошагово.
Так же выложили код и инструкции, как на базе этого дистиллята разогнать Qwen 2.5!!! :)
Стандартная конфигурация требует 8 GPU NVIDIA H100.
Теперь каждый может собрать своего DeepSeek R1, если найдет восемь H100. И я даже догадываюсь у кого они есть.
Ждем на следующей неделе GigaChat R1, Yandex R1, MTS R1, Tbank R1... кто там ещё потянет ? :)
Кстати, для справки, 8GPU за $22 в час можно взять например тут:
https://datacrunch.io
В immerse.cloud в РФ 8хH100 стоят примерно $37 в час, для сравнения
#HuggingFace #DeepSeek #OpenSource #R1
———
@tsingular
Команда HuggingFace представила полностью открытую репродукцию модели DeepSeek-R1.
Начали бодро - уже 192 звезды, 11 контрибьюторов и 10 форков!
Взяли paper DeepSeek-R1 за основу и воспроизвели пошагово.
Так же выложили код и инструкции, как на базе этого дистиллята разогнать Qwen 2.5!!! :)
Стандартная конфигурация требует 8 GPU NVIDIA H100.
Теперь каждый может собрать своего DeepSeek R1, если найдет восемь H100. И я даже догадываюсь у кого они есть.
Ждем на следующей неделе GigaChat R1, Yandex R1, MTS R1, Tbank R1... кто там ещё потянет ? :)
Кстати, для справки, 8GPU за $22 в час можно взять например тут:
https://datacrunch.io
В immerse.cloud в РФ 8хH100 стоят примерно $37 в час, для сравнения
#HuggingFace #DeepSeek #OpenSource #R1
———
@tsingular
🔥11🤣3💯2