Технозаметки Малышева

Вот почему я не люблю вешать ИИ приложения на облачные сервисы :)

Одна ошибка, - и ты ошибся.

Разработчица, при среднем счёте в $50 в месяц, однажды утром увидела счёт за сутки на $70К и теперь Гугл грозит ей коллекторами.

Недавно у меня бот за ночь так на $100 накрутил тоже из-за ошибки.

Так что все эти guardrails - не шутки. Окружайте среду вызовов проверками и промежуточными лимитами по вызовам.

#cloud #fails
———
@tsingular

👍10😭5✍2😍1🤨1

1.19K viewsedited 08:11

Технозаметки Малышева

Неразрешенный инцидент: повышенный коэффициент ошибок для ChatGPT и API.

https://status.openai.com/

Запустили Operator :)

#openai
------
@tsingular

😁6👍1

994 views12:13

Технозаметки Малышева

Forwarded from эйай ньюз

Последний экзамен человечества

Новый бенчмарк, на котором все наилучшие LLM набирают меньше 10%. Собирали его всем миром - была открыта форма, где принимались вопросы, если на вопросе фейлились основные передовые LLM - его давали на обсуждение панели экспертов, которая которая отсеивала неподходящие вопросы и модифицировала прошедшие ценз вопросы. Всего LLM не прошли 13000 вопросов, из которых выбрали 3000, на более чем сотню разных тем. Авторы топ 50 лучших вопросов получили $5000, за следующие 500 вопросов уже платили $500, что тоже солидно.

На бенче лидируют o1 и R1, причём кто лучше тут сказать сложно. 10% бенчмарка - мультимодальные вопросы, R1 в изображения не умеет, поэтому её тестили лишь на текстовой части, где она обогнала всех (так что то что она на уровне o1 - не байт). А на полном бенче всех обгоняет o1. Что интересно - у всех моделей, кроме Grok 2, при переходе на текстовую часть бенчмарка, слегка падает точность, но результаты моделей пока что слишком плохие чтобы делать из этого какие-то выводы.

Кроме качества ответов, бенч тестит ещё и самооценку - вместе с самим ответом, модель просят выдать и её уверенность в этом ответе. Это позволяет понять, насколько хорошо модель может оценить свои собственные возможности. У хорошо откалиброванной модели результаты на бенчмарке и среднеквадратичная уверенность должны быть довольно близко. На этой части, с заметным отрывом, лидирует та же R1, но всё равно Calibration Error у неё за 80%. Надеюсь, из-за этого бенча, заоблачную самооценку современных LLM немного поумерят.

Название, конечно, слишком пафосное и далеко не факт что насыщение этого бенчмарка означает что модель - это AGI. Бенч ведь публичный, а это означает что он явно будет потихоньку протекать в претрейн. Жаль что не оставили приватный сабсет вопросов, на котором можно тестить оверфит моделей на бенче. Но новые, ненасыщенные бенчмарки сейчас на вес золота, создавать их крайне сложно, так что грех жаловаться. Авторы ожидают что до конца года новые модели могут выдать более 50% точность на этом бенче, посмотрим как на нём себя покажет o3.

Пейпер
Бенчмарк
Сайт проекта

@ai_newz

👍6🆒2

1.06K views15:46

Технозаметки Малышева

o3-mini будет доступен в бесплатном вебе.

А по API, вероятно, он будет неприлично дешёв, так как и в Plus версии его будет много и недорого.

На фоне лавины бесплатных рассуждающих моделей, - предсказуемо, конечно, но как-то быстро.

#OpenAI
———
@tsingular

🔥7

1.01K viewsedited 17:41

Технозаметки Малышева

Forwarded from CodeCamp

1:29

This media is not supported in your browser

VIEW IN TELEGRAM

OpenAI показали своего первого ИИ-агента Operator. Эта штука перевернёт жизнь на «до» и «после»:

— У него свой защищённый браузер в облаке, через который можно совершать действия;

— В случае чего всегда можно перехватить управление;

— Нейросеть не всесильная: капчу и номер кредитки придётся вводить самому 😢

— Работает со всеми https-сайтами. Ну, то есть почти со всеми;

— Пока раскатали онли для USA и только для подписчиков за 200$. Всем остальным обещают дать доступ через пару недель.

200$ жалко, жду в Plus-подписке.

Please open Telegram to view this post

VIEW IN TELEGRAM

💯4

1.01K views18:49

Технозаметки Малышева

Вот это сильно.

Все ИИ будут завязаны на крипту, похоже, скоро.

Ждём биткоин по $1млн. через пару лет.
И повсюду цифровые контракты.

Web 3.0 и новая экономика.

#bitcoin #economy
------
@tsingular

👍9🔥1👾1

1.09K viewsedited 21:03

Технозаметки Малышева

Gemini расширяет возможности в области управления умным домом

Google запускает масштабное обновление функционала умного дома в Gemini для глобальной аудитории.

- Gemini теперь понимает естественный язык: достаточно сказать "солнце слишком яркое" и он закроет жалюзи

- Появилась поддержка сложных команд: "включи свет у кресла, но приглуши лампу на кухне"

- Можно управлять устройствами прямо с заблокированного экрана (кроме устройств безопасности)

- Обновился дизайн управления термостатом — теперь как в Google Home

Функции станут доступны в течение нескольких недель.

Как Оператор, только для дома.

#Gemini #SmartHome #GoogleHome
-------
@tsingular

👍12

1.02K viewsedited 06:54

Технозаметки Малышева

DeepSeek R1 прогнали по тестам и получилось очень круто.

💪 Качество на уровне лидеров рынка
• Идёт практически на равных с OpenAI o1 по качеству ответов
• Поддерживает расширенные возможности рассуждений через специальные теги <thinking>

💰 Комфортное ценообразование
• В 25 раз дешевле, чем OpenAI o1
• Всего $0.55 за миллион токенов на входе и $2.19 на выходе
• Бонус: 70% скидка при повторных запросах через кэширование

⚡️ Впечатляющая производительность
• 71 токен в секунду на выходе
• Скорость сравнима с DeepSeek V3
• Есть нюанс, но он общий для всех моделей с рассуждениями: высокая начальная задержка по сравнению с не-reasoning моделями

Сам сайт с различными сравнениями интересный:
https://artificialanalysis.ai

#DeepSeek #ArtificialAnalysis
———
@tsingular

🔥5👍3❤2

1.07K views07:23

Технозаметки Малышева

This media is not supported in your browser

VIEW IN TELEGRAM

Чем ещё занять самую умную модель за $200 в месяц?

Ну, пусть в DOOM поиграет что ли... :)

Люди, как всегда.

Не сразу, но подключился, разобрался и даже поиграл.

#OpenAI #DOOM #Operator
———
@tsingular

🤣5👻4👍1

4.36K views10:01

Технозаметки Малышева

Forwarded from e/acc

Вот лучший в мире бизнес.

У Rocketable (YC W25) идеальная бизнес модель:
1. Покупаешь любой software бизнес с выручкой как минимум $100k/год
2. Увольняешь всех сотрудников
3. Заменяешь их на ИИ, получаешь сверхчеловеческий перформанс
4. Профит

Если вы не делаете такое, то я не понимаю вообще что вы делаете :)

🔥8👍3😁1

1.07K views11:16

Технозаметки Малышева

Невероятщина какая-то на арене.

"Как Deepseek планирует зарабатывать деньги?"

"Материнская компания Deepseek — '幻方量化' (Хуань Фан Лян Хуа) — это квантовая трейдинговая компания, существующая уже много лет. Они нанимают высококвалифицированных математиков и накопили большое количество GPU для торговых операций и майнинга.
Deepseek — их побочный проект для использования свободных мощностей GPU."

"Поскольку мой ответ стал вирусным, добавлю кое-что. Я давно знаю о '幻方量化' (компании высокочастотного трейдинга). Даже в конце 2023 года ходили слухи, что они запускали языковую модель Deepseek LLM как побочный проект на излишках мощностей GPU. Однако в Китае к ним никто не относится особенно серьёзно. Это не пример того, как китайские AI-команды особенно эффективно делают великие вещи при минимальных затратах — такой подход характерен только для Deepseek. Китайские AI-компании на самом деле так же сильно ориентированы на маркетинг и требуют столько же ресурсов, как и их американские конкуренты."

Т.е. ещё раз, - самая мощная ИИ модель мира, - это петпроект высокочастотных трейдеров и майнеров!

Wikipedia

https://www.high-flyer.cn/en/history

Как тебе такое, Илон Маск?! :)

#DeepSeek #HFT
———
@tsingular

🔥19👍7❤1😁1

1.47K viewsedited 14:57

Технозаметки Малышева

🚀 Цукерберг идёт ва-банк: гигантский ИИ-центр и миллионы GPU

Марк Цукерберг выдал анонс про амбициозные планы на 2025 год.

Во-первых, масштаб: дата-центр размером с половину Манхэттена (!) мощностью 2+ ГВт.

- 1.3 миллиона GPU к концу года
- $60-65 млрд инвестиций
- 1 миллиард пользователей их ИИ-ассистента

Особенно интригует заявление про ИИ-инженера, который будет сам писать код для их R&D.
Похоже, Марк решил не просто догнать OpenAI и Anthropic, а перепрыгнуть их одним махом.

Забавно, что ещё год назад все говорили про "метавселенную" (не прокатило, не взлетело :) ), а теперь Цукерберг полностью переключился на ИИ.

Ну и про Llama 4 заявление смелое - назвать её заранее "ведущей" моделью года...
Хотя, с такими инвестициями, может, и правда что-то революционное готовят?
Но ведь для этого им придётся перегнать уже открытую DeepSeekR1, которая уже в открытом доступе... 🤔

В общем будет весело.🍿

#Zuckerberg #Meta - запрещённая в РФ организация.
———
@tsingular

👍12

4.85K views18:57

Технозаметки Малышева

Forwarded from Machinelearning

⚡️

Китай продолжает выпускать новые МОЩНЫЕ и ДЕШЕВЫЕ модели искусственного интеллекта!

Материнская компания Tik-Tok, ByteDance, выпустила Doubao-1.5-pro.:
🔸На бенчмарках с GPT-4o они идут рука об руку
🔸Экономичная цена:
- 0,022 доллара за миллион кэшированных токенов
- 0,11 доллара за миллион токенов
- 0,275 доллара за миллион выходных токенов
🔸Преимущество в стоимости:
- в 5 раз дешевле, чем DeepSeek
- Более чем в 200 раз доступнее, чем OpenAI o1
🔸Особенности:
- контекстное окно размером 32k + 256k
✅Архитектура: Для повышения эффективности используется MoE
✅ Влияние на рынок: Этот шаг является частью широкой китайской инициативы в области искусственного интеллекта от ByteDance и DeepSeek для доминировали на ИИ рынке

https://team.doubao.com/zh/special/doubao_1_5_pro

#Doubao #llm #ml #ai #release

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7👍1

1.04K views10:06

Технозаметки Малышева

🚀HuggingFace выпустил Open-R1: клон DeepSeek-R1 под свободной лицензией

Команда HuggingFace представила полностью открытую репродукцию модели DeepSeek-R1.
Начали бодро - уже 192 звезды, 11 контрибьюторов и 10 форков!

Взяли paper DeepSeek-R1 за основу и воспроизвели пошагово.

Так же выложили код и инструкции, как на базе этого дистиллята разогнать Qwen 2.5!!! :)

Стандартная конфигурация требует 8 GPU NVIDIA H100.

Теперь каждый может собрать своего DeepSeek R1, если найдет восемь H100. И я даже догадываюсь у кого они есть.

Ждем на следующей неделе GigaChat R1, Yandex R1, MTS R1, Tbank R1... кто там ещё потянет ? :)

Кстати, для справки, 8GPU за $22 в час можно взять например тут:
https://datacrunch.io
В immerse.cloud в РФ 8хH100 стоят примерно $37 в час, для сравнения

#HuggingFace #DeepSeek #OpenSource #R1
———
@tsingular

🔥11🤣3💯2

1.3K views14:34

About

Blog

Apps

Platform