Заметки LLM-энтузиаста
521 subscribers
145 photos
17 videos
1 file
176 links
Дмитрий Жечков @djdim
архитектор в Yandex Cloud,
ex. VMware NSX specialist, ex. Cisco SE

Здесь пишу свои заметки по LLM (большим языковым моделям) и AI-разработке.

Это личное мнение и не отражает официальную позицию компании, в которой я работаю.
Download Telegram
#deepseek #cursor #news

Что произошло?
Модели deepseek-v3 (аналог claude-3-5-sonnet) и deepseek-r1 (аналог o1) стали доступны в Cursor нативно, а не только через добавление их как openai-like моделей по инструкции от конца прошлого года.

Как включить и пользоваться?
Нужно просто включить их в разделе Settings - см. скриншот
И далее можно использовать даже в Cursor-агенте через Composer

Что круто?
- Cursor подтвердили, что используют самую большую Deepseek R1 модель
DeepSeek R1 model with 671B parameters. пруф здесь

Что не круто?
- Cursor агент пока не поддерживает работу с моделями deepseek-r1 и deepseek-v3
При работе со сложными проектами лучше всего использовать Сursor агент в Composer.
С Deepseek эта опция, к сожалению, пока не доступна. Придется использовать claude-3-5-sonnet модель от anthropic как обычно.
- deepseek-v3 не работает с изображениями, поэтому при траблшутинге, когда надо сослаться на скрин веб-интерфейса как и ранее продолжаем использовать claude-3-5-sonnet модель от anthropic

На что надо обратить внимание?
- deepseek-v3 - не будет "съедать" лимиты по премиальным запросам, т.к. считается не премиальной моделью
- А вот deepseek-r1 считается премиальной моделью, поэтому нужно следить за количеством премиальных запросов (на Pro-тарифе их 500). Но следить не так сильно как за количеством запросов к o1- модели (которых на Pro-тарифе всего 10)

Вот цитата с форума Cursor, подтверждающая данный тезис:
DeepSeek v3 is a non-premium model, so is unlimited to use, but R1 is premium currently, so will count towards your usage.

Ссылка на тарифы и условия здесь
🔥21🎉1
#news #windsurf #deepseek #cascade

Windsurf добавили в Cascade режиме поддержку deepseek-R1 модели
И это не просто "название модели в списке" - это работает!

В отличие от Cursor, где названия моделей есть в списке Composer Agent, но при попытке запустить выдается ошибка Unsupported Model (чуть выше писал об этом)

По этому параметру Windsurf вырвался вперед и обогнал Cursor

Теперь можно использовать очень дешевую и классную reasoning модель при написании софта.
🔥2🎉2
#deepseek #howtotest

Себе на заметку, чтоб не забыть.

Где протестировать deepseek?

1) https://chat.deepseek.com/ - в режиме чата, бесплатно, но иногда в связи с большим наплывом желающих тормозит
2) https://platform.deepseek.com/ - через API, но сейчас недоступен
3) Groq Cloud - DeepSeek R1 в платном режиме (чат и API)
4) Together.ai - Deepseek-R1 и Deepseek-v3 в платном режиме (чат и API)
5) Hyperbolic AI - Deepseek-R1 и Deepseek-v3 в платном режиме (чат и API)
6) Replicate - в платном режиме Deepseek-R1 (чат и API)
7) Huggingface - Deepseek-R1 и Deepseek-v3 в платном режиме (надо разворачивать отдельно и при разворачивании выбирается доступный провайдер для модели из списка)
8) Openrouter - Deepseek-R1 и Deepseek-v3 в платном режиме (чат и API)
9) Github models - Deepseek-R1 бесплатный режим (чат и API)

10) В любом коммерческом AI Code IDE (Cursor, Windsurf) модели Deepseek-v3 и Deepseek-R1 входят в подписку и могут быть доступны в бесплатной версии.
В бесплатных AI Code IDE нужно разворачивать Deepseek модели отдельно (см. пункты 1-9 выше) и вводить API-ключ.

Если какую-то опцию забыл, напишите, пожалуйста, в комментариях!
1🤝21👍1🔥1
Заметки LLM-энтузиаста
#deepseek #howtotest Себе на заметку, чтоб не забыть. Где протестировать deepseek? 1) https://chat.deepseek.com/ - в режиме чата, бесплатно, но иногда в связи с большим наплывом желающих тормозит 2) https://platform.deepseek.com/ - через API, но сейчас…
#deepseek #howtotest #nvdia

Дополнение к прошлому посту на тему "Где протестировать Deepseek?"

Nvidia запустила DeepSeek-R1 API сервис Enterprise-уровня

Теперь можно получить доступ к preview версии модели DeepSeek-R1 (67.1 миллиардов параметров) на build.nvidia.com
Микросервис DeepSeek-R1 NIM может выдавать до 3 872 токенов в секунду на одной NVIDIA HGX H200.
Я протестировал - кредитная карта и номер телефона не требуются, только регистрация по электронной почте, и можно наслаждаться стабильным и доступным API.

Прямая ссылка: https://build.nvidia.com/deepseek-ai/deepseek-r1
21🎉1
DeepSeek-Prover-V2: новый инструмент для автоматизации математических доказательств

Компания DeepSeek открыла исходный код инструмента для доказательства математических теорем — DeepSeek-Prover-V2.

Что представляет собой новая модель

DeepSeek-Prover-V2 — это специализированная языковая модель, разработанная для автоматического вывода и проверки математических теорем. Модель способна формализовать математические доказательства, что требует высокого уровня логического мышления, абстракции и точности.

Технические особенности

Ключевая особенность Prover-V2 — использование обучения с подкреплением (RL) для математических доказательств. Процесс работы модели включает несколько этапов:

DeepSeek-V3 разбивает сложные проблемы на серию подцелей, формируя структуру доказательства
• Вспомогательная модель формализует доказательство каждой подцели с использованием языка Lean 4
DeepSeek-V3 интегрирует формализованные подцели в полное доказательство

Этот подход позволяет объединить неформальные и формальные математические рассуждения в единой модели.

Результаты тестирования

По данным разработчиков, DeepSeek-Prover-V2 демонстрирует следующие показатели:

• Решает около 90% математических задач из набора miniF2F
• Справляется с 49 из 658 проблем на PutnamBench
• Способна решать задачи уровня AIME (Американская математическая олимпиада)

Доступные версии

Выпущены две версии модели:

DeepSeek-Prover-V2-671B — основана на DeepSeek-V3-Base
DeepSeek-Prover-V2-7B — базируется на DeepSeek-Prover-V1.5-Base с поддержкой контекста до 32K токенов

Обе модели доступны на Hugging Face и GitHub с соответствующей лицензией.

Значение для научного сообщества

Развитие моделей для автоматизации доказательств теорем может иметь значение для математических исследований, образования и решения сложных задач в различных областях науки, где требуется формальная верификация.

#DeepSeek #МатематическиеДоказательства #ИскусственныйИнтеллект
👍3
DeepSeek-R1-0528: новая модель с открытым исходным кодом 🤖

Компания DeepSeek выпустила обновленную версию своей модели R1-0528, которая теперь доступна с открытым исходным кодом на платформе HuggingFace.

Основные характеристики модели:

• Выполняет глубокий анализ и генерацию текста
• Обладает естественным стилем рассуждений
• Поддерживает длительную обработку задач
• Может работать над одной задачей до 30-60 минут
• Основана на DeepSeek-V3-0324 с 660B параметрами

Результаты тестирования 📊

На бенчмарке LiveCodeBench новая модель показала результаты:

1️⃣ Сопоставимые с o3-mini (High) и o4-mini (Medium) 2️⃣ Превосходящие Gemini 2.5 Pro 3️⃣ Значительное улучшение способностей к программированию

Модель представляет собой заметный шаг вперед для open-source решений в области ИИ. Веса модели уже доступны для загрузки, хотя описание на HuggingFace пока не обновлено.
Модель уже можно использовать в AI-кодерах Roo Code/Cline, например, через https://www.requesty.ai/ (на openrouter пока нет)

🔗 Ссылка: https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main

#deepseek #opensource #ai #llm #reasoning
2👍2