Заметки LLM-энтузиаста
518 subscribers
144 photos
17 videos
1 file
175 links
Дмитрий Жечков @djdim
архитектор в Yandex Cloud,
ex. VMware NSX specialist, ex. Cisco SE

Здесь пишу свои заметки по LLM (большим языковым моделям) и AI-разработке.

Это личное мнение и не отражает официальную позицию компании, в которой я работаю.
Download Telegram
#news #vercel #agents #operator #free

Бесплатный Open Operator от Vercel - теперь не надо платить $200 в месяц за данную функциональность, как это предлагает нам сделать Openai :)

https://open-operator.vercel.app

Vercel только что выпустила Open Operator, и я его протестировал
Основные функции:
- Поддержка web scraping
- Поддержка автоматической публикации задач
- Поддержка самостоятельного управления браузером, в котором происходит поиск
🎉3👍1🔥1
#info #nvda

Шикарный лонг-рид про то:
- Почему NVIDIA стоит таких денег, их ключевые преимущества
- Новые угрозы, основанные на последних разработках, особенно на развитии моделей рассуждений с новым законом масштабирования (deepseek как пример);

TLDR - Deepseek показал, что аппаратных ресурсов для инференса и обучения моделей нужно меньше, появляются новые разработки в области "железа" такие как гигантские чипы Cerebras, разработка tpu-процессоров google и groq, улучшенные драйверы для AMD от команды Джорджа Хотца

В общем, интересный short case для NVDA
Судя по пре-маркету, котировки NVDA сегодня откроются мощным гэп-дауном
👍3🤔1
Newwhitepaper_Agents2.pdf
4.1 MB
#info #ai #agents #google #whitepaper

Google недавно опубликовали отличный обзорный материал по ИИ-агентам (см. вложенный файл).

ИИ-агенты принципиально отличаются от стандартных языковых моделей по трем ключевым параметрам:

1) Они комбинируют возможности больших языковых моделей с инструментами реального мира и уровнем оркестрации, который управляет сложными рассуждениями. Это позволяет им как обрабатывать информацию, так и выполнять какие-то полезные действия.

2) В отличие от традиционных моделей, которые могут ссылаться только на данные, на которых их обучали, агенты могут получать доступ к новой актуальной информации через:

- Расширения: Прямые соединения с внешними API
- Функции: Возможности выполнения кода/алгоритмов на стороне клиента
- Хранилища данных: Доступ к базам данных и внешним знаниям

3) Они используют сложные алгоритмы рассуждений (например, ReAct и Chain-of-Thought) для планирования и выполнения многоэтапных задач, подобно тому, как повар планирует и корректирует процесс приготовления сложного блюда.

В документе подчеркивается важное техническое различие между тем, что выдает модель (model outputs) на выходе и тем, что выдает агент в результате выполнения им поставленной задачи (agent execution). В то время как модель может генерировать ответы только на основе своего обучения, агент может проверять информацию, выполнять вызовы API и взаимодействовать с внешними системами для обеспечения точности и актуальности своих ответов.

Заглядывая в будущее, авторы предполагают, что «цепочка агентов» ("agent chaining") - объединение специализированных агентов для выполнения различных задач - может значительно расширить возможности ИИ.
Однако они также подчеркивают, что создание по-настоящему эффективно работающих полезных агентов требует тщательного итерационного подхода и оптимизации под конкретную область.

В общем, судя по всему, 2025 год будет годом "вертикальных" ИИ-агентов.
2👍1
#deepseek #cursor #news

Что произошло?
Модели deepseek-v3 (аналог claude-3-5-sonnet) и deepseek-r1 (аналог o1) стали доступны в Cursor нативно, а не только через добавление их как openai-like моделей по инструкции от конца прошлого года.

Как включить и пользоваться?
Нужно просто включить их в разделе Settings - см. скриншот
И далее можно использовать даже в Cursor-агенте через Composer

Что круто?
- Cursor подтвердили, что используют самую большую Deepseek R1 модель
DeepSeek R1 model with 671B parameters. пруф здесь

Что не круто?
- Cursor агент пока не поддерживает работу с моделями deepseek-r1 и deepseek-v3
При работе со сложными проектами лучше всего использовать Сursor агент в Composer.
С Deepseek эта опция, к сожалению, пока не доступна. Придется использовать claude-3-5-sonnet модель от anthropic как обычно.
- deepseek-v3 не работает с изображениями, поэтому при траблшутинге, когда надо сослаться на скрин веб-интерфейса как и ранее продолжаем использовать claude-3-5-sonnet модель от anthropic

На что надо обратить внимание?
- deepseek-v3 - не будет "съедать" лимиты по премиальным запросам, т.к. считается не премиальной моделью
- А вот deepseek-r1 считается премиальной моделью, поэтому нужно следить за количеством премиальных запросов (на Pro-тарифе их 500). Но следить не так сильно как за количеством запросов к o1- модели (которых на Pro-тарифе всего 10)

Вот цитата с форума Cursor, подтверждающая данный тезис:
DeepSeek v3 is a non-premium model, so is unlimited to use, but R1 is premium currently, so will count towards your usage.

Ссылка на тарифы и условия здесь
🔥21🎉1
#qwenchat #free

Коллеги, хочу поделиться отличным инструментом
https://chat.qwenlm.ai

По сути аналог chatgpt pro, только бесплатный.

Можно не только для работы с текстом использовать, но и работать с кодом, генерировать изображения и короткие видео ролики.

В общем, кажется, что сейчас американские модели за деньги по сути нафиг не нужны :)
Если не согласны - напишите свои мысли в комментариях.

P.S. Кстати, там же по ссылке уже доступна модель qwen 2.5 max (см. скриншот) которая по некоторым параметрам уже превосходит deepseek-r1 (которая "побила" openai o1)

https://qwenlm.github.io/blog/qwen2.5-1m/
Вот технический отчет по модели (от 27 января 2025)
https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdf
🔥421
Заметки LLM-энтузиаста
#deepseek #cursor #news Что произошло? Модели deepseek-v3 (аналог claude-3-5-sonnet) и deepseek-r1 (аналог o1) стали доступны в Cursor нативно, а не только через добавление их как openai-like моделей по инструкции от конца прошлого года. Как включить и пользоваться?…
по результатом сегодняшнего занятия на курсе Сursor. AI-программирование с нуля дополнил информацию разделом

Что не круто?
- Cursor агент пока не поддерживает работу с моделями deepseek-r1 и deepseek-v3
При работе со сложными проектами лучше всего использовать Сursor агент в Composer.
С Deepseek эта опция, к сожалению, пока не доступна. Придется использовать claude-3-5-sonnet модель от anthropic как обычно.
- deepseek-v3 не работает с изображениями, поэтому при траблшутинге, когда надо сослаться на скрин веб-интерфейса как и ранее продолжаем использовать claude-3-5-sonnet модель от anthropic
👍421👨‍💻1
#interesting #cursor

Интересный подкаст с Y-Combinator
В нем рассказывается о различных AI-стартапах, в которые недавно инвестировал Y Combinator.

На 26-ой минуте говорят, что большинство стартапов используют Cursor в качестве инструмента для своей разработки.

И более того, на вопрос "как нанять крутого инженера в команду?" советуют спрашивать у кандидатов "используют ли они Cursor или какие-то другие AI-инструменты для генерации кода?", если ответ "нет", то такой кандидат далее не рассматривается.
👍2🔥2🤔1
#news #openai #o3mini

OpenAI только что дали доступ к своей новой модели o3-mini (доступна и в playground, и по api)

Документация здесь и подробное описание функций тут

Из интересного:

- поддержка Structured Outputs, function calling, Batch API, streaming и поиска в Интернете - все что надо, чтобы делать production-ready агентов на базе этой модели.

- специфичный промптинг
- Keep prompts simple and direct: The models excel at understanding and responding to brief, clear instructions.
- Avoid chain-of-thought prompts: Since these models perform reasoning internally, prompting them to "think step by step" or "explain your reasoning" is unnecessary.

В общем, чем меньше деталей при постановке задачи, тем для данной модели лучше. Можно сфокусироваться на сути проблемы. А о деталях она позаботиться сама (это свойственно всем reasoning моделям).
Подробнее с примерами здесь.

- очень хороша в написании кода
И уже поддерживается и в Windsurf, и в Cursor (причем в режиме Composer агента - то что надо для большинства проектов).

Недостаток: o3-mini does not support vision capabilities, so developers should continue using OpenAI o1 for visual reasoning tasks.
В общем, при работе с кодом нельзя будет использовать скрины ошибок, веб-интерфейса или блок-схем алгоритмов. Для этого продолжаем использовать claude-3-5-sonnet или если нужен reasoning, то модель o1

Цена: модель на 93% дешевле, чем модель o1 и это здорово, но, конечно, не так круто, как у китайских моделей.

Deepseek-R1 стоит в 2 раза дешевле, но имеет почти в 2 раза меньшее контекстное окно и судя по тестам качество его генерации уступает o3-mini. Поэтому здесь, думаю, можно считать, что openai наконец-то перестали завышать цены.

Также o3-mini получается примерно в 3 раза дешевле Claude-35-sonnet
Жаль не работает с изображениями, а так стал бы пользоваться только ей в реальных проектах.

Скорее всего теперь очередь за Anthropic снижать цены на свои модели :)
👍1🔥1🎉1
#openai #o3mini #coding

Как видно, o3-mini пишет код лучше, чем o1 и тем более чем o1-mini
Источник здесь
👍2💯1
#news #windsurf #deepseek #cascade

Windsurf добавили в Cascade режиме поддержку deepseek-R1 модели
И это не просто "название модели в списке" - это работает!

В отличие от Cursor, где названия моделей есть в списке Composer Agent, но при попытке запустить выдается ошибка Unsupported Model (чуть выше писал об этом)

По этому параметру Windsurf вырвался вперед и обогнал Cursor

Теперь можно использовать очень дешевую и классную reasoning модель при написании софта.
🔥2🎉2
приложение было написано сразу верно!

Как оно работает:
- пользователь задает вопрос
- если похожего вопроса в базе данных нет, то пользователя просят ввести правильный ответ
- если похожие вопросы найдены в базе денных, то их список выводится на экран и пользователь может выбрать какой из вопросов ближе подходит к тому, что он задал
- после этого пользователю демонстрируется ответ на заданный вопрос

это приложение из prompt-book по coding-planning для openai-o3-mini
👍21🔥1
#deepseek #howtotest

Себе на заметку, чтоб не забыть.

Где протестировать deepseek?

1) https://chat.deepseek.com/ - в режиме чата, бесплатно, но иногда в связи с большим наплывом желающих тормозит
2) https://platform.deepseek.com/ - через API, но сейчас недоступен
3) Groq Cloud - DeepSeek R1 в платном режиме (чат и API)
4) Together.ai - Deepseek-R1 и Deepseek-v3 в платном режиме (чат и API)
5) Hyperbolic AI - Deepseek-R1 и Deepseek-v3 в платном режиме (чат и API)
6) Replicate - в платном режиме Deepseek-R1 (чат и API)
7) Huggingface - Deepseek-R1 и Deepseek-v3 в платном режиме (надо разворачивать отдельно и при разворачивании выбирается доступный провайдер для модели из списка)
8) Openrouter - Deepseek-R1 и Deepseek-v3 в платном режиме (чат и API)
9) Github models - Deepseek-R1 бесплатный режим (чат и API)

10) В любом коммерческом AI Code IDE (Cursor, Windsurf) модели Deepseek-v3 и Deepseek-R1 входят в подписку и могут быть доступны в бесплатной версии.
В бесплатных AI Code IDE нужно разворачивать Deepseek модели отдельно (см. пункты 1-9 выше) и вводить API-ключ.

Если какую-то опцию забыл, напишите, пожалуйста, в комментариях!
1🤝21👍1🔥1
#openai #deepresearch #news

Openai запустили новый инструмент deep research, который позволяет при ответе на вопрос:
- собрать всю недостающую информацию от пользователя
- произвести пошаговый поиск ответа в Интернете
(оригинальный видео-анонс здесь, подробное текстовое описание тут)

Под "капотом" deep research использует дообученную модель o3 reasoning (еще не была выпущена), которая по новому и достаточно сложному для LLM-моделей бенчмарку "Humanity Last Exam" превосходит o3-mini более чем в 2 раза!

По бенчмарку "GAIA", который оценивает "агентные" способности модели, deep research на всех уровнях сложности обновил высокие оценки других моделей

Что интересно:
- модель мультимодальная (работает и с текстом, и с изображениями)
- чем дольше модель думает, тем качественнее ответ
- она все еще может давать вместо правильных ответов галлюцинации, поэтому рекомендуется проверять ответ по ссылкам на источники

В моем личном кабинете доступа к этой полезной функции все еще нет, возможно, что еще не на все страны открыли доступ.
А хотя вот, нашел почему:
We are starting with a version optimized for Pro users today, with up to 100 queries per month. Plus and Team users will get access next, followed by Enterprise. We are still working on bringing access to users in the United Kingdom, Switzerland, and the European Economic Area. 

У меня обычная Plus подписка за $20 в месяц.
Deep Research пока что только для Pro пользователей, которые платят $200 в месяц (с ограничением 100 запросов в месяц)
3👍1
#cursor #project #rules

Что случилось?
В версии Cursor 0.4.5 появилась одна интересная функциональность Project Rules
Теперь не обязательно при обращении к Cursor каждый раз ссылаться через @ на предварительно написанные специфичные правила (в notebook/md-файлах).

Cursor может в зависимости от фолдера/файла, с которым работает при решении поставленной вами задачи, автоматически взять дополнительный контекст из нужных rules-файлов. Что очень круто!

Можно сказать, что Cursor предоставляет гибкую систему правил (rules) с настройками для конкретных папок.
Правила проекта хранятся в директории .cursor/rules и управляют поведением "AI-программиста" в различных частях вашего проекта.

Ключевые особенности:
- Семантические описания: Правила могут внутри себя иметь пояснения, когда они применяются.
- Выбор файлов/папок: для выбора области действия правил (файлов/папок) можно использовать regexp-шаблоны.
- Автоматическое прикрепление: Правила автоматически включаются при использовании соответствующих файлов.
- Folder-specific: Можно применять разные правила (rules) к разным частям проекта.

Ниже пример использования Project Rules в проекте, который использует Next.js и Python (FastAPI):

- `.cursor/rules/`
- `nextjs-pages.mdc`
- `nextjs-components.mdc`
- `nextjs-api.mdc`
- `fastapi-routes.mdc`
- `fastapi-models.mdc`
- `fastapi-schemas.mdc`
- `testing.mdc`
- `documentation.mdc`


# .cursor/rules/fastapi.mdc
Description: FastAPI route rules Globs: backend/**/*.py
# Routing Standards
- Use Pydantic models
- Add appropriate OpenAPI documentation
- Use dependency injection

Frontend Rules (Next.js):
Next.js Pages: Use functional components, PascalCase for component names, TypeScript types, and place pages in app/ or pages/.
React Components: Use React Hooks, define Props types, follow component reuse, and use styled-components or tailwind for styling.
Next.js API: Follow RESTful principles, standardize error handling, validate requests, and use uniform API response formats.
Backend Rules (FastAPI):
FastAPI Routes: Use Pydantic models, version routes, add OpenAPI docs, and use dependency injection.
Data Models: Use SQLAlchemy models, define table relationships, include field validation, and document methods.
Pydantic Schemas: Use BaseModel, define request/response models, add field validation, and include example data.
Common Rules:
Testing: Use Jest for frontend, Pytest for backend, maintain coverage, and follow unit test naming conventions.


Польза от использования Project Rules:
- Одинаковый стиль написания кода
- Учет best practices по написанию кода
- Улучшенное качество кода за счет специфичности промптов
- Более быстрая разработка
1👍1🔥1