Заметки LLM-энтузиаста
516 subscribers
143 photos
17 videos
1 file
174 links
Дмитрий Жечков @djdim
архитектор в Yandex Cloud,
ex. VMware NSX specialist, ex. Cisco SE

Здесь пишу свои заметки по LLM (большим языковым моделям) и AI-разработке.

Это личное мнение и не отражает официальную позицию компании, в которой я работаю.
Download Telegram
DeepSeek-R1-0528: новая модель с открытым исходным кодом 🤖

Компания DeepSeek выпустила обновленную версию своей модели R1-0528, которая теперь доступна с открытым исходным кодом на платформе HuggingFace.

Основные характеристики модели:

• Выполняет глубокий анализ и генерацию текста
• Обладает естественным стилем рассуждений
• Поддерживает длительную обработку задач
• Может работать над одной задачей до 30-60 минут
• Основана на DeepSeek-V3-0324 с 660B параметрами

Результаты тестирования 📊

На бенчмарке LiveCodeBench новая модель показала результаты:

1️⃣ Сопоставимые с o3-mini (High) и o4-mini (Medium) 2️⃣ Превосходящие Gemini 2.5 Pro 3️⃣ Значительное улучшение способностей к программированию

Модель представляет собой заметный шаг вперед для open-source решений в области ИИ. Веса модели уже доступны для загрузки, хотя описание на HuggingFace пока не обновлено.
Модель уже можно использовать в AI-кодерах Roo Code/Cline, например, через https://www.requesty.ai/ (на openrouter пока нет)

🔗 Ссылка: https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main

#deepseek #opensource #ai #llm #reasoning
2👍2