Python_BE1
9 subscribers
748 photos
252 videos
7 files
672 links
Канал по Python, полезный и интересный контент для всех уровней.
По вопросам сотрудничества @cyberJohnny
Download Telegram
Arcee: Семейство merdge-моделей от сервиса arcee.ai

Arcee.ai - сервис, основанный в сентябре 2023 года ( Mark McQuade, Jacob Solawetz и Brian Benedict), который предоставляет услуги тренинга LLM для корпоративных клиентов.

Сервисом представлены в открытом доступе 2 новые модели: Arcee-Scribe и Arcee-Nova.

Arcee-Scribe (7.74B) - это универсальная модель чата, ориентированная на рассуждения, решение творческих задач и написание текстов.
Модель представляет собой слияние InternLM-2.5-chat с пользовательской InternLM finetune, включающей как общие, так и специфические для письма данные.

Возможности и примеры использования:

🟢role-play диалоги с подтекстом и сложными эмоциями;
🟢объяснение сложных идей с помощью творческих аналогий;
🟢создание историй с нелинейным повествованием или уникальной перспективой и сложной повествовательной структурой;
🟢решение бизнес-задач: создание контента, описание продукции, коммуникация с потребителями, брейнстрорминг.

Модель набрала 48.5 балла в AGI-Eval, 60.1 в BIG Bench Hard и 69.4 в GPT 4ALL бенчмарках.
Это лучший показатель по сравнению с Llama-3-8B-Instuct по всем тестам и Mistral-7B-Instruct v03 в двух из трех.

Модель представлена в квантованиях (GGUF) от 2Bit (Q2 - 2.78GB) до 32bit (F32 - 31Gb) и
в Transformers

Arcee-Nova (72.7B) - высокопроизводительная мультиязычная модель с широким спектром языковых задач. Nova - это объединение Qwen2-72B-Instruct с собственной моделью, настроенной на смеси обобщенных данных.

Возможности и примеры использования:

🟠решение сложных задач, логические выводы и рассуждения;
🟠создание увлекательного и оригинального текстового контента в различных жанрах;
🟠помощь в решении задач программирования, от создания кода до его отладки;
🟠общее понимание языка, создание человекоподобных текстов в различных контекстах.
🟠решение бизнес-задач: создание контента, разработка программного обеспечения, коммуникация с потребителями, анализ данных и построение отчетов, исследования и гипотезы, анализ документов и проверка соответствия нормативным требованиям, адаптивные системы обучения и интеллектуальные обучающие программы.

Модель показала лучшие результаты (43.68) в совокупности тестов ( IFEval, BBH, MATH Lvl 5, GPQA, MUSR и MMLU-PRO) по сравнению с Qwen2-72B-Instruct, OrcaMini_V7-72B, LLama-3-70B-Instruct-DPO-v2.0 и другими моделями.

Модель представлена в квантованиях (GGUF) от 1Bit (Q1 - 24GB) до 16bit (F32 - 145Gb) и
в Transformers

📌Лицензирование Arcee-Scribe

Для некоммерческих проектов - Apache2.0
Для коммерческого использования: - через подачу заявки у InternLM

📌Лицензирование Arcee-Nova

Для некоммерческих проектов - свободно, тип не определен.
Для коммерческого использования: - симметрично Qwen2-72B

🟡Страница проекта https://www.arcee.ai/
🟡Модели Arcee-Scribe https://huggingface.co/arcee-ai/Arcee-Scribe-GGUFhttps://huggingface.co/arcee-ai/Arcee-Scribe-GGUF
🟡Модели Arcee-Nova https://huggingface.co/arcee-ai/Arcee-Nova-GGUF
🟡Demo Arcee-Nova https://udify.app/chat/s3i0GX51Rwrb4XRm

#AI #LLM #GGUF #ML #ArceeNova #ArceeScribe
@python_be1
http://arcee.ai/
👍1
🌟 PydanticAI: фреймворк для создания AI-агентов на основе Pydantic.

PydanticAI (https://github.com/pydantic/pydantic-ai) - фреймворк для Python, созданный командой разработчиков Pydantic, который упрощает создание приложений с использованием LLM. Фреймворк имеет простой и интуитивно понятный интерфейс для взаимодействия с LLMs, поддерживающими Async OpenAI (Ollama) и openAI API (ChatGPT, Gemini и Groq), с поддержкой Anthropic в ближайшем будущем.

Основная особенность PydanticAI - система внедрения зависимостей, которая передает данные, соединения и логику в целевую модель. Она упрощает тестирование и оценку агентов и позволяет динамически формировать системные промпты и определять инструменты, доступные LLM.

PydanticAI имеет возможность потоковой обработки ответов с валидацией структурированных данных, позволяя контролировать корректность соответствие данных ожидаемому ответу, тем самым повышая эффективность и интерактивность приложений.

Для отладки и мониторинга работы агентов предусмотрена интеграция с Pydantic Logfire (https://pydantic.dev/logfire), с которым можно отслеживать запросы к базам данных, анализировать поведение модели и оценивать производительность.

▶️ В документации к проекту (https://ai.pydantic.dev/) доступны примеры применения PydanticAI в сценариях:

🟢Построение Pydantic-модели на основе текстового ввода (https://ai.pydantic.dev/examples/pydantic-model/);
🟢Погодный агент (https://ai.pydantic.dev/examples/weather-agent/);
🟢Агент поддержки клиентов банка (https://ai.pydantic.dev/examples/bank-support/);
🟢Генерация SQL-запросов на основе пользовательского ввода (https://ai.pydantic.dev/examples/sql-gen/);
🟢RAG-поиск по массиву markdown-документам (https://ai.pydantic.dev/examples/rag/);
🟢Вывод результатов работы агента в терминале (https://ai.pydantic.dev/examples/stream-markdown/);
🟢Пример проверки потокового структурированного ответа на примере информации о видах китов; (https://ai.pydantic.dev/examples/stream-whales/)
🟢Простой чат-приложение (https://ai.pydantic.dev/examples/chat-app/).

⚠️ PydanticAI находится на ранней стадии бета-тестирования.

▶️Установка и простой пример "Hello Word" с Gemini-1.5-flash:

<pre language="python"># Install via  PyPI
pip install pydantic-ai

# Set Gemini API key
export GEMINI_API_KEY=your-api-key

# Run example
from pydantic_ai import Agent
agent = Agent(
'gemini-1.5-flash',
system_prompt='Be concise, reply with one sentence.',
)
result = agent.run_sync('Where does "hello world" come from?')
print(result.data)
"""
The first known use of "hello, world" was in a 1974 textbook about the C programming language.
"""</pre>
📌Лицензирование: MIT License.

🟡Документация (https://ai.pydantic.dev/)
🟡Demo (https://huggingface.co/spaces/freddyaboulton/pydantic-ai)
🖥GitHub (https://github.com/pydantic/pydantic-ai)

@ai_machinelearning_big_data

#AI #ML #LLM #Agents #Framework #PydanticAI
@python_be1
👍1
🌟Вышла новая InternLM v3!

Internal выпустила 3 версию своей маленькой модели и утверждают, что на данный момент это лучшая модель класса 7B.

Интересно, что она “обучена всего на 4 триллионах высококачественных токенов” и имеет режим анализа, включенный с помощью системного проспать. 4

- Производительность уровня SoTA, превосходит на бенчмарках Llama3.1-8B и Qwen2.5-7B
- Способность к глубоким рассуждениям с использованием системных промптов (подробности в карточке модели)
- Обучалась только на токенах высокого качества 4T.

📌 <i>Лицензия</i>: Apache 2.0.

🤗 HF: https://huggingface.co/collections/internlm/internlm3-67875827c377690c01a9131d



#InternLM #opensource #llm #ml #reasoningmodel
@python_be1
🔸 Gated DeltaNet: гибридная архитектура нейронных сетей с управлением памятью.

Gated DeltaNet - экспериментальная архитектура, разработанная NVIDIA для управления памятью в контексте линейных трансформеров, которая может решить проблемы с забыванием в моделях, обрабатывающих длинные последовательности данных.

Gated DeltaNet предлагает использовать одновременно дельта-правило и гейтинг. Дельта-правило обновляет память модели, заменяя устаревшую информацию на новую, а механизм гейтинга удаляет ненужную информацию из памяти, чтобы она не мешала модели работать эффективно.

Архитектура Gated DeltaNet была разработана на основе алгоритма, который параллелит вычисления дельта-правила с использованием представления WY и оптимизирует работу с GPU на уровне тензорных ядер.

Перфоманс-тестирование Gated DeltaNet проводилось на бенчмарках языкового моделирования, ризонинга, контекстного извлечения, экстраполяции длины и понимания объемного контекста.

Модель Gated DeltaNet превзошла Mamba2 и DeltaNet на всех этих тестах. Например - улучшенная точность на задачах S-NIAH-2 и S-NIAH-3, где Gated DeltaNet показала более эффективное управление памятью по сравнению с DeltaNet и Mamba2 и превосходство в задачах ризонинга.

Гибридные архитектуры, сочетающие слои Gated DeltaNet с вниманием скользящего окна или слоями Mamba2 повысили эффективность обучения и производительность моделей.

Тестовые<code> GatedDeltaNet-H1 и GatedDeltaNet-H2</code> дали еще более высокие результаты, используя комбинации Gated DeltaNet + SWA и Mamba2 + Gated DeltaNet + SWA соответственно.

Gated DeltaNet показала самые низкие показатели перплексии при экстраполяции на длинные последовательности до 20 тыс. токенов и продемонстрировала превосходные способности в извлечении информации, обучении в контексте и отслеживании состояния в задачах LongBench.

🔸Практическая реализация обучения Gated DeltaNet на Pytorch доступна в репозитории на Github (https://github.com/NVlabs/GatedDeltaNet)

📌Лицензирование:

🟢Некоммерческое использование: Nvidia Source Code License-NC

🟠Коммерческое использование: по запросу через форму NVIDIA Research Licensing (https://www.nvidia.com/en-us/research/inquiries/)

🟡Arxiv (https://arxiv.org/pdf/2412.06464v1)

🟡GitHub (https://github.com/NVlabs/GatedDeltaNet)



#AI #ML #LLM #NVIDIA #GatedDeltaNet
@python_be1
🌟 Model2Vec: создание компактных и быстрых моделей на основе Sentence Transformer.

Model2Vec - библиотека для создания компактных и быстрых моделей на основе предобученных Sentence Transformer моделей.

Model2Vec позволяет создавать эмбединг-модели слов и предложений, которые значительно меньше по размеру, но при этом сопоставимы по производительности с исходными Sentence Transformer моделями.

Отличительные особенности:

🟢быстрая дистилляция, процесс создания модели занимает несколько минут;

🟢быстрый инференс, в 500 раз быстрее на CPU относительно родительской модели;

🟢BYOM и BYOV, можно использовать на любой Sentence Transformer модели с любым словарем;

🟢мультиязычность, все что нужно - только мультиязычная модель в качестве источника;

🟢интеграция с Huggingface, загрузка\выгрузка моделей привычными <code>from_pretrained</code> и <code>push_to_hub</code>.

Пайплайн Model2Vec трехэтапный. На первом этапе словарь пропускается через модель Sentence Transformer для получения векторов эмбедингов для каждого слова.

Далее, размерность полученных эмбеддингов сокращается с помощью метода главных компонент (PCA). Наконец, применяется zipf-взвешивание для учета частотности слов в словаре.

Model2Vec работает в двух режимах:

🟠Output, в котором модель работает подобно Sentence Transformer, используя subword токенизацию;

🟠Vocab, в котором создается набор статических эмбедингов слов, аналогично GloVe или Word2Vec.

Оценку производительности Model2Vec делали на наборе данных MTEB на задачах PEARL (оценка качества представления фраз) и WordSim (оценка семантической близости слов).

Результаты показывают, что Model2Vec превосходит по производительности GloVe и модели, основанные на WordLlama по всем задачам оценки.

▶️Пример дистилляции:

<pre language="python">
from model2vec.distill import distill

# Choose a Sentence Transformer model
model_name = "BAAI/bge-base-en-v1.5"

# Distill the model
m2v_model = distill(model_name=model_name, pca_dims=256)

# Save the model
m2v_model.save_pretrained("m2v_model")</pre>
▶️Пример инференса:

<pre language="python">
from model2vec import StaticModel

# Load a model from the HuggingFace hub, or a local one.
model_name = "minishlab/M2V_base_output"
# You can optionally pass a token if you're loading a private model
model = StaticModel.from_pretrained(model_name, token=None)

# Make embeddings
embeddings = model.encode(["It's dangerous to go alone!", "It's a secret to everybody."])</pre>
📌Лицензирование : MIT License.

Набор моделей (https://huggingface.co/minishlab)
GitHub (https://github.com/MinishLab/model2vec)
(https://t.me/)

#AI #ML #LLM #Embedding #Model2Vec #python
@python_be1
This media is not supported in your browser
VIEW IN TELEGRAM
🎥🔥 VideoPrism от GoogleDeepMind — универсальный видеоэнкодер нового поколения

Модель легко подключается к LLM или текстовому энкодеру, превращая видео в источник контекста.

🧠 Как работает:
• Сначала обучают CLIP-подобную video-text модель
• Затем дистиллируют видеоэнкодер в VideoPrism
• Получается компактный, но гибкий видеоэнкодер, готовый к интеграции в мультимодальные модели

Все модели доступны под лицензией A2.0

Установка:

`$ git clone https://github.com/google-deepmind/videoprism.git
$ cd videoprism
$ pip install .`

• Github: https://github.com/google-deepmind/videoprism
• HF: https://huggingface.co/google/videoprism#model-description
• Arxiv: https://arxiv.org/pdf/2402.13217
• Blogpost: https://research.google/blog/videoprism-a-foundational-visual-encoder-for-video-understanding/

#AI #VideoAI #DeepLearning #GoogleDeepMind #LLM #multimodal

@python_be1
🐬 DeepSeek-V3.2-Exp

🚀 Новая экспериментальная модель от DeepSeek:

- Сохраняет качество V3.1, но снижает цены API на 50–75%
- Ускоряет длинный контекст за счёт DeepSeek Sparse Attention (DSA)
- Доступна в приложении, на вебе и в API, веса и GPU-ядра выложены в открытый доступ
- V3.1 остаётся онлайн до 25 октября для сравнения

💰 Новые цены:
- Input (cache hit): $0.07 → $0.028 (−60%)
- Input (cache miss): $0.56 → $0.28 (−50%)
- Output: $1.68 → $0.42 (−75%)

📊 Качество в целом не пострадало:
MMLU-Pro 85.0 vs 85.0, AIME-2025 89.3 vs 88.4, с небольшими просадками вроде HMMT-2025 (83.6 vs 86.1).

🔗 Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp)
🔗 Tech Report: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf)
🔗Github: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

#DeepSeek #AI #V32 #SparseAttention #LLM

@python_be1
Новая работа MIT: LLM, который видит и меняет состояние Python

В MIT предложили подход, при котором языковая модель работает не только с текстом, а напрямую с живым состоянием Python-кода - переменными, объектами в памяти и текущей точкой выполнения.

Подход называется NIGHTJAR.
Главный результат
В экспериментах NIGHTJAR сократил объем кода в среднем на 39.6% без потери корректности.

В чем была проблема
Обычная LLM:
- читает текст
- генерирует текст
- не видит реальные данные программы

Поэтому типичный пайплайн выглядит так:
- данные сериализуются в текст
- отправляются модели
- ответ парсится
- программа вручную обновляется

Много glue-кода, много мест для ошибок.

Что меняет совместное состояние
Shared state полностью меняет модель взаимодействия:
- LLM может читать и писать переменные
- изменять объекты прямо в памяти
- останавливать и пропускать циклы
- работать с текущим состоянием выполнения

Модель не «рассуждает о коде», она с ним взаимодействует.

Как это реализовано
LLM не получает прямой доступ к памяти.
Она отправляет небольшие команды:
- прочитать переменную
- записать значение
- обновить объект
- выйти из цикла

Python-обработчик выполняет эти команды.
Такой контракт авторы называют natural function interface.

Результаты
На бенчмарке SPSBench с 25 программами:
- корректность осталась на уровне ручной интеграции или выше
- код стал заметно короче
- но время выполнения иногда росло до 4.3 раза

Причина проста - каждое обращение к состоянию может требовать отдельного вызова модели.

Почему это важно
- меньше шаблонного glue-кода
- проще писать сложную логику с участием LLM
- шаг к более тесной интеграции AI и runtime
- фундамент для новых агентных и интерактивных систем

Это не про ускорение.
Это про изменение архитектуры взаимодействия между программой и моделью.

📌 Статья: arxiv.org/abs/2512.14805

#AI #LLM #Python

@python_be1