PydanticAI - фреймворк для Python, созданный командой разработчиков Pydantic, который упрощает создание приложений с использованием LLM. Фреймворк имеет простой и интуитивно понятный интерфейс для взаимодействия с LLMs, поддерживающими Async OpenAI (Ollama) и openAI API (ChatGPT, Gemini и Groq), с поддержкой Anthropic в ближайшем будущем.
Основная особенность PydanticAI - система внедрения зависимостей, которая передает данные, соединения и логику в целевую модель. Она упрощает тестирование и оценку агентов и позволяет динамически формировать системные промпты и определять инструменты, доступные LLM.
PydanticAI имеет возможность потоковой обработки ответов с валидацией структурированных данных, позволяя контролировать корректность соответствие данных ожидаемому ответу, тем самым повышая эффективность и интерактивность приложений.
Для отладки и мониторинга работы агентов предусмотрена интеграция с Pydantic Logfire, с которым можно отслеживать запросы к базам данных, анализировать поведение модели и оценивать производительность.
⚠️ PydanticAI находится на ранней стадии бета-тестирования.
# Install via PyPI
pip install pydantic-ai
# Set Gemini API key
export GEMINI_API_KEY=your-api-key
# Run example
from pydantic_ai import Agent
agent = Agent(
'gemini-1.5-flash',
system_prompt='Be concise, reply with one sentence.',
)
result = agent.run_sync('Where does "hello world" come from?')
print(result.data)
"""
The first known use of "hello, world" was in a 1974 textbook about the C programming language.
"""
@ai_machinelearning_big_data
#AI #ML #LLM #Agents #Framework #PydanticAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Модель доступна в версии с 70 млрд параметров и оптимизирована для диалоговых сценариев использования на нескольких языках. Llama 3.3 превосходит многие доступные модели с открытым и закрытым исходным кодом по стандартным отраслевым бенчмаркам.
Llama 3.3 основана на оптимизированной архитектуре трансформера и использует авторегрессивный подход. Настройка модели включает SFT с RLHF для согласования с человеческими предпочтениями в отношении полезности и безопасности.
Модель была обучена на новом наборе общедоступных онлайн-данных, включающем более 15 триллионов токенов, с ограничением по свежести данных до декабря 2023 года.
Llama 3.3 поддерживает английский, немецкий, французский, итальянский, португальский, хинди, испанский и тайский языки.
import transformers
import torch
model_id = "meta-llama/Llama-3.3-70B-Instruct"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
messages = [
{"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
{"role": "user", "content": "Who are you?"},
]
outputs = pipeline(
messages,
max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])
@ai_machinelearning_big_data
#AI #ML #LLM #Llama3
Please open Telegram to view this post
VIEW IN TELEGRAM
Fish Speech - модель генерации TTS обновилась до версии 1.5. Эта версия обучалась на 1 млн.часов мультиязычных аудиоданных и заняла 2 место в бенчмарке TTS-Arena (как "Anonymous Sparkle").
Заявлена задержка <150 мс с высококачественным мгновенным клонированием голоса.
Fish Speech для локального инференса требует 4Gb GPU и 8 BG GPU для файнтюна. Запуск возможен на MacOS, Linux и Windows в режимах CLI, GUI и WebUI и Docker.
Подробные инструкции по установке, инференсу в различных режимах для каждой платформы, туториал по файнтюну и примеры доступны в документации проекта Fish Speech.
⚠️ Репозиторий на Github еще не обновлен информацией о версии 1.5, а официальное демо от разработчиков поддерживает синтез только на английском, китайском и японском.
@ai_machinelearning_big_data
#AI #ML #TTS #FIshSpeech
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Fish Speech - модель генерации TTS обновилась до версии 1.5. Эта версия обучалась на 1 млн.часов мультиязычных аудиоданных и заняла 2 место в бенчмарке TTS-Arena (как "Anonymous Sparkle").
Заявлена задержка <150 мс с высококачественным мгновенным клонированием голоса.
Fish Speech для локального инференса требует 4Gb GPU и 8 BG GPU для файнтюна. Запуск возможен на MacOS, Linux и Windows в режимах CLI, GUI и WebUI и Docker.
Подробные инструкции по установке, инференсу в различных режимах для каждой платформы, туториал по файнтюну и примеры доступны в документации проекта Fish Speech.
⚠️ Репозиторий на Github еще не обновлен информацией о версии 1.5, а официальное демо от разработчиков поддерживает синтез только на английском, китайском и японском.
@ai_machinelearning_big_data
#AI #ML #TTS #FIshSpeech
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Уязвимости, обнаруженные компанией JFrog в популярных инструментах машинного обучения с открытым исходным кодом: MLflow, H2O, PyTorch и MLeap, позволяют злоумышленникам использовать клиентские библиотеки машинного обучения, которые работают с Safetensors.
Взлом клиента машинного обучения позволяет получить доступ к учетным данным реестра моделей и внедрить вредоносный код. Среди обнаруженных уязвимостей - недостаточная санитизация в MLflow (CVE-2024-27132), небезопасная десериализация в H2O (CVE-2024-6960), проблема с обходом пути в PyTorch и уязвимость Zip Slip в MLeap (CVE-2023-5245).
thehackernews.com
Этот метод отличается от обычного файнтюнинга (или файнтюнинга с учителем) тем, что он позволяет обучать модель думать определённым образом в конкретной области, важной для пользователя.
Подробнее
Компания планирует внедрить дискретную упаковку памяти в iPhone, начиная с 2026 года, чтобы повысить производительность ИИ на устройстве. Samsung, поставщик компонентов памяти Apple, уже начал проводить исследования, чтобы удовлетворить запрос Apple. Сейчас iPhone использует упаковку типа «пакет-на-пакете» (PoP), где DRAM LPDDR размещается непосредственно на "системе-на-кристалле" (SoC).
Переход на дискретную упаковку позволит увеличить количество контактов ввода-вывода, повышая скорость передачи данных и количество параллельных каналов данных. Это улучшит пропускную способность памяти и возможности ИИ и также улучшает теплоотвод. Однако это изменение может потребовать уменьшения размера SoC или аккумулятора, а также увеличить энергопотребление и задержку.
macrumors.com
Google DeepMind примет участие в 38-й ежегодной конференции по нейронным системам обработки информации (NeurIPS), которая пройдет с 10 по 15 декабря в Ванкувере, где представит более 100 новых научных работ по темам: агенты ИИ, генеративные медиа, инновационные подходы к обучению. В рамках конференции запланированы живые демонстрации Gemma Scope, ИИ для создания музыки, модели прогнозирования погоды, системы CAT3D и Android Control.
deepmind.google
Разработчик PlayerUnknown анонсировал две новые игры, основанные на технологиях Ai и ML: Preface: Undiscovered World и Prologue: Go Wayback.
Preface: Undiscovered World доступна в раннем доступе в Steam и представляет собой техническую демонстрацию процедурно генерируемых миров. Prologue: Go Wayback – это "выживалка", в которой погода и окружающая среда непосредственно влияют на исследование мира игроком. Обе игры служат «строительными блоками» для будущих проектов PlayerUnknown Productions и предназначены для сбора отзывов пользователей.
dualshockers.com
Китай представил свой самый передовой квантовый компьютер «Tianyan-504» с 504-кубитным чипом «Xiaohong», разработанным в партнерстве с Китайской академией наук и компанией QuantumCTek. «Tianyan-504» устанавливает новый национальный рекорд, преодолевая порог в 500 кубитов, и конкурирует с IBM, по показателям производительности, времени жизни кубита и точности считывания. «Tianyan-504» будет интегрирован с квантовой облачной платформой China Telecom «Tianyan», запущенной в 2023 году, чтобы обеспечить глобальный доступ к возможностям квантовых вычислений. Платформа «Tianyan» уже привлекла более 12 миллионов посещений пользователей из более чем 50 стран.
thequantuminsider.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Эксперты Andreessen Horowitz ожидают рост спроса на ядерную энергию для обеспечения растущих потребностей центров обработки данных искусственного интеллекта. Появятся новые профессии, требующие навыков в области аппаратного и программного обеспечения, робототехники и автоматизации.
XR-устройства получат развитие как инструменты для разработчиков, создающих приложения для реального мира. В сфере здравоохранения ИИ будет использоваться для демократизации доступа к медицинской информации и решения кадрового кризиса. Ожидается рост популярности периферийного ИИ и создание крупных вычислительных центров для обучения и развертывания моделей ИИ.
a16z.com
Китайский интернет-гигант Baidu совместно с партийным приложением Xuexi разработал инструмент на основе искусственного интеллекта, который помогает чиновникам создавать политически корректные документы. Xuexi – это приложение, посвященное жизни и идеям Си Цзиньпина.
Новый инструмент проверяет документы на соответствие идеям Си Цзиньпина и гарантирует, что ссылки на его высказывания взяты из проверенных источников. Инструмент также может использоваться для создания документов с цитированием государственной статистики и политики.
theregister.com
Алексис Конно, один из разработчиков Advanced Voice Mode для ChatGPT, основал стартап WaveForm, который занимается созданием системы AI-аудио, способной улавливать больше нюансов речи, чем существующие технологии. WaveForm, получивший начальное финансирование в размере 40 млн. долл. от Andreessen Horowitz, стремится создать систему, которая пройдет "речевой тест Тьюринга", то есть сможет имитировать человеческую речь настолько точно, что пользователи не смогут отличить ее от живого собеседника. В настоящее время WaveForm, состоящий из 5 сотрудников, находится на стадии разработки своих моделей.
axios.com
Ultralytics YOLO11, модель, предназначенная для обнаружения объектов, была скомпрометирована в результате атаки на цепочку поставок. Вредоносный код, внедренный в версии 8.3.41 и 8.3.42, устанавливал криптомайнер на устройства пользователей, скачавших библиотеку с через Python Package Index (PyPI). Ultralytics, используемая в популярных проектах SwarmUI и ComfyUI, загружалась более 260 000 раз за сутки. Вредоносный код запускал майнер XMRig, подключающийся к пулу "connect.consrensys[.]com:8080".
Разработчики Ultralytics удалили скомпрометированные версии и выпустили обновление 8.3.43, устраняющее уязвимость. Расследование показало, что атака, возможно, была осуществлена через два вредоносных запроса на внесение изменений в код от пользователя из Гонконга. В настоящее время проводится полный аудит безопасности для предотвращения подобных инцидентов в будущем.
bleepingcomputer.com
Компания OpenAI на онлайн-стриме анонсировала запуск Sora – инструмента для создания видео по текстовому запросу. Sora доступна подписчикам ChatGPT Plus и Pro, с ограничениями по региону (недоступна на территории ЕС и Великобритании), количеству генераций и качеству видео. Plus-пользователи смогут создавать до 5 видео в месяц длиной до 5 секунд в разрешении до 720p.
Pro-подписка позволяет сгенерировать до 500 коротких видео длиной до 20 секунд в разрешении до 1080p. Sora предлагает различные инструменты для редактирования и управления процессом создания видео: Storyboard для покадровой режиссуры и функции для добавления начала, концовки и объединения нескольких видео.
openai.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Исчерпывающий материал по обучению с подкреплением (Reinforcement Learning, RL), в котором подробно описываются различные модели среды, задачи оптимизации, исследуется определение компромисса между теорией и практической эксплуатаций RL.
Отдельно рассматриваются смежные темы: распределенное RL, иерархическое RL, обучение вне политики и VLM.
В работе представлен обзор алгоритмов RL:
Автор - Kevin Murphy, главный научный сотрудник и руководитель команды из 28 ресечеров и инженеров в Google Deepmind. Группа работает над генеративными моделями (диффузия и LLM), RL, робототехникой, байесовским выводом и другими темами.
Кевин опубликовал более 140 статей на рецензируемых конференциях и в журналах, а также 3 учебника по ML, опубликованных в 2012, 2022 и 2023 годах издательством MIT Press. (Книга 2012 года была удостоена премии ДеГроота как лучшая книга в области статистической науки).
@ai_machinelearning_big_data
#AI #ML #Book #RL
Please open Telegram to view this post
VIEW IN TELEGRAM
POINTS1.5 - усовершенствованная версия VLM POINTS1.0, построенная по принципу LLaVA (визуальный энкодер+LLM) на базе Qwen2.5-7B-Instruct.
В отличие от предыдущей версии, где использовался энкодер изображений CLIP, POINTS1.5 использует энкодер NaViT, который позволяет модели обрабатывать изображения различного разрешения без необходимости их разделения.
Для повышения качества модели были применены методы фильтрации данных для обучения. Данные, не требующие анализа изображения для ответа на вопрос и содержащие грамматические ошибки, были удалены.
Обучение POINTS1.5 выполнялось в два этапа: предварительное обучение и настройка на выполнение визуальных инструкций. На этапе предварительного обучения проектор и LLM обучались совместно.
На этапе настройки на выполнение визуальных инструкций использовались специализированные наборы данных, которые обучают модель понимать инструкции, связанные с изображениями.
POINTS1.5 была протестирована на бенчмарках MMBench, MMMU, MathVista, HallucinationBench, OCRBench, MMVet, ChartQA, MME, LLaVA-wild, SEEDBench, ScienceQA, MATH-Vision и MathVerse и показала высокие результаты, особенно в задачах, требующих математических навыков.
Модели семейства POINTS могут быть запущены в режиме model soup (совместный запуск нескольких моделей, настроенных с разными наборами инструкций для получения итоговой "усредненной" модели) и CATTY (стратегия разбиения изображения большого разрешения на небольшие фрагменты одинакового размера).
# Clone repo
git clone https://github.com/WePOINTS/WePOINTS.git
# Install required packages
cd WePOINTS
pip install -e .
# Inference example
from transformers import AutoModelForCausalLM, AutoTokenizer
from wepoints.utils.images import Qwen2ImageProcessorForPOINTSV15
import torch
from PIL import Image
import requests
from io import BytesIO
model_path = 'WePOINTS/POINTS-1-5-Qwen-2-5-7B-Chat'
model = AutoModelForCausalLM.from_pretrained(model_path,
trust_remote_code=True,
torch_dtype=torch.float16,
device_map='cuda')
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
image_processor = Qwen2ImageProcessorForPOINTSV15.from_pretrained(model_path)
image_url = '%link to image%'
response = requests.get(image_url)
image_data = BytesIO(response.content)
pil_image = Image.open(image_data)
pil_image = pil_image.save('image.jpg')
prompt = 'please describe the image in detail'
content = [
dict(type='image', image='image.jpg'),
dict(type='text', text=prompt)
]
messages = [
{
'role': 'user',
'content': content
}
]
generation_config = {
'max_new_tokens': 1024,
'temperature': 0.0,
'top_p': 0.0,
'num_beams': 1,
}
response = model.chat(
messages,
tokenizer,
image_processor,
generation_config
)
print(response)
📌Лицензирование: Apache 2.0 License.
▪Модель
▪Arxiv
▪GitHub
▪Руководство по Prompt Engineering
@ai_machinelearning_big_data
#AI #ML #VLM #WePOINTS
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM