POINTS1.5 - усовершенствованная версия VLM POINTS1.0, построенная по принципу LLaVA (визуальный энкодер+LLM) на базе Qwen2.5-7B-Instruct.
В отличие от предыдущей версии, где использовался энкодер изображений CLIP, POINTS1.5 использует энкодер NaViT, который позволяет модели обрабатывать изображения различного разрешения без необходимости их разделения.
Для повышения качества модели были применены методы фильтрации данных для обучения. Данные, не требующие анализа изображения для ответа на вопрос и содержащие грамматические ошибки, были удалены.
Обучение POINTS1.5 выполнялось в два этапа: предварительное обучение и настройка на выполнение визуальных инструкций. На этапе предварительного обучения проектор и LLM обучались совместно.
На этапе настройки на выполнение визуальных инструкций использовались специализированные наборы данных, которые обучают модель понимать инструкции, связанные с изображениями.
POINTS1.5 была протестирована на бенчмарках MMBench, MMMU, MathVista, HallucinationBench, OCRBench, MMVet, ChartQA, MME, LLaVA-wild, SEEDBench, ScienceQA, MATH-Vision и MathVerse и показала высокие результаты, особенно в задачах, требующих математических навыков.
Модели семейства POINTS могут быть запущены в режиме model soup (совместный запуск нескольких моделей, настроенных с разными наборами инструкций для получения итоговой "усредненной" модели) и CATTY (стратегия разбиения изображения большого разрешения на небольшие фрагменты одинакового размера).
# Clone repo
git clone https://github.com/WePOINTS/WePOINTS.git
# Install required packages
cd WePOINTS
pip install -e .
# Inference example
from transformers import AutoModelForCausalLM, AutoTokenizer
from wepoints.utils.images import Qwen2ImageProcessorForPOINTSV15
import torch
from PIL import Image
import requests
from io import BytesIO
model_path = 'WePOINTS/POINTS-1-5-Qwen-2-5-7B-Chat'
model = AutoModelForCausalLM.from_pretrained(model_path,
trust_remote_code=True,
torch_dtype=torch.float16,
device_map='cuda')
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
image_processor = Qwen2ImageProcessorForPOINTSV15.from_pretrained(model_path)
image_url = '%link to image%'
response = requests.get(image_url)
image_data = BytesIO(response.content)
pil_image = Image.open(image_data)
pil_image = pil_image.save('image.jpg')
prompt = 'please describe the image in detail'
content = [
dict(type='image', image='image.jpg'),
dict(type='text', text=prompt)
]
messages = [
{
'role': 'user',
'content': content
}
]
generation_config = {
'max_new_tokens': 1024,
'temperature': 0.0,
'top_p': 0.0,
'num_beams': 1,
}
response = model.chat(
messages,
tokenizer,
image_processor,
generation_config
)
print(response)
📌Лицензирование: Apache 2.0 License.
▪Модель
▪Arxiv
▪GitHub
▪Руководство по Prompt Engineering
@ai_machinelearning_big_data
#AI #ML #VLM #WePOINTS
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Институт технологических инноваций Абу-Даби представил семейство моделей Falcon 3 с расширенными возможностями в областях науки, математики и программирования.
Модели Falcon 3 основаны на трансформерах, совместимы с архитектурой Llama поддерживает до 32К токенов контекста (кроме 1B с контекстом 8К). Все модели используют функцию активации SwiGLU с размером словаря 131K токенов (65K для Mamba-7B версии).
Falcon3-7B-Base была масштабирована до 10 млрд. параметров путем дублирования избыточных слоев и последующего обучения на 2 трлн. токенов. Это позволило модели Falcon3-10B-Base достичь высоких результатов в задачах zero-shot и few-shot среди моделей с менее чем 13В параметров.
Для создания компактных моделей Falcon3-1B Base и Falcon3-3B Base использовались методы обрезки и дистилляции знаний на основе около 100 ГБ высококачественных данных.
Модель Falcon3-Mamba-7B-Base была усовершенствована путем обучения на дополнительных 1,5 трлн. токенов, что привело к созданию Falcon3-Mamba-7B-Base с улучшенными способностями к рассуждению и в математических задачах.
В бенчмарках задач математики Falcon3-10B-Base достигает 22,9 на MATH-Lvl5 и 83,0 на GSM8K, а в задачах программирования набирает 73,8 на MBPP.
Инструктивные версии моделей также показывают высокие результаты, при этом Falcon3-7B-Instruct и Falcon3-10B-Instruct превосходят аналогичные модели до 13 млрд. параметров.
⚠️ В январе 2025 года планируется выпуск моделей семейства Falcon3 с расширенными мультимодальными возможностями: поддержка изображений, видео и аудио, а также полный технический отчет с описанием методик.
@ai_machinelearning_big_data
#AI #ML #LLM #Falcon3
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Подразделение FAIR компании Марка Цукерберга представила новые исследовательские результаты, направленные на развитие исследований в ИИ, а их открытая публикация должна способствовать ускорению общего прогресса:
Модель обучена с применением нового алгоритма, который позволяет представлять состояния, движения и вознаграждения в едином латентном пространстве. Motivo демонстрирует высокую производительность в сравнении со специализированными методами, превосходит современные подходы неконтролируемого обучения с подкреплением и проявляет устойчивость к изменениям окружающей среды.
Метод добавляет незаметные водяные знаки, устойчивые к редактированию и сжатию, чтобы маркировать и отслеживать происхождение сгенерированных видеоматериалов. Video Seal является развитием предыдущей разработки Audio Seal.
Метод, который постепенно заменяет классическую диффузию и повышает производительность и эффективность обобщения при создании изображений, видео, аудио и 3D-структур.
Он уже применяется в продуктах Movie Gen, Audiobox и Melody Flow, а также в Stable-Diffusion-3, Flux, Fold-Flow и Physical Intelligence Pi_0.
Этот подход позволяет создавать разнообразные и сложные сценарии для обучения LLM. Экспериментальное применение Explore Theory-of-Mind с Llama-3.1 7B привело к увеличению точности на 27 пунктов на тесте ToMi.
Основная идея LCM заключается в том, чтобы отделить рассуждения от представления языка, и она вдохновлена тем, как люди могут планировать высокоуровневые мысли для общения. LCM значительно отличается от типичного LLM. Вместо того чтобы предсказывать следующую лексему, LCM обучается предсказывать следующую концепцию или идею высокого уровня, представленную полным предложением в мультимодальном и многоязычном пространстве эмбедингов.
DBLT превосходит модели на основе токенизаторов по надежности, в среднем на 7 пунктов, и отлично справляется с обработкой longtail и rare sequences of unseen symbols.
Метод, который помогает эффективно хранить и извлекать информацию через специальные "слои памяти" без значительного роста вычислительных затрат. Он позволяет моделям работать лучше и точнее на задачах, связанных с фактами.
Она позволяет легко использовать воспроизводимые автоматические оценки T2I-моделей и поддерживает настройку с использованием пользовательских метрик, датасетов и визуализаций.
@ai_machinelearning_big_data
#AI #ML #FAIR #Digest
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
IBM представила Granite 3.1, обновление семейства открытых и высокопроизводительных LLM, оптимизированных для корпоративного использования. Обновление принесло семейству повышение производительности, точности в критически важных корпоративных сценариях: использование инструментов, RAG и рабочие процессы на основе AI агентов.
В этом релизе особое внимание уделялось улучшению обработки длинных текстов благодаря расширенному контекстному окну и детекту галлюцинаций. Все модели семейства Granite 3 получили длину контекстного окна в 128 тысяч токенов. Для сравнения, это примерно 300-страничная книга.
Набор LLM Granite 3.1 8B и 2B, базовые и инструктивные версии. Флагманская Granite 3.1 8B достигает одних из самых высоких средних баллов среди открытых моделей своего класса на Hugging Face OpenLLM Leaderboard.
MoE-модели Granite 3.1 3B и 1B c 800M и 400M активных параметров соответственно и их инструктивные версии.
Granite Embedding в 4 размерах (125M и 30M для английского языка и 278M и 107М - мультиязычные), которые поддерживают 12 языков: английский, немецкий, испанский, французский, японский, португальский, арабский, чешский, итальянский, корейский, голландский и китайский.
Granite Guardian 3.1 8B и 2B - специализированные модели обнаружения галлюцинаций при вызовах функций. Они отслеживают каждый вызов функции на предмет синтаксических и семантических отклонений, повышая достоверность и управляемость в рабочих процессах.
⚠️ Все модели Granite 3.1, Granite Guardian 3.1 и Granite Embedding доступны в средах: IBM watsonx.ai, Hugging Face, LM Studio, Ollama и Replicate.
@ai_machinelearning_big_data
#AI #ML #LLM #Embeddings #IBM #Granite
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Google выпустила новую экспериментальную модель Gemini 2.0 Flash Thinking Experimental, предназначенную для "рассуждений". Модель доступна в AI Studio. Согласно описанию, модель лучше всего подходит для мультимодального понимания и способна "рассуждать над самыми сложными задачами" в программировании, математике и физике.
Gemini 2.0 Flash Thinking Experimental основана на модели Gemini 2.0 Flash. Модель делает паузу перед ответом, рассматривая несколько связанных запросов и объясняя свои рассуждения, после чего формирует наиболее точный ответ. Тем не менее, как показывает пользовательское тестирование, модель иногда испытывает трудности, например, при подсчете букв в словах.
techcrunch.com
Стартап Patronus AI, представил открытую модель Glider с 3.8 млрд. параметров, которая превосходит GPT-4o-mini. Glider разработана для автоматической оценки ответов ИИ по сотням критериев, предоставляя подробные объяснения своих решений. Glider может работать в реальном времени, с задержкой менее секунды, и оценивает точность, безопасность и тон одновременно.
Glider была обучена на 183 различных бенчмарках из 685 доменов. Демо уже работает на HF Space, технический отчет Glider опубликован на arxiv.org, веса модели - на Huggingface.
patronus.ai
Cineverse объявила о запуске новой службы управления правами в ИИ - Matchpoint Reel Visuals AI. Этот сервис позволяет владельцам библиотек фильмов, телешоу и подкастов извлекать выгоду из растущего спроса со стороны ИИ-компаний на аудио/видео контент для обучения моделей ИИ.
Используя технологию Matchpoint, партнеры Cineverse получают возможность быстро загружать, нормализовать и хранить большие объемы видеоконтента с интегрированными возможностями управления правами. На сегодняшний день компания представляет права на обучение ИИ для более чем 350,000 часов видео и аудио контента
investor.cineverse.com
Apptronik объявила о стратегическом партнерстве с командой робототехники Google DeepMind для объединения ИИ с роботизированным оборудованием. Цель сотрудничества - создание более эффективных человекоподобных роботов для работы в динамичных средах. Ключевым продуктом партнерства является робот Apollo, разработанный Apptronik, высотой 172.2 см и весом 72.5 кг, предназначенный для выполнения физически сложных задач в промышленных условиях.
Mercedes-Benz уже тестирует Apollo в автомобильном производстве, а GXO Logistics проводит испытания робота на складах. Команда Google DeepMind привнесет в партнерство свой опыт в машинном обучении, инженерии и физическом моделировании, используя Gemini для робототехники.
therobotreport.com
На предпоследнем стриме цикла 12 Days, OpenAI представила новые функции для приложения ChatGPT на Mac: улучшенную интеграцию с другими приложениями и расширенный голосовой режим. Теперь пользователи могут предоставлять ChatGPT доступ к контенту в других приложениях для получения контекста и помощи.
ChatGPT для Mac OS также получил возможность работы с Apple Notes, Quip и Notion. Новые возможности "Работа с приложениями" и "Расширенный голосовой режим" уже доступны для пользователей приложения ChatGPT на Mac, а для пользователей Windows они появятся в скором времени.
openai.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
ModernBERT - улучшенная и переработанная на уровне архитектуры модель, основанная на достижениях BERT, которая в 2-4 раза быстрее, чем DeBERTa и RoBERTa.
Модель позиционируется как преемник BERT и совместима с большинством инструментов, при этом не использует
token type IDs, что упрощает ее использование. ModernBERT доступна в двух вариантах:
Модель поддерживает длину контекста в 8192 токена против 512 в оригинальном BERT, это позволяет ей обрабатывать длинные документы и большие объемы текста.
Архитектурные улучшения включают в себя: использование RoPE (вместо механизмов позиционного кодирования), GeGLU слои, удаление смещений, дополнительный слой нормализации после эмбедингов и чередование глобального (Flash Attention 3) и локального (Flash Attention 2) внимания.
Каждые 3 слоя используют глобальное внимание с RoPE theta 160 000, а остальные слои – локальное скользящее окно с 128 токенами и RoPE theta 10 000. Для повышения эффективности ModernBERT использует метод unpadding, удаляя padding токены и обрабатывая последовательности как один пакет.
ModernBERT обучалась на 2 трлн. токенов данных (веб-документы, код и научная литература) на английском языке и использует новый токенизатор BPE, модифицированную версию токенизатора OLMo, с размером словаря в 50 368 токенов.
Результаты тестов показали, что ModernBERT превосходит другие модели в задачах поиска, понимания естественного языка и в задачах программирования.
Например, ModernBERT-base превосходит другие модели своего размера на GLUE и показала высокие результаты на CodeSearchNet и StackQA в кодинге, а ModernBERT-large уступает только Deberta-v3-large .
⚠️ ModernBERT обучалась только на английском языке, поэтому ее производительность может быть ниже для других языков
@ai_machinelearning_big_data
#AI #ML #ModernBERT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM