InternLM-XComposer-2.5 справляется с задачами по текстовому описанию изображений со сложной композицией, достигая возможностей GPT-4V. Обученная с помощью чередующихся контекстов "изображение - текст" длиной 24 КБ, она может легко расширяться до контекстов длиной 96 КБ посредством экстраполяции RoPE.
По сравнению с предыдущей версией 2.0, InternLM-XComposer-2.5 имеет три основных улучшения:
- понимание сверхвысокого разрешения;
- детальное понимание видео;
- обрабатывать в контексте 1 диалога несколько изображений.
С применением extra Lora, XComposer-2.5 способна выполнять комплексные задачи:
- создание веб-страниц;
- создание высококачественных текстовых статей с изображениями.
XComposer-2.5 была оценена по 28 тестам, превзойдя существующие современные модели с открытым исходным кодом в 16 тестах. Она также близко конкурирует с GPT-4V и Gemini Pro по 16 ключевым задачам.
📺 Demo video
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤18👍14🔥4👏1
LazyDiffusion — это диффузионный трансформер, который очень быстро генерирует объекты по промпту в области, заданной маской. Генерируются только пиксели под маской, и время выполнения зависит больше от размера маски, чем от размера изображения.
Если маска размера ~10% от всего изображения, то LazyDiffusion показывает в 10 раз большую скорость, чем другие модели и методы инпейнтинга.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26🔥8❤7🌚3
🌟 «Баннерная крутилка» — какую роль в ней играет ML
Яндекс рассказал на Хабре о том, как работает один из самых высоконагруженных сервисов.
Всего за 200 миллисекунд крутилка перебирает базу из миллиарда документов и выдает наиболее релевантные для пользователя.
Автор рассказал, какие решение они применили, как устроены стадии отбора документов и какую роль в них играет ML.
📎 Habr
@ai_machinelearning_big_data
Яндекс рассказал на Хабре о том, как работает один из самых высоконагруженных сервисов.
Всего за 200 миллисекунд крутилка перебирает базу из миллиарда документов и выдает наиболее релевантные для пользователя.
Автор рассказал, какие решение они применили, как устроены стадии отбора документов и какую роль в них играет ML.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍18❤5🔥5🤬5❤🔥3😐3🥱2🤔1
CodeGeeX4-ALL-9B - мультиязычная модель для генерации кода, обученная на GLM-4-9B. Новая версия семейства позволяет поддерживать комплексные функции:
- завершение и генерация кода;
- интерпретатор кода;
- вопросы и ответы по коду на уровне репозитория;
- веб-поиск (при наличии агента)
CodeGeeX4-ALL-9B показала конкурентоспособную производительность в общедоступных тестах BigCodeBench и NaturalCodeBench.
По заявлению авторов, это самая мощная модель генерации кода с числом параметров менее 10B, превосходящая в некоторых аспектах более крупные модели общего назначения и обеспечивающая лучший баланс между скоростью вывода и производительности модели.
⚠️ Лицензирование
Модель имеет собственный тип лицензирования:
- бесплатно и неограниченно для для научно-образовательных и исследовательских проектов
- коммерческие проекты должны пройти регистрацию в форме https://open.bigmodel.cn/mla/form и выполнять соблюдение условий
Запустить:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
device = "cuda" if torch.cuda.is_available() else "cpu"
tokenizer = AutoTokenizer.from_pretrained("THUDM/codegeex4-all-9b", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
"THUDM/codegeex4-all-9b",
torch_dtype=torch.bfloat16,
low_cpu_mem_usage=True,
trust_remote_code=True
).to(device).eval()
inputs = tokenizer.apply_chat_template([{"role": "user", "content": "write a quick sort"}], add_generation_prompt=True, tokenize=True, return_tensors="pt", return_dict=True ).to(device)
with torch.no_grad():
outputs = model.generate(**inputs)
outputs = outputs[:, inputs['input_ids'].shape[1]:]
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍33🔥9❤6❤🔥1😁1
Forwarded from Газпромбанк
На Финансовом конгрессе в Санкт-Петербурге обсудили подходы к регулированию искусственного интеллекта.
В дискуссии на эту тему приняли участие представители Газпромбанка, Яндекса, ВТБ, Московской биржи, Центра технологий искусственного интеллекта Сколтеха.
Модератор сессии «Искусственный интеллект: подходы к регулированию» Первый заместитель Председателя ЦБ РФ Ольга Скоробогатова отметила, что банки преуспели в использовании традиционных инструментов с использованием ИИ, но появляются новые инструменты, и в связи с этим возникает вопрос о том, как защитить бизнес и потребителей от некачественных моделей и как должна быть распределена ответственность.
«В целом, можно выделить три вида моделей. Первое — это большие модели общего назначения, например, большие лингвистические модели. Второй уровень — модели, при создании которых банки заинтересованы в сотрудничестве, в частности для анти-фрод решений. И, третье — это модели, за счет которых банки конкурируют друг с другом, и они всегда будут разрабатываться внутри. На мой взгляд, большие модели по сути становятся естественными монополиями. И здесь требуется серьезное регулирование для того, чтобы общество в целом могло получать пользу от этих разработок. Что касается общих для банков решений, то здесь также нужны какие-то нормы, потому что требуется обмен большим количеством данных, и он должен быть регламентирован. Когда речь идет о моделях за счет, которых банки конкурируют, — тут нужно нулевое регулирование», — сказал Дмитрий Зауэрс.
«В том числе тут обсуждалась интерпретируемость моделей, я считаю, что это является ограничением для развития технологий, потому что более сильный класс моделей, например, нейросети, не являются интерпретируемыми. В качестве сравнения: большинство не понимает, как устроены двигатели внутреннего сгорания, но успешно пользуется автомобилями. И также интерпретируемость моделей не влияет на их эффективность», — объяснил он.
Участники дискуссии в целом согласились с предложенным подходом и сошлись на мнении, что регулирование не должно создавать барьеры для развития ИИ-технологий.
«В скором времени конкуренция на финансовом рынке превратится в конкуренцию между дата-сайентистами», — отметил Дмитрий Зауэрс.
@gazprombank
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣16👍11🤨9🥱7❤6🌭4🔥2😁2🤬2🤷♂1
В преддверии предстоящей ICML 2024 (Вена, 21-27 июля 2024 г.) Microsoft опубликовала результаты исследования проекта MInference. Данный метод позволяет ускорить обработку длинных последовательностей за счет разреженных вычислений, применение уникальных шаблонов в матрицах.
Методика MInference не требует изменений в настройках предварительного обучения.
Проведенные исследователями Microsoft синтетические тесты метода на моделях LLaMA-3-1M, GLM4-1M, Yi-200K, Phi-3-128K и Qwen2-128K показывают сокращение задержек и ошибок при предварительном заполнении до 10 раз на A100 с сохранением точности.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍35❤7🔥6😁1
На днях обновилась Vision-Language модель nanoLLaVA-1.5 1B для работы на edge девайсах.
Значительно улучшилась производительность по сравнению с v1.0, при этом размер остался таким же небольшим, что очень удобно для многих применений
🤗 Hugging Face
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍37🔥8❤7😁2🤬1
Arcee Agent 7B превосходит GPT-3.5-Turbo, и многие другие модели в написании и интерпретации кода.
Arcee Agent 7B особенно подходит для желающих реализовать сложные решения на основе ИИ без вычислительных затрат на большие языковые модели.
И да, также имеются квантизованные GGUF-версии Arcee Agent 7B.
🤗 Hugging Face
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31❤7🔥5
Kolors — это большая диффузионная модель, опубликованная вчера командой Kuaishou Kolors.
Kolors была обучена на миллиардах пар "текст-изображение" и показывает отличные результаты в генерации сложных фотореалистичных изображений.
По результатам оценки 50 независимых экспертов, модель Kolors генерирует более реалистчиные и красивые изображения, чем Midjourney-v6, Stable Diffusion 3, DALL-E 3 и другие модели
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥27👍18❤6
Метод CLIP-DINOiser использует только один прямой проход CLIP и двух легких сверточных слоев при выводе, при этом не требует дополнительного контроля и дополнительной VRAM.
В результате применение методв значительно снижается уровень шума.
Метод демонстрирует высокие результаты в бенчмарках
COCO, Pascal Context, Cityscapes и ADE20k.
Код запуска:
python demo.py --file_path [path to the image file] --prompts [list of the text prompts separated by ',']
❗️ Дополнительно нужно установить MMCV and MMSegmentation
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22👍17❤10⚡1