Forwarded from Анализ данных (Data analysis)
⚡️ CogVideoX1.5-модели серии 5B, включая T2V зоры и I2V-модели.
Эти модели поддерживают более высокое разрешение (1360 * 768) и более высокую частоту кадров (16 кадров в секунду). Версия SAT имеет открытый исходный код, а версия для диффузоров находится в стадии адаптации.😀
🔗 HF: https://huggingface.co/THUDM/CogVideoX1.1-5B-SAT
🔗 Github: https://github.com/THUDM/CogVideo
🔗 Paper: https://arxiv.org/abs/2408.06072
🔗 Подробнее про модели: https://t.me/ai_machinelearning_big_data/5429
@data_analysis_ml
Эти модели поддерживают более высокое разрешение (1360 * 768) и более высокую частоту кадров (16 кадров в секунду). Версия SAT имеет открытый исходный код, а версия для диффузоров находится в стадии адаптации.😀
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ CogVideoX1.5-модели серии 5B, включая T2V зоры и I2V-модели.
Эти модели поддерживают более высокое разрешение (1360 * 768) и более высокую частоту кадров (16 кадров в секунду). Версия SAT имеет открытый исходный код, а версия для диффузоров находится в стадии адаптации.😀
🔗 HF: https://huggingface.co/THUDM/CogVideoX1.1-5B-SAT
🔗 Github: https://github.com/THUDM/CogVideo
🔗 Paper: https://arxiv.org/abs/2408.06072
🔗 Подробнее про модели: https://t.me/ai_machinelearning_big_data/5429
@data_analysis_ml
Эти модели поддерживают более высокое разрешение (1360 * 768) и более высокую частоту кадров (16 кадров в секунду). Версия SAT имеет открытый исходный код, а версия для диффузоров находится в стадии адаптации.😀
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
AdaCache основан на наблюдении, что «не все видео одинаковы»: некоторым видео требуется меньше шагов денойза для достижения приемлемого качества, чем другим.
AdaCache использует кэширование остаточных вычислений в блоках трансформера (например, выходные данные механизмов внимания или MLP) на определенном шаге диффузии и повторного использования их на нескольких последующих шагах, количество которых зависит от генерируемого видео.
Решение о том, когда нужно выполнить следующее вычисление, принимается на основе метрики расстояния, которая измеряет скорость изменения между сохраненными и текущими представлениями.
Чтобы избежать артефактов для динамики используется регуляризация движения (MoReg).
MoReg оценивает движения в латентном пространстве на основе разности остаточных кадров, а чтобы эта оценка была эффективна на ранних шагах диффузии, MoReg вычисляет градиент движения, который выступает в качестве разумного раннего предиктора. И оценка движения, и градиент движения используются в качестве масштабирующего фактора метрики расстояния для регуляризации схемы кэширования AdaCache.
AdaCache был протестирован на Open-Sora-v1.2, Open-Sora-Plan-v1.1 и Latte. Результаты показали, что AdaCache обеспечивает ощутимое ускорение без ущерба для качества генерации. Фактически, он достигает ускорения в 4.49x, 3.53x и 2.46x соответственно на трех рассмотренных базовых видео.
Прикладной кейс использования AdaCache предлагается на бейслайне Open-Sora с вариантами запуска: Baseline, AdaCache и AdaCache+MoReg.
⚠️ Пример инференса рекомендуются на одном GPU A100 (80Gb)
# Baseline
bash run_sample_video.sh configs/sample.py
# AdaCache
bash run_sample_video.sh configs/sample_adacache.py
# AdaCache+MoReg
bash run_sample_video.sh configs/sample_adacache_moreg.py
@ai_machinelearning_big_data
#AI #ML #DiT #AdaCache #Text2Video
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
TIPO (Text to Image with text presampling for Prompt Optimization) - метод, который улучшает качество и удобство использования моделей text-2-image.
TIPO использует LLM для предварительной обработки текстовых запросов, делая их более точными и информативными. Он воспринимает как промпты на естественном языке , так и формат Danbooru тегов.
Основная идея метода заключается в том, что более детальные и конкретные запросы приводят к более точной генерации изображений, тогда как неконкретные запросы приводят к более широкому спектру, но менее точным результатам.
TIPO генерирует несколько подробных вариантов запроса из одного простого, тем самым расширяя пространство возможных результатов и повышая вероятность получения желаемого изображения.
Представлены 2 модели TIPO, обе построены на базе LLaMA 400M, обученные на наборах Danbooru2023, GBC10M и Coyo-HD-11M с общим числом токенов 30 млррд.
@ai_machinelearning_big_data
#AI #ML #T2I #TIPO #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Туториал ориентируется на нетехническую аудиторию, которая имеет опыт взаимодействия с большими языковыми моделями.
В первой половине представлены ментальные конструкции природы посттренинга и промптов. Вторая половина содержит более конкретные предписания и высокоуровневую процедуру промпт-инжиниринга.
Авторы, Varun Godbole и Ellie Pavlick подчеркивают, что поиск «идеальной» подсказки — это итеративный процесс, аналогичный настройке модели, который в лучшем случае является эмпирическим, а в худшем - алхимическим.
@ai_machinelearning_big_data
#AI #ML #LLM #Prompt #Github #Tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM
AlphaFold 3 — конвейер логического вывода системы ИИ, разработанной Google DeepMind, которая произвела революцию в области прогнозирования структуры белков.
Пакет AlphaFold 3 включает в себя все необходимое для теоретического моделирования структуры белка. Для запуска системы необходимо сконфигурировать входной файл JSON, содержащий информацию о белке, например, его идентификатор и аминокислотную последовательность.
Вместе с программным конвейером инференса доступна подробная документация по входным и выходным данным системы, решению известных проблем, настройкам производительности и установке с последующим запуском с помощью Docker.
Для локального использования понадобится ОС Linux (AlphaFold 3 не поддерживает другие операционные системы) примерно 1 ТB дискового пространства для хранения генетических баз данных (рекомендуется SSD), 64 GB RAM, GPU NVIDIA с Compute Capability 8.0 или выше.
Исходные данные, содержащие 5120 токенов, могут поместиться на одном NVIDIA A100 80 ГБ или одном NVIDIA H100 80 ГБ.
⚠️ Получение параметров модели возможно через подачу заявки в Google DeepMind, доступ предоставляется в течении 2-3 дней по итогам рассмотрения обращения.
⚠️ Любая публикация, основанная на результатах, полученных с использованием AlphaFold 3, должна ссылаться на статью «Accurate structure prediction of biomolecular interactions with AlphaFold 3».
⚠️ AlphaFold 3 не является официально поддерживаемым продуктом Google и ее результаты не предназначены, не проверены и не одобрены для клинического использования.
@ai_machinelearning_big_data
#AI #ML #DeepMind #AlfaFold3
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
В исследовании, опубликованном к International Semantic Web Conference, Google Research проанализировал связи между датасетами, доступными в Интернет. Целью исследования заявлена стремление улучшить возможности поиска и использования данных, учитывая их сложные взаимоотношения.
Исследователи выделили 4 ключевые задачи, с которыми сталкиваются пользователи при работе с датасетами:
Чтобы классифицировать отношения между датасетами были использованы 2 основных типа связей: основанные на происхождении (например, версии и подмножества) и не связанные с происхождением (например, тематически похожие).
Для автоматического определения отношений между датасетами применяли 4 метода:
Schema.org - это семантическая разметка метаданных для поисковых ботов на веб-страницах.
Набор правил, разработанных для каждого типа отношений.
Метод машинного обучения, основанный на классификации.
Генеративная модель, также используемая для классификации.
Результаты исследования показали, что методы машинного обучения, GBDT и T5, превзошли эвристический подход в точности определения отношений. GBDT продемонстрировал наилучшие показатели F1 в различных категориях, T5 тоже
Однако, даже самые эффективные методы столкнулись с ограничениями из-за недостаточной полноты метаданных. Вывод - необходимость улучшения стандартов метаданных и более широкого использования schema.org для описания связей между датасетами.
@ai_machinelearning_big_data
#AI #ML #Google #Datasets #Search
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Epoch AI представила FrontierMath, математический тест, который содержит сотни задач экспертного уровня. Claude 3.5 Sonnet, GPT-4o, o1-preview и Gemini 1.5 Pro показали крайне низкие результаты - менее 2%, а для решения задач теста математикам-специалистам обычно требуются часы или дни.
Набор задач в FrontierMath остается закрытым и неопубликованным, чтобы предотвратить загрязнение данных. Задачи охватывают несколько математических дисциплин, от вычислительной теории чисел до абстрактной алгебраической геометрии.
Epoch AI планирует проводить регулярную оценку моделей ИИ с помощью теста, одновременно расширяя набор задач.
epoch.ai
Ученые из SAND Lab Чикагского университета разработали два инструмента, Glaze и Nightshade, которые защищают цифровое искусство от несанкционированного использования в обучении моделей.
Glaze изменяет изображения таким образом, чтобы алгоритмы ИИ не могли распознать стиль художника, а Nightshade добавляет в изображения «яд», нарушающий работу моделей ИИ. Оба инструмента были загружены миллионы раз и используются художниками для защиты своих работ от копирования и использования без их согласия.
Nightshade может нанести серьезный ущерб моделям ИИ, заставив их интерпретировать изображения неправильно, например, принимать собак за кошек. Разработчики инструментов надеются, что они заставят компании, занимающиеся ИИ, вести переговоры с художниками о лицензировании и справедливой компенсации.
technologyreview.com
OpenAI разработала план развития инфраструктуры ИИ в США, который включает создание специальных экономических зон для ИИ, использование опыта ВМС США в области ядерной энергетики и финансирование государственных проектов частными инвесторами. План также предусматривает создание североамериканского альянса по ИИ для конкуренции с китайскими инициативами.
Компания считает, что инвестиции в ИИ в США приведут к созданию десятков тысяч рабочих мест, росту ВВП, модернизации энергосистемы, появлению новых заводов по производству чипов и привлечению миллиардов долларов инвестиций из глобальных фондов.
В плане также прогнозируется принятие закона о национальной транспортной магистрали, который позволит расширить строительство линий электропередач, волоконно-оптических сетей и газопроводов.
cnbc.com
YouTube тестирует новую функцию в наборе инструментов Dream Track, которая позволяет авторам ремиксовать треки с помощью опции «Restyle a track» и описать текстом, как они хотят изменить стиль песни. Restyle a track сгенерирует 30-секундный фрагмент, который авторы смогут использовать в Shorts.
Ремикшированные фрагменты будут содержать информацию об оригинальной песне на странице Shorts audio pivot. Ремиксы также будут иметь соответствующую метку, указывающую на то, что трек был изменен с помощью ИИ.
techcrunch.com
Исследователи из Университета Пенсильвании разработали систему PanoRadar, которая использует радиоволны и ИИ, чтобы обеспечить роботов трехмерным зрением, подобным LiDAR, но по более низкой цене.
PanoRadar работает как маяк, вращаясь и излучая радиоволны, отражения которых обрабатываются ИИ для создания точного 3D-изображения окружающей среды. Эта технология позволяет роботам видеть сквозь препятствия, дым и туман. PanoRadar использует алгоритмы машинного обучения для интерпретации сложных сигналов радиоволн и достижения высокого разрешения, сравнимого с LiDAR.
interestingengineering.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM