Forwarded from Machinelearning
Зачем кому-то создавать FatLlama-1.7T? Серьезно, в чем смысл?
Однажды вы просыпаетесь и думаете: "Знаете, что нам нужно? Такая огромная модель, чтобы даже облака занервничали". Это все равно что решить построить ракету только для того, чтобы сгонять в супермаркет.
Конечно, это впечатляет, но кто будет ее запускать? Скорее всего, не вы, если только ваш ПК не является нелегальным ядерным реактором.
И что же она умеет? Может быть, предсказывать ваши электронные письма еще до того, как вы подумаете их написать, или просто станет очень хорошо находить в сети видео с котами, кто ж знает...
Вопрос в том, создаем ли мы эти гигантские модели, потому что можем или потому что нам есть что показать Вселенной?
FatLlama-1.7T - это не столько ИИ, сколько "подержите мое пиво, я собираюсь запустить эту штуку".
И вот она, FatLlama-1.7T, которая займет ВСЕ место на вашем жестком диске. Забудьте о сохранении семейных фотографий или драгоценном архиве книг, которые вы никогда не прочитаете. Вам же не так уж и нужны были эти жалкие 3 ТБ свободного места, правда? Зато теперь у вас есть цифровой гигант.
Квантованные версии? Да не вопрос, удачи с запуском, держитесь там.
Даже если каким-то чудом вам удастся запустить FatLlama-1.7T, не спешите расслабляться, ведь вы знаете, что будет дальше, верно? FatLlama 3T.
К тому времени, когда вы выработаете максимум энергии и превратите свой дом в центр обработки данных, чтобы запустить свежую FatLlama 3T, я перейду к FatLlama 5.8T, для которой, вероятно, потребуется маленькая галактика в качестве источника энергии.
Вызов принят? 😁
@ai_machinelearning_big_data
#AI #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
В видео рассматриваются общие практики сбора данных, алгоритмы и методы оценки модели.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ CtrLoRA: Расширяемая и эффективная платформа для генерации управляемых изображений
Сперва обучается ControlNet с LORA, настроенный на конкретные задачи, с использованием крупномасштабного датасета.
Затем базовая сеть ControlNet может быть эффективно адаптирована к новым задачам с помощью новой LoRa, которой необходимо всего 1000 изображений и менее 1 часа на одном графическом процессоре.
Это сокращает количество параметров на 90%, что значительно упрощает создание новых условий управления.
▪️Github
▪️Статья
▪️Модель
@data_analysis_ml
Сперва обучается ControlNet с LORA, настроенный на конкретные задачи, с использованием крупномасштабного датасета.
Затем базовая сеть ControlNet может быть эффективно адаптирована к новым задачам с помощью новой LoRa, которой необходимо всего 1000 изображений и менее 1 часа на одном графическом процессоре.
Это сокращает количество параметров на 90%, что значительно упрощает создание новых условий управления.
▪️Github
▪️Статья
▪️Модель
@data_analysis_ml
This media is not supported in your browser
VIEW IN TELEGRAM
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Он предназначен для того, чтобы вы могли глубже понять принципы работы с большими языковыми моделями и лучше управлять результатами генерации, повышая качество и соответствие запросов и ответов моделей!
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🎓 LongVU
LongVU, видеоредактор с пространственно-временным механизмом адаптивного сжатия, предназначенный для понимания видео продолжительностью в час в реальном времени. LongVU адаптивно сокращает количество видео-маркеров, используя (1) сходство функций DINOv2 в разных кадрах, (2) Кросс-модальное сходство текстовых кадров и (3) сходство временных кадров.
1. Высокое качество работы: 67,6% на EgoSchema, 66,9% на MVBench, 65,4% на MLVU и 59,5% на VideoMME long
2. повышение точности в среднем на 5% в различных тестах понимания видео по сравнению с LLaVA-OneVision и VideoChat2
3. Модель, LongVU-3B, также значительно превзошла аналоги 4B, такие как VideoChat2(Phi-3) и Phi-3.5-vision-instruct, по производительности.
📝Статья: https://huggingface.co/papers/2410.17434
💻Код: https://github.com/Vision-CAIR/LongVU
🚀Проект (демо): https://vision-cair.github.io/LongVU
@data_analysis_ml
LongVU, видеоредактор с пространственно-временным механизмом адаптивного сжатия, предназначенный для понимания видео продолжительностью в час в реальном времени. LongVU адаптивно сокращает количество видео-маркеров, используя (1) сходство функций DINOv2 в разных кадрах, (2) Кросс-модальное сходство текстовых кадров и (3) сходство временных кадров.
1. Высокое качество работы: 67,6% на EgoSchema, 66,9% на MVBench, 65,4% на MLVU и 59,5% на VideoMME long
2. повышение точности в среднем на 5% в различных тестах понимания видео по сравнению с LLaVA-OneVision и VideoChat2
3. Модель, LongVU-3B, также значительно превзошла аналоги 4B, такие как VideoChat2(Phi-3) и Phi-3.5-vision-instruct, по производительности.
📝Статья: https://huggingface.co/papers/2410.17434
💻Код: https://github.com/Vision-CAIR/LongVU
🚀Проект (демо): https://vision-cair.github.io/LongVU
@data_analysis_ml
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Brush — это инструмент для создания 3D-моделей с помощью метода Gaussian splatting.
Онаработает на разных платформах: macOS, Windows, Linux и Android.
Программа позволяет создать 3D модель объекта, используя множество фотографий этого объекта под разными углами.
*Brust написан на я Rust. В нём используются библиотеки wgpu и Burn, которые позволяют создавать независимые бинарные файлы и запускать их на различных устройствах.
📌 Ссылка на репозиторий Brush
@data_analysis_ml
Онаработает на разных платформах: macOS, Windows, Linux и Android.
Программа позволяет создать 3D модель объекта, используя множество фотографий этого объекта под разными углами.
*Brust написан на я Rust. В нём используются библиотеки wgpu и Burn, которые позволяют создавать независимые бинарные файлы и запускать их на различных устройствах.
📌 Ссылка на репозиторий Brush
@data_analysis_ml
Боты общаются между собой и игроками посредством Llama.cpp. В целом, тексты, генерируемые этими ботами, выглядят нормально, но иногда встречаются странные фразы.
Проект доступен на GitHub по ссылке https://github.com/jmarshall23/Quake3LLM.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔦Компания alvinzhang только что выпустила версию IC-Light v2
IC-Light v2 теперь работает на FLUX и является лучшим инструментом для редактирования освещения 🌐
Попробуйте официальную демку ✨📣 https://huggingface.co/spaces/lllyasviel/iclight-v2
@data_analysis_ml
IC-Light v2 теперь работает на FLUX и является лучшим инструментом для редактирования освещения 🌐
Попробуйте официальную демку ✨📣 https://huggingface.co/spaces/lllyasviel/iclight-v2
@data_analysis_ml
This media is not supported in your browser
VIEW IN TELEGRAM
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Учебник Стэнли Чана, профессора кафедры электротехники, вычислительной техники и статистики Purdue University (США), содержит ультраполезные знания в области диффузионных моделей в контексте обработки изображений и CV. Он доступно и детально объясняет сложные концепции и подходит как опытным профессионалам, так и тем, кто только начинает изучать эту область.
Для профессионалов, уже работающих с диффузионными моделями или стремящихся углубить свои знания, этот учебник послужит отличным ресурсом, который предоставляет прочную основу для понимания и применения концепций в прикладных задачах.
Вариационный автоэнкодер (VAE)
Вероятностная модель диффузионного денойза (DDPM)
Динамика сопоставления баллов Ланжевена (SMLD)
Стохастическое дифференциальное уравнение (SDE)
Уравнения Ланжевена и Фоккера-Планка
@ai_machinelearning_big_data
#AI #ML #Tutorial #Duffusion
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
📚 Свежие гайды от Anthropic : Реализация Contextual RAG с открытым исходным кодом
Что внутри :
1. Использование Llama 3.2 3B для эффективной генерации контекста для каждого чанка
2. Использование алгоритмов ранжирования: векторного и BM25
3. Выполнение гибридного поиска
4. Ранжирование результатов гибридного поиска
5. Генерации с помощью Llama 3.1 405B
📌 Смотреть
@data_analysis_ml
Что внутри :
1. Использование Llama 3.2 3B для эффективной генерации контекста для каждого чанка
2. Использование алгоритмов ранжирования: векторного и BM25
3. Выполнение гибридного поиска
4. Ранжирование результатов гибридного поиска
5. Генерации с помощью Llama 3.1 405B
📌 Смотреть
@data_analysis_ml
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM