LLaVaOLMoBitnet1B - мультимодальная модель, способная принимать в качестве входных данных изображение + текст (запрос) и отдавать согласованные текстовые ответы на выходе.
Архитектура модели состоит из 3-х частей:
Модель была обучена в 2 фазы. Первая - предварительное обучение для выравнивания функций и вторая фаза - тонкой настройки инструкций.
Фаза предварительного обучения состояла из 1 эпохи на отфильтрованном наборе данных 595 тыс. концептуальных текстовых аннотаций, с обновлением весов только проекционного слоя.
Для второй фазы точной настройки инструкций использовалась 1 эпоха с набором данных LLaVa-Instruct-150K с обновлением и весов слоя проекции и весов LLM.
⚠️ Примечание: Модель в репозитории IntelLabs на Huggingface находится в режиме акцепта доступа. После отправки запроса пройдет какое-то время, прежде чем владелец репозитория одобрит запрос.
# Clone repositry
git clone https://huggingface.co/IntelLabs/LlavaOLMoBitnet1B
# Move to folder & intall requirements
cd LlavaOLMoBitnet1B
pip install -r requirements.txt
# Run inference
python llava_olmo.py
text = "Be concise. Describe what is in the image"
url = "https://URL_TO_IMAGE.jpg"
@ai_machinelearning_big_data
#AI #Intel #ML #LlavaBitNet
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥9❤3