—
pip install "unstructured[all-docs]"
Unstructured предоставляет компоненты для предобработки изображений, текстовых документов; поддерживает многие форматы: PDF, HTML, Word docs и др.
Запустить библиотеку в контейнере:
docker run -dt --name unstructured downloads.unstructured.io/unstructured-io/unstructured:latest
docker exec -it unstructured bash
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤18👍13🔥8
⚡️ Gemma 2 9B GGUF — набор квантизованных версий Gemma 2
Встречайте набор моделей, полученных квантизацией Gemma 2 с разной степенью сжатия.
Для квантизации использовался этот датасет
Особенности:
- GGuf версии очень слабы, более-менее адекватная - 9B (Q4 и Q5)
- Фокус "специализации": текст (
- Модель не поддерживает системные промты
🤗 Hugging Face
🟡 Неквантизованная Gemma 2
@ai_machinelearning_big_data
Встречайте набор моделей, полученных квантизацией Gemma 2 с разной степенью сжатия.
Для квантизации использовался этот датасет
Особенности:
- GGuf версии очень слабы, более-менее адекватная - 9B (Q4 и Q5)
- Фокус "специализации": текст (
стилистика, словарный запас, обсуждения
), применимо только к English-language content, программирование - обучение синтаксису и паттернам написания кода ( прокачка скиллов модели по ЯП не уточняются), математика - решение задач, логика постоения ответов.- Модель не поддерживает системные промты
🤗 Hugging Face
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👍7❤4🤨1
Вчера OpenAI выкатили CriticGPT, которая пишет критические замечания к ответам ChatGPT для нахождения ошибок в ответе, что особенно полезно для RLHF (обучения с подкреплением на основе человеческой обратной связи).
А вот статья от OpenAi - "LLM Critics Help Catch LLM Bugs - для технарей, о том, как создавался CriticGPT.
Из нее следует, что:
- аннотаторам-людям в 63 % случаев больше нравились критические заметки CriticGCO, сделанные CriticGPT, чем заметки, сделанные людьми, особенно когда речь шла о поиске ошибок, связанных с LLM ( это к пункту поста про 60%), как видите - формулировка отличается, смысл совершенно другой.
- новая техника под названием "
Force Sampling Beam Search
" используется в CriticGPT, чтобы помочь критикам писать более качественные и подробные рецензии.Этот метод также снижает вероятность "галлюцинаций", которые возникают, когда ИИ делает или предлагает ошибки, которых нет или которые не имеют значения. В CriticGPT одним из важнейших преимуществ является то, что пользователи могут изменять степень тщательности поиска ошибок. То есть процесс не автоматический, вовлеченность человека важна на ранних этапах
- CriticGPT не справляется с длинными и сложными заданиями по кодированию, поскольку обучался на коротких ответах ChatGPT
- CriticGPT не всегда находит ошибки, которые распространяются на несколько участков кода
Плюсы:
- Безусловно, это большой шаг вперед в области рецензирования кода с помощью ИИ.
- Он улучшит прикладной подход рецензирования кода, позволит сочетать возможности GPT-4 с продвинутым обучением и новыми методами контроля качества ответов.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥13❤6🥰2
⚡️ Microsoft обновила собственный бесплатный курс по генеративному ИИ
В курсе видео, практика (код) и дополнительные материалы.
Пргорамма курса состоит из изучения структуры и работы LLM, тонкостям промптинга, созданию собственного приложения для генерации изображений, функционалу RAG для LLM и принципам файнтюна.
📌 А здесь мы вылудили полный список бесплатных курсов.
Для прохождения курса нужны:
- учетная запись на Azure
- доступ к api OpenAI
Разумеется, все методики и манипуляции предлагается выполнять обучающимся в экосистеме Microsoft, на их мощностях и с использованием их сервисов.
Бэкенд учебного приложения для генерации картинок - DALLE и Midjourney.
Большие надежды строить относительно курса не стоит - экосисистема Microsoft требует отдельных компетенций, но в качестве базового структурированного курса для новичков - вполне подойдет.
🖥 Курс полностью выложен на Github: https://github.com/microsoft/generative-ai-for-beginners
@ai_machinelearning_big_data
В курсе видео, практика (код) и дополнительные материалы.
Пргорамма курса состоит из изучения структуры и работы LLM, тонкостям промптинга, созданию собственного приложения для генерации изображений, функционалу RAG для LLM и принципам файнтюна.
📌 А здесь мы вылудили полный список бесплатных курсов.
Для прохождения курса нужны:
- учетная запись на Azure
- доступ к api OpenAI
Разумеется, все методики и манипуляции предлагается выполнять обучающимся в экосистеме Microsoft, на их мощностях и с использованием их сервисов.
Бэкенд учебного приложения для генерации картинок - DALLE и Midjourney.
Большие надежды строить относительно курса не стоит - экосисистема Microsoft требует отдельных компетенций, но в качестве базового структурированного курса для новичков - вполне подойдет.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍47❤15🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Depth Anything v2: Новый уровень построение карты глубины
Версия 2 значительно улучшена за счет комбинации уточненных синтетических данных и hi-res набора реальных изображений в датасете обучения. Диапазон параметров моделей - от 25М до 1.3B. 💙
👉 Линейка моделей:
- Depth-Anything-V2-Small (24.8М) Apache-2.0
- Depth-Anything-V2-Base (97.5М) CC-BY-NC-4.0
- Depth-Anything-V2-Large (335М) CC-BY-NC-4.0
- Depth-Anything-V2-Giant (1.3В) CC-BY-NC-4.0 Coming soon
👉 Реализовано использование V2:
- TensorRT
- ONNX
- ComfyUI
- Transformers.js (real-time depth in web)
- Android
▪Paper
▪Project
▪Repo
▪Demo
@ai_machinelearning_big_data
Версия 2 значительно улучшена за счет комбинации уточненных синтетических данных и hi-res набора реальных изображений в датасете обучения. Диапазон параметров моделей - от 25М до 1.3B. 💙
👉 Линейка моделей:
- Depth-Anything-V2-Small (24.8М) Apache-2.0
- Depth-Anything-V2-Base (97.5М) CC-BY-NC-4.0
- Depth-Anything-V2-Large (335М) CC-BY-NC-4.0
- Depth-Anything-V2-Giant (1.3В) CC-BY-NC-4.0 Coming soon
👉 Реализовано использование V2:
- TensorRT
- ONNX
- ComfyUI
- Transformers.js (real-time depth in web)
- Android
▪Paper
▪Project
▪Repo
▪Demo
@ai_machinelearning_big_data
🔥29👍16❤6🤔1
🌟 ManiWAV:— обучение роботизированные системы аудио-визуальному самоконтролю.
Исследователи из Stanford и Сolambia University при поддержке Toyota Research Institute разработали метод аудиовизуального обучения роботизированных манипуляторов, который превосходит некоторые альтернативные подходы по контактным операциям и может быть применим к любой релевантной промышленной среде.
https://github.com/real-stanford/maniwav/blob/main/assets/audio_teaser.jpg?raw=true
Для самостоятельного тестирования и применения нужны:
- совместимость с Universal Manipulation Interface (UMI)
- установить микрофоны на целевой манипулятор (рекомендации + модель грипера с держателем)
- загрузить датасет и модель
Доступны режимы тренировки и тестирования ( под ссылками строки кода для выполнения команд)
Тренировка выполняется при помощи CUDA, рекомендованный GPU: NVIDIA GeForce RTX 3090 24 GB, но есть поддержка multi-GPU
🟡 Страница проекта ManiWAV
🟡 Paper
🟡Summary Video
🖥 GitHub
@ai_machinelearning_big_data
Исследователи из Stanford и Сolambia University при поддержке Toyota Research Institute разработали метод аудиовизуального обучения роботизированных манипуляторов, который превосходит некоторые альтернативные подходы по контактным операциям и может быть применим к любой релевантной промышленной среде.
https://github.com/real-stanford/maniwav/blob/main/assets/audio_teaser.jpg?raw=true
Для самостоятельного тестирования и применения нужны:
- совместимость с Universal Manipulation Interface (UMI)
- установить микрофоны на целевой манипулятор (рекомендации + модель грипера с держателем)
- загрузить датасет и модель
Доступны режимы тренировки и тестирования ( под ссылками строки кода для выполнения команд)
Тренировка выполняется при помощи CUDA, рекомендованный GPU: NVIDIA GeForce RTX 3090 24 GB, но есть поддержка multi-GPU
🟡 Страница проекта ManiWAV
🟡 Paper
🟡Summary Video
🖥 GitHub
@ai_machinelearning_big_data
👍27🔥10❤3
🌟 Paint by Inpaint — высокоточный Instruct pix2pix по текстовому запросу.
Navve Wasserman с коллегами представили улучшенный вариант Instruct pix2pix - "Paint by Inpaint". Методика улучшения:
— был создан конвейер обработки изображений, который с помощью модели inpaint добавлял объекты на изображения. Затем, сравнивая исходное изображение с полученным, вычиталась разница — так получился датасет PIPE
— датасет PIPE был аннотирован большой моделью VLM и обработан для устранения артефактов маскированя объектов — так получился набор высокодетализированных объектов для вычитания
— эти два противоположных процесса: удаление и добавление объектов совместили, примменя контроль большей точностью (аналогично GAN), в результате чего была получена модель, очень точно добавляющая объекты на изображения по текстовому запросу.
Предобученные модели Paint-By-Inpaint:
- addition-base-model - базовое добавление объектов
- addition-finetuned-model - файнтюн на датасете MagicBrush
- general-base-model - удаление и добавление объектов
- general-finetuned-model - файнтюн на датасете MagicBrush
Датасет PIPE для обучения и тестирования на HuggingFace
Пример загрузки тестового набора:
▪ Страница проекта Paint by Inpaint
▪ Paper
▪ Demo
▪ GitHub
@ai_machinelearning_big_data
Navve Wasserman с коллегами представили улучшенный вариант Instruct pix2pix - "Paint by Inpaint". Методика улучшения:
— был создан конвейер обработки изображений, который с помощью модели inpaint добавлял объекты на изображения. Затем, сравнивая исходное изображение с полученным, вычиталась разница — так получился датасет PIPE
— датасет PIPE был аннотирован большой моделью VLM и обработан для устранения артефактов маскированя объектов — так получился набор высокодетализированных объектов для вычитания
— эти два противоположных процесса: удаление и добавление объектов совместили, примменя контроль большей точностью (аналогично GAN), в результате чего была получена модель, очень точно добавляющая объекты на изображения по текстовому запросу.
Предобученные модели Paint-By-Inpaint:
- addition-base-model - базовое добавление объектов
- addition-finetuned-model - файнтюн на датасете MagicBrush
- general-base-model - удаление и добавление объектов
- general-finetuned-model - файнтюн на датасете MagicBrush
Датасет PIPE для обучения и тестирования на HuggingFace
Пример загрузки тестового набора:
from datasets import load_dataset
from torch.utils.data import DataLoader
from dataset.dataset import PIPE_Dataset
data_files = {"train": "data/train-*", "test": "data/test-*"}
pipe_dataset = load_dataset('paint-by-inpaint/PIPE',data_files=data_files)
train_dataset = PIPE_Dataset(pipe_dataset, split='train')
train_dataloader = DataLoader(train_dataset, batch_size=32, shuffle=True)
test_dataset = PIPE_Dataset(pipe_dataset, split='test')
test_dataloader = DataLoader(test_dataset, batch_size=1, shuffle=True)
▪ Страница проекта Paint by Inpaint
▪ Paper
▪ Demo
▪ GitHub
@ai_machinelearning_big_data
👍30🔥5❤4❤🔥2
— значительно улучшено понимание кода на Python, C++, Rust и Typescript
— улучшен вывод, теперь он более структурированный
— улучшено понимание сложных предложений
— добавлена поддержка тега
<|system|>
.— улучшена способность к рассуждению и понимание длинного контекста
Это обновление коснулось контрольных точек 4K и 128K
🤗 Hugging Face
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
❤30🔥9👍8❤🔥2😁2🥱2
🔥ESPNet XEUS - новая SoTA распознавания речи.
Мультиязычная модель распознавания речи и перевода от Университета Карнеги-Меллона, которая обучена более чем 4000 языкам! 🔥
> Лицензия MIT
> 577 миллионов параметров.
> Превосходит MMS 1B и w2v-BERT v2 2.0
> Архитектура E-Branchformer
> Датасет 8900 часов аудиозаписей на более чем 4023 языках
▪ HF: https://huggingface.co/espnet/xeus
▪ Dataset: https://huggingface.co/datasets/espnet/mms_ulab_v2
@ai_machinelearning_big_data
Мультиязычная модель распознавания речи и перевода от Университета Карнеги-Меллона, которая обучена более чем 4000 языкам! 🔥
> Лицензия MIT
> 577 миллионов параметров.
> Превосходит MMS 1B и w2v-BERT v2 2.0
> Архитектура E-Branchformer
> Датасет 8900 часов аудиозаписей на более чем 4023 языках
git lfs install
git clone https://huggingface.co/espnet/XEUS
▪ HF: https://huggingface.co/espnet/xeus
▪ Dataset: https://huggingface.co/datasets/espnet/mms_ulab_v2
@ai_machinelearning_big_data
👍35🔥8❤4❤🔥1
По сравнению с аналогичными методами, DragAnything обладает рядом преимуществ. Во-первых, DragAnything, позволяет явно указать траекторию движения объекта.
Во-вторых, DragAnything позволяет управлять движением любых объектов, включая фон.
Ну и наконец, DragAnything позволяет одновременно управлять движением нескольких объектов.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍34🔥8❤4❤🔥1
MoMA не требует обучения и позволяет быстро генерировать изображения изображения с высокой точностью детализации и сохранением идентичности.
Скорость MoMA обеспечивается оптимизацией механизма внимания, который передает признаки исходного изображения в диффузионную модель.
Модель является универсальным адаптером и может быть применена к различным моделям без изменений.
На сегодняшний день MoMA превосходит в синтетических тестах аналогичные существующие методы и позволяет создавать изображения с высоким уровнем соответствия промпту максимально сохраняя стиль референсного изображения.
✍️ Рекомендованые параметры оптимизации потребления VRAM :
22 GB or more GPU memory:
args.load_8bit, args.load_4bit = False, False
18 GB or more GPU memory:
args.load_8bit, args.load_4bit = True, False
14 GB or more GPU memory:
args.load_8bit, args.load_4bit = False, True
🤗 Hugging Face
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18👍12❤8❤🔥3🗿1
Long-CLIP — это модифицированная вариация классического CLIP, поддерживающая обработку до 248 текстовых токенов и позволяющая генерировать точные изображения на основе длинного промпта.
Тестирование Long-CLIP на 1 миллионе пар "текст - изображение" показало превосходство над CLIP на 20% при работе с длинным текстовым описанием и на 6% при работе с обычным.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20❤10🔥3😁2