С помощью StyleSplat пользователи могут стилизовать несколько объектов в одной сцене, применяя к каждому объекту разные стили с большой точностью.
StyleSplat спроектирован так, чтобы быть легким и эффективным, при этом давая возможность контролировать масштаб шаблонов стиля, регулируя такие параметры, как размер изображения стиля или слои, используемые для извлечения объектов.
В основе проекта применяется техника, которая использует гауссово пятно для передачи стиля трехмерных объектов. Такой подход устраняет ограничения других существующих методов, предоставляя улучшенный контроль и настройку при создании 3D.
StyleSplat выполняется в три основных этапа:
1. Сегментации видео DEVA (DEVA) и Segment Anything (SAM) для получения согласованных 2D-масок по всей сцене. Эти маски обеспечивают точный выбор объекта и служат основой для последующих шагов.
2. Гауссовская группировка, в которой каждому 3D-гауссову вектору присваивается уникальный и обучаемый компактный вектор признаков.
Оптимизируя эти векторы вместе с коэффициентами сферических гармоник, выполняется уточняющая сегментация трехмерных гауссиан, что позволяет более точно выбирать объекты.
3. Перенос 3D-стиля. Это этап тонкой настройки совмещает коэффициенты сферических гармоник выбранных гауссиан с изображением эталонного стиля. Этот этап гарантирует, что будут стилизованы только выбранные объекты, а остальная часть сцены останется нетронутой.
По сравнению с аналогичным решением S2RF, StyleSplat превосходит его по точности и визуальной достоверности.
S2RF часто приводит к обесцвечиванию нецелевых областей, тогда как использование сегментированных 3D-гауссиан в StyleSplat обеспечивает точную и изолированную передачу стиля.
@ai_machinelearning_big_data
#3D #Gaussian #ML #Styletransfer
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19❤3🔥1😁1
Forwarded from Институт AIRI
CV-шница пройдет уже в этот четверг! 🍳
Делимся подробным расписанием онлайн-митапа:
▪️15:30
Вступление — Артур Кадурин, руководитель группы «Глубокое обучение в науках о жизни», AIRI
▪️15:35
3D генерация по тексту/изображению — Антон Конушин, кандидат физико-математических наук, руководитель группы «Пространственный интеллект», AIRI
▪️ 15:55
Kandinsky Flash: генеративно-состязательный подход к дистилляции диффузионных моделей — Владимир Архипкин, руководитель направления по исследованию данных, Sber AI
▪️ 16:15
Мультимодальные модели и способы эффективного представления визуального контекста — Андрей Кузнецов, кандидат технических наук, директор лаборатории FusionBrain, AIRI
▪️16:35
Генерация изображений по активности мозга — Абдуллин Ильгиз, AI Talent Hub, и Щетинников Константин, Quality Analyst Intern, Wildberries
▪️16:55
Ensemble-Based Image Annotation for Real-Time Human Detection
— Игорь Попов, Computer Vision Engineer, AI Talent Hub
Сохраняйте ссылку на трансляцию, чтобы не пропустить доклады 👾
Делимся подробным расписанием онлайн-митапа:
▪️15:30
Вступление — Артур Кадурин, руководитель группы «Глубокое обучение в науках о жизни», AIRI
▪️15:35
3D генерация по тексту/изображению — Антон Конушин, кандидат физико-математических наук, руководитель группы «Пространственный интеллект», AIRI
▪️ 15:55
Kandinsky Flash: генеративно-состязательный подход к дистилляции диффузионных моделей — Владимир Архипкин, руководитель направления по исследованию данных, Sber AI
▪️ 16:15
Мультимодальные модели и способы эффективного представления визуального контекста — Андрей Кузнецов, кандидат технических наук, директор лаборатории FusionBrain, AIRI
▪️16:35
Генерация изображений по активности мозга — Абдуллин Ильгиз, AI Talent Hub, и Щетинников Константин, Quality Analyst Intern, Wildberries
▪️16:55
Ensemble-Based Image Annotation for Real-Time Human Detection
— Игорь Попов, Computer Vision Engineer, AI Talent Hub
Сохраняйте ссылку на трансляцию, чтобы не пропустить доклады 👾
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23❤3
🙏 Anthropic объявила, что удвоила лимит output-токенов для API Sonnet и Claude 3.5 до 8000.
Обновление лимитов уже доступно пользователям, использующим API. Чтобы получить доступ к обновлению, необходимо включить в свои вызовы API специальный бета-заголовок к параметру extra_headers : "anthropic-beta": “max-tokens-3-5-sonnet-2024-07-15”. Analyticsindiamag.com
💰Стартап Vectara получил $25 млн в 1 раунде венчурного финансирования на дальнейшую разработку модели Mockingbird, оптимизированную для RAG поиска.
Vectara Inc., системный интегратор, внедряющий в корпоративные системы и приложения LLM с RAG поиском, одновременно с премьерой собственной LLM Mockingbird закрыл 1 раунд привлечения инвесторов. Среди инвесторов фонды FPV Ventures, Race Capital и Samsung Next. Siliconangle.com
🧩 Google объявила о начале реализации платформы искусственного интеллекта Project Oscar для разработчиков.
Проект Oscar, анонсированный во время Google I/O, представляет собой платформу с открытым исходным кодом, которая может помочь командам разработчиков программного обеспечения отслеживать проблемы и ошибки. Сейчас Oscar ориентирован на проекты с открытым исходным кодом, но в будущем он может быть выпущен и для управления проектами с закрытым исходным кодом.
В рамках проекта Project Oscar разработчики могут создавать агентов ИИ, которые функционируют на протяжении всего жизненного цикла разработки программного обеспечения. Эти агенты могут варьироваться от агента-разработчика до агента планирования, агента времени выполнения или агента поддержки. Агенты могут взаимодействовать с помощью естественного языка, поэтому пользователи могут давать им инструкции без необходимости переделывать код. Venturebeat.com
📊 Группа университетских команд (York University, MILA, NTU) при поддержке Salesforce Research представили ChartGemma MLLM.
ChartGemma - мультимодальную instuct-модель, обученная на основе данных, полученных из изображений реальных графиков.
Построенная на базе PaliGemma, ChartGemma использует кодер зрения SigLIP и языковую модель Gemma-2B.
ChartGemma достигла самых высоких результатов в тестах обобщения графиков, ответах на вопросы и проверке фактов по пяти контрольным показателям. Мarktechpost.com
Переводы с новой LLM доступны для пользователей DeepL Pro на четырех языках: английском, немецком, японском и упрощенном китайском.
Пользователи могут активировать LLM в веб-переводчике, выбрав "модель нового поколения".
По словам DeepL, в отличие от моделей общего назначения, LLM обучалась на собственных данных DeepL. В обучении новой модели принимали участие эксперты-лингвисты, которые корректировали ее в вопросах качества перевода.
DeepL утверждает, что новая модель перевода превосходит модели конкурентов, таких как Google, OpenAI и Microsoft.
В ходе слепых тестов профессиональные переводчики отметили, что для достижения того же качества перевода, что и в новой LLM от DeepL, Google Translate требуется в 2 раза больше правок, а GPT-4 - в 3 раза больше. Thenextweb.com
☎️ Anthropic выпустила приложение Claude для Android.
Приложение для Android предоставляет доступ к Claude 3.5 Sonnet. Как и в приложении для iOS, чат с Claude можно продолжить в браузерной версии или на iPhone.
Все, что нужно, - это убедиться, что используемая учетная запись одинакова на всех устройствах. Techradar.com
@ai_machinelearning_big_data
#news #digest
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20❤7🔥7
Это репозиторий HuggingFace содержит 60 000 строк формата "Запрос — ответ — функция API" , собранных APIGen, автоматизированным конвейером генерации данных, разработанным для создания поддающихся проверке качественных наборов данных для приложений.
Согласно описанию создателей, все данные в датасете проходят 3 иерархических этапа проверки: проверка формата, проверка выполнение функции и семантическая проверка.
Датасет прошел человеческую оценку 600 выборочных точек данных, и процент корректности превысил 95 %, а оставшиеся 5 % имеют незначительные проблемы, такие как неточные аргументы и т. д.
from
datasets
import
load_dataset
datasets
=
load_dataset
(
"Salesforce/xlam-function-calling-60k"
)
@ai_machinelearning_big_data
#Dataset #LLM #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥4❤3⚡1
PowerPaint - это универсальный инструмент, который поддерживает удаление объектов с помощью текста, вставку объектов с помощью маски и расширение границ изображения при помощи дорисовки.
Эти техники очень схожи с проприетарной технологией "Генеративная заливка", реализованной в Adobe Photoshop.
Основной функционал PowerPaint:
Изменения в версии v2:
Локальный запуск v2 с использованием GradioUI:
# Clone the Repository
git clone https://github.com/zhuang2002/PowerPaint.git
# Navigate to the Repository
cd projects/powerpaint
# Create Virtual Environment with Conda
conda create --name PowerPaint python=3.9
conda activate PowerPaint
# Install Dependencies
pip install -r requirements.txt
# Run PowerPaint v2
python gradio_PowerPaint_BrushNet.py
Для использования в составе ComfyUI - реализация BrushNet (включает в себя обновление PowerPaint v2)
⚖️ Лицензирование кода: MIT license
@ai_machinelearning_big_data
#Text2Image #Diffusers #ControlNet #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27❤8🔥7⚡1
Адаптация GraphRAG (Microsoft) с поддержкой локальных моделей через Ollama и с UI- интерфейсом на базе Gradio.
На сегодняшний день этот проект - единственный, предлагающий простой UI для локального запуска GrafRAG.
GraphRAG — методология улучшенного извлечения данных для генерации текста из определенных источников (RAG) от Microsoft.
Реализация из этого репозитория имеет ключевые особенности:
Локальная установка:
conda create -n graphrag-ollama -y
conda activate graphrag-ollama
pip install -r requirements.txt
python app.py
Настройка подключения к Ollama в settings.yaml по пути:
ragtest/settings.yaml
⚠️ Проект активно поддерживается разработчиком и довольно оперативно обновляется с учетом найденных ошибок и репортов из issue.
@ai_machinelearning_big_data
#GrafRAG #LLM #ML #Ollama
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26🔥9❤8
⚡️ Новостной дайджест
✔️ LangChain обновила инструменты, позволяющие создавать LLM-приложения
Обновления дают возможность разработчикам использовать любую функцию Python в качестве инструмента, более эффективно обрабатывать разнообразные входные данные и обогащать выходные данные. Кроме того, LangChain теперь предлагает надежные механизмы обработки ошибок и предоставляет исчерпывающую документацию для упрощения интеграции и управления.
blog.langchain.dev
✔️ В MIT разработали алгоритм, который строго проверяет функции Ляпунова в сложных системах, управляемых искусственным интеллектом.
Предложенный алгоритм эффективно находит и проверяет функции Ляпунова, обеспечивая гарантии устойчивости для таких систем. В нем используются контрпримеры для решения нестандартных ситуаций, что увеличивает способность целевой системы безопасно работать в различных условиях. Практическая эффективность алгоритма продемонстрированы на примере беспилотного квадрокоптера, перевернутого маятника и транспортного средства, отслеживающего путь.
news.mit.edu
✔️ Mistral AI и NVIDIA представили Mistral NeMo: 12B LLM с 128К контекстным окном, многоязычными возможностями и токенизатором Tekken.
Mistral NeMo отличается исключительными способностями к рассуждениям, обширными знаниями о мире и высокой точностью кодирования, что делает ее лучшей в своей размерной категории.
Модель выпущена под лицензией Apache 2.0, опубликованы 2 варианта: Mistral-Nemo-Instruct-2407 и Mistral-Nemo-Base-2407
Huggingface.co
✔️ NVIDIA представила Flextron: cетевую архитектуру и фреймворк для оптимизации моделей после обучения, поддерживающий гибкое развертывание моделей.
FLEXTRON преобразует предварительно обученную LLM в эластичную модель с помощью метода обучения на выборке и усовершенствованных алгоритмов маршрутизации.
Процесс преобразования включает ранжирование и группировку компонентов сети и обучение маршрутизаторов, которые управляют выбором подсетей на основе заданных пользователем ограничений, таких как задержка и точность.
marktechpost.com
@ai_machinelearning_big_data
#news #digest
Обновления дают возможность разработчикам использовать любую функцию Python в качестве инструмента, более эффективно обрабатывать разнообразные входные данные и обогащать выходные данные. Кроме того, LangChain теперь предлагает надежные механизмы обработки ошибок и предоставляет исчерпывающую документацию для упрощения интеграции и управления.
blog.langchain.dev
Предложенный алгоритм эффективно находит и проверяет функции Ляпунова, обеспечивая гарантии устойчивости для таких систем. В нем используются контрпримеры для решения нестандартных ситуаций, что увеличивает способность целевой системы безопасно работать в различных условиях. Практическая эффективность алгоритма продемонстрированы на примере беспилотного квадрокоптера, перевернутого маятника и транспортного средства, отслеживающего путь.
news.mit.edu
Mistral NeMo отличается исключительными способностями к рассуждениям, обширными знаниями о мире и высокой точностью кодирования, что делает ее лучшей в своей размерной категории.
Модель выпущена под лицензией Apache 2.0, опубликованы 2 варианта: Mistral-Nemo-Instruct-2407 и Mistral-Nemo-Base-2407
Huggingface.co
FLEXTRON преобразует предварительно обученную LLM в эластичную модель с помощью метода обучения на выборке и усовершенствованных алгоритмов маршрутизации.
Процесс преобразования включает ранжирование и группировку компонентов сети и обучение маршрутизаторов, которые управляют выбором подсетей на основе заданных пользователем ограничений, таких как задержка и точность.
marktechpost.com
@ai_machinelearning_big_data
#news #digest
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29❤9🔥8
DeepSeek выложила в открытый доступ веса модели V2-Chat-0628. Это обновление флагманской Deepseek-V2, одной из лучших моделей в открытом доступе.
Согласно чартам LMSYS Chatbot Arena - эта модель №11 среди open-source моделей на сегодняшний день.
Детальные достижения:
Основная особенность обновления - была оптимизирована возможность следования инструкциям в области "система", что значительно повышает удобство работы с иммерсивным переводом, RAG и другими задачами.
Одновременно с обновлением в репозитории на Huggingface, модель доступна по API в сервисе https://platform.deepseek.com.
💵 Стоимость API DeepSeek-V2-Chat-0628 (128K Context length):
Input - $0.14 / 1M tokens
Output - $0.28 / 1M tokens
⚠️ Размер модели ~ 480 Gb, для локального запуска формата BF16 потребуется 8х80GB GPU`s.
⚖️ Лицензирование кода: MIT
⚖️ Лицензирование модели: Своя лицензия семейства DeepSeek-v2
@ai_machinelearning_big_data
#LLM #DeepSeekV2 #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26🔥5❤3🥰2🤣2
🔥 Apple только что выпустила LLM с открытым исходным кодом 7B, весами, кодом и набором данных! 👀
TL;DR:
🧠 Базовая модель 7B, обученная на 2,5Т токенах ✅ Данные в основном на английском языке, контекстное окно 2048. Обучена полностью на открытых данных.
✅ Объединенные данные DCLM-BASELINE, StarCoder и ProofPile2
✅ MMLU 0.6372 > Mistral & < Llama3
✅ Открытая лицензия с лицензией Apple
✅ Соответствует моделям с закрытыми наборами данных, таким как Mistral
✅ Обучен с использованием Python и OpenLM framework
✅ Доступно на huggingface и в Transformers
▪Модель: https://huggingface.co/apple/DCLM-7B
▪Репозиторий: https://github.com/mlfoundations/dclm
▪Набор данных: https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0
▪Документация: https://arxiv.org/abs/2406.11794
@ai_machinelearning_big_data
#LLM #ML #Apple
TL;DR:
🧠 Базовая модель 7B, обученная на 2,5Т токенах ✅ Данные в основном на английском языке, контекстное окно 2048. Обучена полностью на открытых данных.
✅ Объединенные данные DCLM-BASELINE, StarCoder и ProofPile2
✅ MMLU 0.6372 > Mistral & < Llama3
✅ Открытая лицензия с лицензией Apple
✅ Соответствует моделям с закрытыми наборами данных, таким как Mistral
✅ Обучен с использованием Python и OpenLM framework
✅ Доступно на huggingface и в Transformers
▪Модель: https://huggingface.co/apple/DCLM-7B
▪Репозиторий: https://github.com/mlfoundations/dclm
▪Набор данных: https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0
▪Документация: https://arxiv.org/abs/2406.11794
@ai_machinelearning_big_data
#LLM #ML #Apple
👍36🔥12❤7
Новостной дайджест
✔️ Groq выпустила Llama-3-Groq-70B-Tool-Use и Llama-3-Groq-8B-Tool-Use
Llama-3-Groq-70B-Tool-Use достигла точности 90.76% в Berkeley Function Calling Leaderboard (BFCL), превзойдя все другие модели с открытым исходным кодом и проприетарные модели. Llama-3-Groq-8B-Tool-Use показала точность 89.06%, заняв третье место в BFCL.
Модели обучались с использованием этически сгенерированных данных, без применения пользовательской информации. Они доступны на GroqCloud Developer Hub и на Hugging Face под той же лицензией, что и оригинальные модели Llama-3.
wow.groq.com
✔️ Представлена Deepset-Mxbai-Embed-de-Large-v1: двуязычная модель немецкого/английского языка с открытым исходным кодом.
Модель основана на intfloat/multilingual-e5-large и прошла тонкую настройку на более чем 30 миллионах пар немецких данных, специально адаптированных для задач поиска. Одной из ключевых метрик, используемых для оценки задач поиска, является NDCG@10, который измеряет точность ранжирования результатов по сравнению с идеально упорядоченным списком.
mixedbread.ai
✔️ Google DeepMind представил YouTube-SL-25: Многоязычный датасет с более чем 3 000 часами видео на языке жестов, охватывающий 25+ языков.
YouTube-SL-25 значительно расширяет возможности для задач сурдоперевода и идентификации. Создание датасета проходило в два этапа.
Сначала автоматические классификаторы отобрали подходящие видеоролики с YouTube. За этим этапом последовал процесс сортировки, в котором исследователи расставляли приоритеты видеороликам на основе критерий качества контента и согласованности видеоряда.
Таким подходом получилось собрать 81 623 видеоролика-кандидата, которые затем были просеяны до 39 197 общим объемом 3 207 часов контента.
В итоге получился датасет, который включает в себя 2,16 миллиона аннотаций объемом в 104 миллионов символов.
marktechpost.com
✔️ Sibyl: Система ИИ-агентов, разработанная для расширения возможностей LLM в сложных задачах рассуждения.
Sibyl - агентный фреймворк на основе LLM, предназначенный для решения сложных задач рассуждения.
Он состоит из четырех основных модулей: планировщика инструментов, канала сбора внешней информации, мультиагентного жюри, основанного на дебатах, и глобального рабочего пространства.
Ключевая идея заключается в канале получения внешней информации, который эффективно сжимает и обрабатывает поступающие данные, используя собственный язык представления. С помощью этих методик, Sibyl может сосредоточиться на важных деталях, сохранить длину контекста и расширить шаги рассуждения.
arxiv.org
@ai_machinelearning_big_data
#news #digest
Llama-3-Groq-70B-Tool-Use достигла точности 90.76% в Berkeley Function Calling Leaderboard (BFCL), превзойдя все другие модели с открытым исходным кодом и проприетарные модели. Llama-3-Groq-8B-Tool-Use показала точность 89.06%, заняв третье место в BFCL.
Модели обучались с использованием этически сгенерированных данных, без применения пользовательской информации. Они доступны на GroqCloud Developer Hub и на Hugging Face под той же лицензией, что и оригинальные модели Llama-3.
wow.groq.com
Модель основана на intfloat/multilingual-e5-large и прошла тонкую настройку на более чем 30 миллионах пар немецких данных, специально адаптированных для задач поиска. Одной из ключевых метрик, используемых для оценки задач поиска, является NDCG@10, который измеряет точность ранжирования результатов по сравнению с идеально упорядоченным списком.
mixedbread.ai
YouTube-SL-25 значительно расширяет возможности для задач сурдоперевода и идентификации. Создание датасета проходило в два этапа.
Сначала автоматические классификаторы отобрали подходящие видеоролики с YouTube. За этим этапом последовал процесс сортировки, в котором исследователи расставляли приоритеты видеороликам на основе критерий качества контента и согласованности видеоряда.
Таким подходом получилось собрать 81 623 видеоролика-кандидата, которые затем были просеяны до 39 197 общим объемом 3 207 часов контента.
В итоге получился датасет, который включает в себя 2,16 миллиона аннотаций объемом в 104 миллионов символов.
marktechpost.com
Sibyl - агентный фреймворк на основе LLM, предназначенный для решения сложных задач рассуждения.
Он состоит из четырех основных модулей: планировщика инструментов, канала сбора внешней информации, мультиагентного жюри, основанного на дебатах, и глобального рабочего пространства.
Ключевая идея заключается в канале получения внешней информации, который эффективно сжимает и обрабатывает поступающие данные, используя собственный язык представления. С помощью этих методик, Sibyl может сосредоточиться на важных деталях, сохранить длину контекста и расширить шаги рассуждения.
arxiv.org
@ai_machinelearning_big_data
#news #digest
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30❤8🔥3🥰1
Athene-Llama3-70B - это чат-ориентированная модель, дообученная с помощью RLHF на основе Llama-3-70B-Instruct.
Значительное повышение производительности - это результат строгих оценочных показателей в процессе обучения, качественный собственный датасет и уникальный посттренинговый конвейер Nexusflow.
Улучшения по сравнению с исходной Llama-3-70B-Instruct:
Athene-70B показала результат 77,8% в Arena-Hard-Auto, что ставит ее в один ряд с GPT-4o (79,2%) laude-3.5-Sonnet (79,3%).
Для сравнения, базовая Llama-3-70B-Instruct в Arena-Hard-Auto демонстрировала результат в 46,6%.
Athene-70B использует тот же шаблон системного промпта, что и Llama-3-70B-Instruct.
📌 Лицензирование: CC-BY-NC-4.0
@ai_machinelearning_big_data
#AI #Nexusflow #LLM #ML #Athene70B
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23❤7⚡4🔥3🥰1