281K subscribers
3.95K photos
676 videos
17 files
4.54K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🌟 StyleSplat: стилизация 3D-объектов с помощью Gaussian Splatting

С помощью StyleSplat пользователи могут стилизовать несколько объектов в одной сцене, применяя к каждому объекту разные стили с большой точностью.
StyleSplat спроектирован так, чтобы быть легким и эффективным, при этом давая возможность контролировать масштаб шаблонов стиля, регулируя такие параметры, как размер изображения стиля или слои, используемые для извлечения объектов.

В основе проекта применяется техника, которая использует гауссово пятно для передачи стиля трехмерных объектов. Такой подход устраняет ограничения других существующих методов, предоставляя улучшенный контроль и настройку при создании 3D.

StyleSplat выполняется в три основных этапа:

1. Сегментации видео DEVA (DEVA) и Segment Anything (SAM) для получения согласованных 2D-масок по всей сцене. Эти маски обеспечивают точный выбор объекта и служат основой для последующих шагов.
2. Гауссовская группировка, в которой каждому 3D-гауссову вектору присваивается уникальный и обучаемый компактный вектор признаков.
Оптимизируя эти векторы вместе с коэффициентами сферических гармоник, выполняется уточняющая сегментация трехмерных гауссиан, что позволяет более точно выбирать объекты.
3. Перенос 3D-стиля. Это этап тонкой настройки совмещает коэффициенты сферических гармоник выбранных гауссиан с изображением эталонного стиля. Этот этап гарантирует, что будут стилизованы только выбранные объекты, а остальная часть сцены останется нетронутой.

По сравнению с аналогичным решением S2RF, StyleSplat превосходит его по точности и визуальной достоверности.
S2RF часто приводит к обесцвечиванию нецелевых областей, тогда как использование сегментированных 3D-гауссиан в StyleSplat обеспечивает точную и изолированную передачу стиля.


🟡 Страница проекта StyleSplat
🟡 Arxiv
🖥 Coming soon...

@ai_machinelearning_big_data

#3D #Gaussian #ML #Styletransfer
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍193🔥1😁1
Forwarded from Институт AIRI
CV-шница пройдет уже в этот четверг! 🍳

Делимся подробным расписанием онлайн-митапа:

▪️15:30
Вступление — Артур Кадурин, руководитель группы «Глубокое обучение в науках о жизни», AIRI

▪️15:35
3D генерация по тексту/изображению — Антон Конушин, кандидат физико-математических наук, руководитель группы «Пространственный интеллект», AIRI

▪️ 15:55
Kandinsky Flash: генеративно-состязательный подход к дистилляции диффузионных моделей — Владимир Архипкин, руководитель направления по исследованию данных, Sber AI

▪️ 16:15
Мультимодальные модели и способы эффективного представления визуального контекста — Андрей Кузнецов, кандидат технических наук, директор лаборатории FusionBrain, AIRI

▪️16:35
Генерация изображений по активности мозга — Абдуллин Ильгиз, AI Talent Hub, и Щетинников Константин, Quality Analyst Intern, Wildberries

▪️16:55
Ensemble-Based Image Annotation for Real-Time Human Detection
— Игорь Попов, Computer Vision Engineer, AI Talent Hub

Сохраняйте ссылку на трансляцию, чтобы не пропустить доклады 👾
Please open Telegram to view this post
VIEW IN TELEGRAM
👍233
⚡️ Новостной дайждест

🙏 Anthropic объявила, что удвоила лимит output-токенов для API Sonnet и Claude 3.5 до 8000.

Обновление лимитов уже доступно пользователям, использующим API. Чтобы получить доступ к обновлению, необходимо включить в свои вызовы API специальный бета-заголовок к параметру extra_headers : "anthropic-beta": “max-tokens-3-5-sonnet-2024-07-15”. Analyticsindiamag.com

💰Стартап Vectara получил $25 млн в 1 раунде венчурного финансирования на дальнейшую разработку модели Mockingbird, оптимизированную для RAG поиска.

Vectara Inc., системный интегратор, внедряющий в корпоративные системы и приложения LLM с RAG поиском, одновременно с премьерой собственной LLM Mockingbird закрыл 1 раунд привлечения инвесторов. Среди инвесторов фонды FPV Ventures, Race Capital и Samsung Next. Siliconangle.com

🧩 Google объявила о начале реализации платформы искусственного интеллекта Project Oscar для разработчиков.

Проект Oscar, анонсированный во время Google I/O, представляет собой платформу с открытым исходным кодом, которая может помочь командам разработчиков программного обеспечения отслеживать проблемы и ошибки. Сейчас Oscar ориентирован на проекты с открытым исходным кодом, но в будущем он может быть выпущен и для управления проектами с закрытым исходным кодом.
В рамках проекта Project Oscar разработчики могут создавать агентов ИИ, которые функционируют на протяжении всего жизненного цикла разработки программного обеспечения. Эти агенты могут варьироваться от агента-разработчика до агента планирования, агента времени выполнения или агента поддержки. Агенты могут взаимодействовать с помощью естественного языка, поэтому пользователи могут давать им инструкции без необходимости переделывать код. Venturebeat.com

📊 Группа университетских команд (York University, MILA, NTU) при поддержке Salesforce Research представили ChartGemma MLLM.

ChartGemma - мультимодальную instuct-модель, обученная на основе данных, полученных из изображений реальных графиков.
Построенная на базе PaliGemma, ChartGemma использует кодер зрения SigLIP и языковую модель Gemma-2B.
ChartGemma достигла самых высоких результатов в тестах обобщения графиков, ответах на вопросы и проверке фактов по пяти контрольным показателям. Мarktechpost.com

💬 DeepL запускает новый LLM, который "превосходит" Google Translate.

Переводы с новой LLM доступны для пользователей DeepL Pro на четырех языках: английском, немецком, японском и упрощенном китайском.
Пользователи могут активировать LLM в веб-переводчике, выбрав "модель нового поколения".
По словам DeepL, в отличие от моделей общего назначения, LLM обучалась на собственных данных DeepL. В обучении новой модели принимали участие эксперты-лингвисты, которые корректировали ее в вопросах качества перевода.
DeepL утверждает, что новая модель перевода превосходит модели конкурентов, таких как Google, OpenAI и Microsoft.
В ходе слепых тестов профессиональные переводчики отметили, что для достижения того же качества перевода, что и в новой LLM от DeepL, Google Translate требуется в 2 раза больше правок, а GPT-4 - в 3 раза больше. Thenextweb.com

☎️ Anthropic выпустила приложение Claude для Android.

Приложение для Android предоставляет доступ к Claude 3.5 Sonnet. Как и в приложении для iOS, чат с Claude можно продолжить в браузерной версии или на iPhone.
Все, что нужно, - это убедиться, что используемая учетная запись одинакова на всех устройствах. Techradar.com

@ai_machinelearning_big_data

#news #digest
Please open Telegram to view this post
VIEW IN TELEGRAM
👍207🔥7
⚡️ xlam-function-calling-60k — датасет для обучения LLM, способных взаимодействовать с внешними API

Это репозиторий HuggingFace содержит 60 000 строк формата "Запрос — ответ — функция API" , собранных APIGen, автоматизированным конвейером генерации данных, разработанным для создания поддающихся проверке качественных наборов данных для приложений.

Согласно описанию создателей, все данные в датасете проходят 3 иерархических этапа проверки: проверка формата, проверка выполнение функции и семантическая проверка.
Датасет прошел человеческую оценку 600 выборочных точек данных, и процент корректности превысил 95 %, а оставшиеся 5 % имеют незначительные проблемы, такие как неточные аргументы и т. д.

from
datasets
import
load_dataset
datasets
=
load_dataset
(
"Salesforce/xlam-function-calling-60k"
)


🟡Страница ApiGen
🟡Hugging Face

@ai_machinelearning_big_data

#Dataset #LLM #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥431
🌟 PowerPaint v2: обновление универсального инструмента для inpaint и outpaint изображений.

PowerPaint - это универсальный инструмент, который поддерживает удаление объектов с помощью текста, вставку объектов с помощью маски и расширение границ изображения при помощи дорисовки.
Эти техники очень схожи с проприетарной технологией "Генеративная заливка", реализованной в Adobe Photoshop.

Основной функционал PowerPaint:
🟢вставка и удаление объектов на изображении естественным и бесшовным образом;
🟢добавление объектов путем заполнения указанной области на изображении по текстовому промпту сохраняя общую целостность композиции;
🟢изменение формы и положения объектов, соблюдая гармоничное смешивание с фоном;
🟢расширение изображения по границам за счет генерации на основе анализа соседних существующих областей.

Изменения в версии v2:
🟠обновлены веса моделей с учетом issues первой версии;
🟠проект (код, веса) теперь полностью доступны в открытом доступе;
🟠доработан пользовательский UI-интерфейс (Gradio)

Локальный запуск v2 с использованием GradioUI:

# Clone the Repository
git clone https://github.com/zhuang2002/PowerPaint.git

# Navigate to the Repository
cd projects/powerpaint

# Create Virtual Environment with Conda
conda create --name PowerPaint python=3.9
conda activate PowerPaint

# Install Dependencies
pip install -r requirements.txt

# Run PowerPaint v2
python gradio_PowerPaint_BrushNet.py


Для использования в составе ComfyUI - реализация BrushNet (включает в себя обновление PowerPaint v2)

⚖️ Лицензирование кода: MIT license


🟡Страница проекта
🟡Arxiv
🟡Модели на HF
🖥 Github [Stars: 415 | Issues: 36 | Forks: 22]


@ai_machinelearning_big_data

#Text2Image #Diffusers #ControlNet #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍278🔥71
🌟 Локальный GraphRAG с Gradio UI

Адаптация GraphRAG (Microsoft) с поддержкой локальных моделей через Ollama и с UI- интерфейсом на базе Gradio.
На сегодняшний день этот проект - единственный, предлагающий простой UI для локального запуска GrafRAG.

GraphRAG — методология улучшенного извлечения данных для генерации текста из определенных источников (RAG) от Microsoft.

Реализация из этого репозитория имеет ключевые особенности:

🟢Поддержка локальных моделей: Использование локальных моделей с помощью Ollama;
🟢Удобный интерфейс для управления данными, выполнения запросов и визуализации результатов.;
🟢Визуализация графиков в реальном времени в 3D с помощью Plotly;
🟢Загрузка, просмотр, редактирование и удаление входных файлы прямо из UI;
🟢Просмотр результатов индексирования и артефактов;
🟢Логгирование в реальном времени для мониторинга и отладки.

Локальная установка:

conda create -n graphrag-ollama -y
conda activate graphrag-ollama

pip install -r requirements.txt

python app.py


Настройка подключения к Ollama в settings.yaml по пути:
ragtest/settings.yaml


⚠️ Проект активно поддерживается разработчиком и довольно оперативно обновляется с учетом найденных ошибок и репортов из issue.


🖥 Github [Stars: 453 | Issues: 8 | Forks: 33]

@ai_machinelearning_big_data

#GrafRAG #LLM #ML #Ollama
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26🔥98
⚡️ Новостной дайджест

✔️ LangChain обновила инструменты, позволяющие создавать LLM-приложения

Обновления дают возможность разработчикам использовать любую функцию Python в качестве инструмента, более эффективно обрабатывать разнообразные входные данные и обогащать выходные данные. Кроме того, LangChain теперь предлагает надежные механизмы обработки ошибок и предоставляет исчерпывающую документацию для упрощения интеграции и управления.
blog.langchain.dev

✔️ В MIT разработали алгоритм, который строго проверяет функции Ляпунова в сложных системах, управляемых искусственным интеллектом.

Предложенный алгоритм эффективно находит и проверяет функции Ляпунова, обеспечивая гарантии устойчивости для таких систем. В нем используются контрпримеры для решения нестандартных ситуаций, что увеличивает способность целевой системы безопасно работать в различных условиях. Практическая эффективность алгоритма продемонстрированы на примере беспилотного квадрокоптера, перевернутого маятника и транспортного средства, отслеживающего путь.
news.mit.edu

✔️ Mistral AI и NVIDIA представили Mistral NeMo: 12B LLM с 128К контекстным окном, многоязычными возможностями и токенизатором Tekken.

Mistral NeMo отличается исключительными способностями к рассуждениям, обширными знаниями о мире и высокой точностью кодирования, что делает ее лучшей в своей размерной категории.
Модель выпущена под лицензией Apache 2.0, опубликованы 2 варианта: Mistral-Nemo-Instruct-2407 и Mistral-Nemo-Base-2407
Huggingface.co

✔️ NVIDIA представила Flextron: cетевую архитектуру и фреймворк для оптимизации моделей после обучения, поддерживающий гибкое развертывание моделей.

FLEXTRON преобразует предварительно обученную LLM в эластичную модель с помощью метода обучения на выборке и усовершенствованных алгоритмов маршрутизации.
Процесс преобразования включает ранжирование и группировку компонентов сети и обучение маршрутизаторов, которые управляют выбором подсетей на основе заданных пользователем ограничений, таких как задержка и точность.
marktechpost.com

@ai_machinelearning_big_data

#news #digest
Please open Telegram to view this post
VIEW IN TELEGRAM
👍299🔥8
⚡️ DeepSeek-V2-Chat-0628: обновленная версия Deepseek-V2

DeepSeek выложила в открытый доступ веса модели V2-Chat-0628. Это обновление флагманской Deepseek-V2, одной из лучших моделей в открытом доступе.
Согласно чартам LMSYS Chatbot Arena - эта модель №11 среди open-source моделей на сегодняшний день.

Детальные достижения:
🟢Hard Prompts 3-я позиция чарта;
🟢Coding 3-я позиция чарта;
🟢Longer Query 4-я позиция чарта;
🟢Math 7-я позиция чарта.

Основная особенность обновления - была оптимизирована возможность следования инструкциям в области "система", что значительно повышает удобство работы с иммерсивным переводом, RAG и другими задачами.
Одновременно с обновлением в репозитории на Huggingface, модель доступна по API в сервисе https://platform.deepseek.com.

💵 Стоимость API DeepSeek-V2-Chat-0628 (128K Context length):
Input - $0.14 / 1M tokens
Output - $0.28 / 1M tokens


⚠️ Размер модели ~ 480 Gb, для локального запуска формата BF16 потребуется 8х80GB GPU`s.

⚖️ Лицензирование кода: MIT
⚖️ Лицензирование модели: Своя лицензия семейства DeepSeek-v2

🟡Страница проекта
🟡Arxiv
🟡Модель на HF


@ai_machinelearning_big_data

#LLM #DeepSeekV2 #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26🔥53🥰2🤣2
🔥 Apple только что выпустила LLM с открытым исходным кодом 7B, весами, кодом и набором данных! 👀

TL;DR:
🧠 Базовая модель 7B, обученная на 2,5Т токенах Данные в основном на английском языке, контекстное окно 2048. Обучена полностью на открытых данных.

Объединенные данные DCLM-BASELINE, StarCoder и ProofPile2
MMLU 0.6372 > Mistral & < Llama3
Открытая лицензия с лицензией Apple
Соответствует моделям с закрытыми наборами данных, таким как Mistral
Обучен с использованием Python и OpenLM framework
Доступно на huggingface и в Transformers

Модель: https://huggingface.co/apple/DCLM-7B
Репозиторий: https://github.com/mlfoundations/dclm
Набор данных: https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0
Документация: https://arxiv.org/abs/2406.11794

@ai_machinelearning_big_data

#LLM #ML #Apple
👍36🔥127
Новостной дайджест

✔️ Groq выпустила Llama-3-Groq-70B-Tool-Use и Llama-3-Groq-8B-Tool-Use

Llama-3-Groq-70B-Tool-Use достигла точности 90.76% в Berkeley Function Calling Leaderboard (BFCL), превзойдя все другие модели с открытым исходным кодом и проприетарные модели. Llama-3-Groq-8B-Tool-Use показала точность 89.06%, заняв третье место в BFCL.

Модели обучались с использованием этически сгенерированных данных, без применения пользовательской информации. Они доступны на GroqCloud Developer Hub и на Hugging Face под той же лицензией, что и оригинальные модели Llama-3.
wow.groq.com

✔️ Представлена Deepset-Mxbai-Embed-de-Large-v1: двуязычная модель немецкого/английского языка с открытым исходным кодом.

Модель основана на intfloat/multilingual-e5-large и прошла тонкую настройку на более чем 30 миллионах пар немецких данных, специально адаптированных для задач поиска. Одной из ключевых метрик, используемых для оценки задач поиска, является NDCG@10, который измеряет точность ранжирования результатов по сравнению с идеально упорядоченным списком.
mixedbread.ai

✔️ Google DeepMind представил YouTube-SL-25: Многоязычный датасет с более чем 3 000 часами видео на языке жестов, охватывающий 25+ языков.

YouTube-SL-25 значительно расширяет возможности для задач сурдоперевода и идентификации. Создание датасета проходило в два этапа.
Сначала автоматические классификаторы отобрали подходящие видеоролики с YouTube. За этим этапом последовал процесс сортировки, в котором исследователи расставляли приоритеты видеороликам на основе критерий качества контента и согласованности видеоряда.
Таким подходом получилось собрать 81 623 видеоролика-кандидата, которые затем были просеяны до 39 197 общим объемом 3 207 часов контента.
В итоге получился датасет, который включает в себя 2,16 миллиона аннотаций объемом в 104 миллионов символов.
marktechpost.com

✔️ Sibyl: Система ИИ-агентов, разработанная для расширения возможностей LLM в сложных задачах рассуждения.

Sibyl - агентный фреймворк на основе LLM, предназначенный для решения сложных задач рассуждения.
Он состоит из четырех основных модулей: планировщика инструментов, канала сбора внешней информации, мультиагентного жюри, основанного на дебатах, и глобального рабочего пространства.
Ключевая идея заключается в канале получения внешней информации, который эффективно сжимает и обрабатывает поступающие данные, используя собственный язык представления. С помощью этих методик, Sibyl может сосредоточиться на важных деталях, сохранить длину контекста и расширить шаги рассуждения.
arxiv.org

@ai_machinelearning_big_data

#news #digest
Please open Telegram to view this post
VIEW IN TELEGRAM
👍308🔥3🥰1
🌟 Athene-Llama3-70B: улучшенная чат-модель Llama-3-70B-Instruct от Nexusflow.

Athene-Llama3-70B - это чат-ориентированная модель, дообученная с помощью RLHF на основе Llama-3-70B-Instruct.
Значительное повышение производительности - это результат строгих оценочных показателей в процессе обучения, качественный собственный датасет и уникальный посттренинговый конвейер Nexusflow.

Улучшения по сравнению с исходной Llama-3-70B-Instruct:
🟢Более точное следование инструкциям, модель лучше реагирует на сложные промпты, выдавая четкие и лаконичные ответы;
🟢Повышена способность в математике и рассуждениях, способность решать вопросы, требующие большого количества аргументов;
🟢Улучшен навык помощи написания кода в виде расширенных предложений по коду для более легкого создания и внедрения;
🟢Доработана креативность в написании текстов, писем, эссэ;
🟢Улучшена поддержка мультиязычности и повышено качество семантического перевода с одного языка на другой.

Athene-70B показала результат 77,8% в Arena-Hard-Auto, что ставит ее в один ряд с GPT-4o (79,2%) laude-3.5-Sonnet (79,3%).
Для сравнения, базовая Llama-3-70B-Instruct в Arena-Hard-Auto демонстрировала результат в 46,6%.

▶️Внимание, размер модели составляет ~ 140 Gb

Athene-70B использует тот же шаблон системного промпта, что и Llama-3-70B-Instruct.

📌Лицензирование: CC-BY-NC-4.0


🟡Страница проекта
🟡Модель на HF
🟡Сообщество и поддержка
🖥Github Nexusflow [ Stars: 349 | Issues: 9 | Forks: 30 ]

@ai_machinelearning_big_data

#AI #Nexusflow #LLM #ML #Athene70B
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2374🔥3🥰1