280K subscribers
3.95K photos
675 videos
17 files
4.54K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🗞 Новостной дайджест

✔️Саморазвивающийся ИИ от Baidu: конец "галлюцинирующих" языковых моделей.

Baidu представила "self-reasoning" фреймворк, направленный на повышение надежности и прослеживаемости моделей с расширенным поиском (RALM), позволяя им самостоятельно критически оценивать свои знания и процессы принятия решений. Этот инструмент поможет решить распространенную проблему "галлюцинаций" в ИИ, когда модели уверенно генерируют неверную информацию.
Структура self-reasoning состоит из трех ключевых процессов: оценка релевантности, выбор на основе доказательств и анализ траектории.
Этот метод позволяет языковой модели различать релевантную информацию, цитировать источники и анализировать свой путь рассуждений, что в конечном итоге улучшает точность и прозрачность его выводов.
venturebeat.com


✔️AES запускает первого робота для установки солнечных батарей с искусственным интеллектом.

Компания AES Corporation представила "Maximo", первого в мире робота для установки солнечных панелей, оснащенного ИИ.
Maximo автоматизирует тяжелые работы, что ускоряет сроки реализации проектов. Ожидается, что Maximo установит панелей примерно на 100 МВт солнечной энергии к 2025 году и поможет в строительстве крупных проектов, таких как 2 ГВт Bellefield в Калифорнии.
Maximo использует функции компьютерного зрения для точного размещения панелей, а также технологии непрерывного обучения для повышения своей эффективности.
prnewswire.com


✔️Perplexity запускает партнерскую программу для крупных СМИ после обвинений в плагиате.

Perplexity запустила программу "Publishers' Program", направленную на разделение рекламных доходов с партнерами после обвинений в плагиате.
В числе первых участников программы — Time, Der Spiegel и Fortune. При использовании контента этих издателей в ответах на запросы пользователей, они будут получать долю от рекламных доходов.
Запуск программы последовал за обвинениями, когда редакторы Forbes обнаружили, что их платные материалы были использованы в продуктах Perplexity без должного атрибута.
theverge.com


✔️Новые AI-инструменты Autodesk ускоряют рабочие процессы 3D в Maya и Flame.

На выставке SIGGRAPH 2024 Autodesk представила новые AI-функции для своих 3D-программ Maya и Flame.
ML Deformer для Maya позволяет художникам работать с анимацией и визуальными эффектами, обрабатывая сложные системы деформации с использованием машинного обучения.
В Flame добавлен ML Timewarp, который генерирует промежуточные кадры между двумя существующими кадрами, оптимизируя процесс редактирования и минимизируя необходимость в переносе файлов между различными инструментами.
Autodesk также анонсировала инструмент Flow Generative Scheduling, который ускоряет создание производственных графиков, учитывая переменные, такие как сроки, бюджеты и доступность команды.
creativebloq.com


✔️UrbanGPT: Пространственно-временной прогноз для проектирования городской среды.

HKU-SUSTech разработали UrbanGPT, языковую модель, предназначенную для планирования городских пространств и решения проблемы точного пространственно-временного прогнозирования в городских условиях с нехваткой данных.
UrbanGPT демонстрирует исключительную производительность при прогнозировании по нулевым снимкам, особенно в условиях разреженных данных и в задачах сложного прогнозирования.
Pre-trained модель доступна на Huggingface, код проекта опубликован на Github
weixin.qq.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2410🔥3❤‍🔥1
⚡️ Zamba2-2.7B: небольшая гибридная языковая модель на Mamba.

Zamba2-2.7B - это гибридная модель, состоящая из блоков пространства состояний (state-space) и трансформеров. Она сохраняет качество инференса модели 3-4В плотности, требуя при этом вычислительных ресурсов на уровне модели плотностью 1-2B.
Такие характеристики были получены за счет использования блоков Mamba2, чередования блоков внимания в схеме "А-В-А-В" и применения LoRA projector для каждого общего MLP-блока.

Zamba2-2.7B использует токенизатор Mistral v0.1 и была предварительно обучена на 3T токенов текста и кода, полученных из открытых источников, включая датасет Zyda.
По завершению обучения, модель была подвергнута дополнительной фазе агрессивного снижения скорости обучения на смеси из 100B высококачественных токенов.

Согласно заверению создателей, Zamba2-2.7B достигает лучших результатов среди моделей аналогичного масштаба, таких как Gemma2-2.7B, StableLM-3B, OpenELM-3B и Phi2-2.7B.

⚠️ Внимание:

🟠модель не имеет встроенной модерации и не подвергалась дополнительному цензурированию;
🟠модель не была дообучена для выполнения инструкций или выполнений функций чата, поэтому не стоит ожидать хороших результатов от нее в этих задачах;
🟠не рекомендуется использовать модель без поддержки Mamba, поскольку это приведет к значительному увеличению задержки и использования памяти.

Эксплуатация модели доступна с использованием Zyphra's fork of transformers или с помощью кода из репозитория разработчиков модели.

▶️Локальный запуск :

# Сlone and install
git clone https://github.com/Zyphra/Zamba2.git
cd Zamba2
pip install -e

# Install core mamba dependencies
pip install -U mamba-ssm causal-conv1d

# Inference
from mamba_model import MambaModel
from mamba_config import MambaConfig
import torch
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("Zyphra/Zamba2-2.7B")
input_text = 'A funny prompt would be '
input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")["input_ids"].transpose(0,1)
model = MambaModel.from_pretrained(model_name = "Zyphra/Zamba2-2.7B").cuda().half()
tokens_to_generate = 20
model.eval()
with torch.no_grad():
for _ in range(tokens_to_generate):
out = model(input_ids)
out_last = out[:, -1]
idx = torch.argmax(out_last)[None, None]
input_ids = torch.cat((input_ids, idx), dim=0)
input_ids = input_ids.transpose(0, 1)[0]
print(repr(tokenizer.decode(input_ids.cpu().numpy().tolist())))


📌Лицензирование : Apache 2.0 license


🟡Страница проекта
🟡Arxiv
🟡Модель на HF
🖥Github [ Stars: 10 | Issues: 0 | Forks: 0]


@ai_machinelearning_big_data

#AI #ML #SLM #Mamba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
20👍14🥰2🎉2🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 Нейросеть YandexART научилась восстанавливать архивные видеозаписи и кинохронику

Возможности нейросети были протестированы на материалах «Мосфильма» и Российского государственного архива кинофотодокументов при подготовке сериала «Игры» об Олимпиаде-80. YandexART улучшила качество изображения и восстановила некоторые утраченные детали, включая элементы одежды, архитектуры и транспортных средств.

Разработчики Яндекса научили модель не «галлюцинировать». Благодаря поэтапному обучению на материалах низкого качества, YandexART превращает размытые и сильно сжатые кадры в контент с высокой детализацией объектов и текстур.

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥56👍213🥰3🤔3🌭2🥱1
🌟 InstantSplat: реконструкция больших 3D-сцен без Structure from Motion (SfM).

InstantSplat - подход к реконструкции 3D-сцены по исходным изображениям с помощью Multi-View Stereo (MVS) и 3D Gaussian Splatting (3D-GS).

Методика InstantSplat использует выборку из самых дальних точек (FPS) в каждом вокселе, чтобы сохранить только самые надежные гауссианы для построения точного представления сцены.
Одновременное уточнение гауссовых атрибутов и параметров камеры с помощью фотометрических потерь позволяет добиться высокого качества рендеринга и точной оценки положения камеры без использования Adaptive Density Control (ADC). Для решения проблемы overparameterization, присущей 3D-GS, InstantSplat применяет confidence-aware point downsampler.
Алгоритм оптимизации в InstantSplat позволяет исправлять ошибки, накопленные на этапе MVS, в результате чего получается относительно точная и плотная 3D-модель.

По сравнению с релевантными современными методами (Nope-NeRF и CF-3DGS), InstantSplat предлагает более высокое качество рендеринга, более высокую точность оценки положения камеры при низких значениях Absolute Trajectory Error (ATE) и Relative Pose Error (RPE), при этом требует меньшего количества обучающих просмотров.


▶️Локальный запуск с автозагрузкой модели на тестовом подготовленном датасете (около 8Gb) :

# Clone InstantSplat and download pre-trained model
git clone --recursive https://github.com/NVlabs/InstantSplat.git
cd InstantSplat
git submodule update --init --recursive
cd submodules/dust3r/
mkdir -p checkpoints/
wget https://download.europe.naverlabs.com/ComputerVision/DUSt3R/DUSt3R_ViTLarge_BaseDecoder_512_dpt.pth -P checkpoints/

# Install dependencies (modify CUDA version dep. of your system)
pip install pytorch torchvision pytorch-cuda=12.1 -c pytorch -c nvidia
pip install -r requirements.txt
pip install submodules/simple-knn
pip install submodules/diff-gaussian-rasterization

# modify the rasterizer
vim submodules/diff-gaussian-rasterization/cuda_rasterizer/auxiliary.h
'p_view.z <= 0.2f' -> 'p_view.z <= 0.001f' # line 154

# Optional but highly suggested, compile the cuda kernels for RoPE
cd submodules/dust3r/croco/models/curope/
python setup.py build_ext --inplace

# Data preparation OR download test pre-processed sample.
cd <data_path>

# InstantSplat train and output video (no GT reference, render by interpolation)
bash scripts/run_train_infer.sh

# InstantSplat train and evaluate (with GT reference)
bash scripts/run_train_eval.sh


📌Лицензирование : Apache 2.0 license


🟡Страница проекта
🟡Arxiv
🟡Tutorial Video
🟡Модель
🟡Demo на HF
🖥Github [ Stars: 228 | Issues: 1 | Forks: 8]


@ai_machinelearning_big_data

#AI #ML #3D #Gaussian
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥23👍144👏2😁1
⚡️ Stable Fast 3D: Image-to-3D от Stability AI

Stable Fast 3D - модель и сервис, который позволяет генерировать 3D-активы из одного изображения.
Модель основана на TripoSR с значительными архитектурными улучшениями (запекание света, окрашивание вершин и marching cubes artifacts), позволяющими создавать высококачественные 3D-объекты, включая UV-развёртку, параметры материалов и альбедо с минимальным влиянием освещения.
В качестве источника используется загруженное пользователем изображение объекта, после чего модель генерирует полный 3D-объект и предлагает возможность дополнительной модификации сетки.

Stable Fast 3D доступен как для локальной установки, так и через API или с помощью он-лайн сервиса Stable Assistant.

Локальный запуск:

# Update setuptools
pip install -U setuptools==69.5.1

# For CLI-version of inference install requirements
pip install -r requirements.txt

# For Gradio UI of inference install requirements
pip install -r requirements-demo.txt

# CLI inference
python run.py demo_files/examples/chair1.png --output-dir output/

# run Gradio UI
python gradio_app.py



📌Лицензирование :

🟢бесплатно для исследовательского, некоммерческого и коммерческого использования организациями и частными лицами, получающими годовой доход в размере до 1 млн USD;
🟠для коммерческого использования организациями и частными лицами, получающими годовой доход в размере, превышающим 1 млн USD - запрос-консультация через форму


🟡Страница проекта
🟡Tech Report
🟡Demo Video
🟡Модель на HF
🟡Demo на HF
🖥Github [ Stars: 56 | Issues: 3 | Forks: 6]


@ai_machinelearning_big_data

#AI #ML #3D #SatbilityAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3012🔥5
⚡️ Новостной дайджест

✔️Thermometer: метод, не позволяющий модели искусственного интеллекта быть слишком уверенной в неправильных ответах.

Thermometer - это вспомогательная модель, работающая поверх LLM для калибровки её уверенности при сохранении точности.
Метод использует классическую технику температурного масштабирования, позволяющую настраивать уровень уверенности модели в зависимости от её точности.
Вместо использования размеченных данных для каждой конкретной задачи, Thermometer обучается на ограниченном наборе задач, что позволяет ему обобщать и применять калибровку к новым задачам без необходимости в дополнительных размеченных данных. Thermometer требует меньше вычислительных ресурсов по сравнению с традиционными методами, которые часто неэффективны для универсальных моделей.
news.mit.edu

✔️OpenAI анонсировала альфа-тестирование экспериментальной модели GPT-4o Long Output.

OpenAI GPT-4o Long Output предлагает значительно увеличенную максимальную длину вывода — до 64,000 токенов, что в 16 раз больше, чем у GPT-4o, ограниченной 4,000 токенами. Модель сохраняет общий контекстный лимит в 128,000 токенов.
Цены на GPT-4o Long Output: $6 за 1 миллион входных токенов и $18 за 1 миллион выходных токенов. Сроки публичной доступности не анонсированы.
openai.com

✔️GenSQL: Использование LLM для структурированных данных.

GenSQL переводит запросы на естественном языке в исполняемые SQL-запросы, что облегчает применение SQL для пользователей без глубоких знаний синтаксиса.
Основные возможности GenSQL включают демократизацию доступа к данным, улучшение исследования данных и обработку сложных запросов.
Он может быть интегрирован в чат-ботов и виртуальных помощников, что даст возможность пользователю получать информацию о своих данных в интерактивной форме.
analyticsindiamag.com

✔️AMD становится AI Chip компанией.

Согласно опубликованному финансовому отчету за второй квартал 2024 года, AMD демонстрирует значительный рост бизнеса в области центров обработки данных, который теперь составляет почти половину всех продаж компании.
В частности, продажи чипа AMD Instinct MI300, который конкурирует с популярным чипом Nvidia H100, достигли более $1 миллиарда за квартал.
AMD планирует продолжать выпуск новых AI-чипов ежегодно, включая MI325X в четвертом квартале 2024 года и MI350 в 2025 году.
ir.amd.com

✔️StreamTinyNet: анализ многокадрового видео на устройствах Arduino-формата

StreamTinyNet анализирует несколько кадров видео одновременно, что повышает точность по сравнению с традиционными алгоритмами, которые работают только с одним кадром.
Фреймворк основан на сверточной нейронной сети, которая сначала обрабатывает каждый кадр индивидуально, извлекая важные характеристики и создавая их сжатое представление. Затем система анализирует извлеченные характеристики вместе, чтобы понять последовательность и временные изменения, что позволяет распознавать динамические жесты, такие как движения рук.
На платформе Arduino Nicla Vision с ограниченными вычислительными ресурсами алгоритм смог выполнять детекцию жестов со скоростью 15 кадров в секунду, используя всего около 300 килобайт оперативной памяти.
hackster.io

✔️Полностью автоматизированный робот-стоматолог впервые в мире провел процедуру на человеке.

Робот компании Perceptive использует 3D-сканер, основанный на оптической когерентной томографии (OCT), для создания детальной 3D-модели полости рта, включая зубы и десны, без использования рентгеновских лучей. Система автоматически обнаруживает кариес с точностью около 90%, после чего врач-стоматолог обсуждает необходимые действия с пациентом, прежде чем робот берет на себя выполнение процедуры.
Первой задачей робота стало подготовка зуба под коронку, процедура, которая обычно занимает около двух часов, а с помощью робота выполняется за 15 минут. Perceptive утверждает, что их система может безопасно работать даже в условиях, когда пациент двигается, что было подтверждено тестами на движущихся людях.
newatlas.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥23👍154
🌟 rLLM: библиотека PyTorch для взаимодействия LLM с реляционными таблицами.

rLLM (relationLLM) - библиотека PyTorch, разработанная для удовлетворения растущей потребность в эффективных и экономичных методах применения LLM к огромным объемам структурированных данных, хранящихся в реляционных базах данных.

rLLM достигает этой цели путем декомпозиции современных графовых нейронных сетей (GNN), LLM и табличных нейронных сетей (TNN) на стандартизированные модули. Такой подход позволяет быстро создавать новые RTL-модели путем объединения, выравнивания и совместного обучения этих модулей.
Парадигма "combine, align, co-train" позволяет гибко конструировать модели, адаптируясь к уникальным характеристикам различных наборов данных реляционных таблиц.

Библиотека включает в себя несколько слоев:
🟠Data Engine, для загрузки и предварительной обработки данных;
🟠Module, предлагающий стандартизированные строительные блоки из GNN, LLM и TNN;
🟠Model, облегчающий построение сложных RTL-архитектур.

Чтобы продемонстрировать возможности rLLM, авторы представляют BRIDGE, простой RTL-метод, который использует TNN для обработки табличных данных и GNN для анализа отношений между таблицами на основе внешних ключей. BRIDGE сочетает сильные стороны обоих типов сетей для обучения на основе информации, содержащейся в реляционных базах данных.

▶️Рекомендации по LLM и LM:

🟠LLM - квантованная 4-bit Gemma 2b;
🟠LM - облегченная BERT-подобная all-MiniLM-L6-v2 для sentence embedding.

Для исследовательских и обучающих целей rLLM предлагает коллекцию данных под названием SJTUTables, которая состоит из трех наборов данных реляционных таблиц:

🟠Table-MovieLens1M (TML1M);
🟠Table-LastFm2K (TLF2K);
🟠Table-ACM12K (TACM12K).


🟡Arxiv
🖥Github [ Stars: 242 | Issues: 1 | Forks: 24]


@ai_machinelearning_big_data

#AI #ML #RTL #rLLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17👍138
⚡️ FLUX: SOTA Text-to-image модели от BlackForest.

Black Forest Labs, компания, основанная командой разработки, покинувшей SatbilityAI (Stable Diffusion) опубликовала пресс-релиз с презентаций своего семейства GenAI моделей FLUX версии 1.

Представленное семейство FLUX.1 определяет новый уровень детализации изображения, точного следования промпту, разнообразия стилей и сложности сцен для синтеза текста в изображение.
Каждая вариация семейства FLUX.1 поддерживают популярные соотношения сторон и разрешения от 0,1 (128х) до 2,0(2048х) мегапикселя.
FLUX.1 выпускается в трех вариантах: FLUX.1 pro, FLUX.1 dev и FLUX.1 schnell:

🟠FLUX.1 pro. Старшая и лучшая модель в семействе, доступная только по подписке через API и на онлайн-сервисах Replicate и FalAI. Подписка доступна частным лицам и корпоративным пользователям. Стоимость подписки - 0.05USD за изображение 1024х1024 при 50 шагах генерации;

🟢FLUX.1 dev. Открытая модель для некоммерческого использования. Оптимизирована методом дистилляции из версии FLUX.1 pro, что сделало ее менее требовательной к потреблению VRAM, повысило скорость инференса при незначительной деградации качества и точности. Веса модели доступны на Huggingface. Для коммерческой эксплуатации нужно запрашивать лицензию у разработчика.

🟢FLUX.1 schnell. Младшая и самая быстрая модель, предназначенная для локальной разработки и личного использования. Версия schnell распространяется под лицензией Apache2.0 и опубликована в открытом доступе на Huugingface.
Код инференса можно найти на Github проекта или использовать поддержку модели в ComfyUI.

Все модели FLUX.1 основаны на гибридной архитектуре мультимодальных и параллельных блоков трансформеров диффузии и масштабированы до 12B параметров.
Улучшения предыдущих диффузионных моделей проведено за счет использования согласования потоков - концептуально простого метода обучения, который включает диффузию как частный случай.
Повышение производительности модели и эффективность использования аппаратного обеспечения получено за счет использования rotary positional embeddings и параллельных слоев внимания.
Более подробный технический отчет разработчики обещают опубликовать в ближайшем будущем.

Локальный запуск с автозагрузкой моделей dev и schell с выводом cli или с UI Streamlit:

# Clone repo and install dependences
cd $HOME && git clone https://github.com/black-forest-labs/flux
cd $HOME/flux
python3.10 -m venv .venv
source .venv/bin/activate
pip install -e '.[all]'

# Download dev or schnell automatically via HuggingFace you will need to be logged in HF
# For manual downloaded models you can specify the paths via environment-variables:
export FLUX_SCHNELL=<path_to_flux_schnell_sft_file>
export FLUX_DEV=<path_to_flux_dev_sft_file>
export AE=<path_to_ae_sft_file>

# For cli interactive sampling run
python -m flux --name <name> --loop

# Or to generate a single sample run
python -m flux --name <name> \
--height <height> --width <width> \
--prompt "<prompt>"

# streamlit demo that does both text-to-image and image-to-image
streamlit run demo_st.py




🟡Страница проекта
🟡Модель dev на HF
🟡Модель schnell на HF
🟡Demo на FalAI (FLUX Pro)
🟡Demo на FalAI (FLUX dev)
🟡Demo на HF (FLUX.1 schnell)
🖥Github [ Stars: 1.3K | Issues: 11 | Forks: 52]


@ai_machinelearning_big_data

#AI #FLUX #Diffusers #Text2Image #Image2Image #GenAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30🔥95🤔2🙏1