BigData

CogView4-6B – свежая Text2Image
Модель генерации изображений, разработанный командой THUDM..

Архитектура модели 6B DIT и 9B TextEncoder Демка показывает очень высокое качество следования заданному промпту.

CogView4 поддерживает очень длинный контекст.

Генерирует изображения от 512 до 2048 пикселей.

➡️

Model: https://huggingface.co/THUDM/CogView4-6B

➡️

Demo: https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4

➡️

Github: https://github.com/THUDM/CogView4

➡️

Paper: https://arxiv.org/abs/2403.05121

👉 @bigdata_1

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

1.76K views20:27

PhysX-3D: Physical-Grounded 3D Asset Generation

3D-моделирование переходит из виртуального в физический мир. Существующие методы генерации 3D в основном сосредоточены на геометрии и текстурах, но игнорируют физически обоснованное моделирование. В результате, несмотря на быстрый прогресс в области генеративных 3D-моделей, синтезированные объекты часто лишены богатых и важных физических свойств, что ограничивает их применение в реальных задачах, таких как симуляции и embodied AI.

В качестве первого шага к решению этой проблемы мы предлагаем PhysX — сквозную парадигму генерации физически обоснованных 3D-объектов.

1. Чтобы преодолеть критический дефицит 3D-датасетов с физической аннотацией, мы представляем PhysXNet — первый датасет, систематически снабжённый физическими метками по пяти базовым измерениям: абсолютный масштаб, материал, аффордансы, кинематика и функциональное описание. Для этого мы разработали масштабируемый процесс аннотирования с участием человека, основанный на vision-language моделях, что позволяет эффективно создавать физически ориентированные объекты из исходных 3D-данных.

2. Кроме того, мы предлагаем PhysXGen — прямой фреймворк для генерации физически обоснованных 3D-объектов по изображениям, который внедряет физические знания в предобученное 3D-структурное пространство. В частности, PhysXGen использует двухветвевую архитектуру для явного моделирования скрытых связей между 3D-структурами и физическими свойствами, что позволяет получать 3D-объекты с правдоподобными физическими характеристиками при сохранении высокого качества геометрии.

Обширные эксперименты подтверждают превосходную производительность и высокую способность к обобщению предлагаемого подхода. Весь код, данные и модели будут опубликованы для поддержки будущих исследований в области генеративного физического ИИ.

➡️Github: https://github.com/ziangcao0312/PhysX-3D

➡️Paper: https://arxiv.org/pdf/2507.12465v1.pdf

➡️Dataset: https://huggingface.co/datasets/Caoza/PhysX-3D

👉 @bigdata_1

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1👀1

1.06K views11:59

BigData

Неформально про реком
Глитч нейросети — это база, а ивент AI VK & Pro в «оригинале» — повод собраться и узнать, как меняются рекомендательные системы.

27 августа VK проводит AI VK & Pro — закрытый митап про RecSys и ML. Где соберутся крутые ML-инженеры, исследователи и разработчики.

В программе доклады от ML-лидов VK. Поговорим про Discovery Platform, продовые трансформеры и мультимодальные модели.
Приходите задать вопросы, поделиться опытом и поглитчевать среди своих в неформальной обстановке. А после — афтепати: винил, сигары, вино и покер.

📍 Москва, только офлайн
📅 27 августа, сбор с 18:00
🎟 Вход по регистрации

1.23K views14:03

BigData

LaneSegNet: Map Learning with Lane Segment Perception for Autonomous Driving

➡️Github: https://github.com/OpenDriveLab/LaneSegNet

➡️

Paper: https://arxiv.org/abs/2312.16108v1

👉 @bigdata_1

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2

938 views18:58

BigData

Обзор математики для начинающего ML-инженера

Доступное объяснение основных аспектов высшей математики, которые потребуются ML‑щику разного грейда в рабочих сценариях — без дотошных доказательств и с обилием визуальных и численных примеров.

Этот текст содержит доступное объяснение основных частей высшей математики, которые могут потребоваться ML‑щику разного грейда в рабочих сценариях — без дотошных доказательств и с обилием визуальных и численных примеров.

Предвосхищая возможные вопросы: я ставлю целью рассказать про минимальный набор знаний, с которым можно будет уже самостоятельно погружаться в более интересные и прикладные сценарии. Я не планирую рассмотрение в этих постах более упоротных разделов и деталей — с такой глубиной можно не на один год увязнуть при знакомстве с математикой для ML

В статье я постараюсь с примерами, пытаясь все же соблюдать небольшую формальность, разложить по полочкам ключевые моменты из высшей математики, которые точно понадобятся при изучении и впитывании машинного обучения в 2025.

https://habr.com/ru/articles/942114/

👉 @bigdata_1

👍6❤1

1.13K views04:42

BigData

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

📌 Awesome Artificial Intelligence — это огромная подборка ресурсов по искусственному интеллекту.
В репозитории собраны статьи, курсы, книги, инструменты и библиотеки, охватывающие различные направления AI: машинное обучение, глубокое обучение, обработка естественного языка, компьютерное зрение и многое другое.

Этот список будет полезен тем, кто хочет системно изучать ИИ или просто расширить свой набор инструментов. Отличный вариант для закладок, если вы занимаетесь исследованием или разработкой в сфере AI.

https://github.com/owainlewis/awesome-artificial-intelligence

👉 @bigdata_1

👍2👏2

1.05K views15:26

BigData

🛠 В блоге Anthropic вышел разбор того, как они создают инструменты для агентов, которые помогают улучшать процесс написания текста.

В статье описываются подходы к построению таких тулов, их интеграция в пайплайн, а также примеры использования для редактирования, анализа и структурирования текста. Фактически это набор "помощников", которые делают агента более продуктивным и гибким при работе с длинными документами.

https://www.anthropic.com/engineering/writing-tools-for-agents

👉 @bigdata_1

👍1

1.13K views10:13

Проект Paper2Agent — это инструмент, который превращает научные статьи в работающие AI-агенты. Он использует LLM для анализа PDF-документов и автоматически извлекает оттуда алгоритмы, описания и эксперименты, превращая их в исполняемый код.

Идея в том, чтобы сократить разрыв между теорией и практикой: вместо того чтобы вручную вникать в детали статьи и переписывать код, Paper2Agent позволяет быстро получить прототип агента, основанный на описанном методе.

Поддерживаются:

- Разбор PDF статей с извлечением ключевых компонентов
- Автоматическая генерация кода для AI-агентов
- Возможность тестирования и доработки полученного результата

Полезно для исследователей, инженеров и разработчиков, которые хотят быстрее экспериментировать с новыми идеями из научных публикаций.

https://github.com/jmiao24/Paper2Agent

👉 @bigdata_1

😨3👍2

1.08K views14:38

BigData

DeepSeek снова удивили — они выпустили новую OCR-модель, но это не просто распознавалка текста. Это фактически система оптического сжатия контекста.

Как это работает

Классический OCR просто: получил картинку или PDF → распознал символы → выдал текст.
DeepSeek OCR идёт дальше: получает документ → сжимает его как визуальный объект → восстанавливает смысл уже в текстовой форме.

Архитектура

Модель состоит из двух частей — DeepEncoder и DeepSeek-3B-MoE Decoder, где главный герой — именно DeepEncoder.
Он превращает изображение в набор vision-токенов, эффективно сжимая его.

Под капотом — SAM + CLIP:

- SAM извлекает структуру документа — текст, заголовки, формулы, подписи, иллюстрации.
- CLIP добавляет семантическое понимание: *о чём* документ в целом.

Далее идёт сверточное сжатие, которое уменьшает количество токенов в 10–20 раз, почти без потери смысла.

- Сжатие ×10 → точность ~97%
- Сжатие ×20 → точность ~60%

После этого визуальные токены идут в LLM-декодер, который восстанавливает итоговый текст.

DeepSeek фактически нашли способ хранить в 10 раз больше контекста при том же лимите токенов.
Теперь модель может держать не «сырой текст», а его компактное визуальное представление.
Например, вместо 10 страниц текста в памяти — 1 страница эмбеддингов, но смысл сохраняется.

Это может стать альтернативой RAG, ведь модель работает с текстами, таблицами, чертежами, формулами и изображениями — полная мультимодальность.
При этом на одной A100 GPU она обрабатывает 200 000+ страниц в день.

На OmniDocBench DeepSeek OCR обходит GOT-OCR2.0, используя в 2.5 раза меньше токенов,
и превосходит MinerU2.0, расходуя в 9 раз меньше ресурсов.
То есть это новый SOTA по точности и эффективности.

Всё доступно в опенсорсе под лицензией MIT: https://github.com/deepseek-ai/DeepSeek-OCR

👉 @bigdata_1

👍3

787 views03:16

Glyph: масштабирование контекстных окон через визуально-текстовую компрессию

Это фреймворк, предназначенный для увеличения длины контекста с помощью визуально-текстовой компрессии. Вместо расширения контекстных окон, основанных на токенах, Glyph преобразует длинные текстовые последовательности в изображения и обрабатывает их с помощью vision–language моделей (VLMs). Такой подход превращает задачу моделирования длинного контекста в мультимодальную проблему, значительно снижая вычислительные и память-затраты при сохранении семантической информации.

https://github.com/thu-coai/Glyph

👉 @bigdata_1

👍1

367 views19:55

BigData

Last Call: ИИ, бэкенд и фронтенд в одном хакатоне

Wink AI Challenge — соревнование для разработчиков, которые знакомы с нейросетями и мультимодальными данными. Разбираешься в NLP и интеграции моделей? Приходи и покажи, на что способен твой ИИ. Призовой фонд — 1 125 000 рублей.

Последние дни регистрации — открыта до 4 ноября включительно: https://cnrlink.com/winkaichallengebigdata

ML-инженеры, backend- и frontend-разработчики, DevOps, MLOps и мультимедиа-инженеры — ваш выход. Алгоритм такой:
1️⃣ Получи реальный текстовый набор данных.
2️⃣ Проанализируй структуру и извлеки ключевые сущности.
3️⃣ Собери ИИ-сервис, который помогает принимать решения в киноиндустрии.

Задачи хакатона:
🔸 Построй модель зависимости между сценами и структурируй сценарий.
🔸 Преврати текст в эскизы с помощью text-to-image для создания превизуализации сценария.
🔸 Создай решение, которое классифицирует контент и находит сцены, влияющие на возрастной рейтинг.

Финал пройдёт в Москве — двум участникам из команды Wink оплатит билеты и проживание. Успей зарегистрироваться на первый в России хакатон по применению ИИ в кинопроизводстве: https://cnrlink.com/winkaichallengebigdata

👍1

304 views15:44

BigData

Трехслойная нейронная сеть. Она состоит из трех основных слоев: входного, скрытого и выходного. Каждый слой включает несколько нейронов, которые соединены между собой с помощью весов (обозначены как W).

Основные элементы сети:
- Входной слой: Принимает входные данные P и передает их на первый скрытый слой.
- Скрытый слой: Выполняет обработку данных с использованием весов W1 и смещений b1. Результат обработки передается на второй скрытый слой.
- Выходной слой: Генерирует итоговый результат, используя веса W3 и смещения b3.

Формулы:
1. Для первого слоя: a1 = f1(W1p + b1).
2. Для второго слоя: a2 = f2(W2a1 + b2).
3. Для третьего слоя: a3 = f3(W3a2 + b3).

Обозначения:
- P — входные данные.
- W1, W2, W3 — матрицы весов для каждого слоя.
- b1, b2, b3 — смещения для каждого слоя.
- f1, f2, f3 — функции активации.

👉 @bigdata_1

👍2💩1

183 views07:57

About

Blog

Apps

Platform