еіаі_(ой)
625 subscribers
407 photos
28 videos
8 files
344 links
Про дослідження у сфері Machine Learning / Deep Learning / Data Science.

Чат: @eiaioi_chat
Автор: @pol_andriy
Download Telegram
Щотижневий #digest

@eiaioi
vizro

Новий інструмент візуалізації даних від McKinsey (😮).

vizro — high-level Python3 бібліотека для швидкої побудови інтерактивних дашбордів, following the best practices.

Спробувати онлайн | Документація | pypi

@eiaioi
teaser.gif
11.8 MB
Break-A-Scene: Extracting Multiple Concepts from a Single Image

Новий проєкт від Google — Break-A-Scene:

Маючи одне зображення з кількома концептами (об'єктами), що виділені по контуру, цей метод може запам'ятовувати окремий токен для кожного концепту.

А далі можна генерувати сцени з комбінаціями цих об'єктів у різних обставинах, використовуючи просто текстові prompts, що містять ці токени.

Це дуже схоже на відомий метод DreamBooth, але тепер об'єктів для маніпуляцій може бути декілька.

Website | PDF | Video | Code

@eiaioi
Gaussian Splatting

Останнім часом бачу багато досліджень про концепт Gaussian Splatting та 3D Gaussian Splatting, наприклад DreamGaussian, що особливо нагадує про Radiance Field, зокрема NERF. Якщо коротко, то це все методи рендерингу 3D сцен за допомогою нейронних мереж або методів градієнтного спуску та differentiable rendering.

Сама ідея Gaussian Splatting з'явилася ще у 2001-2002, і, наприклад, гра 1994 року Ecstatica мала досить унікальний рендерер як раз на базі еліпсоїдів.

Ось декілька ресурсів "на почитати" про Gaussian Splatting:

▪️Оригінальна стаття про 3D Gaussian Splatting
▪️Невеликий блог про Gaussian Splatting та трохи історії
▪️Про 3D Gaussian Splatting від HF
▪️Тред на Y Combinator
▪️Що таке Splatting

@eiaioi
Forwarded from Bogdan Didenko
Вітаю
росіяни зі сберу та сколково виклали свою статю та модель на хагінгфейс.
Я написав коментар де виклав аргументацію проти такого промоушену представників підсанкційних компаній залучених у війну проти України.
Якщо у вас є аканут на хігінгфейсі поставьте реакцію моєму коментарю

https://huggingface.co/papers/2310.03502#6520b20bdfc9ea4f31906252

Також якщо хтось має ресурси щоб поширите це в соціальних мережах на більшу аудиторію ai community, буду вдячний
Forwarded from AI HOUSE
AI for Ukraine повертається — ми запускаємо другий сезон в колаборації з Roosh🔥

AI for Ukraine — це благодійна ініціатива, створена задля того, аби надавати доступ українським талантам до якісної освіти з AI/ML, ділитися найактуальнішими знаннями з глобальною tech-спільнотою й збирати донати на підтримку України.

Ми залучаємо світових експертів зі штучного інтелекту до розвитку українського AI-ком’юніті, влаштовуємо лекції, воркшопи та панельні дискусії й сприяємо розширенню нетворку наших і міжнародних фахівців.

💡Нагадуємо: всі лекції першого сезону AI for Ukraine [в записі] продовжують збирати донати та доступні до перегляду на сайті.

Зустрічайте перших спікерів AI for Ukraine: Season 2.
💡Лукаш Кайзер [з OpenAI] — тема лекції: «Deep Learning Decade and GPT-4». Коли: 2 листопада о 19:00;
💡Гаель Вароко [з INRIA] — тема лекції: «Representation learning on relational data to automate data preparation». Коли: 15 листопада о 19:00;
💡Вікторія Олійник [з University of Oxford] — тема воркшопу: «Balancing Ethics and Creativity: Leveraging LLMs for Responsible Content Generation». Коли: 29 листопада о 19:00.

Мова сесій — англійська.
Вартість: рекомендований донат від $10. 100% коштів буде спрямовано до благодійної організації Реактивна пошта.

Дізнатися більше деталей та зареєструватися можна за посиланням🔗

Stay tuned & support Ukraine🇺🇦
#AIforUkraine
Borealis AI Blog

Канадська ШІ-лабораторія Borealis AI активно веде свій блог, де пише багато цікавого технічного матеріалу про різні напрямких машинного навчання, Computer Vision, NLP, Responsible AI, та багато іншого.

Серед авторів — згаданий раніше на цьому каналі, S. Prince.

Зокрема, хотів би поділитися підбіркою їх дописів, що особисто мене дуже зацікавили:

про трансформери (перша частина, друга частина, третя частина).
як прискорити роботу трансформерів.
що таке few-shot learning та meta-learning.
"трохи" про AI Explainability (перша частина).

@eiaioi
Щотижневий #digest

🛠 openai / openai-python (⭐️ 12k)

Бібліотека забезпечує легкий доступ до OpenAI API за допомогою Python.

🛠 haotian-liu / LLaVA (⭐️ 8k)

LLaVA - це велика мультимодальна модель (LMM), яка поєднує в собі візуальний енкодер і Vicuna для загального візуального і текстового розуміння. Це альтернатива GPT-4 з відкритим вихідним кодом.

🛠 OpenTalker / SadTalker (⭐️ 7k)

SadTalker:Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation.

🛠 voxel51 / fiftyone (⭐️ 5.2k)

Інструмент з відкритим кодом для створення датасетів і моделей комп'ютерного зору.

🛠 dvlab-research / LongLoRA (⭐️ 1k)

LongLoRA - це ефективний метод збільшення розмірів контексту великих мовних моделей (LLM).

🇺🇦 Дорожня карта з регулювання штучного інтелекту в Україні

@eiaioi
This media is not supported in your browser
VIEW IN TELEGRAM
4D Gaussian Splatting for Real-Time Dynamic Scene Rendering

Huazhong University of Science and Technology разом з Huawei Inc. опублікували код та статтю до свого методу 4D-GS (Gaussian Splatting), який перетворює звичайне відео у 3D відео (~30 FPS).

☑️ Google Colab.
☑️ Більше про Gaussian Splatting тут.

@eiaioi
7 випадкових цікавинок про ШІ, що я бачив за останній тиждень:

1) Four tips for structuring your research group’s Python packages: Чотири поради, як організувати Python код у наукових дослідженнях.

2) Foundation Model Transparency Index: Дослідження прозорості Великих Мовних Моделей (Large Language Models) від Stanford University.

3) Brutal honesty with zero hesitation from Jensen Huang (CEO NVIDIA): Jensen Huang (CEO NVIDIA) зізнається, як складно було будувати NVIDIA, і він би не зробив цього зараз (це аж занадто важко). Коментарі під дописом теж дуже цікаві. Повне інтерв'ю тут.

4) State of AI Report 2023: Звіт про стан ШІ у 2023 році: глобальний огляд тенденцій від Air Street Capital.

5) EthicalML/awesome-annual-reviews-and-trends: Збірник оглядів та трендів з машинного навчання.

6) EECS 4422 Computer Vision: Курс з комп'ютерного зору від EECS (York University, York, England).

7) [2309.17421] The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision): Емпіричне детальне (166 сторінок PDF) дослідження роботи GPT-4V(ision), що може розуміти текст та зображення в контексті одного діалогу.

@eiaioi
10 цікавинок про ШІ, що я випадково побачив в соцмережах за останній тиждень:

1. Official DALL-E 3 Paper: DALL-E 3 перетворює текст у зображення, влучно генерує написи у зображенні, краще знає анатомію людини, та багато іншого. Стаття описує технічні деталі реалізації та тренування DALL-E 3, та методи оцінки моделі.

2. Fooocus: Це open-source інструмент для генерації зображень за допомогою Stable Diffusion, однак розробники цього софта вже реалізували багато різних трюків для покращення генерації, та підібрали найкращі гіперпараметри для базових потреб користувача (є декілька різних стилів генерації).

3. Вебінар з Pose Estimation від Eugene Khvedchenia 🇺🇦: На цьому вебінарі розглянуть питання оптимізації моделей для Pose Estimation для швидкої роботи нейромережі в реальному часі, а також такі проблеми, як обчислювальні обмеження і різні умови навколишнього середовища для виконання алгоритму. Реєструйтеся!

4. RGB no more: Minimally-decoded JPEG Vision Transformers: Натренували Vision Transformer (ViT) безпосередньо на основі закодованих ознак зображення JPEG. Таким чином пришвидшили навчання на 39,2% (порівнянно з тренуванням на звичайних зображеннях), а обчислення (inference) — на 17.9%, без втрати точності.

5. 🖨 🎇 RAG-Fusion: RAG-Fusion (Retrieval Augmented Generation meets Reciprocal Rank Fusion), заснована на MultiQueryRetrieval, є новою технікою пошуку тексту, доступною в LangChain, яка розширює можливості Retrieval-Augmented Generation (RAG) для покращення генерації та пошуку тексту.

6. 200 найкращих винаходів за версією журналу TIME: Посилання на публікацію журналу TIME про 200 найкращих винаходів у 2023 році, серед яких чимало ШІ, зокрема Adobe Photoshop Generative Expand and Generative Fill, OpenAI GPT-4, Runway Gen-2, Meta SeamlessM4T, So-VITS-SVC, та інші.

7. Політичні упередження в моделях штучного інтелекту: Це дослідження виявило та визначило політичні упередження в популярних великих мовних моделях. Зокрема, GPT-4 від OpenAI демонструють ліволіберальну спрямованість, а от LLaMA від Meta AI показує правоавторитарні настрої. By the way, це дослідження входить у підбірку ACL Best Papers, де висвітлені найцікавіші публікації престижної наукової конференції з ШІ ACL’23.

8. [ICCV 2023] ProPainter: ProPainter, представлений на дуже крутій конференції ICCV 2023, це новий State Of The Art (SOTA) у задачі Inpainting на відео (видалення об'єкта з відео).

9. Qualcomm Snapdragon 8 Gen 3: Snapdragon 8 Gen 3 це новий процессор від Qualcomm, розроблений спеціально під ШІ, will be released soon.

10. NanoSAM від NVIDIA: NanoSAM — це дистильована версія моделі Segment Anything (SAM), оптимізована для роботи в реальному часі за допомогою TensorRT від NVIDIA.

@eiaioi
SimSIMD

Ash Vardanian переписав функцію порівняння багатовимірних векторів ознак через SIMD intrinsics, і тепер стандартні системи з k-approximate Nearest Neighbors Search можуть працювати в рази швидше.

Простіше кажучи, це альтернатива scipy.spatial.distance та numpy.inner, яка працює у 3-200 разів швидше на певних архітектурах процесорів. Відповідно, порівнювати масиви векторів ознак великих мовних моделей, або моделей машинного зору, тепер можна набагато швидше на CPU.

@eiaioi
Forwarded from Data Science UA
НОВИНИ ЗІ СВІТУ ШІ 👾

🔹 У GPT-4 з'явилася можливість завантажувати документи та ставити запитання, що стосуються їх вмісту. А також використовувати інші AI-тулзи та моделі як-от DALL-E 3 прямо у чатботі.

🔹 Shutterstock інтегрує ШІ у свою платформу. Тепер можна видозмінювати стокові фото зі своєї бібліотеки: регулювати розмір, колір і додавати текст/фігури до зображень.

🔹 Новий AI-тул від YouTube Music дозволяє користувачам створювати власні обкладинки для плейлистів за допомогою текстових запитів.

🔹 Boston Dynamics оснастила свого робота голосом powered by ChatGPT. Spot вже провів екскурсію лабораторією у демо ролику.

🔹 Lenovo та Nvidia розширюють співпрацю, аби дати можливість компаніям швидше та ефективніше розгортати власні AI-моделі.