279K subscribers
3.94K photos
674 videos
17 files
4.53K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
⚡️ You Only Cache Once: Decoder-Decoder Architectures for Large Language Models

Microsoft только что представили инструмент You Only Cache Once: Decoder-Decoder : архитектура Decoder-Decoder для больших языковых моделей

YOCO существенно снижает потребление памяти GPU и состоит из двух компонентов - cross decoder'а, объединенного с self-decoder'ом.

Self-decoder кодирует глобальные кэши
значений ключей (KV), которые повторно используются cross decoder'ом с механизмом cross-attention.

Результаты экспериментов показывают, что YOCO достигает более высокой производительности по сравнению с архитектурой Трансформеров при различных настройках масштабирования размера модели и количества обучающих токенов, подробнее тут.

Github: https://github.com/microsoft/unilm/tree/master/YOCO
ABS: https://arxiv.org/abs/2405.05254

#microsoft

@ai_machinelearning_big_data
🔥37👍165🎉1
⚡️ Google Threat Intelligence — AI-решение в сфере кибербеза

Google представила новое решение в сфере кибербезопасности Threat Intelligence, которое позволит клиентам «получать ценную информацию и защищать корпоративную IT-инфраструктуру от угроз быстрее, чем когда-либо прежде», используя аналитические данные подразделения кибербезопасности Mandiant, службы анализа угроз VirusTotal в сочетании с возможностями ИИ-модели Gemini AI.

«Бесспорно, что сегодня Google обеспечивает два наиболее важных столпа анализа угроз в отрасли — VirusTotal и Mandiant. Интеграция обоих в единое предложение, дополненное ИИ и анализом угроз Google, предлагает командам безопасности новые средства для использования актуальных сведений об угрозах для лучшей защиты своих организаций», — отметил Дэйв Грубер (Dave Gruber), главный аналитик Enterprise Strategy Group.

Google отметила, что основным преимуществом Threat Intelligence является предоставление специалистам по безопасности ускоренной аналитики за счёт использования генеративного ИИ. Задействованная в решении большая языковая модель Gemini 1.5 Pro, по словам Google, сокращает время, необходимое для анализа вредоносного ПО и раскрытия его исходного кода.

Компания отметила, что вышедшей в феврале версии Gemini 1.5 Pro потребовалось всего 34 секунды, чтобы проанализировать код вируса WannaCry, программы-вымогателя, с помощью которой хакеры в 2017 году атаковали множество компаний по всему миру.

Также Gemini позволяет ускорить сбор информации о хакерской группе, её целях, тактике взлома и связанных с ней деталях. Кроме того, Gemini обеспечивает обобщение отчётов об угрозах на естественном языке в Threat Intelligence, что позволяет компаниям оценить, как потенциальные атаки могут на них повлиять, и расставить приоритеты, на чём следует сосредоточиться.

📎 Подробнее
🟡 Демонстрация

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
16👍15🔥51😁1
This media is not supported in your browser
VIEW IN TELEGRAM
🔦 IC-Light: Imposing Consistent Light 💡

IC-Light - это новый интересный проект для реалистичного управления освещением.

Внутри два типа моделей: модель изменения освещения с из тектовых промптов и модель изменения подсветки фона изображений.

Github: https://github.com/lllyasviel/IC-Light
Jupyter: https://github.com/camenduru/IC-Light-jupyter
Demo: https://huggingface.co/spaces/lllyasviel/IC-Light

@ai_machinelearning_big_data
👍39🔥108
💡 Lumina-T2X: Transforming Text into Any Modality, Resolution, and Duration via Flow-based Large Diffusion Transformers

Lumina-T2X - новое семейство диффузионных моделей, способных преобразовывать текст в: изображения, динамичные видео с любым разрешением и длительностью, 3D модели и речь с минимальными вычислительными затратами..

В основе Lumina-T2X лежит большой диффузионный Flow-based трансформер (Flag-DiT), который поддерживает до 7 миллиардов параметров и длины контекста в 128 000 токенов.

Github: https://github.com/alpha-vllm/lumina-t2x
Paper: https://arxiv.org/abs/2405.05945
Demo: https://lumina.sylin.host/

@ai_machinelearning_big_data
👍32🔥133
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Deblur-GS: 3D Gaussian Splatting from Camera Motion Blurred Images

Новый метод Deblur-GS
на основе Гауссовских сплатов для качественного восстановления размытой картинки.

Deblur-GS обеспечивает превосходную производительность и качество рендеринга по сравнению с предыдущими методами, что подтверждается бенчмарками, как на синтетических, так и на реальных наборах данных.

Code: https://github.com/Chaphlagical/Deblur-GS
Paper: https://chaphlagical.icu/Deblur-GS/static/paper/Deblur_GS_author_version.pdf
Project: https://chaphlagical.icu/Deblur-GS/

@ai_machinelearning_big_data
👍35🔥117
🔥Gemma 2B with recurrent local attention with context length of up to 10M

Огненная модель Gemma 2B с длиной контекста 10M, которая анализирует до 7 млн слов.

В нее можно закидывать огромные документы и модель всё проанализирует.

Производительность выше Gemini в 10 раз, а памяти нужно всего 32 ГБ.

Github: https://github.com/mustafaaljadery/gemma-2B-10M
HF: https://huggingface.co/mustafaaljadery/gemma-2B-10M
Technical Overview: https://medium.com/@akshgarg_36829/gemma-10m-technical-overview-900adc4fbeeb

#llm #gemma

@ai_machinelearning_big_data
👍42🔥15🤩64👨‍💻1🦄1😎1
This media is not supported in your browser
VIEW IN TELEGRAM
KAN + NeRF = 🔥

KAN (Kolmogorov-Arnold Networks) — многообещающий конкурент традиционных MLP.
Почему бы не внедрить его в NeRF?

Оптимизация NeRF занимает от нескольких часов до одного-двух дней (в зависимости от разрешения) и требует GPU.
Рендеринг изображения из оптимизированного NeRF с KAN занимает от секунды до ~30 секунд в зависимости от разрешения.

🖥 GitHub

#neuralnets

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
30👍15🔥11🗿2🤔1
⚡️ LLaVA-NeXT: A Strong Zero-shot Video Understanding Model

LLaVA-NeXT - одна из самых мощных на сегодняшний день моделей для понимания видео, превосходящая все существующие VLM, с открытым исходным кодом.

Новая SoTA!

LLaVA-Next демонстрирует высокую скорость передачи данных и демонстрирует отличные результаты при zero-shot обучении.


git clone https://github.com/LLaVA-VL/LLaVA-NeXT


Github: https://github.com/LLaVA-VL/LLaVA-NeXT
Blog: https://llava-vl.github.io/blog/2024-04-30-llava-next-video/
HF: https://huggingface.co/shi-labs/CuMo-mistral-7b
Dataset: https://huggingface.co/datasets/shi-labs/CuMo_dataset

#llm #vlm

@ai_machinelearning_big_data
👍306🔥5😁1