This media is not supported in your browser
VIEW IN TELEGRAM
🔥 UnpromptedControl
Unprompted Control — это утилита, которая автоматически удаляет объекты с изображений и восстанавливает поврежденные области, используя методы глубокого обучения и смешивания. В этом процессе ключевую роль играют модели Control Net и Stable Diffusion Inpaint Pipeline, которые направляют восстановление и обеспечивают естественное слияние результатов с остальным изображением.
Однако метод имеет свои ограничения, особенно при работе с изображениями лиц и тел людей. В таких случаях может потребоваться маскирование не только самого объекта, но и его теней для достижения наилучшего результата.
Несмотря на эти сложности, репозиторий предлагает ценный инструмент для бесшовного восстановления и удаления объектов.
- Githiub
- Colab
Unprompted Control — это утилита, которая автоматически удаляет объекты с изображений и восстанавливает поврежденные области, используя методы глубокого обучения и смешивания. В этом процессе ключевую роль играют модели Control Net и Stable Diffusion Inpaint Pipeline, которые направляют восстановление и обеспечивают естественное слияние результатов с остальным изображением.
Однако метод имеет свои ограничения, особенно при работе с изображениями лиц и тел людей. В таких случаях может потребоваться маскирование не только самого объекта, но и его теней для достижения наилучшего результата.
Несмотря на эти сложности, репозиторий предлагает ценный инструмент для бесшовного восстановления и удаления объектов.
- Githiub
- Colab
EXAONE-3.0-7.8B-Instruct (EXpert AI for EveryONE) основана на архитектуре Transformers, с длиной контекста в 4096 токенов. Модель использует Rotary Position Embeddings (RoPE) и Grouped Query Attention (GQA), имеет 32 слоя и размер словаря в 102 400 токенов.
Поддержка английского и корейского языков реализована с помощью специального токенизатора BBPE (byte-level byte-pair encoding), который дает низкое сжатие для корейского языка по сравнению с существующими аналогами.
Процесс обучения строился на двухэтапном режиме.
Первый этап состоял из обучения на 6 триллионах токенов для накопления общих знаний , а затем на дополнительных 2 триллионах токенов, ориентированных на более высокие языковые навыки и экспертные знания.
Для улучшения способности следовать инструкциям была применена постобработка: контролируемая тонкая настройка и оптимизация прямых предпочтений.
В реальных сценариях использования EXAONE 3.0 7,8B продемонстрировала высокие результаты в тесте MT-Bench, который коррелирует с оценками в LMSYS Chatbot Arena. Модель показала точность в математических и code задачах, заняв первое место в большинстве проведенных тестов.
Рекомендованная версия transformers>=4.41.0
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained(
"LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct",
torch_dtype=torch.bfloat16,
trust_remote_code=True,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct")
# Choose your prompt
prompt = "Explain who you are" # English example
prompt = "너의 소원을 말해봐" # Korean example
messages = [
{"role": "system", "content": "You are EXAONE model from LG AI Research, a helpful assistant."},
{"role": "user", "content": prompt}
]
input_ids = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt"
)
output = model.generate(
input_ids.to("cuda"),
eos_token_id=tokenizer.eos_token_id,
max_new_tokens=128
)
print(tokenizer.decode(output[0]))
@ai_machinelearning_big_data
#AI #LLM #ML #EXAONE #LG
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Вышла бета-версия Grok-2
https://x.ai/blog/grok-2
Она превосходит, Claude 3.5 Sonnet и GPT-4-Turbo.
@data_analysis_ml
https://x.ai/blog/grok-2
Она превосходит, Claude 3.5 Sonnet и GPT-4-Turbo.
@data_analysis_ml
Alibaba запустила проект генерации видео под названием Tora, которая поддерживает комбинацию траектории, текста и изображений, дает высокую точность и управляемость при генерации видео.
Tora представляет два новых модуля обработки движений: модуль выделения траектории и модуль управления движением. Также, она поддерживает управление начальным и конечным кадром, что гарантирует консистентность процесса генерации видео.
В планах опубликование: демо на Huggingface, код инференса и обучения. Сроки не называются.
Страница проекта, технический отчет исследования и репозиторий на Github.
Particle представила Tachyon, новую одноплатную компьютерную систему (SBC), основанную на процессоре Qualcomm Snapdragon, c поддержкой 5G и собственным AI-ускорителем. Устройство имеет форму, схожую с Raspberry Pi, и оснащено восьмиядерным процессором Kryo с тактовой частотой до 2.7 ГГц, 4 ГБ оперативной памяти и 64 ГБ встроенной памяти UFS.
Tachyon предлагает поддержку текстового и графического интерфейсов, а также интеграцию с Raspberry Pi через 40-контактный GPIO, два USB-C 3.1 порта.
Одноплатник будет поставляться с Ubuntu 24.04. Розничная цена на Tachyon будет составлять $249 ( $149 за "суперранний" уровень финансирования на Kikstarter сейчас).
Ожидается, что первые поставки начнутся в январе 2025 года.
tomshardware.com
Новая функция позволяет пользователям автоматически переводить аудиодорожки и субтитры на более чем 30 языков, что значительно ускоряет процесс адаптации видео для международной аудитории. Так же заявлена функция редактирования переведенных субтитров, чтобы пользователи могли улучшать качество перевода по мере необходимости.
С запуском новых функций Vimeo планирует привлечь больше бизнес-клиентов, предоставляя им эффективные инструменты для создания и распространения контента на глобальном уровне.
vimeo.com
"Global AI Adoption Index" от IBM показывает, что Индия и ОАЭ являются лидерами в глобальном внедрении искусственного интеллекта и генеративного ИИ.
42% опрошенных компаний уже интегрировали AI в свои бизнес-модели, при этом почти все предприятия увеличивают свои инвестиции в AI-решения. Основные отрасли - автомобилестроение, производство и финансовые услуги.
В ОАЭ 52% IT-специалистов сообщили о стратегии внедрения AI в своих организациях, в то время как в Индии этот показатель составляет 42%. Наиболее распространенные области применения AI включают автоматизацию IT-процессов, обнаружение угроз и управление.
consultancy-me.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Выпущен Keras 3.5.0
- Добавлена интеграция с Hugging Face Hub.
Теперь можно сохранять модели на Hugging Face Hub напрямую через
- Обеспечена совместимость с NumPy 2.0.
- Добавлены новые методы и операции.
- Исправлены ошибки и улучшена производительность.
📌Github
- Добавлена интеграция с Hugging Face Hub.
Теперь можно сохранять модели на Hugging Face Hub напрямую через
keras.Model.save(), а также загружать .keras модели с Hub с помощью keras.saving.load_model().- Обеспечена совместимость с NumPy 2.0.
- Добавлены новые методы и операции.
- Исправлены ошибки и улучшена производительность.
📌Github
CogVideoX - обновление модели генерации текста в видео CogVideo, выпущенной в мае 2022 года.
Обновление до CogVideoX :
CogVideoX-2B: первая модель в серии CogVideoX, разработанная для генерации видео.
Для запуска требуется 18GB VRAM GPU (с использованием SAT) для инференса на одном графическом процессоре и 40GB для дообучения и файнтюна.
Модель поддерживает генерацию видео с разрешением 720x480, длительностью 6 секунд и частотой 8 кадров в секунду, с максимальной длиной текстового промпта в 226 токенов.
CogVideoX-5B: более плотная модель на 5B, доступна только для коммерческих целей по API.
При регистрации дают 25 млн токенов попробовать, но возможность регистрации по некитайским номерам сотовых операторов неизвестна.
Технические параметры CogVideoX-5B не публиковались.
CogVideoX обучалась на наборе данных из 35 миллионов видеоклипов, каждый из которых длительностью около шести секунд. Данные для обучения прошли фильтрацию на низкое качество.
CogVideoX использует 3D causal VAE для сжатия видеоданных как в пространственном, так и во временном отношении, тем самым сокращая длину последовательности по сравнению с традиционными методами.
Это помогает поддерживать непрерывность между кадрами, минимизируя мерцание в сгенерированных видео.
Модель объединяет Expert Transformer с адаптивным LayerNorm для синхронизации согласования между видео и текстовыми вхождениями.
Такая конструкция позволяет комплексно моделировать временные и пространственные измерения с использованием 3D full focus, оптимизируя обработку интенсивных движений в генерации.
Выделенный captioning pipeline для видео генерирует точные текстовые описания для кадров, улучшая семантическое понимание модели.
Эмпирические результаты тестов показывают, что CogVideoX превосходит существующие общедоступные модели в машинных и в человеческих оценках.
Перед запуском разработчики советуют сконвертировать текстовой промпт в формат, понятный CogVideoX-2B, так как она обучалась на длинных LLM-образных промптах, выполнив скрипт convert_demo.py.
По умолчанию, CogVideoX использует LLM GLM4, но его также можно заменить любой другой LLM, например GPT, Gemini и т.д.
Этот шаг не является обязательным, модель будет работать без ошибок, но более детальный промпт даст лучшие результаты генерации видео.
# Clone repository & install requirements:
git clone https://github.com/THUDM/CogVideo.git
pip install -r requirements.txt
cd inference
# For Linux and Windows run GradioUI
python gradio_web_demo.py
# For macOS with Apple Silicon use this (maybe 20x slower than RTX 4090)
PYTORCH_ENABLE_MPS_FALLBACK=1 python gradio_web_demo.py
@ai_machinelearning_big_data
#AI #VLM #ML #Text2Video #CogVideoX
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 UnpromptedControl
Unprompted Control — это утилита, которая автоматически удаляет объекты с изображений и восстанавливает поврежденные области, используя методы глубокого обучения и смешивания. В этом процессе ключевую роль играют модели Control Net и Stable Diffusion Inpaint Pipeline, которые направляют восстановление и обеспечивают естественное слияние результатов с остальным изображением.
Однако метод имеет свои ограничения, особенно при работе с изображениями лиц и тел людей. В таких случаях может потребоваться маскирование не только самого объекта, но и его теней для достижения наилучшего результата.
Несмотря на эти сложности, репозиторий предлагает ценный инструмент для бесшовного восстановления и удаления объектов.
- Githiub
- Colab
@pythonl
Unprompted Control — это утилита, которая автоматически удаляет объекты с изображений и восстанавливает поврежденные области, используя методы глубокого обучения и смешивания. В этом процессе ключевую роль играют модели Control Net и Stable Diffusion Inpaint Pipeline, которые направляют восстановление и обеспечивают естественное слияние результатов с остальным изображением.
Однако метод имеет свои ограничения, особенно при работе с изображениями лиц и тел людей. В таких случаях может потребоваться маскирование не только самого объекта, но и его теней для достижения наилучшего результата.
Несмотря на эти сложности, репозиторий предлагает ценный инструмент для бесшовного восстановления и удаления объектов.
- Githiub
- Colab
@pythonl
Бесплатный курс с теорией и практикой математики для Data Science.
Никакой лишней воды, только то, что действительно нужно для работы с ML, и всё это с примерами кода. Приятный бонус — можно выбрать диалект для примеров (PyTorch, Keras или MXNET).
Кстати, остальные главы курса тоже на высоте.
https://d2l.ai/chapter_appendix-mathematics-for-deep-learning/index.html
Никакой лишней воды, только то, что действительно нужно для работы с ML, и всё это с примерами кода. Приятный бонус — можно выбрать диалект для примеров (PyTorch, Keras или MXNET).
Кстати, остальные главы курса тоже на высоте.
https://d2l.ai/chapter_appendix-mathematics-for-deep-learning/index.html
InternLM2.5-20B-chat - базовая модель с 20 миллиардами параметров ориентированная на чат-взаимодействие. Модель обладает математическими возможностями, поддерживает сбор информации с веб-страниц и получила улучшенный навык следования инструкциям.
Модель может быть развернута с помощью Transformers, vLLM и LMDeploy.
Доступна также версии GGUF для запуска в llama.cpp, LMStudio и Ollama с половинной точностью FP16 (39.7GB) и в малоразрядных квантованных вариациях c шагом в 1 bit : от 2-bit (7.55 GB) до 8-bit (21 GB).
InternLM2.5-1.8B-chat - модель с 1.8 миллиардами параметров и точно такой же направленности и возможностями, как и 20B-chat версия.
Для InternLM2.5-1.8B-chat тоже доступны GGUF версии с разрядностью от FP16 (3.78 GB) до до 2-bit (772 Mb), с шагом в 1 bit.
@ai_machinelearning_big_data
#AI #LLM #ML #InternLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ Новостной дайджест
✔️ Gemini Live - голосовой ассистент Google, доступен для пользователей.
Google запустила "Gemini Live" — новую функцию голосового взаимодействия для своей AI модели Gemini, которая конкурирует с продвинутым голосовым режимом ChatGPT. Технически, "Gemini Live" использует улучшенные алгоритмы распознавания речи и синтеза голоса, обеспечивая более естественное и контекстуально осведомленное общение.
techcrunch.com
✔️ Microsoft Edge сможет объяснять PDF-документы с помощью ИИ.
Microsoft Edge скоро получит функцию, которая позволит считывать и анализировать PDF-файлы. Эта функция интегрирована с Copilot AI, который сможет обрабатывать текстовые данные, распознавать структуру документов, таблицы и графики, и отвечать на вопросы по содержанию файла.
pcworld.com
✔️ Сервис ставок Polymarket стал партнером с Perplexity.
Polymarket объединился с Perplexity AI, чтобы предоставлять краткие сводки новостей на платформе для прогнозирования рынков. Perplexity AI использует алгоритмы обработки естественного языка (NLP) для генерации кратких, но информативных обзоров новостных событий. Эти обзоры интегрируются в интерфейс Polymarket, помогая его пользователям быстро оценивать текущие события и принимать решения на основе актуальной информации.
techcrunch.com
✔️ Developers Guide по NIM, платформе для приложений искусственного интеллекта от Nvidia.
NiM интегрирует различные инструменты NVIDIA, такие как TensorRT и Triton, и поддерживает работу с облачными и локальными ресурсами. Платформа облегчает управление жизненным циклом AI-моделей, обеспечивая автоматизацию этапов от разработки до внедрения.
В NIM гибко реализована поддержка распределенной обработки для эффективного использования вычислительных мощностей в процессе обучения и инференса моделей при внедрении их масштабах предприятия.
thenewstack.io
🔥 Anthropic запилили Context Caching!
Функция может кешировать промпты, которые вы регулярнее используете.
Это позволяет значительно в разы уменьшить стоимость запросов ускорить инференс. Использование кэшкэшируемых токенов стоит на 25% больше обычных.
https://www.anthropic.com
✔️ Модульный суперкомпьютер для рождения AGI, может быть запущен уже в следующем году
SingularityNET разрабатывает суперкомпьютер для достижения AGI к 2025 году.
Суперкомпьютер планируется построить за счет объединения распределенных вычислительных ресурсы через блокчейн, обеспечивая высокую производительность для сложных AI-задач. Технология состоит из модульной архитектуры, под управлением различных AI-моделей и децентрализованное распределение, чтобы предотвратить монополизацию вычислительных мощностей.
digitaltrends.com
@ai_machinelearning_big_data
#news #ai #ml
Google запустила "Gemini Live" — новую функцию голосового взаимодействия для своей AI модели Gemini, которая конкурирует с продвинутым голосовым режимом ChatGPT. Технически, "Gemini Live" использует улучшенные алгоритмы распознавания речи и синтеза голоса, обеспечивая более естественное и контекстуально осведомленное общение.
techcrunch.com
Microsoft Edge скоро получит функцию, которая позволит считывать и анализировать PDF-файлы. Эта функция интегрирована с Copilot AI, который сможет обрабатывать текстовые данные, распознавать структуру документов, таблицы и графики, и отвечать на вопросы по содержанию файла.
pcworld.com
Polymarket объединился с Perplexity AI, чтобы предоставлять краткие сводки новостей на платформе для прогнозирования рынков. Perplexity AI использует алгоритмы обработки естественного языка (NLP) для генерации кратких, но информативных обзоров новостных событий. Эти обзоры интегрируются в интерфейс Polymarket, помогая его пользователям быстро оценивать текущие события и принимать решения на основе актуальной информации.
techcrunch.com
NiM интегрирует различные инструменты NVIDIA, такие как TensorRT и Triton, и поддерживает работу с облачными и локальными ресурсами. Платформа облегчает управление жизненным циклом AI-моделей, обеспечивая автоматизацию этапов от разработки до внедрения.
В NIM гибко реализована поддержка распределенной обработки для эффективного использования вычислительных мощностей в процессе обучения и инференса моделей при внедрении их масштабах предприятия.
thenewstack.io
🔥 Anthropic запилили Context Caching!
Функция может кешировать промпты, которые вы регулярнее используете.
Это позволяет значительно в разы уменьшить стоимость запросов ускорить инференс. Использование кэшкэшируемых токенов стоит на 25% больше обычных.
https://www.anthropic.com
SingularityNET разрабатывает суперкомпьютер для достижения AGI к 2025 году.
Суперкомпьютер планируется построить за счет объединения распределенных вычислительных ресурсы через блокчейн, обеспечивая высокую производительность для сложных AI-задач. Технология состоит из модульной архитектуры, под управлением различных AI-моделей и децентрализованное распределение, чтобы предотвратить монополизацию вычислительных мощностей.
digitaltrends.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Новый пакет на Python, который превращает "Рецепт обучения нейронных сетей" от Андрея Карпати.
в простой в использовании код! 🔧
Больше не нужно беспорядочно копаться в вашем PyTorch DNN для его отладки.
Вы можете просто поставить себе этот пакет:
и использовать пакет
📌 Github
@machinelearning_ru
в простой в использовании код! 🔧
Больше не нужно беспорядочно копаться в вашем PyTorch DNN для его отладки.
Вы можете просто поставить себе этот пакет:
pip intall neural_net_checklist и использовать пакет
torch_diagnostic для проверки кода на наличие ошибок.📌 Github
@machinelearning_ru
Writer представил две специализированные языковые модели:
Palmyra-Med-70B-32K — LLM, специально разработанная для сектора здравоохранения, достигающая в тестах по Clinical KG, Medical Genetics и PubMedQA среднего балла 85,87% по биомедицинским показателям, что выше чем у GPT-4 и Med-PaLM-2.
Модель предназначена для некоммерческих и исследовательских целей на английском языке: для поддержки принятия клинических решений, фармнадзора и медицинских исследований.
Palmyra-Fin-70B-32K предназначена для финансовой отрасли, решения различных финансовых задач и аналитических выводов.
Модель предназначена для финансового анализа и исследований на английском языке: прогнозирование рыночных тенденций, оценка рисков, составление финансовых отчетов с высокой точностью и для ответов на сложные вопросы из длинных финансовых документов.
Обе модели доступны для локального инференса через Transformers, по API в сервисах Writer, напрямую в endpoints или используя Python SDK и NodeJS SDK Writers
Стоимость API за 1М токенов: Input - $5.00, Output - $12.00
⚠️ Все модели, созданные Writer.com, содержат водяные знаки для обнаружения и предотвращения неправомерного и незаконного использования.
@ai_machinelearning_big_data
#AI #LLM #ML #Writer
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM