Машинное обучение RU
17.6K subscribers
1.43K photos
176 videos
11 files
1.89K links
Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw
Download Telegram
Forwarded from Machinelearning
🌟 D-FINE: метод регрессии bounding box в детекторах объектов на основе DETR.

D-FINE - детектор объектов в режиме реального времени, который предлагает улучшение регрессии bounding box в моделях DETR . D-FINE обладает высокой точностью локализации, определяя регрессию рамок как процесс итеративного уточнения распределений вероятностей.

D-FINE состоит из двух компонентов:

🟠Мелкозернистое уточнение распределения (Fine-grained Distribution Refinement, FDR).

FDR преобразует процесс регрессии из предсказания фиксированных координат в итеративное уточнение распределений вероятностей. Эта техника дает более детальное промежуточное представление, что повышает точность локализации.

🟠Глобальная оптимальная локализованная самодистилляция (Global Optimal Localization Self-Distillation, GO-LSD).

GO-LSD - двунаправленная стратегия оптимизации, которая передает знания о локализации из уточненных распределений в более ранние слои модели через самодистилляцию.

Старшие версии D-FINE-L и D-FINE-X достигают 54,0% и 55,8% AP на наборе данных COCO соответственно, работая со скоростью 124 и 78 FPS на GPU NVIDIA T4.

При предварительном обучении на Objects365 D-FINE-L и D-FINE-X показывают 57,1% и 59,3% AP, что выше всех существующих детекторов реального времени.

Разработчики D-FINE предлагают несколько предобученных моделей на датасетах Objects365 и COCO под разные задачи и мощности. Все модели поддерживают инференс на изображениях и видео с использованием ONNX Runtime, TensorRT и PyTorch:

🟢D-FINE-S: Самая компактная и быстрая модель (3.49 мс на T4 GPU);

🟢D-FINE-M: Модель среднего размера, баланс между точностью и скоростью (5.62 мс на T4 GPU);

🟢D-FINE-L: Модель высокой точности (8.07 мс на T4 GPU);

🟢D-FINE-X: Самая крупная и точная модель (12.89 мс на T4 GPU).

D-FINE предоставляет инструменты для обучения, бенчмаркинга, визуализации с помощью FiftyOne и инструкции по организации наборов данных.

▶️Локальный инференс на примере ONNX:

# Create env via conda
conda create -n dfine python=3.11.9
conda activate dfine

# Install requirements for inference
pip install -r tools/inference/requirements.txt

# Install ONNX
pip install onnx onnxsim

# Choose a model
export model=l # s, m, x

# Inference
python tools/inference/onnx_inf.py --onnx model.onnx --input image.jpg # video.mp4


📌Лицензирование: Apache 2.0 License.


🟡Arxiv
🖥Github


@ai_machinelearning_big_data

#AI #ML #DETR #DFine #Detection
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52
🖥 Whispo — это инструмент для диктовки с поддержкой ИИ, который преобразует речь в текст с помощью Whisper от OpenAI или Groq

🌟 Пользователь должен удерживать клавишу Ctrl для записи, а затем расшифровка автоматически вставляется в другое используемое им приложение, поддерживающее текстовый ввод. Проект использует фреймворки Electron и Vite для создания кроссплатформенного приложения, а также Tailwind CSS для оформления интерфейса

🔐 Лицензия: AGPL-3.0

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🔥1👏1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 MoGe от Microsoft — модель для точного восстановления 3D-геометрии из одиночных изображений!

💡 MoGe использует ViT-энкодер и сверточный декодер для получения геометрических карт, масок и карт глубины, которые подходят для изображений различных форматов. Инструмент полезен для 3D-визуализации и моделирования. Он поддерживает как локальное, так и веб-использование, предоставляя как предобученные модели, так и исходный код для дальнейших экспериментов и доработок.

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72
🔥 Docling — это инструмент для конвертации и анализа документов, разработанный для подготовки документов к использованию в генеративных ИИ-приложениях.

💡 Docling поддерживает различные форматы (PDF, DOCX, PPTX, HTML и другие), может извлекать метаданные, читать структуры страниц и таблиц, а также интегрироваться с LlamaIndex и LangChain. В репозитории также реализована поддержка OCR для обработки отсканированных документов, что делает его мощным инструментом для работы с документами в различных ИИ-сценариях.

🖥 Github
🔗 Сайт проекта

@vistehno
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42🔥2
🔥 Экспресс курс NotebookLM!

💡 В сегодняшнюю стремительно развивающуюся цифровую эпоху способность быстро и эффективно получать доступ к информации и анализировать ее становится важнее, чем когда-либо. Появляется Notebook LM, мощный помощник по исследованиям на базе Gemini 1.5 Pro от Google. Если вы глубоко погружены в исследования ИИ или просто хотите оптимизировать свой рабочий процесс, Notebook LM является крайне полезным инструментом!

🕞 Продолжительность: 1:13:02

🔗 Ссылка: *клик*

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6😁21
Forwarded from Machinelearning
🌟 Cosmos Tokenizer: эффективная токенизация изображений и видео от NVIDIA.

Cosmos Tokenizer - набор токенизаторов для изображений и видео с высокой степенью сжатия при сохранении качества реконструкции, представленный на конференции Conference for Robot Learning 2024, которая проходит до 9 ноября в Мюнхене.

Cosmos Tokenizer предлагает непрерывную (C) и дискретную (D) токенизацию для изображений (I) и видео (V), что формирует 4 типа токенизаторов: CI, DI, CV и DV.

Cosmos Tokenizer имеет внушительные показатели сжатия: 8x или 16x для пространственного сжатия изображений и 4x или 8x для временного сжатия видео, при этом работает до 12 раз быстрее, чем другие современные токенизаторы, сохраняя при этом высокое качество изображения.

Такая эффективность обусловлена легкой временно-причинной архитектурой, использующей причинную временную свертку и слои внимания. Этот дизайн архитектуры гарантирует, что обработка каждого кадра зависит только от текущих и прошлых кадров, сохраняя временную согласованность видео.

Для оценки Cosmos Tokenizer использовались стандартные наборы данных и новый набор данных TokenBench, созданный NVIDIA. Cosmos Tokenizer сравнивался с современными токенизаторами с использованием метрик PSNR, SSIM, rFID и rFVD.

Результаты тестирования показали превосходство Cosmos Tokenizer над существующими методами как по качеству реконструкции, так и по скорости работы.

▶️ В репозитории на Github опубликован код для установки, сборки docker Cosmos Tokenizer, примеры запуска для в непрерывном латенте, кодирования в дискретные токены, запуск токенизаторов на примерах изображений и видео из тестового набора и запуск с Pytorch.


📌Лицензирование: NVIDIA Open Model License


🟡Страница проекта
🟡Набор на HF
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #NVIDIA #Tokenizer #Cosmos
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍21🥰1
✉️ inbox-zero — приложение для управления электронной почтой, предназначенное для быстрого прочтения и фильтрации писем с помощью AI!

🌟 Функционал включает автоматическое удаление рассылок, блокировку холодных писем, отслеживание статистики активности, обнаружение новых спам-отправителей и крупных писем. Реализовано на базе Next.js, Tailwind CSS и Prisma, с поддержкой Google OAuth, AI от OpenAI и аналитики через Tinybird.

🔐 Лицензия: AGPL-3.0

🖥 Github
🔗 Демо-видео: *клик*

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥53
📝 Amphion — это фреймворк для многозадачного восприятия и генерации текстов на основе языка. Его основная цель — поддерживать как модульные задачи (например, классификация или генерация) для отдельных модальностей, так и мультизадачные сценарии

🌟 Фреймворк объединяет несколько библиотек OpenMMLab, таких как MMDetection и MMDetection3D, и оптимизирован для работы с мультизадачными моделями, такими как MMWizard

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍3🔥2
📝 Эта статья представляет метод для различения типов "галлюцинаций" (неверных ответов) в больших языковых моделях (LLM): либо это незнание ответа, либо ошибка при наличии знания.

🌟 Авторы предлагают подход для выявления случаев, когда модель ошибается, несмотря на наличие информации, и вводят способ для создания специализированных наборов данных, что улучшает выявление галлюцинаций. Это помогает лучше понять и смягчить ошибки LLM, минимизируя риски ложных данных.

📖 Читать: *клик*

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥1😁1
Нашел для вас ламповый митап в двух частях от команды AI VK: пройдут 14 и 21 ноября. В эти дни будут обсуждаться свежие статьи с RecSys 2024, 18-й Международной конференции ACM Recommender Systems.

Много интересных докладов и спикеров, активное общение и отличная возможность для нетворкинга!

Темы митапа охватывают самые актуальные направления ML: от семантических эмбеддингов до больших рекомендательных нейронных сетей и классических моделей. Разбор статей проведут специалисты из VK и других ведущих компаний.

Кстати, свои работы также представят участники русскоязычного RecSys-сообщества, чьи статьи были отобраны для этой конференции.

Реальная рекомендация, чтобы расширить свой кругозор и завести новые полезные знакомства! Регистрация уже открыта — присоединяйтесь!
Ссылки для регистрации и программа: 14 ноября здесь и 21 ноября здесь.

@machinelearning_ru
👍4🔥31😁1
📝 Эта статья исследует использование "цепочек рассуждений" (Chain-of-Thought, CoT) для улучшения логических способностей языковых моделей. CoT помогает моделям разбивать сложные задачи на простые шаги, что позволяет лучше выявлять ошибки на каждом этапе рассуждения и корректировать их, вместо того чтобы переходить сразу к финальному ответу

🌟 Авторы предлагают обучать модели с демонстрацией как корректных, так и ошибочных решений, что способствует более глубокому пониманию логики рассуждений и улучшает устойчивость модели к ошибкам

📖 Читать: *клик*

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍103🔥3
Forwarded from Machinelearning
✔️ FrontierMath: набор тестов по математике, который ставит в тупик модели ИИ и кандидатов наук.

Epoch AI представила FrontierMath, математический тест, который содержит сотни задач экспертного уровня. Claude 3.5 Sonnet, GPT-4o, o1-preview и Gemini 1.5 Pro показали крайне низкие результаты - менее 2%, а для решения задач теста математикам-специалистам обычно требуются часы или дни.

Набор задач в FrontierMath остается закрытым и неопубликованным, чтобы предотвратить загрязнение данных. Задачи охватывают несколько математических дисциплин, от вычислительной теории чисел до абстрактной алгебраической геометрии.
Epoch AI планирует проводить регулярную оценку моделей ИИ с помощью теста, одновременно расширяя набор задач.
epoch.ai

✔️ Лаборатория искусственного интеллекта на защите людей искусства от генеративного ИИ.

Ученые из SAND Lab Чикагского университета разработали два инструмента, Glaze и Nightshade, которые защищают цифровое искусство от несанкционированного использования в обучении моделей.

Glaze изменяет изображения таким образом, чтобы алгоритмы ИИ не могли распознать стиль художника, а Nightshade добавляет в изображения «яд», нарушающий работу моделей ИИ. Оба инструмента были загружены миллионы раз и используются художниками для защиты своих работ от копирования и использования без их согласия.

Nightshade может нанести серьезный ущерб моделям ИИ, заставив их интерпретировать изображения неправильно, например, принимать собак за кошек. Разработчики инструментов надеются, что они заставят компании, занимающиеся ИИ, вести переговоры с художниками о лицензировании и справедливой компенсации.
technologyreview.com

✔️ OpenAI представит план развития инфраструктуры ИИ в США для конкуренции с Китаем.

OpenAI разработала план развития инфраструктуры ИИ в США, который включает создание специальных экономических зон для ИИ, использование опыта ВМС США в области ядерной энергетики и финансирование государственных проектов частными инвесторами. План также предусматривает создание североамериканского альянса по ИИ для конкуренции с китайскими инициативами.

Компания считает, что инвестиции в ИИ в США приведут к созданию десятков тысяч рабочих мест, росту ВВП, модернизации энергосистемы, появлению новых заводов по производству чипов и привлечению миллиардов долларов инвестиций из глобальных фондов.

В плане также прогнозируется принятие закона о национальной транспортной магистрали, который позволит расширить строительство линий электропередач, волоконно-оптических сетей и газопроводов.
cnbc.com

✔️ YouTube тестирует функцию ремиксов песен с помощью ИИ.

YouTube тестирует новую функцию в наборе инструментов Dream Track, которая позволяет авторам ремиксовать треки с помощью опции «Restyle a track» и описать текстом, как они хотят изменить стиль песни. Restyle a track сгенерирует 30-секундный фрагмент, который авторы смогут использовать в Shorts.

Ремикшированные фрагменты будут содержать информацию об оригинальной песне на странице Shorts audio pivot. Ремиксы также будут иметь соответствующую метку, указывающую на то, что трек был изменен с помощью ИИ.
techcrunch.com

✔️ Сверхчеловеческое зрение для роботов благодаря ИИ и радиоволнам.

Исследователи из Университета Пенсильвании разработали систему PanoRadar, которая использует радиоволны и ИИ, чтобы обеспечить роботов трехмерным зрением, подобным LiDAR, но по более низкой цене.

PanoRadar работает как маяк, вращаясь и излучая радиоволны, отражения которых обрабатываются ИИ для создания точного 3D-изображения окружающей среды. Эта технология позволяет роботам видеть сквозь препятствия, дым и туман. PanoRadar использует алгоритмы машинного обучения для интерпретации сложных сигналов радиоволн и достижения высокого разрешения, сравнимого с LiDAR.
interestingengineering.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍3🥰2
🖥 Voice Pro — это проект, созданный для управления голосовым взаимодействием с поддержкой ИИ, оптимизированный для среды Python!

💡 Репозиторий включает инструменты для запуска приложений голосового взаимодействия и поддерживает функционал, такой как проверка среды и установка необходимых компонентов. Проект также предоставляет возможность обновления интерфейсов через командную строку и настройки некоторых элементов среды выполнения для запуска сторонних библиотек, включая llama-cpp для взаимодействия с CUDA (если доступно) в ML-проектах.

🔐 Лицензия: MIT

🖥 GitHub

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥3
Forwarded from Machinelearning
🌟 Athene-V2: диалоговая и агентная модели от Nexusflow с 72 млрд. параметров.

Nexusflow представила семейство Athene-V2 из двух специализированных моделей: Athene-V2-Chat-72B, оптимизированную для чат-диалогов, и Athene-V2-Agent-72B, предназначенную для работы в качестве агента.

Обе модели построены на базе Qwen 2.5-72B-Instruct. Ключевая особенность Athene-V2 - концепция "границы Парето" в постобработке LLM.

По мере обучения модели с помощью RLHF на качественных данных достигается оптимальный баланс между метриками производительности, формируя "границу Парето". Дальнейшее улучшение отдельных характеристик становится возможным только за счет снижения других показателей.

Athene-V2-Chat-72B демонстрирует конкурентоспособные результаты по сравнению с GPT-4o в бенчмарках, превосходя его в задачах чата (Arena-Hard), завершения кода (bigcode-bench-hard) и математических задачах (MATH).

Athene-V2-Agent-72B превосходит GPT-4o в бенчмарках Nexus-V2, ориентированных на сложные сценарии вызова функций в корпоративной среде.

Athene-V2-Chat-72B использует шаблон чата Qwen2.5-72B-Instruct. Пример инференса с помощью библиотеки Transformers.

Athene-V2-Agent-72B можно использовать в любой совместимой с OpenAI API среде с помощью docker-образа VLLM. Примеры запуска погодного и RAG-агента.

⚠️ Athene-V2-Agent использует уникальный стиль промптов, который включен в docker-образ, поскольку исполняемые вызовы извлекаются из сгенерированного планирования модели.
Использование шаблона чата HuggingFace приведет к неоптимальным результатам в случае использования Athene-V2-Agent .

▶️На HF доступны неофициальные квантованные версии в формате GGUF c диапазоном разрядности от 3 до 8 bit:

🟠Athene-V2-Chat-72B

🟠Athene-V2-Agent-72B


📌Лицензирование: Nexusflow Research License


🟡Страница проекта
🟡Набор моделей
🟡Сообщество в Discord


@ai_machinelearning_big_data

#AI #ML #LLM #AtheneV2 #Nexusflow
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥21🥰1
⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

МАШИННОЕ ОБУЧЕНИЕ: t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Python: t.me/pythonl
Linux: t.me/linuxacademiya
Хакинг: t.me/linuxkalii
Devops: t.me/DevOPSitsec
АНАЛИЗ Данных: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Docker: t.me/DevopsDocker
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Разработка игр: https://t.me/gamedev

💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: https://t.me/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://t.me/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://t.me/addlist/BkskQciUW_FhNjEy
2👍1🔥1
📖 Эта статья описывает подход к расширению поисковых запросов с использованием больших языковых моделей (LLM) и знаний из графов знаний (KG)! Авторы предлагают метод для улучшения поиска информации по полуструктурированным данным, который учитывает не только текстовую релевантность, но и структурные связи документов, представленных в графе знаний.

💡 Идея состоит в том, чтобы расширить начальный запрос пользователя за счет семантических и структурных связей в документах, которые могут быть релевантными для ответа на более сложные запросы, содержащие как текстовые, так и реляционные элементы. Система оценивает релевантность связей между элементами в графе знаний на основе информации в текстах документов, а не только по именам сущностей, что повышает точность поиска.

🌟 Этот метод улучшает поиск по запросам, которые требуют не только совпадений по тексту, но и учета взаимосвязей, например, в академическом поиске, когда учитываются такие параметры, как авторство и цитирование статей.

🔗 Читать: *клик*

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍3🔥3