This media is not supported in your browser
VIEW IN TELEGRAM
🔉 Hertz-dev 8.5B
Hertz-dev - это мощная 8.5B модель для работы с аудио с открытым исходным кодом.
Hertz-dev создан на основе 20 миллионов уникальных часов высококачественных аудиоданных.
Hertz-dev - это базовая модель, без тонкой настройки, RLHF.
Ее можно настроить практически для любой задачи моделирования звука, от трансляции в реальном времени до классификации аудио.
Поддерживает: преобразование речи в текст, перевод, классификация, распознавание речи, преобразование текста в речь и многое другое!
📌 Ссылка
@machinelearning_interview
Hertz-dev - это мощная 8.5B модель для работы с аудио с открытым исходным кодом.
Hertz-dev создан на основе 20 миллионов уникальных часов высококачественных аудиоданных.
Hertz-dev - это базовая модель, без тонкой настройки, RLHF.
Ее можно настроить практически для любой задачи моделирования звука, от трансляции в реальном времени до классификации аудио.
Поддерживает: преобразование речи в текст, перевод, классификация, распознавание речи, преобразование текста в речь и многое другое!
📌 Ссылка
@machinelearning_interview
🔥9❤4👍3
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍5❤3
GSCo (Generalist-Specialist Collaboration) - система, которая использует преимущества моделей общего назначения (GFM) и экспертных моделей для повышения точности анализа медицинских изображений.
В процессе создания GFM была разработана MedDr – самая большая на данный момент модель общего назначения с открытым исходным кодом для медицины. MedDr обучалась на наборе данных из 2 млн. пар "изображение - текст" различных медицинских модальностей. Параллельно были созданы небольшие экмпертные модели для конкретных задач.
На этапе совместного инференса используются два механизма: MoED (Mixture-of-Expert Diagnosis) и RAD (Retrieval-Augmented Diagnosis). MoED использует прогнозы экспертных моделей как справочную информацию, а RAD применяет их для поиска похожих случаев. Результаты MoED и RAD объединяются и предоставляются MedDr в качестве контекстной информации.
Чтобы оценить MedDr и GSCo был создан датасет из 28 наборов данных и 250 000 тестовых изображений из 10 медицинских модальностей.
Результаты экспериментов показали, что MedDr превосходит другие GFM в решении многих задач медицинской визуализации. GSCo демонстрирует высокую производительность по сравнению как с GFM, так и со специализированными моделями, особенно в задачах диагностики заболеваний вне области обучения.
📌 Читать полностью
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤2🔥2
Forwarded from Machinelearning
Репозиторий на Github c прикладными упражнениями, ноутбуками с кодом для разработки, предварительной подготовки и тонкой настройке LLM-модели типа GPT по одной из лучших книг о построении LLM с нуля.
В книге вы узнаете и поймете, как работают большие языковые модели изнутри, создавая собственную LLM шаг за шагом, c подробным объяснением каждого этапа понятным языком, диаграммами и примерами.
Метод, описанный в книге демонстрирует подход, используемый при создании крупных фундаментальных моделей, таких как те, что лежат в основе ChatGPT.
В репозитории к каждой главе книги соответствуют несколько (3-4) прикладных примеров в формате ipynb или в виде исполняемого python-скрипта. Код ориентирован на широкую аудиторию, разработан для запуска на обычных ноутбуках и не требует специализированного оборудования.
Настройка
Глава 2: Работа с текстовыми данными
Глава 3: Код механизмов внимания
Глава 4: Реализация модели GPT с нуля
Глава 5: Предварительное обучение на немаркированных данных
Глава 6: Тонкая настройка для классификации
Глава 7: Тонкая настройка для следования инструкциям
@ai_machinelearning_big_data
#AI #ML #LLM #Tutorial #Github
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15❤7🔥4😍2
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥6❤3
Forwarded from Machinelearning
JanusFlow - уникальная комбинация LLM с Rectified Flow и SDXL-VAE для задач понимания и генерации изображений.
Архитектура JanusFlow построена на улучшенной версии DeepSeek-LLM-1.3B, дополненной двумя специализированными энкодерами изображений: SigLIP для задач понимания и ConvNeXt для задач генерации. Разделение энкодеров предотвращает интерференцию задач и повышает эффективность модели.
JanusFlow обучалась в 3 этапа. На первом этапе адаптировались линейные слои, энкодер и декодер генерации.
На втором этапе - унифицированное предварительное обучение всей модели, за исключением визуального энкодера.
На третьем этапе - SFT с использованием инструкций, диалогов и примеров генерации изображений.
В тестах генерации изображений MJHQ FID-30k, GenEval и DPG-Bench, JanusFlow превосходит SD1.5 и SDXL. В тестах понимания MMBench, SeedBench и GQA, JanusFlow превосходит LLaVA-v1.5 и Qwen-VL-Chat.
Локальный запуск возможен в CLI на Transformers и с webUI на Gradio. Примеры CLI-инференса для задач понимания и генерации можно найти в репозитории проекта.
# install the necessary dependencies
pip install -e .
pip install diffusers[torch]
# run local gradio demo
pip install -e .[gradio]
python demo/app_janusflow.py
@ai_machinelearning_big_data
#AI #ML #MMLM #Deepseek #JanusFlow
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤5🔥4
Шпаргалка по ML от Стэнфорда, здесь даны метрики классификации, метрики регрессии, описывается кросс-валидация, регуляризация и не только
@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥7❤4
Forwarded from Machinelearning
LLaMA-Mesh - метод, разработанный NVIDIA Labs, позволяющий генерировать 3D-модели с помощью текстовых инструкций, используя LLM. В отличие от других методов, LLaMA-Mesh представляет координаты вершин и определения граней 3D-сеток в виде простого текста, что позволяет напрямую интегрировать их с LLM без расширения словаря, минимизируя дополнительные затраты на обучение и позволяя использовать знания, которые уже имеют LLM.
Метод основан на файнтюне LLaMA-3.1-8B-Instruct на специальном наборе данных., который состоит из пар "текст-3D" и интерактивных диалогов, содержащих текст и 3D-модели.
В результате этого обучения, LLaMA-Mesh получает способность генерировать высококачественные 3D-сетки с различной топологией, сопоставимые по качеству с моделями, обученными с нуля, при этом сохраняя языковые способности, обеспечивая понимание сложных инструкций и ведения контекстуально-зависимых диалогов.
Оценка LLaMA-Mesh проводилась на качественных и количественных экспериментах.
Результаты качественных тестов демонстрируют высокую точность, качество и разнообразие сгенерированных 3D-моделей, а также сохраненные языковые возможности модели.
Количественные тесты в бенчмарках MMLU, PIQA, HellaSwag и GSM8K подтвердили сохранение языковых способностей, сравнимые с фундаментальными моделями LLaMA.
⚠️ Код и предварительно обученные веса обещают опубликовать в ближайшее время.
@ai_machinelearning_big_data
#AI #ML #LLM #3DGen #LlamaMesh #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍5🔥1