DenoiseLAB

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_202

🔠Что такое deBERTa ? (Часть_2)

Одним из ключевых улучшений DeBERTa является различная обработка маскированных (замаскированных) токенов. В модели BERT маскированные токены обрабатываются одинаковым образом, что может приводить к потере информации. В DeBERTa используется динамическое выравнивание внимания для маскированных токенов, что позволяет модели лучше улавливать зависимости и контекст в предложениях.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#DeepLearning #NeuralNetworks #NaturalLanguageProcessing #SequenceModeling #ModelArchitecture #LongRangeDependencies #TextGeneration

60 views08:00

👍 2 👎🤔💬

DenoiseLAB

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_202

🔠Что такое deBERTa ? (Часть_3)

DeBERTa также вводит новую архитектуру для моделирования отношений между токенами, называемую "реляционным моделированием". Это позволяет модели более эффективно улавливать зависимости и взаимодействия между токенами в предложениях.

Основная идея DeBERTa состоит в улучшении способности модели понимать и моделировать глубокие зависимости и контекстуальные взаимосвязи в тексте. Это позволяет модели достигать лучших результатов в различных задачах NLP, таких как классификация текста, извлечение информации, вопросно-ответные системы и многие другие.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#DeepLearning #NeuralNetworks #NaturalLanguageProcessing #SequenceModeling #ModelArchitecture #LongRangeDependencies #TextGeneration

56 views07:00

👍 3 👎🤔💬

DenoiseLAB

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_203

🔠Что такое Turing_-NLG ? (Часть_1)

Turing-NLG (Turing Natural Language Generation) - это система генерации естественного языка, разработанная компанией OpenAI. Она названа в честь английского математика и логика Алана Тьюринга.

Turing-NLG основана на архитектуре GPT (Generative Pre-trained Transformer) и является одной из версий модели GPT, разработанных OpenAI. Она обучена на огромном объеме текстовых данных и способна генерировать качественные тексты в различных стилях и жанрах.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#DeepLearning #NeuralNetworks #NaturalLanguageProcessing #SequenceModeling #ModelArchitecture #LongRangeDependencies #TextGeneration

65 views08:00

👍 2 👎🤔💬

DenoiseLAB

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_203

🔠Что такое Turing_-NLG ? (Часть_2)

Одно из главных преимуществ Turing-NLG заключается в его способности к контролируемой генерации текста. С помощью подхода, называемого "промпт-инжиниринг" (prompt engineering), пользователи могут задавать системе конкретные инструкции или контекст, чтобы получать желаемые результаты. Например, можно попросить систему продолжить предложение, ответить на вопрос, описать изображение и т.д.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#DeepLearning #NeuralNetworks #NaturalLanguageProcessing #SequenceModeling #ModelArchitecture #LongRangeDependencies #TextGeneration

57 views07:00

👍 4 👎🤔💬

DenoiseLAB

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_204

🔠Что такое ALBERT (A Lite BERT) ? (Часть_1)

ALBERT является уменьшенной версией BERT, которая использует параметризацию параллельного масштабирования и параллельного обучения для уменьшения количества параметров и вычислительной сложности.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#DeepLearning #NeuralNetworks #NaturalLanguageProcessing #SequenceModeling #ModelArchitecture #LongRangeDependencies #TextGeneration

54 views07:00

👍 1 👎🤔💬

DenoiseLAB

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_204

🔠Что такое ALBERT (A Lite BERT) ? (Часть_2)

Она использует два ключевых принципа для уменьшения количества параметров и вычислительной сложности:

- Факторизация параметризации эмбеддингов: В ALBERT матрица эмбеддингов разделяется между векторами входного слоя с относительно небольшой размерностью (например, 128), в то время как вектора скрытого слоя используют большие размерности (768, как в случае с BERT'ом, и больше). Это позволяет существенно уменьшить количество параметров проекционного блока, снижая при этом количество параметров на 80%.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#DeepLearning #NeuralNetworks #NaturalLanguageProcessing #SequenceModeling #ModelArchitecture #LongRangeDependencies #TextGeneration

55 viewsedited 08:00

👍 1 👎🤔💬

DenoiseLAB

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_205

🔠Что такое SpanBERT ? (Часть_1)

SpanBERT — это предварительно обученный метод, разработанный для лучшего представления и предсказания интервалов текста. В отличие от BERT, который маскирует случайные токены, SpanBERT маскирует случайные непрерывные интервалы (spans) текста. Кроме того, в SpanBERT используется новый подход к обучению границ интервалов (Span-Boundary Objective, SBO), чтобы модель училась предсказывать весь маскированный интервал, используя только контекст, в котором он появляется.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#DeepLearning #NeuralNetworks #NaturalLanguageProcessing #SequenceModeling #ModelArchitecture #LongRangeDependencies #TextGeneration

62 views08:00

👍 1 👎🤔💬

DenoiseLAB

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_205

🔠Что такое SpanBERT ? (Часть_2)

SpanBERT был разработан для улучшения предварительного обучения, так как многие задачи обработки естественного языка (NLP) требуют логического вывода о отношениях между двумя или более интервалами текста.

Например, в задачах извлечения ответов на вопросы (extractive question answering) определение того, что "Denver Broncos" является типом "NFL team", критически важно для ответа на вопрос "Какой NFL команде выиграл Супербоул 50?"

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#DeepLearning #NeuralNetworks #NaturalLanguageProcessing #SequenceModeling #ModelArchitecture #LongRangeDependencies #TextGeneration

49 views07:00

👍 1 👎🤔💬

DenoiseLAB

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_205

🔠Что такое SpanBERT ? (Часть_3)

SpanBERT показал значительные улучшения в задачах выбора интервалов, таких как ответы на вопросы и разрешение кореференций, и достиг новых результатов в этих задачах. Например, с теми же данными обучения и размером модели, как у BERT-large, SpanBERT получил 94,6% F1 на SQuAD 1.1 и 88,7% F1 на SQuAD 2.0 соответственно.

Также SpanBERT достиг нового лучшего результата на задаче разрешения кореференций OntoNotes (79,6% F1) и показал хорошую производительность на бенчмарке TACRED для извлечения отношений

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#DeepLearning #NeuralNetworks #NaturalLanguageProcessing #SequenceModeling #ModelArchitecture #LongRangeDependencies #TextGeneration

57 views08:00

👍 2 👎🤔💬

DenoiseLAB

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_206

Как SpanBERT использует новый подход к обучению границ интервалов (Span-Boundary Objective, SBO)? (Часть_1)

SpanBERT использует новый подход к обучению границ интервалов (Span-Boundary Objective, SBO) для улучшения представления и предсказания интервалов текста. В отличие от стандартного подхода BERT, который маскирует случайные токены, SpanBERT маскирует случайные непрерывные интервалы (spans) текста.

Это позволяет модели учиться предсказывать весь маскированный интервал, используя только контекст, в котором он появляется, без необходимости полагаться на индивидуальные представления токенов внутри него.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#DeepLearning #NeuralNetworks #NaturalLanguageProcessing #SequenceModeling #ModelArchitecture #LongRangeDependencies #TextGeneration

45 views07:00

👍 1 👎🤔💬

DenoiseLAB

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_206

Как SpanBERT использует новый подход к обучению границ интервалов (Span-Boundary Objective, SBO)? (Часть_2)

SpanBERT также использует дополнительную вспомогательную цель обучения — SBO. Этот новый подход предназначен для предсказания всего маскированного интервала, используя только представления токенов на границе интервала. Это позволяет модели сосредоточиться на контексте, который окружает интервал, и улучшает ее способность предсказывать интервалы текста.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#DeepLearning #NeuralNetworks #NaturalLanguageProcessing #SequenceModeling #ModelArchitecture #LongRangeDependencies #TextGeneration

49 views08:00

👍 1 👎🤔💬

DenoiseLAB

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_206

Как SpanBERT использует новый подход к обучению границ интервалов (Span-Boundary Objective, SBO)? (Часть_2)

SpanBERT также отличается от BERT тем, что использует один непрерывный сегмент текста для каждого обучающего примера, вместо двух, как это делает BERT. Это означает, что SpanBERT не использует цель предсказания следующего предложения BERT, что позволяет сосредоточиться на задачах выбора интервалов, таких как ответы на вопросы.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#DeepLearning #NeuralNetworks #NaturalLanguageProcessing #SequenceModeling #ModelArchitecture #LongRangeDependencies #TextGeneration

49 views07:00

👍 1 👎🤔💬

DenoiseLAB

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_206

🔠Какие еще задачи можно решать с помощью SpanBERT, помимо выбора интервалов?

SpanBERT, помимо задач выбора интервалов, также показывает сильные результаты в следующих задачах обработки естественного языка (NLP):

- Извлечение ответов на вопросы (Question Answering, QA): SpanBERT достигает 94.6% F1 на SQuAD 1.1 и 88.7% F1 на SQuAD 2.0, что является значительным улучшением по сравнению с BERT.

- Разрешение кореференций (Coreference Resolution): SpanBERT устанавливает новый стандарт на задаче разрешения кореференций OntoNotes с 79.6% F1, что является значительным улучшением.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#DeepLearning #NeuralNetworks #NaturalLanguageProcessing #SequenceModeling #ModelArchitecture #LongRangeDependencies #TextGeneration

46 views08:00

👍 1 👎🤔💬

DenoiseLAB

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_206

🔠Какие еще задачи можно решать с помощью SpanBERT, помимо выбора интервалов? (Часть_2)

- Извлечение отношений (Relation Extraction): На бенчмарке TACRED SpanBERT показывает сильную производительность, что свидетельствует о его эффективности в задачах, связанных с распознаванием и интерпретацией отношений между сущностями в тексте 124.

- GLUE: SpanBERT также демонстрирует улучшения на GLUE, что является набором задач NLP, охватывающих различные аспекты понимания естественного языка, включая классификацию текста, извлечение ответов на вопросы и другие

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#DeepLearning #NeuralNetworks #NaturalLanguageProcessing #SequenceModeling #ModelArchitecture #LongRangeDependencies #TextGeneration

47 views07:00

👍 2 👎🤔💬

DenoiseLAB

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_207

🔠 Какие результаты достигает SpanBERT в задачах извлечения ответов на вопросы (Question Answering, QA)?

- На SQuAD v1.1 SpanBERT достигает F1 score в 91.98, что является улучшением по сравнению с базовым показателем BERT, который составляет 85.49.
- В сравнении с Google BERT, SpanBERT увеличивает F1 score на 3.3%.

Эти результаты показывают, что SpanBERT эффективно улучшает производительность по сравнению с другими моделями BERT, особенно в задачах, где требуется точное выделение и интерпретация текстовых интервалов.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#DeepLearning #NeuralNetworks #NaturalLanguageProcessing #SequenceModeling #ModelArchitecture #LongRangeDependencies #TextGeneration

51 views08:00

👍 1 👎🤔💬

DenoiseLAB

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_208

🔠 Какие библиотеки и инструменты могут использоваться для создания и настройки генераторов фичей?

- Featuretools: Featuretools — это библиотека, которая автоматически генерирует новые признаки из ваших данных. Она может автоматически создавать временные признаки, агрегировать данные и многое другое.

- Category Encoders: Это библиотека для кодирования категориальных переменных в числовые значения, которая предлагает различные методы, такие как OneHotEncoder, OrdinalEncoder и TargetEncoder.

- Statsmodels: Эта библиотека предоставляет статистические модели и методы для работы с временными рядами, что может быть полезно при создании временных признаков.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#DeepLearning #NeuralNetworks #NaturalLanguageProcessing #SequenceModeling #ModelArchitecture #LongRangeDependencies #TextGeneration

56 views07:00

👍 1 👎🤔💬

DenoiseLAB

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_209

🔠Какие методы кодирования категориальных переменных можно использовать с помощью Category Encoders? (Часть_1)

- BackwardDifferenceEncoder: Кодирует категории, используя разницу между категорией и предыдущей категорией.
- BaseNEncoder: Кодирует категории, используя кодирование в основание N.
- BinaryEncoder: Кодирует категории в бинарный формат.
- CatBoostEncoder: Кодирует категории с использованием CatBoost.
- CountEncoder: Кодирует категории, используя количество наблюдений каждой категории.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#DeepLearning #NeuralNetworks #NaturalLanguageProcessing #SequenceModeling #ModelArchitecture #LongRangeDependencies #TextGeneration

49 views08:00

DenoiseLAB

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_209

🔠Какие методы кодирования категориальных переменных можно использовать с помощью Category Encoders? (Часть_2)

- GLMMEncoder: Кодирует категории, используя обобщенную линейную модель (GLMM).
- GrayEncoder: Кодирует категории, используя сеточное кодирование.
- HashingEncoder: Кодирует категории с использованием хеширования.
- HelmertEncoder: Кодирует категории, используя кодирование Хелмерта.
- JamesSteinEncoder: Кодирует категории, используя кодирование Джеймса-Штейна.
- LeaveOneOutEncoder: Кодирует категории, используя метод оставить один.

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#DeepLearning #NeuralNetworks #NaturalLanguageProcessing #SequenceModeling #ModelArchitecture #LongRangeDependencies #TextGeneration

44 views07:00

👍 1 👎🤔💬

DenoiseLAB

❓200 Вопросов по Машинному обучению (Machine Learning) - Вопрос_209

🔠Какие методы кодирования категориальных переменных можно использовать с помощью Category Encoders? (Часть_3)

- MEstimateEncoder: Кодирует категории, используя M-оценку.
- OneHotEncoder: Кодирует категории в бинарные векторы, где каждая категория представлена вектором из нулей и единиц.
- OrdinalEncoder: Кодирует категории в числовые значения, где каждая категория получает уникальное числовое значение.
- PolynomialEncoder: Кодирует категории, используя полиномиальное кодирование.
- QuantileEncoder: Кодирует категории, используя квантильное кодирование.
- RankHotEncoder: Кодирует категории, используя ранговое горячее кодирование.
- SumEncoder: Кодирует категории, используя суммарное кодирование.
- TargetEncoder: Кодирует категории, используя целевое кодирование.
- WOEEncoder: Кодирует категории, используя кодирование WOE (Weight of Evidence).

https://boosty.to/denoise_lab/donate - поддержать наш канал.

#DeepLearning #NeuralNetworks #NaturalLanguageProcessing #SequenceModeling #ModelArchitecture #LongRangeDependencies #TextGeneration

52 views08:00

👍 3 👎💬

DenoiseLAB

🚀 Новая китайская модель LongCat-Flash-Thinking

🧠 Это модель для рассуждений, которая показала SOTA-результаты среди open-source решений.

⚡ Основное:
- Архитектура MoE, 560B параметров, из них 27B активируются.
- Эффективность: требует на 64,5% меньше токенов( чем другим открытым моделям того же класса), чтобы достичь топ-результатов на AIME25 (с нативным использованием инструментов,).
- Контекст: 128k, обучение с усилением на задачах рассуждений и кода, многоэтапное пост-тюнинг обучение с мультиагентным синтезом.
- Инфраструктура: асинхронный RL даёт 3x ускорение по сравнению с синхронными фреймворками.

⚙️ Оптимизации для продакшена:
- Свои оптимизированные ядра для работы с MoE и специальные приёмы распределённого обучения,
- KV-cache reduction, квантование, chunked prefill,
- статическая/эластичная маршрутизация, peer-to-peer cache transfer, heavy-hitter replication и PD-disaggregation.
- Поддержка SGLang и vLLM для эффективного деплоя.

📊 Бенчмарки:
- Лидирует в tool use (τ²-Bench, VitaBench)
- Хорошие результаты по instruction following (IFEval, COLLIE, Meeseeks-zh).

Китайцы стабильно удерживают лидерство в reasoning-моделях.

🟠

HF: https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking

#AI #LLM #Reasoning #MoE #DeepLearning #OpenSource

Please open Telegram to view this post

VIEW IN TELEGRAM

huggingface.co

meituan-longcat/LongCat-Flash-Thinking · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

156 views05:38

About

Blog

Apps

Platform