📷 Изображение
Значение высказываний складывается из двух частей: семантическое и прагматическое значение.
Семантическое значение относится к буквальному или словарному определению слова или предложения. Это объективное и проверяемое значение языка. Например, предложение «Небо голубое» имеет семантическое значение, основанное на научном определении цвета и внешнего вида неба.
С другой стороны, прагматическое значение зависит от контекста и цели говорящего при использовании языка. Оно субъективно и может варьироваться от человека к человеку. Одно и то же предложение «Небо голубое» может иметь разное прагматическое значение в зависимости от ситуации. Например, если кто-то говорит «Небо голубое», указывая на облачное небо, он может подразумевать, что небо должно быть голубым, но это не так. Или, если кто-то со вздохом говорит: «Небо голубое», он может выражать чувство облегчения после бурного дня.
Важно отметить, что хотя предложение может существовать без семантического значения, оно всегда имеет прагматическое значение. Например, если кто-то улыбается, то в его улыбке может не быть семантического смысла, но за этим всегда стоит прагматический смысл. Улыбка может выражать радость, юмор или облегчение.
Одна из причин, по которой язык может быть таким сложным, заключается в том, что значение слов и фраз может варьироваться в зависимости от территории, культуры, климата или любого другого аспекта жизни людей. Например, термин «красный» для человека страдающего от дальтонизма может означать нечто иное, чем для человека, который может видеть все цвета. Кроме того, некоторые языки имеют более богатый словарный запас для определенных понятий, чем другие. Например, часто говорят, что «у эскимосов есть более 100 слов для обозначения снега», подчеркивая идею о том, что язык отражает культурный контекст, в котором он используется.
В области обработки естественного языка (NLP) понимание прагматического значения имеет решающее значение для многих задач, таких как анализ тональности текста (sentiment analysis), определение сарказма и обобщение текста. Например, при анализе тональности цель состоит в том, чтобы понять настроение автора текста. Является ли оно положительным, отрицательным или нейтральным? Однако если автор выражает своё мнение косвенно или иронично, то это затрудняет определения эмоциональной окраски.
Точно так же определение сарказма в значительной степени зависит от понимания намерений автора и контекста. Сарказм часто подразумевает высказывание чего-то противоположного тому, что имеется в виду, и бывает трудно определить сарказм глядя лишь на текст и не зная тона говорящего, выражения лица и контекста.
Обобщение текста — еще одна задача, которая опирается на прагматическую составляющую. Хорошее краткое содержание не только фиксирует основные моменты текста, но и передает его общий смысл и цель. Это требует понимания контекста, тона и целей исходного текста и извлечения наиболее важной информации для читателя.
В заключении, хотя и семантическое, и прагматическое значение играют важную роль в обработке естественного языка, сложность прагматического значения создает уникальные перспективы для продвижения всей области NLP. В то время как семантическое значение основано на объективных определениях и может быть проверено с помощью логики и рассуждений, прагматическое значение субъективно и зависит от контекста и намерения. Это означает, что модели для NLP должны уметь понимать нюансы языка и контекста, чтобы точно улавливать прагматический смысл текста. Таким образом, разработка точных и эффективных моделей NLP, которые могут улавливать прагматический смысл, остается сложной областью для исследований, но это та сфера, которая обладает большим потенциалом для повышения качества и эффективности приложений для обработки естественного языка.
#лингвистика #основы
@deep_learning_nlp_ru
Значение высказываний складывается из двух частей: семантическое и прагматическое значение.
Семантическое значение относится к буквальному или словарному определению слова или предложения. Это объективное и проверяемое значение языка. Например, предложение «Небо голубое» имеет семантическое значение, основанное на научном определении цвета и внешнего вида неба.
С другой стороны, прагматическое значение зависит от контекста и цели говорящего при использовании языка. Оно субъективно и может варьироваться от человека к человеку. Одно и то же предложение «Небо голубое» может иметь разное прагматическое значение в зависимости от ситуации. Например, если кто-то говорит «Небо голубое», указывая на облачное небо, он может подразумевать, что небо должно быть голубым, но это не так. Или, если кто-то со вздохом говорит: «Небо голубое», он может выражать чувство облегчения после бурного дня.
Важно отметить, что хотя предложение может существовать без семантического значения, оно всегда имеет прагматическое значение. Например, если кто-то улыбается, то в его улыбке может не быть семантического смысла, но за этим всегда стоит прагматический смысл. Улыбка может выражать радость, юмор или облегчение.
Одна из причин, по которой язык может быть таким сложным, заключается в том, что значение слов и фраз может варьироваться в зависимости от территории, культуры, климата или любого другого аспекта жизни людей. Например, термин «красный» для человека страдающего от дальтонизма может означать нечто иное, чем для человека, который может видеть все цвета. Кроме того, некоторые языки имеют более богатый словарный запас для определенных понятий, чем другие. Например, часто говорят, что «у эскимосов есть более 100 слов для обозначения снега», подчеркивая идею о том, что язык отражает культурный контекст, в котором он используется.
В области обработки естественного языка (NLP) понимание прагматического значения имеет решающее значение для многих задач, таких как анализ тональности текста (sentiment analysis), определение сарказма и обобщение текста. Например, при анализе тональности цель состоит в том, чтобы понять настроение автора текста. Является ли оно положительным, отрицательным или нейтральным? Однако если автор выражает своё мнение косвенно или иронично, то это затрудняет определения эмоциональной окраски.
Точно так же определение сарказма в значительной степени зависит от понимания намерений автора и контекста. Сарказм часто подразумевает высказывание чего-то противоположного тому, что имеется в виду, и бывает трудно определить сарказм глядя лишь на текст и не зная тона говорящего, выражения лица и контекста.
Обобщение текста — еще одна задача, которая опирается на прагматическую составляющую. Хорошее краткое содержание не только фиксирует основные моменты текста, но и передает его общий смысл и цель. Это требует понимания контекста, тона и целей исходного текста и извлечения наиболее важной информации для читателя.
В заключении, хотя и семантическое, и прагматическое значение играют важную роль в обработке естественного языка, сложность прагматического значения создает уникальные перспективы для продвижения всей области NLP. В то время как семантическое значение основано на объективных определениях и может быть проверено с помощью логики и рассуждений, прагматическое значение субъективно и зависит от контекста и намерения. Это означает, что модели для NLP должны уметь понимать нюансы языка и контекста, чтобы точно улавливать прагматический смысл текста. Таким образом, разработка точных и эффективных моделей NLP, которые могут улавливать прагматический смысл, остается сложной областью для исследований, но это та сфера, которая обладает большим потенциалом для повышения качества и эффективности приложений для обработки естественного языка.
#лингвистика #основы
@deep_learning_nlp_ru
Telegram
Deep learning for NLP (RU)
Основные уровни лингвистических структур
Источник
Источник
👍4
Ложное обещание ChatGPT
Недавно Ноам Хомский (Noam Chomsky) дал интервью The New York Times о ChatGPT. Предоставляю вам наиболее яркие выдержки из интервью. Так же даю свои примечания и комментарии. Выдержки так же можно прочитать в оригинале на английской версии канала. Здесь я привожу их перевод.
Недавно Ноам Хомский (Noam Chomsky) дал интервью The New York Times о ChatGPT. Предоставляю вам наиболее яркие выдержки из интервью. Так же даю свои примечания и комментарии. Выдержки так же можно прочитать в оригинале на английской версии канала. Здесь я привожу их перевод.
«ChatGPT от OpenAI, Bard от Google и Sydney от Microsoft — чудеса машинного обучения. Общий принцип работы можно описать следующим образом, они берут огромные объемы данных, ищут в них закономерности. Поглощая большее количество данных, модели становятся более опытными в выдаче статистически более вероятных результатов, которые похожи на человеческий язык и мышление».Далее под программами, Ноам Хомский понимает современные глубокие нейронные сети.
«Открытие понимания Борхеса»
(осознание себя и мира) «не было и не будет — и, как мы утверждаем, не может — произойти, если программы машинного обучения, такие как ChatGPT, продолжат доминировать в области ИИ. Какими бы полезными эти программы ни были в некоторых узких областях (они могут быть полезны, например, в компьютерном программировании или в создании рифм для легких стишков), мы знаем из лингвистики и философии познания, что они [программы] сильно отличаются от того, как люди рассуждают и используют язык. Эти различия накладывают существенные ограничения на то, что эти программы могут делать, кодируя информацию с неустранимыми дефектами.
Как мог бы заметить Борхес, это одновременно и комично, и трагично, что столько денег и внимания приходится уделять на столь незначительном предмете — чем-то таком тривиальном по сравнению с человеческим разумом, который благодаря языку, по словам Вильгельма фон Гумбольдта, может «бесконечно использовать конечные средства», создавая идеи и теории с всеобщим охватом».
Здесь, автор ссылается на классического философа и языковеда Вильгельма фон Гумбольдта и называет язык, как внешнюю форму существования разума, конечным. Дело в том, что язык отражает понятия Вселенной. И поскольку Вселенная бесконечна, то и в ней содержится бесконечное количество объектов и явлений, а значит и бесконечное количество понятий. А это значит, что и язык по своей сути бесконечен. Примером этого являются множество новых слов, которые ещё 20 лет назад были неизвестны.«…человеческий разум — это удивительно эффективная и даже элегантная система, которая работает с небольшими объемами информации; он не стремится находить поверхностные взаимосвязи между различными точками данных, а пытается создавать объяснения».Под контрфактическими предположениями понимаются такие предположения, которые идут вопреки фактам. То есть, произошло одно, но мы можем предположить что-то другое, чего не произошло, предсказав результат.
«Действительно, такие программы застряли на дочеловеческой или нечеловеческой стадии эволюции познания».
«Приведём пример. Предположим, вы держите в руке яблоко. Теперь вы отпускаете яблоко. Вы наблюдаете за результатом и говорите: «Яблоко падает». Это описание результата, а предсказанием могло бы быть утверждение: «Яблоко упадет, если я раскрою ладонь». Оба результата ценны, и оба могут быть правильными, но объяснение — это нечто большее: оно включает в себя не только описания и предсказания, но и контрфактические предположения, такие как «любой такой объект упадет», дополняя это следующими высказываниями: «из-за силы тяжести» или «из-за искривления пространства и времени» или чего-то еще. А вот вам и причинное объяснение: «Яблоко не упало бы, если бы не сила тяжести». Это мышление».
Nytimes
Opinion | Noam Chomsky: The False Promise of ChatGPT (Published 2023)
The most prominent strain of A.I. encodes a flawed conception of language and knowledge.
👍6
«Разум состоит не только из творческих предположений, но и из творческой критики. Мышление свойственное человеку основано на возможных объяснениях и исправлении ошибок, процесс, который постепенно ограничивает возможности, которые будет рационально рассматривать».Здесь главное различие в процессе обучения человека и нейронных сетей. Человек, совершая ошибку, пытается её объяснить, чтобы предотвратить её в будущем. Современные нейронные сети совершая ошибку, просто совершают небольшую перебалансировку весов всей сети, в надежде, что новая конфигурация сети избежит предыдущие ошибки и не допустит новые.
«Теория о том, что яблоки падают на землю, потому что это их естественное место (точка зрения Аристотеля), возможна, но она вызывает только дополнительные вопросы (Почему земля является их естественным местом?). Теория, согласно которой яблоки падают на землю, потому что их масса искривляет пространство и время (Точка зрения Эйнштейна) крайне маловероятна, но она на самом деле отвечает вам, почему они падают. Истинный разум проявляется в способности думать и выражать маловероятные, но проницательные вещи.Авторы ChatGPT пытались решить эту проблему, внедрив механизм безопасности, который всё же дает сбои и выдает неприемлемые результаты. Более того, авторы осознают недостатки своего решения и пытаются его делегировать на сообщество. Либо избегают неудобных вопросов о нравственности.
Истинный разум также способен к нравственному мышлению. Это значит ограничить безграничную творческую мысль нашего разума набором этических принципов, определяющих, что допустимо, а что нет (и, конечно же, подвергнуть сами эти принципы творческой критике). Чтобы быть полезным, ChatGPT должен уметь генерировать новый вид вывода; чтобы быть приемлемым для большинства пользователей, он должен избегать морально неприемлемого контента. Но разработчики ChatGPT и других чудес машинного обучения боролись — и будут продолжать бороться — за достижение такого баланса».
«В общем, ChatGPT и его собратья по своей природе неспособны сбалансировать творчество с ограничениями. Они либо чрезмерно генерируют (производят как правду, так и ложь, одобряют как этические, так и неэтичные решения), либо недостаточно генерируют (демонстрируют неприверженность любым решениям и безразличие к последствиям). Учитывая безнравственность, лженаучность и лингвистическую некомпетентность этих систем, мы можем только смеяться или плакать над их популярностью».#chatgpt #лингвистика
@deep_learning_nlp_ru
Telegram
Deep learning for NLP (RU)
Hacking #ChatGPT
👍7
OpenAI сообщает об утечке в ChatGPT, которое произошло 20 марта.
«некоторые пользователи могли видеть имя и фамилию другого активного пользователя, адрес электронной почты, платежный адрес, последние четыре цифры номера кредитной карты и дату истечения срока действия кредитной карты. Полные номера кредитных карт не были раскрыты."
Проблема возникла из-за ошибки в библиотеке с открытым исходным кодом (redis-py), сейчас проблема уже исправлена.
#новости #ChatGPT
«некоторые пользователи могли видеть имя и фамилию другого активного пользователя, адрес электронной почты, платежный адрес, последние четыре цифры номера кредитной карты и дату истечения срока действия кредитной карты. Полные номера кредитных карт не были раскрыты."
Проблема возникла из-за ошибки в библиотеке с открытым исходным кодом (redis-py), сейчас проблема уже исправлена.
#новости #ChatGPT
Openai
March 20 ChatGPT outage: Here’s what happened
An update on our findings, the actions we’ve taken, and technical details of the bug.
😁5🔥1🫡1
Натренированный на 100 миллионах слов, и всё ещё хорош: BERT знакомится с Британским национальным корпусом
📷 Figure
🔗 Ссылка
⌨️ Код
🧠 Авторы: David Samuel, et al
⏰ Год: 29 марта, 2023
С каждым годом языковые модели становятся всё более требовательны к объёму данных, который требуется чтобы обучить конкурентноспособную модель. Особенно тяжёлая ситуация у малоресурсных языков. Проблема так же остро встаёт с качеством текстов на которых обучались модели. Большие текстовые корпуса просто невозможно контролировать, что приводит к множеству вредных, или попросту ложных фактов, которые выдаёт модель.
В данном исследовании, авторы сконцентрировали свои силы на создании более эффективной модели, чем первоначальных BERT. Далее привожу главные особенности их системы.
🗒 Заметки:
BERT обучалась примерно на 3.3 миллиардах слов; XLNet - 33B words; RoBERTa - 30B; GPT-3 - 400B. Все корпусы текстов находятся в закрытом доступе и скрипты, которые использовались для очистки данных тоже не опубликованы.
British National Corpus (BNC) состоит из 100 миллионов английских слов составленный в основном из письменных источников (книги, статьи, новости и т.д.) конца 20 века.
Архитектура модели несколько изменена по сравнению с классическим BERT:
* NormFormer - это дополнительный слой нормализации, который приводит к более стабильной сходимости, при небольшой потере производительности.
* Функция активации GEGLU - улучшение функции GELU, который делает результат функции более ярко выраженным.
* Disentangled attention - в отличии от оригинального механизма внимания, в формулу добавлена позиционная матрица, т.е. матрица, в которой пронумерована позиция каждого токена.
* Масштабирование инициализации - для стабилизации работы трансформеров, можно постепенно понижать веса feed-forward матрицы.
Модель обучалась на тех же заданиях, что и BERT: Masked language modeling (случайное маскирование слов и их распознавание) и Next sentence prediction (предсказывание является ли предложение следующим для данного предложения)
🧪 Эксперименты:
Эксперименты проводились на 5 GLUE метриках, HANS для NLI заданий, Edge probing для оценивания распознавания семантики и BLiMP для оценивания модели в режиме zero-shot.
Результаты экспериментов показали, что модель способна превзойти, либо быть сопоставимой с оригинальным BERT (cased), хотя была обучена на порядок меньшем корпусе данных.
#публикация #bert #transformer
@deep_learning_nlp_ru
📷 Figure
🔗 Ссылка
⌨️ Код
🧠 Авторы: David Samuel, et al
⏰ Год: 29 марта, 2023
С каждым годом языковые модели становятся всё более требовательны к объёму данных, который требуется чтобы обучить конкурентноспособную модель. Особенно тяжёлая ситуация у малоресурсных языков. Проблема так же остро встаёт с качеством текстов на которых обучались модели. Большие текстовые корпуса просто невозможно контролировать, что приводит к множеству вредных, или попросту ложных фактов, которые выдаёт модель.
В данном исследовании, авторы сконцентрировали свои силы на создании более эффективной модели, чем первоначальных BERT. Далее привожу главные особенности их системы.
🗒 Заметки:
BERT обучалась примерно на 3.3 миллиардах слов; XLNet - 33B words; RoBERTa - 30B; GPT-3 - 400B. Все корпусы текстов находятся в закрытом доступе и скрипты, которые использовались для очистки данных тоже не опубликованы.
British National Corpus (BNC) состоит из 100 миллионов английских слов составленный в основном из письменных источников (книги, статьи, новости и т.д.) конца 20 века.
Архитектура модели несколько изменена по сравнению с классическим BERT:
* NormFormer - это дополнительный слой нормализации, который приводит к более стабильной сходимости, при небольшой потере производительности.
* Функция активации GEGLU - улучшение функции GELU, который делает результат функции более ярко выраженным.
* Disentangled attention - в отличии от оригинального механизма внимания, в формулу добавлена позиционная матрица, т.е. матрица, в которой пронумерована позиция каждого токена.
* Масштабирование инициализации - для стабилизации работы трансформеров, можно постепенно понижать веса feed-forward матрицы.
Модель обучалась на тех же заданиях, что и BERT: Masked language modeling (случайное маскирование слов и их распознавание) и Next sentence prediction (предсказывание является ли предложение следующим для данного предложения)
🧪 Эксперименты:
Эксперименты проводились на 5 GLUE метриках, HANS для NLI заданий, Edge probing для оценивания распознавания семантики и BLiMP для оценивания модели в режиме zero-shot.
Результаты экспериментов показали, что модель способна превзойти, либо быть сопоставимой с оригинальным BERT (cased), хотя была обучена на порядок меньшем корпусе данных.
#публикация #bert #transformer
@deep_learning_nlp_ru
Telegram
Deep learning for NLP (RU)
Архитектура языковой модели LTG-BERT
🔥4👍2
Пример влияния неразмеченных данных в слабом обучении с учителем (weakly supervised learning). Источник.
Слабое обучение с учителем (weakly supervised learning)
📷 Изображение
Машинное обучение произвело революцию в способах решения сложных задач, от обработки естественного языка до распознавания изображений. Однако одно из основных препятствий, с которыми сталкиваются специалисты по машинному обучению, является недостаточное количество размеченных данных, которые часто необходимы для качественного обучения моделей. Маркирование же всех данных обычно либо слишком дорого, либо не всегда возможно. К счастью, слабое обучение с учителем стало мощным решением этой проблемы. В этой статье мы рассмотрим три типа данного обучения и методы, используемые в каждом из них.
Три типа слабого обучение с учителем:
* Неполное обучение - размечено только небольшое подмножество тренировочных данных, тогда как остальные данные остаются не размеченными;
* Приблизительное обучение - даны только приблизительные метки;
* Неточное обучение - данные метки не всегда соответствуют действительности.
Теперь, вкратце остановимся на каждом типе обучения и методах, используемые для их решения.
Неполное обучение
Активное обучение (active learning) и частичное обучение с учителем (semi-supervised learning) — два основных метода, используемых при неполном обучении. Активное обучение предполагает, что существует «оракул», который обладает экспертной оценкой, к которому можно обратиться для получения правильных меток. С другой стороны, частичное обучение с учителем пытается использовать неразмеченные данные в дополнение к размеченным данным для повышения эффективности обучения без какого-либо вмешательства человека.
Основная цель активного обучения — минимизировать количество запросов для снижения стоимости обучения. Эту проблему можно решить, попытавшись выбрать наиболее ценные немаркированные экземпляры для запроса, используя два критерия: информативность и репрезентативность. Информативность описывает, насколько хорошо немаркированный экземпляр помогает уменьшить неопределенность статистической модели, а репрезентативность описывает, насколько хорошо экземпляр помогает представить структуру входных шаблонов.
В частичном обучении с учителем не участвует человек с экспертной оценкой, и алгоритм пытается исследовать данные, используя методы обучения без учителя, такие как кластерные и множественные предположения. Оба предположения основываются на том, что похожие точки данных должны иметь похожие выходные данные.
Где-то между этими двумя методами есть еще один, который смешивает оба подхода. В этом методе есть функции маркировки, которые даны экспертами. Эти функции охватывают некоторую часть данных корпуса. Используя эти размеченные точки данных, мы можем обучить вероятностную модель для маркировки других точек, которые небыли размечены функциями. Такие решения, как Snorkel от Stanford, skweak для обработки языка и ASTRA от Microsoft используют данный подход.
Стоит так же отметить, что, хотя ожидается, что эффективность обучения улучшится за счет использования неразмеченных данных, в некоторых случаях производительность может ухудшиться после частисного обучения с учителем. Использование неразмеченных данных естественным образом приводит к более чем одному варианту модели, а неправильный выбор может привести к снижению производительности. Основная стратегия сделать частичное обучение с учителем «более безопасным» состоит в том, чтобы оптимизировать наихудшую результативность среди вариантов, путем включения механизмов ансамбля.
Приблизительное обучение
Мультиэкземплярное обучение (multi-instance learning) является основным подходом, используемым в приблизительном обучении. В мультиэкземплярном обучении множество точек данных является положительным, если некоторое подмножество также является положительным. Цель мультиэкземплярного обучения состоит в том, чтобы предсказать метки для неизвестных множеств. Этот тип обучения обычно используется в таких приложениях, как фармацевтическое исследование лекарств и анализ медицинских изображений.
📷 Изображение
Машинное обучение произвело революцию в способах решения сложных задач, от обработки естественного языка до распознавания изображений. Однако одно из основных препятствий, с которыми сталкиваются специалисты по машинному обучению, является недостаточное количество размеченных данных, которые часто необходимы для качественного обучения моделей. Маркирование же всех данных обычно либо слишком дорого, либо не всегда возможно. К счастью, слабое обучение с учителем стало мощным решением этой проблемы. В этой статье мы рассмотрим три типа данного обучения и методы, используемые в каждом из них.
Три типа слабого обучение с учителем:
* Неполное обучение - размечено только небольшое подмножество тренировочных данных, тогда как остальные данные остаются не размеченными;
* Приблизительное обучение - даны только приблизительные метки;
* Неточное обучение - данные метки не всегда соответствуют действительности.
Теперь, вкратце остановимся на каждом типе обучения и методах, используемые для их решения.
Неполное обучение
Активное обучение (active learning) и частичное обучение с учителем (semi-supervised learning) — два основных метода, используемых при неполном обучении. Активное обучение предполагает, что существует «оракул», который обладает экспертной оценкой, к которому можно обратиться для получения правильных меток. С другой стороны, частичное обучение с учителем пытается использовать неразмеченные данные в дополнение к размеченным данным для повышения эффективности обучения без какого-либо вмешательства человека.
Основная цель активного обучения — минимизировать количество запросов для снижения стоимости обучения. Эту проблему можно решить, попытавшись выбрать наиболее ценные немаркированные экземпляры для запроса, используя два критерия: информативность и репрезентативность. Информативность описывает, насколько хорошо немаркированный экземпляр помогает уменьшить неопределенность статистической модели, а репрезентативность описывает, насколько хорошо экземпляр помогает представить структуру входных шаблонов.
В частичном обучении с учителем не участвует человек с экспертной оценкой, и алгоритм пытается исследовать данные, используя методы обучения без учителя, такие как кластерные и множественные предположения. Оба предположения основываются на том, что похожие точки данных должны иметь похожие выходные данные.
Где-то между этими двумя методами есть еще один, который смешивает оба подхода. В этом методе есть функции маркировки, которые даны экспертами. Эти функции охватывают некоторую часть данных корпуса. Используя эти размеченные точки данных, мы можем обучить вероятностную модель для маркировки других точек, которые небыли размечены функциями. Такие решения, как Snorkel от Stanford, skweak для обработки языка и ASTRA от Microsoft используют данный подход.
Стоит так же отметить, что, хотя ожидается, что эффективность обучения улучшится за счет использования неразмеченных данных, в некоторых случаях производительность может ухудшиться после частисного обучения с учителем. Использование неразмеченных данных естественным образом приводит к более чем одному варианту модели, а неправильный выбор может привести к снижению производительности. Основная стратегия сделать частичное обучение с учителем «более безопасным» состоит в том, чтобы оптимизировать наихудшую результативность среди вариантов, путем включения механизмов ансамбля.
Приблизительное обучение
Мультиэкземплярное обучение (multi-instance learning) является основным подходом, используемым в приблизительном обучении. В мультиэкземплярном обучении множество точек данных является положительным, если некоторое подмножество также является положительным. Цель мультиэкземплярного обучения состоит в том, чтобы предсказать метки для неизвестных множеств. Этот тип обучения обычно используется в таких приложениях, как фармацевтическое исследование лекарств и анализ медицинских изображений.
Telegram
Deep learning for NLP (RU)
Пример влияния неразмеченных данных в слабом обучении с учителем (weakly supervised learning). Источник.
👍5
Неточное обучение
Основная идея неточного обучения состоит в том, чтобы выявить потенциально ошибочно размеченные данные и внести исправления. Этого можно достичь, используя стратегии голосования или методы кластеризации для поиска выбросов. Выявляя и исправляя неправильно помеченные примеры, можно улучшить качество тренировочных данных и, следовательно, точность моделей.
В заключение можно сказать, что слабое обучение с учителем стало мощным решением проблемы высокой стоимости маркировки данных. На практике решение обычно включает сочетание всех трех типов обучения.
Основная идея неточного обучения состоит в том, чтобы выявить потенциально ошибочно размеченные данные и внести исправления. Этого можно достичь, используя стратегии голосования или методы кластеризации для поиска выбросов. Выявляя и исправляя неправильно помеченные примеры, можно улучшить качество тренировочных данных и, следовательно, точность моделей.
В заключение можно сказать, что слабое обучение с учителем стало мощным решением проблемы высокой стоимости маркировки данных. На практике решение обычно включает сочетание всех трех типов обучения.
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
В этой статье мы постараемся понять внутреннюю работу нейронных сетей, углубившись в функцию XOR — классическую головоломку, на примере которой, мы можем понять суть работы нейронных сетей в небольшом масштабе.
Изучая фундаментальные компоненты нейронных сетей, роль функций активации и их практическое применение, мы раскрываем тонкости этих мощных систем.
Читать далее
@deep_learning_nlp_ru
Изучая фундаментальные компоненты нейронных сетей, роль функций активации и их практическое применение, мы раскрываем тонкости этих мощных систем.
Читать далее
@deep_learning_nlp_ru
🔥2👍1
Сейчас участвую в ACL 2023 в Торонто и буду публиковать свои заметки здесь (пока только на английском). Сегодня был нулевой день конференции, когда проходят обучающие сессии. Посетил Complex Reasoning in Natural Language, Multilingual LLMs и Generating text from LMs.
(Примечания к последнему будут добавлены в ближайшее время, эта была самая интересная сессия, ИМХО)
Если кто-то тоже здесь, буду рад пообщаться лично.
#ACL2023 #заметки
(Примечания к последнему будут добавлены в ближайшее время, эта была самая интересная сессия, ИМХО)
Если кто-то тоже здесь, буду рад пообщаться лично.
#ACL2023 #заметки
Deep learning
ACL 2023 Day 0 (part 1)
Attending ACL 2023 in Toronto and will publish my notes here. If somebody is also here, I will be happy to chat in-person.
🔥8👍3
Добавил статью об ACL 2023 день 0 (часть 2). В этот раз поделюсь заметками о генерации текста с помощью языковых моделей.
Далее поделюсь основными идеями доклада Джеффри Хинтона (Geoffrey Hinton), а так же интересными постерами с первого дня конференции. Не пропустите!
#ACL2023 #заметки
Далее поделюсь основными идеями доклада Джеффри Хинтона (Geoffrey Hinton), а так же интересными постерами с первого дня конференции. Не пропустите!
#ACL2023 #заметки
Deep learning
ACL 2023 Day 0 (part 2)
Generating Text from Language Models 📝 Slides
🔥3