GoldenDict Channel
1.56K subscribers
47 photos
1 video
62 files
15 links
Download Telegram
Система поиска в GoldenDict очень удобна: диакритика, пробелы, знаки пунктуации не играют роли, а программа проверки орфографии поможет найти нужную статью даже в том случае, если в слове допущена ошибка. Но со всеми ли словарями удобно работать в GD? Оказывается, что нет: в некоторых словарях качественный поиск GoldenDict не сработает. Один из таких словарей – Грамматический словарь русского языка А. А. Зализняка на 100 тысяч слов.

Это обратный словарь, в котором слова упорядочены по последним буквам. Для большего удобства список слов выравнен не по левому, а по правому краю, а опорными заголовками на страницах бумажной версии словаря служат конечные части слов.

Работать со словарём Зализняка вручную тяжело: от обратного чтения быстро начинает мутить, а традиционный алфавитный порядок подводит непривыкшую голову. Электронные версии словаря существуют, но достаточно удобный метод поиска по ним так и не был создан.

Тем не менее, грамматический словарь обладает исключительной ценностью. Его построение отражает современное словоизменение и словообразование русского языка. С помощью обратного словаря учёные-лингвисты изучают суффиксальное словообразование и особенности фонетического строения и морфологического состава конца слова. Кроме того, при подготовке Грамматического словаря А. А. Зализняк сформулировал важнейшие принципы описания русской морфологии, которые сейчас используются в компьютерной лингвистике. Подход А. А. Зализняка к анализу грамматических парадигм был выработан в 1977 г., а сегодня на нём строятся системы проверки орфографии и расшифровки текстов, программы машинного перевода и автоматического реферирования.
От корпуса к словарю.
Часть 1. Откуда берутся данные словаря?


Словарь – это описание лексического состава языка. Он объясняет, что слова значат и как складываются в целые предложения. Но откуда лексикографы – люди, которые пишут словари, – берут нужную информацию?

Есть два главных способа получить необходимый материал: самоанализ и наблюдение. При самоанализе лексикограф “заглядывает внутрь” собственной головы и пытается припомнить всё, что уже знает о конкретном слове. Метод наблюдения подразумевает, что он изучает реальные примеры человеческой речи (например, газеты, романы, блоги, твиты) и наблюдает за тем, как люди используют слова в общении друг с другом.

Человек, который владеет неким языком, заведомо многое знает о его лексике, поэтому самоанализ действительно очень полезен для понимания того, что слова значат и как используются. Однако словарь должен включать максимально полное и качественное описание слова, а самоанализ не может предоставить настолько исчерпывающую информацию. Поэтому лексикографы ещё со времён Сэмюэля Джонсона в 18 в. предпочитают использовать метод наблюдения при составлении словаря. Во времена Джонсона изучение языка было трудоёмким делом: нужно было прочитать сотни книг и извлечь лучшие примеры использования слов. Современные же компьютерные технологии дают доступ к большим объёмам качественных языковых данных, что значительно облегчает работу лексикографа и позволяет предоставить надёжный отчёт о лексике того или иного языка.
От корпуса к словарю.
Часть 2. Способы наблюдения: цитаты и корпус.

На протяжении более чем 250-ти лет лексикографы используют цитаты – примеры употребления слов в книгах и других источниках – в качестве основы для описания языка. На фото представлен пример из колонки BuzzWord словаря Macmillan, где объяснение глагола “to green” включает цитаты из двух американских газет.

Подобные данные особенно помогают отслеживать изменения в языке и выявлять новые слова и выражения по мере их появления. Источники языкового материала постепенно расширяются и теперь включают в себя не только книги и газеты, но и речь Интернета. Например, когда в блоге Macmillan обсуждали использование слова “handbag” в качестве прилагательного, большая часть цитат происходила не из “традиционных” книжных источников, а из твитов и публикаций в социальных сетях.

Цитаты по-прежнему играют значимую роль, но главным источником языковых данных становится корпус. Корпус – это собрание тысяч различных текстов, которые хранятся в электронном виде. В корпусе сохранены романы, академические книги и статьи, газеты, журналы, записи разговоров и интервью, блоги, онлайн-издания и многое другое. Дело в том, что наблюдать весь английский язык, который используют миллионы (или даже миллиарды) людей по всему миру, невозможно. Взамен удобнее исследовать репрезентативную выборку англоязычных текстов. Используя интеллектуальное программное обеспечение, мы находим в корпусе примеры использования любого конкретного слова, фразы, грамматической модели или словосочетания. Именно эти данные и составляют тот фундамент, что ложится в основу словаря.
От корпуса к словарю.
Часть 3. Корпусные ресурсы в Macmillan.

При составлении словарей Macmillan используют общий корпус и специализированные корпуса.

К общему корпусу относятся разнообразные информативные и художественные тексты: научные книги и журналы, популярные романы, общенациональные и местные газеты. Современный общий корпус содержит почти 1,6 миллиарда слов письменного и устного английского языка. Он в восемь раз превышает объемы корпуса, который десять лет назад лёг в основу первого издания словаря Macmillan English Dictionary. Именно общий корпус лексикографы Macmillan используют чаще всего.

Специализированные корпуса включают в себя тексты на некую узкую тему. Например, существует Macmillan Curriculum Corpus – это база данных на 20 миллионов слов, которая состоит из сотен школьных учебников и экзаменационных материалов и охватывает разные предметы от агрономии до зоологии. Этот корпус был использован для составления школьного и учебного словарей. Разработан корпус экологических текстов на 60 миллионов слов – первый из запланированной серии новых корпусов, посвящённых конкретным научным областям, а также учебный корпус, созданный Центром корпусной лингвистики при Католическом университете Лувен-ла-Нев.
От корпуса к словарю.
Часть 4. Как из корпуса получают нужные данные?

Извлекая информацию из языковых корпусов, лексикографы используют мощное компьютерное обеспечение. При анализе корпуса чаще всего используются «согласователи» – программы, которые исследуют согласование слов между собой.

«Согласователь» просматривает корпус, находит все примеры употребления конкретного слова или фразы, а затем отображает их вместе с контекстом из семи-восьми ближайших слов с обеих сторон. Программа выделяет сочетания слов друг с другом, которые встречаются не единожды, а много раз, и определяет повторяющиеся закономерности согласования слов.

К примеру, на картинке даны предложения с глаголом ‘remember’. В первой строке указано предложение с согласованием: ‘I don’t remember seeing Santa come’. Здесь после глагола ‘remember’ ставится глагол в герундиальной форме (с -ing). Всмотритесь внимательнее в другие сочетания на картинке, и вы заметите ещё два примера аналогичной конструкции: I don’t remember wearing a suit at all. I remember querying it a few years ago.

Изучив приведённую на картинке таблицу согласований, вы легко выделите и другие модели с глаголом ‘remember’:
• за глаголом может следовать придаточное относительное с ‘that’: Finally, please remember that URLs are case sensitive;
• существует выражение ‘…is worth remembering’: This is worth remembering if you suffer from cold hands;
• глагол может использоваться с инфинитивом: Remember to review success as well!
• чаще всего с глаголом ‘remember’ используются такие наречия: He vaguely remembered a feeling of total happiness and yet now it was gone. They barely remembered Mum, not like me.

Просматривая сотни, а иногда и тысячи подобных примеров, мы постепенно собираем картинку из самых важных фактов о слове ‘remember’.

Однако на это уходит очень много времени. Когда лексикографы начали использовать корпусные данные в 1980-х годах, корпуса были относительно малы – от 10 до 20 миллионов слов. Соответственно, учёные могли просмотреть все примеры с конкретным словом (например, с глаголом ‘remember’). На сегодняшний день, когда корпуса включают миллиарды слов, это невозможно. Корпус Macmillan содержит 232 394 примера с глаголом ‘remember’, и мы не можем проанализировать их все.
От корпуса к словарю.
Часть 5. Не только согласования.

К счастью, современное интеллектуальное программное обеспечение успешно решает проблему «информационной перегрузки», о которой мы писали выше. Совместно с таблицей согласований мы используем словарные заметки, то есть одностраничные конспекты с ключевыми фактами о конкретном слове. На картинке ниже дана заметка о существительном ‘evidence’ – ещё одном распространённом слове, для которого в корпусе Macmillan находится порядка 300 000 различных примеров.

Как создаются заметки? Программа для создания заметок, как и «согласователь», сперва просматривает все примеры употребления исследуемого слова, а затем изучает грамматические отношения, в которые оно вступает. Так, для заметок о слове ‘evidence’ отбираются все предложения, в которых оно служит дополнением к глаголу, а затем выделяются наиболее часто встречающиеся в этой модели глаголы. Они перечислены в первой колонке заметок: give, find, present, gather. В колонке под заголовком ‘a_modifier’ (определение) представлен список прилагательных, которые чаще всего используются с выбранным существительным: little, clear, strong, scientific. Выделенное голубым число рядом с каждым из слов показывает, как часто данная комбинация появляется в корпусе: например, сочетание ‘provide’ + ‘evidence’ встречается 10 909 раз. С кликом по числу открывается список согласований, в которых ‘evidence’ выступает дополнением к глаголу ‘provide’.

Это программное обеспечение облегчает жизнь лексикографов, предоставляя им точную и подробную информацию о словах. Сегодня все лексикографы в своей работе опираются на подобные приложения, однако программа для создания заметок была изобретена в Macmillan и впервые использовалась при создании словаря Macmillan English Dictionary.
От корпуса к словарю.
6. Какие данные предоставляет корпус?

Словари не только указывают значение слов, но и поясняют их использование. И корпус предоставляет все данные, необходимые для выполнения обеих функций.

Значение.
Практически все слова в языке многозначны. Однако даже по небольшому контексту легко понять, какое из значений имеется в виду в каждом конкретном случае.

В этих четырёх предложениях очевидно, когда слово ‘goal’ используется в футбольном значении, а когда оно обозначает цель, задачу:
• But the referee spotted the foul, and disallowed the goal.
• African leaders are seeking the support of the international community to achieve these goals.
• He has made 137 appearances for United and scored 27 goals.
• Teachers may use this information to help students set goals for themselves.

Как и в живом разговоре, мы считываем «подходящее» значение слова через контекст, в котором оно встречается. Изучая слова в контексте, мы можем описать всё множество их значений.

Грамматика.
Выше мы отметили, что набор согласований для слова ‘remember’ может многое рассказать о грамматических моделях, в которых данный глагол используется: с герундием, с придаточным that, с инфинитивом и т.д. Также мы разобрали метод словарных заметок, который позволяет собрать вместе наиболее часто встречающиеся конструкции.

Сейчас же в качестве примера рассмотрим словарную заметку о грамматических моделях с глаголом ‘decide’. Мы видим, что чаще всего глагол ‘decide’ требует после себя постановки инфинитива с частицей to (‘Vinf_to’: Three months after that they decided to terminate my employment on health grounds). В корпусе присутствует 132 188 подобных примеров, а это почти половина всех случаев употребления слова ‘decide’. Следующая по распространённости модель – предложение с придаточным that (‘that_0’: They decided that surrender was the only sensible option) и т.д.
Устойчивые выражения.
Метод словарных заметок визуально отображает информацию о словосочетаниях и устойчивых выражениях. Выше мы приводили заметку с глаголами, наиболее часто встречающимися вместе со словом ‘evidence’. Опираясь на эту таблицу и используя специальные программы для обработки данных, мы можем дать исчерпывающий отчёт об устойчивых сочетаниях с ‘evidence’. Список устойчивых выражений полезен для тех, кто учит язык как второй, ведь их использование помогает выразить мысли самым естественным и простым образом.

Например, частотные сочетания со словом ‘importance’ могут быть отображены двумя способами:
• в примерах-предложениях;
• списком устойчивых словосочетаний;

Подобное программное обеспечение использовалось для создания словаря словосочетаний Macmillan Collocations Dictionary, где дано подробное описание взаимодействия английских слов друг с другом и самые естественные комбинации слов.

Стиль и региональные варианты.
Все слова, которые мы рассматривали выше (‘remember’, ‘decide’, ‘evidence’, ‘importance’), могут использоваться в любом контексте: как в общении, так и в академическом журнале. Такие слова называются немаркированными. Напротив же, маркированные слова и выражения встречаются только в одном конкретном типе текста: например, в разговорной речи, в публицистике или технической литературе. Аналогично большинство английских слов употребляют во всем англоязычном мире, но некоторые слова относятся к региональной разновидности языка, например, к британскому или индийскому английскому.

Взгляните на это предложение из корпуса: These two distinct eateries say much about why Charleston has become a mecca for food-lovers.

‘Eatery’ – ещё один синоним к слову ‘restaurant’, но уже маркированный. Рассмотрев все примеры со словом ‘eatery’ в корпусе, мы обнаружим, что это слово чаще всего встречается в газетах и журналах, большая часть из которых к тому же издаётся в США. Итак, в словарной статье слова ‘eatery’ будет две пометки: американский английский и язык журналистики. Именно подобные корпусные данные позволяют с уверенностью присваивать словам конкретные маркировки.
От корпуса к словарю.
7. Почему частотность важна?

Считается, что чем чаще встречается то или иное слово, тем полезнее его учить. Например, слова ‘ameliorate’ и ‘improve’ значат примерно одно и то же, но ‘improve’ встречается в 250 раз чаще. Выучить слово ‘improve’ стоит в первую очередь (но выучить – это не просто запомнить значение, а ещё и знать правила согласования и устойчивые выражения с этим словом), потому что оно входит в «ядро» английского языка: вы будете его часто видеть, слышать, да и нередко использовать. Со словом ‘ameliorate’ всё иначе: если вы вдруг на него наткнётесь, что маловероятно из-за его редкости, вы всегда сможете найти его в словаре (однако это не значит, что стоит пренебрегать запоминанием редких слов!).

Работая с очень объёмным корпусом, мы с лёгкостью определяем частотность не только отдельных слов, но и грамматических моделей (‘decide’ + инфинитив) или устойчивых выражений (‘crucial’ + ‘importance’). В словаре Macmillan на основе критерия частотности словам присваивается определённый цвет: красным выделены 7 500 самых часто встречающихся в корпусе слов, а чёрным – более редкие и узкоспециализированные слова.
👍1
От корпуса к словарю.
8. Корпус как источник примеров.

Пользователи словарей очень ценят примеры-предложения. Хороший пример-предложение показывает, как слово работает в контексте, и дополнительно объясняет его значение. Примеры в словаре должны отражать реальное и наиболее частотное употребление слова, поэтому мы берём предложения из корпуса, а не просто придумываем.

Чтобы описать, как происходит выбор примера-предложения, вернёмся к слову ‘importance’, словарную статью которого мы уже приводили выше. Очевидно, что словарная заметка и список устойчивых выражений уже иллюстрируют самые важные факты о данном слове. Так ли уж нужно занимать пространство статьи примером-предложением? Обратим внимание на первый пример: By 1800, the monarchy had declined in importance.

Мы выбрали именно этот пример, потому что в корпусе можно найти около тысячи примеров с постановкой глагола перед существительным ‘importance’ – значит, такова базовая грамматическая модель данного слова. Дальнейшее изучение корпусного материала показывает, что в этой позиции чаще всего встречаются глаголы ‘increase’, ‘grow’ и ‘gain’ или ‘decline’, ‘decrease’ и ‘diminish’. Из всех примеров с этой моделью многие иллюстрируют последовательность By + дата + X + had declined in importance.

Например, один из примеров гласит: By the early 12th century, the monasteries, which had been the focal points of religious life, had declined in importance and the way was ready for the introduction of the diocesan system.

Однако такое предложение слишком длинно для словаря и содержит много лишней информации. Поэтому его изменяют и сокращают до тех пор, пока пример не приобретёт самый краткий, понятный и легко запоминающийся вид: By 1800, the monarchy had declined in importance.

Источник цикла статей: http://www.macmillandictionaries.com/features/from-corpus-to-dictionary/
👍1