GoldenDict Channel
1.56K subscribers
47 photos
1 video
62 files
15 links
Download Telegram
2.3.1
Исправлено отображение контента с тэгами sub/sup.
5 тысяч на 4pda!
Привет! Готовим новую версию мода, в которой хотим пофиксить существующие баги. Если у вас есть такие на примете (кроме неработающего поиска по странице), пожалуйста, отпишитесь в наш чат.
GoldenDict можно использовать внутри приложения-читалки.

Внутри приложения для чтения книг необязательно выделять слово долгим нажатием и искать среди доступных действий иконку GD, ведь функционал позволяет находить нужное слово значительно быстрее.

Например, внутри читалки Moon+ Reader удобно открывать словарь по долгому нажатию по слову. Чтобы установить быстрый переход в словарь, зайдите в "Прочие настройки" и найдите "Настройки словарей". В первом окошке выберите "Словари ColorDict/BlueDict/GoldenDict" и поставьте галочку "Открыть словарь при долгом касании слова". Готово!

Если вы хотите использовать несколько клонов GD одновременно, оставьте базовую настройку, которая при долгом нажатии на слово открывает список установленных GD. Если же вам достаточно одного словаря, установите его по умолчанию и не тратьте время на лишние движения.

Способ, к сожалению, не идеален и имеет свои минусы:
- Невозможно выделить и найти быстрым движением выражение из нескольких слов;
- Сложнее копировать куски текста из читалки, потому что при долгом нажатии случайно открывается словарь.
👍3
Система поиска в GoldenDict очень удобна: диакритика, пробелы, знаки пунктуации не играют роли, а программа проверки орфографии поможет найти нужную статью даже в том случае, если в слове допущена ошибка. Но со всеми ли словарями удобно работать в GD? Оказывается, что нет: в некоторых словарях качественный поиск GoldenDict не сработает. Один из таких словарей – Грамматический словарь русского языка А. А. Зализняка на 100 тысяч слов.

Это обратный словарь, в котором слова упорядочены по последним буквам. Для большего удобства список слов выравнен не по левому, а по правому краю, а опорными заголовками на страницах бумажной версии словаря служат конечные части слов.

Работать со словарём Зализняка вручную тяжело: от обратного чтения быстро начинает мутить, а традиционный алфавитный порядок подводит непривыкшую голову. Электронные версии словаря существуют, но достаточно удобный метод поиска по ним так и не был создан.

Тем не менее, грамматический словарь обладает исключительной ценностью. Его построение отражает современное словоизменение и словообразование русского языка. С помощью обратного словаря учёные-лингвисты изучают суффиксальное словообразование и особенности фонетического строения и морфологического состава конца слова. Кроме того, при подготовке Грамматического словаря А. А. Зализняк сформулировал важнейшие принципы описания русской морфологии, которые сейчас используются в компьютерной лингвистике. Подход А. А. Зализняка к анализу грамматических парадигм был выработан в 1977 г., а сегодня на нём строятся системы проверки орфографии и расшифровки текстов, программы машинного перевода и автоматического реферирования.
От корпуса к словарю.
Часть 1. Откуда берутся данные словаря?


Словарь – это описание лексического состава языка. Он объясняет, что слова значат и как складываются в целые предложения. Но откуда лексикографы – люди, которые пишут словари, – берут нужную информацию?

Есть два главных способа получить необходимый материал: самоанализ и наблюдение. При самоанализе лексикограф “заглядывает внутрь” собственной головы и пытается припомнить всё, что уже знает о конкретном слове. Метод наблюдения подразумевает, что он изучает реальные примеры человеческой речи (например, газеты, романы, блоги, твиты) и наблюдает за тем, как люди используют слова в общении друг с другом.

Человек, который владеет неким языком, заведомо многое знает о его лексике, поэтому самоанализ действительно очень полезен для понимания того, что слова значат и как используются. Однако словарь должен включать максимально полное и качественное описание слова, а самоанализ не может предоставить настолько исчерпывающую информацию. Поэтому лексикографы ещё со времён Сэмюэля Джонсона в 18 в. предпочитают использовать метод наблюдения при составлении словаря. Во времена Джонсона изучение языка было трудоёмким делом: нужно было прочитать сотни книг и извлечь лучшие примеры использования слов. Современные же компьютерные технологии дают доступ к большим объёмам качественных языковых данных, что значительно облегчает работу лексикографа и позволяет предоставить надёжный отчёт о лексике того или иного языка.
От корпуса к словарю.
Часть 2. Способы наблюдения: цитаты и корпус.

На протяжении более чем 250-ти лет лексикографы используют цитаты – примеры употребления слов в книгах и других источниках – в качестве основы для описания языка. На фото представлен пример из колонки BuzzWord словаря Macmillan, где объяснение глагола “to green” включает цитаты из двух американских газет.

Подобные данные особенно помогают отслеживать изменения в языке и выявлять новые слова и выражения по мере их появления. Источники языкового материала постепенно расширяются и теперь включают в себя не только книги и газеты, но и речь Интернета. Например, когда в блоге Macmillan обсуждали использование слова “handbag” в качестве прилагательного, большая часть цитат происходила не из “традиционных” книжных источников, а из твитов и публикаций в социальных сетях.

Цитаты по-прежнему играют значимую роль, но главным источником языковых данных становится корпус. Корпус – это собрание тысяч различных текстов, которые хранятся в электронном виде. В корпусе сохранены романы, академические книги и статьи, газеты, журналы, записи разговоров и интервью, блоги, онлайн-издания и многое другое. Дело в том, что наблюдать весь английский язык, который используют миллионы (или даже миллиарды) людей по всему миру, невозможно. Взамен удобнее исследовать репрезентативную выборку англоязычных текстов. Используя интеллектуальное программное обеспечение, мы находим в корпусе примеры использования любого конкретного слова, фразы, грамматической модели или словосочетания. Именно эти данные и составляют тот фундамент, что ложится в основу словаря.
От корпуса к словарю.
Часть 3. Корпусные ресурсы в Macmillan.

При составлении словарей Macmillan используют общий корпус и специализированные корпуса.

К общему корпусу относятся разнообразные информативные и художественные тексты: научные книги и журналы, популярные романы, общенациональные и местные газеты. Современный общий корпус содержит почти 1,6 миллиарда слов письменного и устного английского языка. Он в восемь раз превышает объемы корпуса, который десять лет назад лёг в основу первого издания словаря Macmillan English Dictionary. Именно общий корпус лексикографы Macmillan используют чаще всего.

Специализированные корпуса включают в себя тексты на некую узкую тему. Например, существует Macmillan Curriculum Corpus – это база данных на 20 миллионов слов, которая состоит из сотен школьных учебников и экзаменационных материалов и охватывает разные предметы от агрономии до зоологии. Этот корпус был использован для составления школьного и учебного словарей. Разработан корпус экологических текстов на 60 миллионов слов – первый из запланированной серии новых корпусов, посвящённых конкретным научным областям, а также учебный корпус, созданный Центром корпусной лингвистики при Католическом университете Лувен-ла-Нев.