Привет! Готовим новую версию мода, в которой хотим пофиксить существующие баги. Если у вас есть такие на примете (кроме неработающего поиска по странице), пожалуйста, отпишитесь в наш чат.
GoldenDict можно использовать внутри приложения-читалки.
Внутри приложения для чтения книг необязательно выделять слово долгим нажатием и искать среди доступных действий иконку GD, ведь функционал позволяет находить нужное слово значительно быстрее.
Например, внутри читалки Moon+ Reader удобно открывать словарь по долгому нажатию по слову. Чтобы установить быстрый переход в словарь, зайдите в "Прочие настройки" и найдите "Настройки словарей". В первом окошке выберите "Словари ColorDict/BlueDict/GoldenDict" и поставьте галочку "Открыть словарь при долгом касании слова". Готово!
Если вы хотите использовать несколько клонов GD одновременно, оставьте базовую настройку, которая при долгом нажатии на слово открывает список установленных GD. Если же вам достаточно одного словаря, установите его по умолчанию и не тратьте время на лишние движения.
Способ, к сожалению, не идеален и имеет свои минусы:
- Невозможно выделить и найти быстрым движением выражение из нескольких слов;
- Сложнее копировать куски текста из читалки, потому что при долгом нажатии случайно открывается словарь.
Внутри приложения для чтения книг необязательно выделять слово долгим нажатием и искать среди доступных действий иконку GD, ведь функционал позволяет находить нужное слово значительно быстрее.
Например, внутри читалки Moon+ Reader удобно открывать словарь по долгому нажатию по слову. Чтобы установить быстрый переход в словарь, зайдите в "Прочие настройки" и найдите "Настройки словарей". В первом окошке выберите "Словари ColorDict/BlueDict/GoldenDict" и поставьте галочку "Открыть словарь при долгом касании слова". Готово!
Если вы хотите использовать несколько клонов GD одновременно, оставьте базовую настройку, которая при долгом нажатии на слово открывает список установленных GD. Если же вам достаточно одного словаря, установите его по умолчанию и не тратьте время на лишние движения.
Способ, к сожалению, не идеален и имеет свои минусы:
- Невозможно выделить и найти быстрым движением выражение из нескольких слов;
- Сложнее копировать куски текста из читалки, потому что при долгом нажатии случайно открывается словарь.
👍3
Система поиска в GoldenDict очень удобна: диакритика, пробелы, знаки пунктуации не играют роли, а программа проверки орфографии поможет найти нужную статью даже в том случае, если в слове допущена ошибка. Но со всеми ли словарями удобно работать в GD? Оказывается, что нет: в некоторых словарях качественный поиск GoldenDict не сработает. Один из таких словарей – Грамматический словарь русского языка А. А. Зализняка на 100 тысяч слов.
Это обратный словарь, в котором слова упорядочены по последним буквам. Для большего удобства список слов выравнен не по левому, а по правому краю, а опорными заголовками на страницах бумажной версии словаря служат конечные части слов.
Работать со словарём Зализняка вручную тяжело: от обратного чтения быстро начинает мутить, а традиционный алфавитный порядок подводит непривыкшую голову. Электронные версии словаря существуют, но достаточно удобный метод поиска по ним так и не был создан.
Тем не менее, грамматический словарь обладает исключительной ценностью. Его построение отражает современное словоизменение и словообразование русского языка. С помощью обратного словаря учёные-лингвисты изучают суффиксальное словообразование и особенности фонетического строения и морфологического состава конца слова. Кроме того, при подготовке Грамматического словаря А. А. Зализняк сформулировал важнейшие принципы описания русской морфологии, которые сейчас используются в компьютерной лингвистике. Подход А. А. Зализняка к анализу грамматических парадигм был выработан в 1977 г., а сегодня на нём строятся системы проверки орфографии и расшифровки текстов, программы машинного перевода и автоматического реферирования.
Это обратный словарь, в котором слова упорядочены по последним буквам. Для большего удобства список слов выравнен не по левому, а по правому краю, а опорными заголовками на страницах бумажной версии словаря служат конечные части слов.
Работать со словарём Зализняка вручную тяжело: от обратного чтения быстро начинает мутить, а традиционный алфавитный порядок подводит непривыкшую голову. Электронные версии словаря существуют, но достаточно удобный метод поиска по ним так и не был создан.
Тем не менее, грамматический словарь обладает исключительной ценностью. Его построение отражает современное словоизменение и словообразование русского языка. С помощью обратного словаря учёные-лингвисты изучают суффиксальное словообразование и особенности фонетического строения и морфологического состава конца слова. Кроме того, при подготовке Грамматического словаря А. А. Зализняк сформулировал важнейшие принципы описания русской морфологии, которые сейчас используются в компьютерной лингвистике. Подход А. А. Зализняка к анализу грамматических парадигм был выработан в 1977 г., а сегодня на нём строятся системы проверки орфографии и расшифровки текстов, программы машинного перевода и автоматического реферирования.
От корпуса к словарю.
Часть 1. Откуда берутся данные словаря?
Словарь – это описание лексического состава языка. Он объясняет, что слова значат и как складываются в целые предложения. Но откуда лексикографы – люди, которые пишут словари, – берут нужную информацию?
Есть два главных способа получить необходимый материал: самоанализ и наблюдение. При самоанализе лексикограф “заглядывает внутрь” собственной головы и пытается припомнить всё, что уже знает о конкретном слове. Метод наблюдения подразумевает, что он изучает реальные примеры человеческой речи (например, газеты, романы, блоги, твиты) и наблюдает за тем, как люди используют слова в общении друг с другом.
Человек, который владеет неким языком, заведомо многое знает о его лексике, поэтому самоанализ действительно очень полезен для понимания того, что слова значат и как используются. Однако словарь должен включать максимально полное и качественное описание слова, а самоанализ не может предоставить настолько исчерпывающую информацию. Поэтому лексикографы ещё со времён Сэмюэля Джонсона в 18 в. предпочитают использовать метод наблюдения при составлении словаря. Во времена Джонсона изучение языка было трудоёмким делом: нужно было прочитать сотни книг и извлечь лучшие примеры использования слов. Современные же компьютерные технологии дают доступ к большим объёмам качественных языковых данных, что значительно облегчает работу лексикографа и позволяет предоставить надёжный отчёт о лексике того или иного языка.
Часть 1. Откуда берутся данные словаря?
Словарь – это описание лексического состава языка. Он объясняет, что слова значат и как складываются в целые предложения. Но откуда лексикографы – люди, которые пишут словари, – берут нужную информацию?
Есть два главных способа получить необходимый материал: самоанализ и наблюдение. При самоанализе лексикограф “заглядывает внутрь” собственной головы и пытается припомнить всё, что уже знает о конкретном слове. Метод наблюдения подразумевает, что он изучает реальные примеры человеческой речи (например, газеты, романы, блоги, твиты) и наблюдает за тем, как люди используют слова в общении друг с другом.
Человек, который владеет неким языком, заведомо многое знает о его лексике, поэтому самоанализ действительно очень полезен для понимания того, что слова значат и как используются. Однако словарь должен включать максимально полное и качественное описание слова, а самоанализ не может предоставить настолько исчерпывающую информацию. Поэтому лексикографы ещё со времён Сэмюэля Джонсона в 18 в. предпочитают использовать метод наблюдения при составлении словаря. Во времена Джонсона изучение языка было трудоёмким делом: нужно было прочитать сотни книг и извлечь лучшие примеры использования слов. Современные же компьютерные технологии дают доступ к большим объёмам качественных языковых данных, что значительно облегчает работу лексикографа и позволяет предоставить надёжный отчёт о лексике того или иного языка.
От корпуса к словарю.
Часть 2. Способы наблюдения: цитаты и корпус.
На протяжении более чем 250-ти лет лексикографы используют цитаты – примеры употребления слов в книгах и других источниках – в качестве основы для описания языка. На фото представлен пример из колонки BuzzWord словаря Macmillan, где объяснение глагола “to green” включает цитаты из двух американских газет.
Подобные данные особенно помогают отслеживать изменения в языке и выявлять новые слова и выражения по мере их появления. Источники языкового материала постепенно расширяются и теперь включают в себя не только книги и газеты, но и речь Интернета. Например, когда в блоге Macmillan обсуждали использование слова “handbag” в качестве прилагательного, большая часть цитат происходила не из “традиционных” книжных источников, а из твитов и публикаций в социальных сетях.
Цитаты по-прежнему играют значимую роль, но главным источником языковых данных становится корпус. Корпус – это собрание тысяч различных текстов, которые хранятся в электронном виде. В корпусе сохранены романы, академические книги и статьи, газеты, журналы, записи разговоров и интервью, блоги, онлайн-издания и многое другое. Дело в том, что наблюдать весь английский язык, который используют миллионы (или даже миллиарды) людей по всему миру, невозможно. Взамен удобнее исследовать репрезентативную выборку англоязычных текстов. Используя интеллектуальное программное обеспечение, мы находим в корпусе примеры использования любого конкретного слова, фразы, грамматической модели или словосочетания. Именно эти данные и составляют тот фундамент, что ложится в основу словаря.
Часть 2. Способы наблюдения: цитаты и корпус.
На протяжении более чем 250-ти лет лексикографы используют цитаты – примеры употребления слов в книгах и других источниках – в качестве основы для описания языка. На фото представлен пример из колонки BuzzWord словаря Macmillan, где объяснение глагола “to green” включает цитаты из двух американских газет.
Подобные данные особенно помогают отслеживать изменения в языке и выявлять новые слова и выражения по мере их появления. Источники языкового материала постепенно расширяются и теперь включают в себя не только книги и газеты, но и речь Интернета. Например, когда в блоге Macmillan обсуждали использование слова “handbag” в качестве прилагательного, большая часть цитат происходила не из “традиционных” книжных источников, а из твитов и публикаций в социальных сетях.
Цитаты по-прежнему играют значимую роль, но главным источником языковых данных становится корпус. Корпус – это собрание тысяч различных текстов, которые хранятся в электронном виде. В корпусе сохранены романы, академические книги и статьи, газеты, журналы, записи разговоров и интервью, блоги, онлайн-издания и многое другое. Дело в том, что наблюдать весь английский язык, который используют миллионы (или даже миллиарды) людей по всему миру, невозможно. Взамен удобнее исследовать репрезентативную выборку англоязычных текстов. Используя интеллектуальное программное обеспечение, мы находим в корпусе примеры использования любого конкретного слова, фразы, грамматической модели или словосочетания. Именно эти данные и составляют тот фундамент, что ложится в основу словаря.
От корпуса к словарю.
Часть 3. Корпусные ресурсы в Macmillan.
При составлении словарей Macmillan используют общий корпус и специализированные корпуса.
К общему корпусу относятся разнообразные информативные и художественные тексты: научные книги и журналы, популярные романы, общенациональные и местные газеты. Современный общий корпус содержит почти 1,6 миллиарда слов письменного и устного английского языка. Он в восемь раз превышает объемы корпуса, который десять лет назад лёг в основу первого издания словаря Macmillan English Dictionary. Именно общий корпус лексикографы Macmillan используют чаще всего.
Специализированные корпуса включают в себя тексты на некую узкую тему. Например, существует Macmillan Curriculum Corpus – это база данных на 20 миллионов слов, которая состоит из сотен школьных учебников и экзаменационных материалов и охватывает разные предметы от агрономии до зоологии. Этот корпус был использован для составления школьного и учебного словарей. Разработан корпус экологических текстов на 60 миллионов слов – первый из запланированной серии новых корпусов, посвящённых конкретным научным областям, а также учебный корпус, созданный Центром корпусной лингвистики при Католическом университете Лувен-ла-Нев.
Часть 3. Корпусные ресурсы в Macmillan.
При составлении словарей Macmillan используют общий корпус и специализированные корпуса.
К общему корпусу относятся разнообразные информативные и художественные тексты: научные книги и журналы, популярные романы, общенациональные и местные газеты. Современный общий корпус содержит почти 1,6 миллиарда слов письменного и устного английского языка. Он в восемь раз превышает объемы корпуса, который десять лет назад лёг в основу первого издания словаря Macmillan English Dictionary. Именно общий корпус лексикографы Macmillan используют чаще всего.
Специализированные корпуса включают в себя тексты на некую узкую тему. Например, существует Macmillan Curriculum Corpus – это база данных на 20 миллионов слов, которая состоит из сотен школьных учебников и экзаменационных материалов и охватывает разные предметы от агрономии до зоологии. Этот корпус был использован для составления школьного и учебного словарей. Разработан корпус экологических текстов на 60 миллионов слов – первый из запланированной серии новых корпусов, посвящённых конкретным научным областям, а также учебный корпус, созданный Центром корпусной лингвистики при Католическом университете Лувен-ла-Нев.
От корпуса к словарю.
Часть 4. Как из корпуса получают нужные данные?
Извлекая информацию из языковых корпусов, лексикографы используют мощное компьютерное обеспечение. При анализе корпуса чаще всего используются «согласователи» – программы, которые исследуют согласование слов между собой.
«Согласователь» просматривает корпус, находит все примеры употребления конкретного слова или фразы, а затем отображает их вместе с контекстом из семи-восьми ближайших слов с обеих сторон. Программа выделяет сочетания слов друг с другом, которые встречаются не единожды, а много раз, и определяет повторяющиеся закономерности согласования слов.
К примеру, на картинке даны предложения с глаголом ‘remember’. В первой строке указано предложение с согласованием: ‘I don’t remember seeing Santa come’. Здесь после глагола ‘remember’ ставится глагол в герундиальной форме (с -ing). Всмотритесь внимательнее в другие сочетания на картинке, и вы заметите ещё два примера аналогичной конструкции: I don’t remember wearing a suit at all. I remember querying it a few years ago.
Изучив приведённую на картинке таблицу согласований, вы легко выделите и другие модели с глаголом ‘remember’:
• за глаголом может следовать придаточное относительное с ‘that’: Finally, please remember that URLs are case sensitive;
• существует выражение ‘…is worth remembering’: This is worth remembering if you suffer from cold hands;
• глагол может использоваться с инфинитивом: Remember to review success as well!
• чаще всего с глаголом ‘remember’ используются такие наречия: He vaguely remembered a feeling of total happiness and yet now it was gone. They barely remembered Mum, not like me.
Просматривая сотни, а иногда и тысячи подобных примеров, мы постепенно собираем картинку из самых важных фактов о слове ‘remember’.
Однако на это уходит очень много времени. Когда лексикографы начали использовать корпусные данные в 1980-х годах, корпуса были относительно малы – от 10 до 20 миллионов слов. Соответственно, учёные могли просмотреть все примеры с конкретным словом (например, с глаголом ‘remember’). На сегодняшний день, когда корпуса включают миллиарды слов, это невозможно. Корпус Macmillan содержит 232 394 примера с глаголом ‘remember’, и мы не можем проанализировать их все.
Часть 4. Как из корпуса получают нужные данные?
Извлекая информацию из языковых корпусов, лексикографы используют мощное компьютерное обеспечение. При анализе корпуса чаще всего используются «согласователи» – программы, которые исследуют согласование слов между собой.
«Согласователь» просматривает корпус, находит все примеры употребления конкретного слова или фразы, а затем отображает их вместе с контекстом из семи-восьми ближайших слов с обеих сторон. Программа выделяет сочетания слов друг с другом, которые встречаются не единожды, а много раз, и определяет повторяющиеся закономерности согласования слов.
К примеру, на картинке даны предложения с глаголом ‘remember’. В первой строке указано предложение с согласованием: ‘I don’t remember seeing Santa come’. Здесь после глагола ‘remember’ ставится глагол в герундиальной форме (с -ing). Всмотритесь внимательнее в другие сочетания на картинке, и вы заметите ещё два примера аналогичной конструкции: I don’t remember wearing a suit at all. I remember querying it a few years ago.
Изучив приведённую на картинке таблицу согласований, вы легко выделите и другие модели с глаголом ‘remember’:
• за глаголом может следовать придаточное относительное с ‘that’: Finally, please remember that URLs are case sensitive;
• существует выражение ‘…is worth remembering’: This is worth remembering if you suffer from cold hands;
• глагол может использоваться с инфинитивом: Remember to review success as well!
• чаще всего с глаголом ‘remember’ используются такие наречия: He vaguely remembered a feeling of total happiness and yet now it was gone. They barely remembered Mum, not like me.
Просматривая сотни, а иногда и тысячи подобных примеров, мы постепенно собираем картинку из самых важных фактов о слове ‘remember’.
Однако на это уходит очень много времени. Когда лексикографы начали использовать корпусные данные в 1980-х годах, корпуса были относительно малы – от 10 до 20 миллионов слов. Соответственно, учёные могли просмотреть все примеры с конкретным словом (например, с глаголом ‘remember’). На сегодняшний день, когда корпуса включают миллиарды слов, это невозможно. Корпус Macmillan содержит 232 394 примера с глаголом ‘remember’, и мы не можем проанализировать их все.