Подсказки для поиска

Внимательный

Внимающий

Спасибо за внимание

Принимая во внимание

Обратите внимание

В метасловаре пользователь сначала видит общую картину, а потом может вникнуть в детали

В метасловаре пользователь сначала видит общую картину, а потом может вникнуть в детали

Найти слово сразу в нескольких словарях, сравнить результаты, проверить свою версию написания, произношения или толкования — посетители Грамоты всегда охотно пользовались этой возможностью. Но в некоторых случаях детали не нужны, а требуется, наоборот, быстро получить самое общее представление о слове.  Руководитель словарного направления Грамоты Анастасия Александровна Бонч-Осмоловская объясняет, каким образом в метасловаре объединены и структурированы данные о слове и какие преимущества новый формат дает пользователям.

Метасловарь как агрегатор

Задать вопрос справочной службе и поискать слово по словарям — это два главных повода зайти на Грамоту для большинства наших пользователей. До сих пор поиск по словарям на Грамоте по существу мало отличался от поиска в бумажных словарях. Конечно, листать десятки словарей, которые стоят на полке в библиотеке или в рабочем кабинете, очень долго и утомительно, к тому же потом из них нужно выписывать информацию руками. Когда словари загружены на портал в электронном виде, найти нужные сведения можно гораздо быстрее. Но все равно до сих пор результаты поиска выглядели как выписки из отдельных словарей, а про большинство словарей просто было сказано, что там слово не найдено. 

Основная и очевидная функция, ради которой был создан метасловарь, — это функция агрегатора. Мы показываем в одном месте все разнообразные сведения о слове, которые у нас есть в данный момент: написание, ударение, грамматические формы, значения, происхождение и т. д. Только в отличие от новостных агрегаторов, которые собирают новости со всего интернета, мы собираем информацию о слове из всех имеющихся в нашей базе словарей. Соответственно, если мы пополняем нашу базу новыми размеченными словарями, в выдачу поиска сразу попадают новые данные. Если информация в разных словарях дублирует друг друга, мы убираем эти повторы.

Агрегатор — это когда все есть в одном месте, не надо искать, делать лишние клики, проверять, не упустили ли мы что-то важное. В итоге у пользователя есть возможность увидеть сразу большую картину, а уже потом решить, нужна ли ему более детальная информация или он узнал все, что хотел. 

Карточная система

Другой мотив создания метасловаря — это понимание разницы между словарной информацией в бумажном виде и в электронном. Мы знаем, что пользователь по-разному воспринимает текст в книге и на экране. Настоящая цифровизация — это не просто взять бумажный словарь, отсканировать его и выложить в Сеть, это другой способ работы с данными. 

Поэтому мы упаковали словарную информацию в универсальную структуру, которую мы показываем пользователю в виде карточки с разными зонами, где размещены разнообразные характеристики слова, от орфографического облика до синонимов и примеров. За звуковой облик слова отвечает бот, предоставленный нам Сбером: он озвучивает все слова. В отдельной зоне будут собраны сведения для продвинутых пользователей: о трудностях, которые может вызвать это слово, об особых правилах, которые к нему применимы, и ошибкоопасных контекстах.  

Пример карточки метасловаря для слова «когорта»

 

Чтобы пользоваться метасловарем было удобно, мы отказались от сокращений, нам не жалко байтов. В бумажной книге расшифровка сокращений дается в специальном списке, в случае же с электронным форматом сокращения затрудняют чтение. В старых словарях слово, о котором идет речь, заменяли на его первую букву с точкой (например, вместо «ключ» будет «К.»), но так как слова в примерах могут быть в разных падежах, потребуется дополнительная работа для раскрытия таких сокращений.

Источники данных

В целом мы строим метасловарь, опираясь на нормативные словари. Основой словника стал «Русский орфографический словарь» под редакцией Лопатина. Пока что в метасловаре присутствуют только отдельные слова, словосочетания будут добавлены на следующем этапе. Далее мы берем информацию о единицах нашего словника из «Большого толкового словаря русского языка», «Словаря новых слов», «Большого словаря иностранных слов»… На подходе информация об этимологии из «Большого универсального словаря», позже также будут добавлены данные «Словаря синонимов» и «Словаря фразеологизмов». 

Отдельную ценность метасловарю придаст включение информации из справочников, прежде всего из справочников самой Грамоты, которые устроены по словарному принципу, — там разобраны сложные случаи произношения или написания слов. 

Существенное свойство метасловаря, как и любого электронного ресурса, заключается в том, что он никогда не может быть закончен. И плюс, и минус таких ресурсов том, что, в отличие от бумажных изданий, их не готовят и не выверяют годами и десятилетиями. Они создаются по принципам софта, а не книг. Есть придуманная нами общая схема, а дальше мы будем уточнять и дополнять наш метасловарь, он будет развиваться вширь и вглубь.

Что под капотом: семантическая разметка 

В ходе подготовки метасловаря мы проделали невидимую глазу, но очень важную работу по машиночитаемой разметке. Каждый элемент, будь то грамматическая форма, толкование, стилистическая помета или пример, мы помечаем специальным машиночитаемым тегом, который позволяет категоризировать информацию. Например, тег может указывать язык-источник для заимствованных слов, может маркировать форму творительного падежа единственного числа и т. д. Это важный современный способ представления информации — TEI (Text Encoding Initiative, разработан в 1987 году) и его специальное подразделение TEI Lex-0. Внедрение этой технологии открывает совершенно новые возможности для поиска на Грамоте.

Семантическая разметка как бы переводит нас из двухмерного мира в трехмерный: помимо «плоского» текста словарных статей, у нас появляется дополнительное изменение, в котором располагаются теги.

Если мы хотим вынуть из текста отдельно слой примеров, слой связанных слов или слой значений, мы можем это легко сделать. Например, можно найти все русские междометия по тегу «часть речи», все заимствования из французского языка, все музыкальные термины, все словоформы конкретного слова или все однокоренные слова. Пока что эта функция доступна только лексикографам Грамоты, которые работают с метасловарем, но в дальнейшем можно будет часть такого рода возможностей открыть для пользователей. Тонкая настройка поиска будет полезна для сбора статистики и для составления разнообразных упражнений, что поможет преподавателям русского языка — особенно возможность поиска по словоформам. 

Главные вызовы первого этапа

Полнота словника. Нам нужно сделать так, чтобы пользователю было удобно, и одновременно сохранить лингвистическую логику. Вспомним правило, известное как треугольник Хопкинса: невозможно сделать одновременно качественно, быстро и дешево, приходится чем-то одним пожертвовать. Применительно к нашей задаче мы отдали приоритет удобству и лингвистическому качеству, но пока жертвуем полнотой: метасловарь начал работать как прототип и постепенно пополняется. 

Омонимы. Часто бывает довольно трудно провести четкое разграничение между отдельными словами и значениями одного слова. В разных словарях эта проблема решается по-разному. В сложных случаях мы отдаем предпочтение отдельным карточкам, так как слишком большое количество информации может запутать пользователя. Разумеется, мы не помещаем на одной карточке слова с разными ударениями: за́мок и замо́к, а́тлас и атла́с и т. п., тем более что у таких слов может отличаться парадигма. Когда пользователь пишет запрос, мы не знаем, какое ударение подразумевается, поэтому он должен увидеть в выдаче несколько результатов. Кроме того, важно различать слова, которые пишутся и произносятся одинаково, но относятся к разным частям речи: например, печь как существительное и как глагол, существительное про́пасть и глагол пропа́сть. Есть сложности с неизменяемыми словами, так как разные словари относят их к разным частям речи, похожая проблема касается различения причастий и прилагательных. Все эти моменты нужно учитывать при работе над метасловарем.

Автоматическая озвучка. Бот неплохо расставляет ударения, но есть места, где он не справляется. Например, мы по возможности перезаписывали случаи некорректного произношения согласного перед е в заимствованных словах: [тэмп], а не [т’емп], и т. п., ориентируясь на орфоэпический словарь. То же самое касается слов с двойными согласными, которые не произносятся: [абат], а не [аббат]. Здесь нам помог орфоэпический словарь, подготовленный коллегами из Института русского языка им. В. В. Виноградова, благодаря им мы сделали этот процесс полуавтоматическим. Такая работа, как мы надеемся, поможет обучать роботов и будет востребована нашими партнерами из Сбера.

Включение новых слов. Новые слова вроде краш или кринж очень быстро появляются на Грамоте, потому что пользователи начинают о них спрашивать. Но, к сожалению, прежде чем они попадут в толковый словарь, пройдет много времени, поэтому у них нет закрепленных словарных толкований. Иногда цикл такой длинный, что слово к моменту включения в словарь успевает выйти из употребления.

В перспективе мы хотим сотрудничать с лексикографами и специалистами по разговорной речи, чтобы понимать, какие слова закрепились в языке, разрабатывать для них толкования и оперативно обновлять нашу словарную базу. 

Некоторые участки языковой системы меняются очень быстро, и тогда мы видим, что значения, зафиксированные в словарях XX века, уже успели устареть, а примеры воспринимаются современными пользователями как неполиткорректные. К примеру, в «Большом толковом словаре» для слова желтый указано в том числе значение ‘раса’, и подобных случаев не так мало. Если мы говорим о цифровом ресурсе, такие изменения нуждаются в корректировке или комментировании. 

Контуры будущего

Новые инструменты работы со словарями не отменяют привычные пользователям сценарии. По-прежнему доступна возможность поиска по отдельным словарям, чтобы понять, как слово описано в конкретном издании, или по нескольким выбранным словарям.

Пример поиска по отдельному словарю, выбранному пользователем


Однако мы надеемся, что читатели Грамоты оценят наш подход к подаче словарной информации и будут в полной мере использовать новые возможности. 

Какие перспективы есть у словарного направления, что мы планируем делать в ближайшем и более отдаленном будущем?

  • Расширять количество примеров и повышать их актуальность при поддержке НКРЯ.
  • Вырабатывать коллегиальные решения по спорным вопросам с помощью специалистов-лексикографов.
  • Сотрудничать с Национальным словарным фондом, уделять особое внимание нормативным словарям.
  • Создать рабочее место лексикографа, чтобы быстрее обновлять и пополнять нашу базу словарей; это позволит сократить временной разрыв между появлением нового слова в узусе и его фиксацией в словаре. 
  • Работать над созданием собственных словарей Грамоты по востребованным тематикам с использованием технологий ИИ.
  • Использовать возможности метасловаря для лингвистического анализа данных и выявления тенденций в изменении состава лексики, в словообразовании, фразеологии и т. д.

Метасловарь — не просто красивая «упаковка» слова, но принципиально новый подход к хранению информации. Новые механизмы поиска позволяют давать более адекватные ответы на запросы пользователей, система карточек обеспечивает наглядность и удобство, а машиночитаемая разметка открывает широкие перспективы для сбора статистики и разработки упражнений на разнообразные правила и явления. Все эти свойства метасловаря будут полезны не только лингвистам и преподавателям, но и для всем, кто изучает русский язык и интересуется им.

· руководитель словарного направления Грамоты, кандидат филологических наук, доцент Школы лингвистики НИУ ВШЭ

Еще на эту тему

В России появится знак качества для словарей

Самые авторитетные издания объединят в Национальном фонде

Какой толк от толковых словарей?

Лекция кандидата филологических наук Бориса Леонидовича Иомдина

все публикации

Чем нас привлекают искусственные языки

Их создание и изучение помогает лучше понять границы естественного языка


Вышла в свет книга археолога Стивена Митена «Загадка языка»

В ней утверждается, что язык возник примерно 1,6 млн лет назад


Право на имя

Когда выбор способа называть человека или группу людей становится проблемой


Между эмбрионом и покойником: где расположены роботы на шкале одушевленности

Каждый месяц мы выбираем и комментируем три вопроса, на которые ответила наша справочная служба


Как пришествие корпусов меняет лингвистику

Почему корпусная лингвистика не прижилась в 1960-х годах и почему переживает расцвет сейчас


Эвфемизмы: от суеверий до политкорректности

«Благозвучные» слова используют не только вместо ругательств



Критический взгляд на текст: как увидеть искажения и ловушки

Чтобы лучше понимать прочитанное, нужно развивать читательскую грамотность


Новые возможности восприятия книг: что лучше, буквы или звуки?

Слуховое чтение набирает популярность, но для него все равно нужны письменные тексты


«Давать» и «дарить»: какие слова можно считать однокоренными

Лингвист Борис Иомдин описывает два критерия, которыми могут пользоваться школьники


Как лингвисты проводят эксперименты: от интроспекции до Amazon

Какие инструменты они используют и где ищут участников, рассказывает «Системный Блокъ»


«Я хочу продолжать работать с текстами»

История незрячего редактора Иоланты, которая благодаря цифровым технологиям может заниматься тем, что нравится


Наследие Михаила Панова и судьбы русской орфографии

Статья Владимира Пахомова в журнале «Неофилология» помогает осмыслить проблемы русского правописания


Праздники грамотности

Как в мире проверяют знание правил родного языка


Научный стиль: точность не в ущерб понятности

Им пользуются авторы учебников, исследователи, лекторы, научные журналисты


Самый важный предмет. Функциональный подход к обучению русскому языку

Лекция Марии Лебедевой для Тотального диктанта о роли языка в учебе и в жизни


Карточки Марины Королёвой вышли в виде книги «Русский в порядке»

Получился маленький словарь трудностей русского языка


Русский как индоевропейский: общие корни заметны даже у дальних родственников

На что обращают внимание лингвисты, когда сравнивают языки и выясняют их историю


«Победю» или «побежу»? Почему некоторые слова идут не в ногу

Сбои в парадигме могут возникать в результате конфликта разных правил


«Абонемент для абонента»: что такое паронимы и как их различать

Их любят поэты и рэперы, но ненавидят те, кто готовится к ЕГЭ