Наши рабочие словари


eng
 



Наши рабочие словари

Наша практика показывает, что чем тщательнее настроены словари в системе машинного перевода, тем корректнее система выполняет перевод, и тем проще пользователю редактировать или читать результирующий текст. Для этого нашим центром подготовлены собственные специализированные словари по таким тематикам, как:

  • аппаратные средства + программное обеспечение
  • телекоммуникации (системы, сети, услуги)
  • системы электропитания
  • интернет
  • механика

Реальное количество словарей намного больше приведенных тематик, так как, например, по телекоммуникациям существует несколько словарей - коммутация, системы передачи, интеллектуальные сети, ATM, подвижная связь и т.д. Кроме того, возможно создание новых словарей и настройка существующих с учетом терминологических требований или пожеланий заказчика.

Содержимое специализированных словарей

Общая лексика, необходимая для перевода, как правило, уже есть в генеральном словаре (поставляется вместе с системой машинного перевода). В специализированные словари вводится следующая информация:

  • базовая терминология (например, для таких тематик, как аппаратные и программные средства, телекоммуникации, механика, электропитание и т.п.)
  • терминология, специфичная для переводимой документации (названия модулей, блоков, устройств, программ; расшифровки сокращений; специфичные термины фирмы и т.д.)
  • часто встречающиеся выражения/обороты/фразы - своего рода, микросегменты, например:

выражение

перевод

it is assumed that

предположим, что

if otherwise not specified

если не указано иное

note that

следует отметить, что

the following window is appeared

появляется следующее окно

Источники терминов для специализированных словарей

  • международные рекомендации и стандарты (ITU-T, ETSI)
  • существующие словари (бумажные и электронные)
  • статьи в периодических изданиях, содержащие терминологию (с пояснениями)
  • толковые словари терминов и сокращений фирм-производителей
  • непосредственно документация

Разница между общелексическим и специализированными словарями

Если взять в руки любой общелексический словарь (например, англо-русский, русско- немецкий, испано-итальянский и пр.), то будет видно, что основную долю терминов составляют одиночные слова (общеупотребительные существительные, прилагательные, наречия и глаголы). Словосочетаний всегда гораздо меньше.

Иначе обстоит дело со специализированными словарями (например, политехнический, юридический, по вычислительной технике и пр.). В подавляющем числе случаев, основная часть терминов представляет собой словосочетания, содержащие два и более слов.

На рисунке ниже в процентном соотношении показано содержимое наших словарей для систем машинного перевода - применительно к количеству словарных статей, состоящих из одного, двух, трех и более слов.

Если в генеральном словаре (по сути, общелексическом), как минимум, две трети терминов приходится на одиночные слова, то в специализированных и пользовательских словарях основную долю (свыше 50%) составляют словосочетания из нескольких слов.

Настройка словарей

Для качественной настройки словарей необходимо:

  • знать предмет перевода
  • знать основы грамматики (как русского, так и английского языков)
  • постоянно пополнять и обновлять словарь (конечная цель - система МП должна быть "предсказуемой")

По содержанию, словари для систем машинного перевода похожи на словари традиционного типа (например, бумажные). Однако есть и специфические особенности:

  • необходимость ввода словосочетаний определенного типа не только в единственном, но и во множественном числе. Например, термин parameter value. В качестве его перевода введен термин "значение параметра". Если не введен термин "значения параметров" для множественного числа (parameter values), то система будет переводить это словосочетание как "значения параметра" (а в большинстве случаев это не совсем правильно).
  • необходимость "борьбы" с омонимами. Например, термин list ("перечислять" и "список"). Если не введено словосочетание "device list" (как "список устройств"), то форма "device lists" может переводиться неправильно (например, "устройство перечисляет") по смыслу, но правильно по грамматике. В этом случае, следует ввести в словарь отмеченное словосочетание.

© "БП "Аргонавт" 2002 - 2014