Например, Бобцов

СТАТИСТИЧЕСКИЙ МЕТОД ИЗВЛЕЧЕНИЯ ТЕРМИНОВ ИЗ КИТАЙСКИХ ТЕКСТОВ БЕЗ СЕГМЕНТАЦИИ ФРАЗ

Аннотация:

Работа посвящена проблемеавтоматического извлечения знаний из естественно-языковых текстов (textmining). Одной из первоочередных задач в рамках данной проблемы является формирование тезауруса предметной области. Существуют достаточно апробированные статистические методы извлечения терминов для алфавитных языков, например, латентный семантический анализ. Применение данных методов для иероглифического письма сопряжено с проблемой, обусловленной отсутствием в таких языках пробелов между словами. Задача сегментации предложений на иероглифических языках обычно решается либо на основе словарей, либо статистическими методами, в частности, с использованием метода взаимной информации. Методы сегментации предложений, как и методы извлечения терминов по отдельности, не обладают 100%-ой точностью и полнотой, а их последовательное применение только увеличивает процент ошибок. Целью данной работы является повышение полноты и точности извлечения терминов предметной области из иероглифических текстов. Предлагаемый метод состоит в выявлении повторяющихся последовательностей длиной от двух до четырех символов в каждом предложении и соотнесения частот встречаемости этих последовательностей в целевой и контрастной коллекциях документов. В результате проведенного исследования было установлено, что простое ранжирование всех возможных последовательностей символов позволяет удовлетворительно выявлять только наиболее часто используемые термины. Фильтрация последовательностей символов по соотношению их частот в целевой и контрастной коллекциях позволила надежно извлекать часто используемые термины и удовлетворительно – термины с низкой частотой. В работе приведены результаты извлечения терминов предметной области «сетевые технологии» из текста на китайском языке, где в качестве контрастной коллекции использовался набор статей из газеты «Женьминь жибао», в результате чего получены вполне удовлетворительные результаты.

Ключевые слова:

Статьи в номере