Например, Бобцов

МЕТОД КОНТРАСТНОГО ИЗВЛЕЧЕНИЯ РЕДКИХ ТЕРМИНОВ ИЗ ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ

Аннотация:

Рассмотрена проблема автоматического извлечения терминов предметной области из корпуса документов с привлечением контрастной коллекции. Существующие контрастные методы хорошо справляются с часто используемыми терминами, но работают плохо с редкими терминами, что приводит к обеднению словаря. Среди известных статистических методов оценка точечной взаимной информации хорошо выявляет редкие термины, однако при этом извлекается большое число слов, не относящихся к терминам. Для извлечения редких терминов в работе предложен подход, состоящий в использовании точечной взаимной информации с последующей фильтрацией кандидатов в термины по критерию совместной встречаемости с другими терминами-кандидатами. Для устранения шумов и выявления сильных связей формируется матрица «документы-на-термины», которая подвергается сингулярному разложению. После этого осуществляется переход к матрице «термины-на-термины», отражающей силу связей между словами. Предлагаемый подход апробирован на коллекции документов предметной области «Геология». В качестве контрастной коллекции использованы публикации из разделов «Политика», «Культура», «Экономика» и «Происшествия» на новостных Интернет-сайтах. Результаты эксперимента продемонстрировали работоспособность метода для успешного извлечения редких терминов.

Ключевые слова:

Статьи в номере