ВЕГА – КОМПЬЮТЕРНАЯ СИСТЕМА КЛАССИФИКАЦИИ И АНАЛИЗА ТЕКСТОВ

ВЕГА – КОМПЬЮТЕРНАЯ СИСТЕМА КЛАССИФИКАЦИИ И АНАЛИЗА ТЕКСТОВ
УДК 004.912: 303.7
ВЕГА – КОМПЬЮТЕРНАЯ СИСТЕМА КЛАССИФИКАЦИИ И АНАЛИЗА ТЕКСТОВ
К.К. Боярский, Е.А. Каневский
ВЕГА представляет собой систему для классификации и обработки как анкетной, так и другого рода текстовой информации. Обсуждаются особенности анализа текстовой информации, основанной на контентаналитическом сравнении фраз. Рассматриваются возможности системы и особенности ее функционирования. Большое внимание уделяется вопросам практического использования описываемой системы. Ключевые слова: анализ текста, классификация, контент-анализ, словари, социологические анкеты, открытые вопросы, статистический анализ, шкалирование.
Введение
В текстовых массивах, циркулирующих в обществе, содержатся специфические познавательные возможности. Анализируются различные тексты: материалы средств массовой информации, политические материалы в виде программ партий и кандидатов в электоральных кампаниях, уставы партий и движений, биографии и дневники, научные публикации и др. Социология сама стимулирует появление в обществе специальных текстов, проводя конкурсы сочинений и автобиографий, организуя интервью.
Анализом содержания текстов занимаются многие исследователи при изучении влияния средств массовой информации на общественное мнение, документов истории и культуры, политического, экономического, юридического и даже экологического сознания общества. Одной из первых систем автоматизированного анализа текстов явилась General Inquirer (Гарвард, 1968), широко использующая различные словари [1]. Современные системы TACT и TextPack также основаны на использовании словарей [2].
Сегодня наибольшее распространение получили два метода анализа: кластерный анализ и контент-анализ. Математический аппарат кластерного анализа можно использовать для автоматического выделения естественных тематических групп из случайной однородной массы текстового материала (например, набора статей из различных журналов). Созданы методы классификации полнотекстовых баз данных (БД) на основе алгоритмов визуального эвристического кластерного анализа документов. Методы основаны на составлении частотных словарей и выделении тех слов, частота встречаемости которых во всех текстах БД превышает общеупотребительную частоту [3].
Другим методом качественно-количественного изучения содержания текстов является контент-анализ (КА). В процессе КА все многообразие текстов по интересующей исследователя тематике сводится к набору определенных элементов, которые затем подвергаются подсчету и анализу. На использовании контент-анализа построены программы TACT, ARRAS, TextPack, SYREX, SATO [4].
Обычно в качестве элемента содержания (единицы анализа) при «машинном» КА используют слово, которому ставят в соответствие определенную категорию. Это удобно, так как слово изначально выделено в тексте пробелами. Однако слово характеризуется лишь номинативной, назывной функцией. Единицей выражения мысли является предложение, которое используется в качестве единицы содержания при классическом («ручном») КА. Мы используем в качестве элемента содержания несколько другую единицу анализа – фразу, которая может состоять даже из одного слова. Каждая фраза является выражением одного суждения, одной мысли. При сравнении фразы считаются идентичными друг другу при совпадении двух–трех слов или одного–двух ключевых слов [5].
Любые попытки применения КА к текстовым массивам неизбежно связаны с проблемой классификации и, следовательно, с разработкой классификатора. Простейшая
98 Научно-технический вестник Санкт-Петербургского государственного университета
информационных технологий, механики и оптики, 2009, № 5(63)

К.К. Боярский, Е.А. Каневский

структура классификатора обычно напоминает таблицу и содержит категории (группы) и их модальности (типы). Более сложный классификатор имеет древовидную структуру, состоящую из классов и групп.
В большинстве исследований заранее составляется формализованная, полностью закрытая схема классификации [6]. При повторяющихся исследованиях, например, в средствах массовой информации, стандартный классификатор даже помогает сравнивать результаты очередного обследования с предыдущими. Однако при анализе быстро меняющейся ситуации даже опытный исследователь, проводя обследования через 1–2 года, не может заранее создать полностью готовый классификатор. Причина ясна: сместилась тематика ответов респондентов, их волнует уже не то, что год или два тому назад. Поэтому на один и тот же вопрос (открытого типа) они отвечают совсем не так, как раньше. Очевидно, что в этом случае классификатор должен уточняться непосредственно в процессе КА, при осмыслении материалов данного опроса.
Система ВЕГА
На основе разработанных методик в 1991–1997 г.г. была создана система ДИСКАНТ [7]. Основная ее цель – обеспечить мощной компьютерной поддержкой работу различных исследователей и аналитиков, имеющих дело с анализом текстовой информации. ДИСКАНТ представляла собой систему для классификации и обработки как текстовой, так и другого рода анкетной информации, которая хранится в БД системы. Система была разработана под DOS и позволяла классифицировать содержание текстовой информации по множеству оснований, составлять указатели и частотные словари слов и фраз, осуществлять поиск слов в тексте и в словаре. Были разработаны разнообразные способы визуализации результатов в виде гистограмм, циклограмм, сопряженных двумерных диаграмм.
На основе этой системы сегодня разработана более совершенная система ВЕГА, предназначенная для работы с текстовой и цифровой информацией при проведении социальных и социологических исследований. Система в основном предназначена для обработки структурированной и, прежде всего, анкетной информации. Кроме того, система позволяет выполнять некоторые элементы анализа текста: составление словарей, подсчет встречаемости слов, поиск слов по словарю и по тексту и т.д. Система обеспечивает статистический анализ ответов на закрытые и полузакрытые вопросы.
В системе ВЕГА используется методика итерационной классификации текста. В качестве единицы анализа выбрана фраза. Слова, наиболее точно отражающие смысл фразы, выделяются прописными буквами – это ключевые слова. Выделение фраз и ключевых слов осуществляется вручную в процессе предварительной подготовки текста к анализу.
В системе вся исходная информация хранится в собственной БД. При этом в случае анкетной информации ответы на одну анкету составляют одну запись, ответы на один вопрос помещаются в одно поле. Каждое поле имеет свой номер, имя и определенный тип. Набор всех этих параметров для данной БД образует ее структуру. Выбранный набор типов полей позволяют наиболее адекватно хранить ответы респондентов, учитывая, что в анкетах имеются открытые, закрытые и полузакрытые вопросы. Для удобства пользователей и контроля вводимой информации предусмотрены следующие типы полей.
− Символьное содержит любую последовательность текстовых символов и может быть разделено на отдельные фразы. Размер текста в каждом поле – до 32767 символов. Разделенный на фразы текст имеет вид “НЕСТАБИЛЬНОСТЬ ¦ отсутствие РЕАЛЬНОЙ ВЛАСТИ ¦ несоблюдение ЗАКОННОСТИ”.

Научно-технический вестник Санкт-Петербургского государственного университета информационных технологий, механики и оптики, 2009, № 5(63)

99

ВЕГА – КОМПЬЮТЕРНАЯ СИСТЕМА КЛАССИФИКАЦИИ И АНАЛИЗА ТЕКСТОВ

− Целое содержит одно или несколько целых положительных десятичных чисел, которые соответствуют номерам вариантов ответов, выбранных респондентом. Они разделяются друг от друга запятыми. Содержимое поля имеет вид
“2” или “1,3,6” или “1, 3, 6”.
− Вещественное содержит только одно вещественное десятичное число.
− Диапазон содержит одно или два положительных вещественных числа и вспомогательные знаки (“>”, “