EVALUATION OF SEMANTIC SIMILARITY FOR SENTENCES IN NATURAL LANGUAGE BY MATHEMATICAL STATISTICS METHODS
Аннотация:
Subject of Research. The paper is focused on Wiktionary articles structural organization in the aspect of its usage as the base for semantic network. Wiktionary community references, article templates and articles markup features are analyzed. The problem of numerical estimation for semantic similarity of structural elements in Wiktionary articles is considered. Analysis of existing software for semantic similarity estimation of such elements is carried out; algorithms of their functioning are studied; their advantages and disadvantages are shown. Methods. Mathematical statistics methods were used to analyze Wiktionary articles markup features. The method of semantic similarity computing based on statistics data for compared structural elements was proposed.Main Results. We have concluded that there is no possibility for direct use of Wiktionary articles as the source for semantic network. We have proposed to find hidden similarity between article elements, and for that purpose we have developed the algorithm for calculation of confidence coefficients proving that each pair of sentences is semantically near. The research of quantitative and qualitative characteristics for the developed algorithm has shown its major performance advantage over the other existing solutions in the presence of insignificantly higher error rate. Practical Relevance. The resulting algorithm may be useful in developing tools for automatic Wiktionary articles parsing. The developed method could be used in computing of semantic similarity for short text fragments in natural language in case of algorithm performance requirements are higher than its accuracy specifications.
Ключевые слова:
Постоянный URL
Статьи в номере
- ТЕНДЕНЦИИ РАЗРАБОТКИ ДЕТОНАЦИОННЫХ ДВИГАТЕЛЕЙ ДЛЯ ВЫСОКОСКОРОСТНЫХ ВОЗДУШНО-КОСМИЧЕСКИХ ЛЕТАТЕЛЬНЫХ АППАРАТОВ И ПРОБЛЕМА ТРОЙНЫХ КОНФИГУРАЦИЙ УДАРНЫХ ВОЛН. Часть II. Исследования встречных ударных волн и тройных ударно-волновых конфигураций
- ЛИНЗОВЫЕ КОНЦЕНТРИЧЕСКИЕ СИСТЕМЫ
- ОЦЕНКА СМЕЩЕНИЯ КООРДИНАТ ЦВЕТНОСТИ ИЗОБРАЖЕНИЯ, ВЫВОДИМОГО НА ЖИДКОКРИСТАЛЛИЧЕСКИЕ ПАНЕЛИ С РАЗЛИЧНЫМИ СВОЙСТВАМИ ПО ЦВЕТОВОСПРОИЗВЕДЕНИЮ
- НЕКОТОРЫЕ ОСОБЕННОСТИ КОНСТРУИРОВАНИЯ СИЛОВЫХ ОПТИЧЕСКИХ БЛОКОВ ДЛЯ ТЕХНОЛОГИЧЕСКОГО ОБОРУДОВАНИЯ
- ИСПОЛЬЗОВАНИЕ ЭФФЕКТА ПРОДОЛЬНОЙ ХРОМАТИЧЕСКОЙ АБЕРРАЦИИ ДЛЯ ИЗМЕРЕНИЯ РАССТОЯНИЙ ПО ЕДИНСТВЕННОЙ ФОТОГРАФИИ
- АНАЛИЗ СПЕКТРАЛЬНЫХ ХАРАКТЕРИСТИК МАСКИРОВОЧНОГО ПОКРЫТИЯ С ПРИМЕНЕНИЕМ ВИДЕОСПЕКТРОМЕТРА
- ИССЛЕДОВАНИЕ ТЕРМООПТИЧЕСКИХ НЕОДНОРОДНОСТЕЙ В Yb-Er-СТЕКЛЕ ПРИ ДИОДНОЙ НАКАЧКЕ
- ОПТИЧЕСКИЕ СВОЙСТВА ВОДНЫХ РАСТВОРОВ КАРБАМИДА
- ИССЛЕДОВАНИЕ ПРЕДЕЛА ОГНЕСТОЙКОСТИ КОМПОЗИТНОГО МАТЕРИАЛА «ЖИДКОЕ СТЕКЛО–МИКРОЧАСТИЦЫ ГРАФИТА»
- ПОЛУАВТОМАТИЧЕСКАЯ СИСТЕМА ВЕРИФИКАЦИИ ДИКТОРОВ
- ВЫЧИСЛИТЕЛЬНО-ЭФФЕКТИВНЫЙ ПРОТОКОЛ КОНФИДЕНЦИАЛЬНОГО ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ
- КОМПЬЮТЕРНАЯ КРИМИНАЛИСТИКА: ИДЕНТИФИКАЦИЯ АВТОРА ИНТЕРНЕТ-ТЕКСТОВ
- РАЗРАБОТКА И АПРОБАЦИЯ АЛГОРИТМА КОРРЕКЦИИ ОШИБОК В СИСТЕМАХ АВТОМАТИЗАЦИИ ПРОЕКТИРОВАНИЯ ПЕЧАТНЫХ ПЛАТ
- ЭФФЕКТИВНОСТЬ РЕЗЕРВИРОВАННОГО ВЫПОЛНЕНИЯ ЗАПРОСОВ В МНОГОКАНАЛЬНЫХ СИСТЕМАХ ОБСЛУЖИВАНИЯ
- ИССЛЕДОВАНИЕ НЕЙРОСЕТЕВОГО АЛГОРИТМА ДЛЯ ОБНАРУЖЕНИЯ АНОМАЛИЙ В ПОВЕДЕНИИ СЕТЕВОГО ХОСТА ПРИ АВТОМАТИЗИРОВАННОМ ПОИСКЕ XSS-УЯЗВИМОСТЕЙ И SQL-ИНЪЕКЦИЙ
- ОЦЕНКА СЕМАНТИЧЕСКОЙ БЛИЗОСТИ ПРЕДЛОЖЕНИЙ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ МЕТОДАМИ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
- ИССЛЕДОВАНИЕ ВЛИЯНИЯ СЛОЖНОСТИ ФУНКЦИИ КОДИРОВАНИЯ НА РАСПРЕДЕЛЕНИЕ ВЕРОЯТНОСТИ МАСКИРОВКИ ОШИБКИ
- СОВЕРШЕНСТВОВАНИЕ ЭТАЛОННОЙ БАЗЫ В ОБЛАСТИ МЕТРОЛОГИЧЕСКОГО ОБЕСПЕЧЕНИЯ РЕЗЬБОВЫХ СОЕДИНЕНИЙ
- ТЕХНОЛОГИЯ СОСТАВЛЕНИЯ МИКРОКЛИМАТИЧЕСКИХ КАРТ С ИСПОЛЬЗОВАНИЕМ ДАННЫХ ДИСТАНЦИОННОГО ЗОНДИРОВАНИЯ ЗЕМЛИ И МОДЕЛИРОВАНИЯ ТЕПЛОВЫХ ПОЛЕЙ
- ЧИСЛЕННОЕ МОДЕЛИРОВАНИЕ ДИФРАКЦИИ УДАРНОЙ ВОЛНЫ НА ПРЯМОМ УГЛЕ НА НЕСТРУКТУРИРОВАННЫХ СЕТКАХ
- МОДЕЛИРОВАНИЕ ДИНАМИЧЕСКОЙ ВЕЛИЧИНЫ ЗАЗОРА РЕЛЬСОВОЙ ПЛЕТИ ПРИ ЕЕ РАЗРЫВЕ ДЛЯ РАЗЛИЧНЫХ ЗНАЧЕНИЙ ЖЕСТКОСТИ ПОДРЕЛЬСОВОГО ОСНОВАНИЯ
- АЛГЕБРАИЧЕСКИЕ СВОЙСТВА МАТРИЧНЫХ КОМПОНЕНТОВ МОДЕЛЕЙ ПРОЦЕССА УПРАВЛЕНИЯ В АЛГОРИТМАХ РАЗМЕЩЕНИЯ МОД МАТРИЦЫ СОСТОЯНИЯ ПРОЕКТИРУЕМОЙ СИСТЕМЫ
- МНОГОСЛОЙНЫЕ АНТИБЛИКОВЫЕ ПОКРЫТИЯ С ТОНКИМИ МЕТАЛЛИЧЕСКИМИ СЛОЯМИ
- ДВУХЭТАПНЫЙ АЛГОРИТМ ИНИЦИАЛИЗАЦИИ ОБУЧЕНИЯ АКУСТИЧЕСКИХ МОДЕЛЕЙ НА ОСНОВЕ ГЛУБОКИХ НЕЙРОННЫХ СЕТЕЙ
- О ВОЗМОЖНОСТИ УСКОРЕНИЯ ГОРЕНИЯ В КАМЕРАХ СГОРАНИЯ ПЕРСПЕКТИВНЫХ РЕАКТИВНЫХ ДВИГАТЕЛЕЙ ПРИ ПОМОЩИ ГЛУБОКО ПОДКРИТИЧЕСКОГО СВЧ-РАЗРЯДА