Authorship Determination of Natural Language Texts by Several Classes of Indicators with Customizable Weights

Loading...
Thumbnail Image
Date
2021
Journal Title
Journal ISSN
Volume Title
Publisher
CEUR-WS Team, Aachen, Germany
Abstract
ENG: In this work we try to improve the results of texts and their fragments attribution using the classification method of the least distance in Euclidean space of images, by selecting weights for each of the image measures. For weights determination the genetic algorithm was used. Images are formed using statistical and modified recurrent analysis and the text complexity indicators. We will try to identify the effectiveness for each of them. It was found that this method usage improves the efficiency of the text attribution and the reliability of authorship determination of the texts from the control sample reaches 80-91%.
UKR: У даній роботі ми намагаємося поліпшити результати атрибуції текстів і їх фрагментів, використовуючи метод класифікації найменшої відстані в евклідовому просторі зображень, вибираючи ваги для кожної із мір зображення. Для визначення ваги використовувався генетичний алгоритм. Зображення формуються з використанням статистичного та модифікованого рекуррентного аналізу і показників складності тексту. Ми постараємося визначити ефективність кожного з них. Встановлено, що використання цього методу підвищує ефективність атрибуції тексту, а надійність визначення авторства текстів з контрольної вибірки досягає 80-91%.
RUS: В данной работе мы пытаемся улучшить результаты атрибуции текстов и их фрагментов, используя метод классификации наименьшего расстояния в евклидовом пространстве изображений, выбирая веса для каждой из мер изображения. Для определения веса использовался генетический алгоритм. Изображения формируются с использованием статистического и модифицированного рекуррентного анализа и показателей сложности текста. Мы постараемся определить эффективность каждого из них. Установлено, что использование этого метода повышает эффективность атрибуции текста, а надежность определения авторства текстов из контрольной выборки достигает 80-91%.
Description
V. Shynkarenko: ORCID 0000-0001-8738-7225; I. Demidovich: ORCID 0000-0002-3644-184X
Keywords
natural language texts, recurrence analysis, frequency analysis, text complexity, text authorship, classification, genetic algorithm, тексти на природній мові, аналіз повторюваності, частотний аналіз, складність тексту, авторство тексту, класифікація, генетичний алгоритм, тексты на естественном языке, анализ повторяемости, частотный анализ, сложность текста, авторство текста, классификация, генетический алгоритм, КІТ
Citation
Shynkarenko V., Demidovich I. Authorship determination of natural language texts by several classes of indicators with customizable weights. CEUR Workshop Proceedings. Vol. 2870 : 5th International Conference on Computational Linguistics and Intelligent Systems. Vol. I: Main Conference, (COLINS 2021), Lviv, Ukraine, 22–23 April 2021. Lviv, 2021. P. 832–844.