Methods and Software for Significant Indicators Determination of the Natural Language Texts Author Profile

Loading...
Thumbnail Image
Date
2023
Journal Title
Journal ISSN
Volume Title
Publisher
Інститут програмних систем НАН України, Київ
Abstract
ENG: Methods for the formation and optimization of author profiles are presented. The author profile is an image - a vector in a multidimensional space, which components are author's texts measurements by a number of methods based on 4-grams, stemming, recurrence analysis and formal stochastic grammar. The author's profile is a model of his language, including vocabulary, sentence syntax features. A comparative analysis of the each of the methods effectiveness is carried out. By means of the genetic algorithm, a reduced profile of the author is formed. Insignificant indicators are excluded, which allows to reduce their number by 20%. The reduced author's profile contains attributes that are significant for this author and is an effective attribution of a particular author.
UKR: Наведено методи формування та оптимізації профілів авторів. Профіль автора це образ – вектор у багатовимірному просторі, компоненти якого є вимірами текстів автора рядом методів на основі 4-грам, стемування, рекурентного аналізу та формальної стохастичної граматики. Профіль автора є моделлю його мови, включаючи словниковий запас, особливості синтаксису речень. Проводиться порівняльний аналіз ефективності кожного із методів. Засобами генетичного алгоритму формується усічений профіль автора. Виключаються незначні показники, що дозволяє скоротити їхню кількість на 20%. Усічений профіль автора містить значущу для даного автора атрибутику і є ефективною атрибуцією конкретного автора.
Description
V. Shynkarenko: ORCID 0000-0001-8738-7225; I. Demidovich: ORCID 0000-0002-3644-184X
Keywords
natural language texts, authorship determination, genetic algorithm, recurrent analysis, statistical analysis, text classification, pattern recognition, formal grammars, природомовні тексти, визначення авторства, генетичний алгоритм, рекурентний аналіз, статистичний аналіз, класифікація текстів, розпізнавання образів, формальні граматики, КІТ
Citation
Shynkarenko V. I., Demydovych I. M. Methods and Software for Significant Indicators Determination of the Natural Language Texts Author Profile. Проблеми програмування. 2023. № 3. P. 22–29. DOI: 10.15407/pp2023.03.22.