Constructive-Synthesizing Modeling of Natural Language Texts

Loading...
Thumbnail Image
Date
2023
Journal Title
Journal ISSN
Volume Title
Publisher
Khmelnytskyi National University, Khmelnytskyi
Abstract
ENG: Means for solving the problem of establishing the natural language texts authorship were developed. Theoretical tools consist of a constructors set was developed on the basis of structural and production modeling. These constructors are presented in this work. Some results of experimental studies based on this approach have been published in previous works by the author, the main results should be published in the next ones. Constructors developed: converter of natural language text into tagged, tagged text into a formal stochastic grammar and the authors style similarity degree establishment of two natural language works based on the coincidence of the corresponding stochastic grammars (their substitution rules). In this paper, constructors are developed and presented that model a natural language text in the form of a stochastic grammar that displays the structures of sentences in it. This approach allows you to highlight the syntactic features of the construction of phrases by the author, which is a characteristic of his speech. Working with a sentence as a unit of text for analyzing its construction will allow you to more accurately capture the author's style in terms of the words use, their sequences and speech style characteristic. It allows you not to be tied to specific parts of speech, but reveals the general logic of constructing phrases, which can be more informative in terms of the author's style characteristics for any text. The presented work is a theoretical basis for solving the problems of the text authorship establishing and identifying borrowings. Experimental studies have also been carried out. The statistical similarity of solutions to the problems of establishing authorship and identifying borrowings was experimentally revealed, which will be presented in the next article of the authors. The proposed approach makes it possible to highlight the semantic features of the author's phrases construction, which is a characteristic of his speech. Working with a sentence as a unit of text to analyze its construction will allow you to more accurately determine the author's style in terms of the use of words, their sequences and characteristic language constructions. Allows not to be attached to specific parts of speech, but reveals the general logic of building phrases. It is planned to use the created model in the future to determine the authorship of natural language texts of various directions: fiction and technical literature.
UKR: Розроблені засоби для вирішення задачі встановлення авторства природньомовних текстів. Теоретичні засоби складаються з комплексу конструкторів розроблених на основі конструктивно-продукційного моделювання. Саме ці конструктори представлені в данній роботі. Деякі результати експериментальних досліджень основаних на цьому підході опубліковані в попередніх роботах авторів, основні результати мають бути опубліковані в наступних. Розроблені конструктори: перетворювач природньомовного тексту на тегований, тегованого тексту у формальну стохастичну граматику та встановлення ступеню схожості стилю авторів двох природньомовних творів за збігом відповідних стохастичних граматик (їх правил підстановки). У статті розроблено та представлено конструктори, які моделюють текст природною мовою у вигляді стохастичної граматики, що відображає структури речень у ньому. Такий підхід дозволяє виділити синтаксичні особливості побудови фраз автором, що є характеристикою його мовлення. Робота з реченням як одиницею тексту для аналізу його побудови дозволить точніше вловити стиль автора з точки зору вживання слів, їх послідовності та характеристики стилю мовлення. Він дозволяє не прив'язуватися до конкретних частин мови, а розкриває загальну логіку побудови фраз, що може бути більш інформативним з точки зору характеристики стилю автора для будь-якого тексту. Представлена робота є теоретичним підґрунтям для вирішення проблем встановлення авторства тексту та ідентифікації запозичень. Також були проведені експериментальні дослідження. Експериментально виявлено статистичну схожість розв'язків задач встановлення авторства та ідентифікації запозичень, що буде представлено в наступній статті авторів. Запропонований підхід дозволяє виділити семантичні особливості побудови фраз автором, що є характеристикою його мовлення. Робота з реченням, як із одиницею тексту для аналізу його побудови, дозволить більш точно визначити авторський стиль у частині використання слів, їх послідовностей і характерних мовних конструкцій. Дозволяє не прив'язуватись до конкретних частин мови, а виявляє загальну логіку побудови фраз. Створену модель планується використовувати в подальшому для визначення авторства природномовних текстів різного спрямування: художньої та технічної літератури.
Description
V. Shynkarenko: ORCID 0000-0001-8738-7225; I. Demidovich: ORCID 0000-0002-3644-184X
Keywords
natural language texts, constructive-synthesizing modeling, establishing authorship, formal grammars, stochastic grammars, text models, природньомовні тексти, конструктивно-продукційне моделювання, встановлення авторства, формальні граматики, стохастические грамматики, моделі текстів, КІТ
Citation
Shynkarenko V., Demidovich I. Constructive-Synthesizing Modeling of Natural Language Texts. Computer Systems and Information Technologies. 2023. № 3 (12). P. 81–91 DOI: https://doi.org/10.31891/csit-2023-3-10.