A Dual Approach to Establishing the Authority of Technical Natural Language Texts and Their Components

Loading...
Thumbnail Image
Date
2023
Journal Title
Journal ISSN
Volume Title
Publisher
Ukrainian State University of Science and Technologies, Dnipro
Abstract
ENG: Purpose. The study is aimed at testing the hypothesis that it is possible to determine plagiarism by methods of establishing the authorship of a text without using a text bank and their direct comparison. Methodology. Construc-tive and productive models of the processes of establishing the authorship of technical texts for two methods have been developed. The first method is based on the formation of a text model in the form of a set of formal substitution rules with probabilistic weights (as in stochastic formal grammars), which reflects the syntactic features and patterns of text formation by the author. The degree of similarity between the text under study and another text is determined by comparing their models. The second method is a classical approach to detecting borrowings (plagiarism) by directly comparing the text under study with an existing text bank, highlighting repeated text fragments, and determining the degree of originality. Experiments were conducted to establish the correlation between the results of these two methods. The experimental base consisted of 509 text sections of theses of students majoring in «Software Engineering». Findings. Experimental studies have made it possible to establish a high correlation between the results of the two methods. Correlation coefficients in the range of 0.75...1.0 and with an average value of 0.88 were obtained provided that borrowings are taken into account for text fragments of at least five words in length. Originality. For the first time, the authors have identified the possibilities and proposed methods for indirect plagiarism detection without using a large text bank. The essence of the model is to formalize the representation of the author's sentence syntax by a set of substitution rules with probabilistic weights. Practical value. Based on the results obtained, the possibilities for detecting borrowings have been expanded and the effectiveness of the corre-sponding methods has been increased. Recommendations on the parameters of classical methods for detecting borrowings have been obtained, in particular, it is recommended to take into account text fragments of at least five words in length as a rational parameter when using borrowing detection systems. The possibilities of text authorship detection methods tested on fiction texts are extended to technical texts.
UKR: Мета. Дослідження спрямовано на перевірку гіпотези щодо можливостей визначення плагіату методами встановлення авторству текста без використання банку текстів та їх безпосереднього порівняння. Методика. Розроблено конструктивно-продукційні моделі процесів встановлення авторства технічних текстів для двох методів. Перший метод заснований на формуванні моделі тексту у вигляді безлічі формальних правил підстановки з імовірнісними вагами (як у стохастичних формальних граматиках), що відображає синтаксичні особливості та закономірності формування тексту автором. Встановлюється ступінь схожості досліджуваного тексту з іншим методом порівняння їх моделей. Другий метод – класичний підхід до виявлення запозичень (плагіату) шляхом безпосереднього порівняння досліджуваного тексту з наявним банком текстів, виділення фрагментів тексту, що повторюються, і встановлення ступеня оригінальності. Виконано експерименти щодо встановлення кореляційної залежності результатів цих двох методів. Експериментальна база складалася з 509 текстових секцій дипломних робіт студентів спеціальності «Програмна інженерія». Результати. Експериментальні дослідження дали змогу встановити високу кореляційну залежність між результатами двох методів. Коефіцієнт кореляції в межах 0,75…1,0 та із середнім значенням 0,88 отримано за умови, що запозичення враховуються для фрагментів тексту завдовжки не менше п’яти слів. Наукова новизна. Автори вперше встановили можливості та запропонували методи опосередкованого виявлення плагіату без використання банку текстів значного обсягу. Суть моделі полягає у формалізації представлення синтаксису речення автора набором правил підстановки з імовірнісними вагами. Практична значимість. На основі отриманих результатів розширено можливості з виявлення запозичень та підвищено результативність відповідних методів. Отримано рекомендації щодо параметрів класичних мето-дів виявлення запозичень, зокрема як раціональний параметр під час використання систем виявлення запозичень рекомендовано враховувати фрагменти тексту довжиною не менше п’яти слів. Поширено можливості методів встановлення авторства текстів, апробованих на текстах художньої літератури, на використання і для технічних текстів.
Description
V. Shynkarenko: ORCID 0000-0001-8738-7225; I. Demidovich: ORCID 0000-0002-3644-184X; O. Kuropiatnyk: ORCID 0000-0003-2286-884X
Keywords
natural language texts, authorship determination, statistical analysis, classification, correlation coef-ficient, constructive-productive modeling, constructivism, formal grammars, graphs, природномовні тексти, визначення авторства, статистичний аналіз, класифікація, коефіцієнт кореляції, конструктивно-продукційне моделювання, конструктивізм, формальні граматики, графи, КІТ
Citation
Shynkarenko V. I., Demidovich I., Kuropiatnyk O. S. A Dual Approach to Establishing the Authority of Technical Natural Language Texts and Their Components. Наука та прогрес транспорту. 2023. № 2 (102). С. 71–85.