Text Borrowings Detection System for Natural Language Structured Digital Documents

Loading...
Thumbnail Image
Date
2020
Journal Title
Journal ISSN
Volume Title
Publisher
CEUR-WS Team, Aachen, Germany
Abstract
ENG: Interpretation of results is an important stage in text borrowings detection systems. Necessary to take into consideration the tree structure of the document and the general content of structural elements (sections) is the reason for that. In article method comparison of structured document is developed. Formalization of comparison document process is based on constructive-synthesizing modeling. Document structure is processed using templates. They contain information about section and subsections titles and keywords sets. The base of natural language text comparison is text graph representation model. It represents a text as graphs set for improving borrowings retrieval in texts of database. On base of these models and method text borrowings detection system is developed for comparison digital structured natural language documents. The paper presents the features of the system and its advantages. System architecture is described and its time efficiency investigated.
UKR: Інтерпретація результатів є важливим етапом у системах виявлення текстових запозичень. Необхідно враховувати структуру дерева документа та загальний зміст структурних елементів (розділів). У статті розроблено метод порівняння структурованого документа. Формалізація процесу порівняльного документа базується на конструктивно-продукційному моделюванні. Структура документа обробляється за допомогою шаблонів. Вони містять інформацію про заголовки розділів та підрозділів та набори ключових слів. Основою порівняння тексту на природній мові є модель представлення текстових графів. Вона представляє текст у вигляді графів для покращення пошуку запозичень у текстах бази даних. На основі цих моделей і методу розроблена система виявлення запозичень тексту для порівняння електронних структурованих природомовних документів. У роботі представлені особливості системи та її переваги. Описана архітектура системи та досліджено її часова ефективність.
RUS: Интерпретация результатов является важным этапом в системах обнаружения текстовых заимствований. Причиной этого является необходимость учитывать древовидную структуру документа и общее содержание структурных элементов (разделов). В статье разработан метод сравнения структурированного документа. Формализация процесса сравнения документов основана на конструктивно-продукционном моделировании. Структура документа обрабатывается с использованием шаблонов. Они содержат информацию о заголовках разделов и подразделов, а также наборы ключевых слов. Основой сравнения текста на естественном языке является модель представления текстового графа. Она представляет текст в виде графов для улучшения поиска заимствований в текстах базы данных. На основе этих моделей и метода разработана система обнаружения заимствований текста для сравнения электронных структурированных документов на естественном языке. В статье представлены особенности системы и ее преимущества. Описана архитектура системы и исследована ее временная эффективность.
Description
O. Kuropiatnyk: ORCID 0000-0003-2286-884X; V. Shynkarenko: ORCID 0000-0001-8738-7225,
Keywords
natural language text, structured document, text borrowings detection, plagiarism, constructive-synthesizing modeling, constructor, природомовний текст, структурирований документ, виявлення текстових запозичень, плагіат, конструктивно-продукційне моделювання, конструктор, текст на естественном языке, структурированный документ, выявление текстовых заимствований, плагиат, конструктивно-продукционное моделирование, КІТ
Citation
Kuropiatnyk O., Shynkarenko V. Text Borrowings Detection System for Natural Language Structured Digital Documents. CEUR Workshop Proceedings. Vol. 2604 : 4th International Conference on Computational Linguistics and Intelligent Systems (COLINS 2020), Lviv, Ukraine, 23–24 April 2020. Lviv, 2020. P. 294–305.