Text Borrowings Detection System for Natural Language Structured Digital Documents

Kuropiatnyk, Olena S.; Shynkarenko, Viktor I.

Text Borrowings Detection System for Natural Language Structured Digital Documents

dc.contributor.author	Kuropiatnyk, Olena S.	en
dc.contributor.author	Shynkarenko, Viktor I.	en
dc.date.accessioned	2020-07-02T10:54:35Z
dc.date.available	2020-07-02T10:54:35Z
dc.date.issued	2020
dc.description	O. Kuropiatnyk: ORCID 0000-0003-2286-884X; V. Shynkarenko: ORCID 0000-0001-8738-7225,	en
dc.description.abstract	ENG: Interpretation of results is an important stage in text borrowings detection systems. Necessary to take into consideration the tree structure of the document and the general content of structural elements (sections) is the reason for that. In article method comparison of structured document is developed. Formalization of comparison document process is based on constructive-synthesizing modeling. Document structure is processed using templates. They contain information about section and subsections titles and keywords sets. The base of natural language text comparison is text graph representation model. It represents a text as graphs set for improving borrowings retrieval in texts of database. On base of these models and method text borrowings detection system is developed for comparison digital structured natural language documents. The paper presents the features of the system and its advantages. System architecture is described and its time efficiency investigated.	en
dc.description.abstract	UKR: Інтерпретація результатів є важливим етапом у системах виявлення текстових запозичень. Необхідно враховувати структуру дерева документа та загальний зміст структурних елементів (розділів). У статті розроблено метод порівняння структурованого документа. Формалізація процесу порівняльного документа базується на конструктивно-продукційному моделюванні. Структура документа обробляється за допомогою шаблонів. Вони містять інформацію про заголовки розділів та підрозділів та набори ключових слів. Основою порівняння тексту на природній мові є модель представлення текстових графів. Вона представляє текст у вигляді графів для покращення пошуку запозичень у текстах бази даних. На основі цих моделей і методу розроблена система виявлення запозичень тексту для порівняння електронних структурованих природомовних документів. У роботі представлені особливості системи та її переваги. Описана архітектура системи та досліджено її часова ефективність.	uk_UA
dc.description.abstract	RUS: Интерпретация результатов является важным этапом в системах обнаружения текстовых заимствований. Причиной этого является необходимость учитывать древовидную структуру документа и общее содержание структурных элементов (разделов). В статье разработан метод сравнения структурированного документа. Формализация процесса сравнения документов основана на конструктивно-продукционном моделировании. Структура документа обрабатывается с использованием шаблонов. Они содержат информацию о заголовках разделов и подразделов, а также наборы ключевых слов. Основой сравнения текста на естественном языке является модель представления текстового графа. Она представляет текст в виде графов для улучшения поиска заимствований в текстах базы данных. На основе этих моделей и метода разработана система обнаружения заимствований текста для сравнения электронных структурированных документов на естественном языке. В статье представлены особенности системы и ее преимущества. Описана архитектура системы и исследована ее временная эффективность.	ru_RU
dc.identifier.citation	Kuropiatnyk O., Shynkarenko V. Text Borrowings Detection System for Natural Language Structured Digital Documents. CEUR Workshop Proceedings. Vol. 2604 : 4th International Conference on Computational Linguistics and Intelligent Systems (COLINS 2020), Lviv, Ukraine, 23–24 April 2020. Lviv, 2020. P. 294–305.	en
dc.identifier.issn	1613-0073
dc.identifier.uri	http://eadnurt.diit.edu.ua/jspui/handle/123456789/12024	en
dc.identifier.uri	http://ceur-ws.org/Vol-2604/paper23.pdf	en
dc.identifier.uri	https://ceur-ws.org/Vol-2604/	en
dc.language.iso	en
dc.publisher	CEUR-WS Team, Aachen, Germany	en
dc.subject	natural language text	en
dc.subject	structured document	en
dc.subject	text borrowings detection	en
dc.subject	plagiarism	en
dc.subject	constructive-synthesizing modeling	en
dc.subject	constructor	en
dc.subject	природомовний текст	uk_UA
dc.subject	структурирований документ	uk_UA
dc.subject	виявлення текстових запозичень	uk_UA
dc.subject	плагіат	uk_UA
dc.subject	конструктивно-продукційне моделювання	uk_UA
dc.subject	конструктор	uk_UA
dc.subject	текст на естественном языке	ru_RU
dc.subject	структурированный документ	ru_RU
dc.subject	выявление текстовых заимствований	ru_RU
dc.subject	плагиат	ru_RU
dc.subject	конструктивно-продукционное моделирование	ru_RU
dc.subject	КІТ	uk_UA
dc.title	Text Borrowings Detection System for Natural Language Structured Digital Documents	en
dc.title.alternative	Система виявлення запозичень для природномовних структуровних електронних документів	uk_UA
dc.title.alternative	Система обнаружения заимствований для естественноязыковых структурированных электронных документов	ru_RU
dc.type	Article	en

Files

Original bundle

Now showing 1 - 1 of 1

Name:: Kuropiatnyk.pdf
Size:: 788.83 KB
Format:: Adobe Portable Document Format

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 1.71 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

Статті КІТ