Text Borrowings Detection System for Natural Language Structured Digital Documents

dc.contributor.authorKuropiatnyk, Olena S.en
dc.contributor.authorShynkarenko, Viktor I.en
dc.date.accessioned2020-07-02T10:54:35Z
dc.date.available2020-07-02T10:54:35Z
dc.date.issued2020
dc.descriptionO. Kuropiatnyk: ORCID 0000-0003-2286-884X; V. Shynkarenko: ORCID 0000-0001-8738-7225,en
dc.description.abstractENG: Interpretation of results is an important stage in text borrowings detection systems. Necessary to take into consideration the tree structure of the document and the general content of structural elements (sections) is the reason for that. In article method comparison of structured document is developed. Formalization of comparison document process is based on constructive-synthesizing modeling. Document structure is processed using templates. They contain information about section and subsections titles and keywords sets. The base of natural language text comparison is text graph representation model. It represents a text as graphs set for improving borrowings retrieval in texts of database. On base of these models and method text borrowings detection system is developed for comparison digital structured natural language documents. The paper presents the features of the system and its advantages. System architecture is described and its time efficiency investigated.en
dc.description.abstractUKR: Інтерпретація результатів є важливим етапом у системах виявлення текстових запозичень. Необхідно враховувати структуру дерева документа та загальний зміст структурних елементів (розділів). У статті розроблено метод порівняння структурованого документа. Формалізація процесу порівняльного документа базується на конструктивно-продукційному моделюванні. Структура документа обробляється за допомогою шаблонів. Вони містять інформацію про заголовки розділів та підрозділів та набори ключових слів. Основою порівняння тексту на природній мові є модель представлення текстових графів. Вона представляє текст у вигляді графів для покращення пошуку запозичень у текстах бази даних. На основі цих моделей і методу розроблена система виявлення запозичень тексту для порівняння електронних структурованих природомовних документів. У роботі представлені особливості системи та її переваги. Описана архітектура системи та досліджено її часова ефективність.uk_UA
dc.description.abstractRUS: Интерпретация результатов является важным этапом в системах обнаружения текстовых заимствований. Причиной этого является необходимость учитывать древовидную структуру документа и общее содержание структурных элементов (разделов). В статье разработан метод сравнения структурированного документа. Формализация процесса сравнения документов основана на конструктивно-продукционном моделировании. Структура документа обрабатывается с использованием шаблонов. Они содержат информацию о заголовках разделов и подразделов, а также наборы ключевых слов. Основой сравнения текста на естественном языке является модель представления текстового графа. Она представляет текст в виде графов для улучшения поиска заимствований в текстах базы данных. На основе этих моделей и метода разработана система обнаружения заимствований текста для сравнения электронных структурированных документов на естественном языке. В статье представлены особенности системы и ее преимущества. Описана архитектура системы и исследована ее временная эффективность.ru_RU
dc.identifier.citationKuropiatnyk O., Shynkarenko V. Text Borrowings Detection System for Natural Language Structured Digital Documents. CEUR Workshop Proceedings. Vol. 2604 : 4th International Conference on Computational Linguistics and Intelligent Systems (COLINS 2020), Lviv, Ukraine, 23–24 April 2020. Lviv, 2020. P. 294–305.en
dc.identifier.issn1613-0073
dc.identifier.urihttp://eadnurt.diit.edu.ua/jspui/handle/123456789/12024en
dc.identifier.urihttp://ceur-ws.org/Vol-2604/paper23.pdfen
dc.identifier.urihttps://ceur-ws.org/Vol-2604/en
dc.language.isoen
dc.publisherCEUR-WS Team, Aachen, Germanyen
dc.subjectnatural language texten
dc.subjectstructured documenten
dc.subjecttext borrowings detectionen
dc.subjectplagiarismen
dc.subjectconstructive-synthesizing modelingen
dc.subjectconstructoren
dc.subjectприродомовний текстuk_UA
dc.subjectструктурирований документuk_UA
dc.subjectвиявлення текстових запозиченьuk_UA
dc.subjectплагіатuk_UA
dc.subjectконструктивно-продукційне моделюванняuk_UA
dc.subjectконструкторuk_UA
dc.subjectтекст на естественном языкеru_RU
dc.subjectструктурированный документru_RU
dc.subjectвыявление текстовых заимствованийru_RU
dc.subjectплагиатru_RU
dc.subjectконструктивно-продукционное моделированиеru_RU
dc.subjectКІТuk_UA
dc.titleText Borrowings Detection System for Natural Language Structured Digital Documentsen
dc.title.alternativeСистема виявлення запозичень для природномовних структуровних електронних документівuk_UA
dc.title.alternativeСистема обнаружения заимствований для естественноязыковых структурированных электронных документовru_RU
dc.typeArticleen
Files
Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Kuropiatnyk.pdf
Size:
788.83 KB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: