Будь ласка, використовуйте цей ідентифікатор, щоб цитувати або посилатися на цей матеріал: http://eadnurt.diit.edu.ua/jspui/handle/123456789/13843
Назва: Authorship Determination of Natural Language Texts by Several Classes of Indicators with Customizable Weights
Інші назви: Авторське визначення текстів природної мови по декількох класах індикаторів з настроюванням ваги
Авторское определение текстов естественного языка по нескольким классам индикаторов с настройкой веса
Автори: Shynkarenko, Viktor I.
Demidovich, Inna
Ключові слова: natural language texts
recurrence analysis
frequency analysis
text complexity
text authorship
classification
genetic algorithm
тексти на природній мові
аналіз повторюваності
частотний аналіз
складність тексту
авторство тексту
класифікація
генетичний алгоритм
тексты на естественном языке
анализ повторяемости
частотный анализ
сложность текста
авторство текста
классификация
генетический алгоритм
КІТ
Дата публікації: 2021
Видавництво: CEUR-WS Team, Aachen, Germany
Бібліографічний опис: Shynkarenko V., Demidovich I. Authorship determination of natural language texts by several classes of indicators with customizable weights. CEUR Workshop Proceedings. 2021. Vol. 2870 : 5th International Conference on Computational Linguistics and Intelligent Systems. Vol. I: Main Conference, COLINS 2021, 22–23 April 2021. P. 832–844.
Короткий огляд (реферат): EN: In this work we try to improve the results of texts and their fragments attribution using the classification method of the least distance in Euclidean space of images, by selecting weights for each of the image measures. For weights determination the genetic algorithm was used. Images are formed using statistical and modified recurrent analysis and the text complexity indicators. We will try to identify the effectiveness for each of them. It was found that this method usage improves the efficiency of the text attribution and the reliability of authorship determination of the texts from the control sample reaches 80-91%.
UK: У даній роботі ми намагаємося поліпшити результати атрибуції текстів і їх фрагментів, використовуючи метод класифікації найменшої відстані в евклідовому просторі зображень, вибираючи ваги для кожної із мір зображення. Для визначення ваги використовувався генетичний алгоритм. Зображення формуються з використанням статистичного та модифікованого рекуррентного аналізу і показників складності тексту. Ми постараємося визначити ефективність кожного з них. Встановлено, що використання цього методу підвищує ефективність атрибуції тексту, а надійність визначення авторства текстів з контрольної вибірки досягає 80-91%.
RU: В данной работе мы пытаемся улучшить результаты атрибуции текстов и их фрагментов, используя метод классификации наименьшего расстояния в евклидовом пространстве изображений, выбирая веса для каждой из мер изображения. Для определения веса использовался генетический алгоритм. Изображения формируются с использованием статистического и модифицированного рекуррентного анализа и показателей сложности текста. Мы постараемся определить эффективность каждого из них. Установлено, что использование этого метода повышает эффективность атрибуции текста, а надежность определения авторства текстов из контрольной выборки достигает 80-91%.
Опис: V. Shynkarenko: ORCID 0000-0001-8738-7225; I. Demidovich: ORCID 0000-0002-3644-184X
URI (Уніфікований ідентифікатор ресурсу): http://eadnurt.diit.edu.ua/jspui/handle/123456789/13843
http://ceur-ws.org/Vol-2870/paper62.pdf
http://ceur-ws.org/Vol-2870/
ISSN: 1613-0073
Розташовується у зібраннях:Статті КІТ

Файли цього матеріалу:
Файл Опис РозмірФормат 
Shynkarenko62.pdf1,47 MBAdobe PDFПереглянути/Відкрити


Усі матеріали в архіві електронних ресурсів захищені авторським правом, всі права збережені.