Визначення ознак авторства природньомовних текстів

Loading...
Thumbnail Image
Date
2018
Journal Title
Journal ISSN
Volume Title
Publisher
Інститут проблем штучного інтелекту МОН України і НАН України
Abstract
UKR: Досліджені можливості встановлення авторства природньомовних текстів та їх фрагментів методом класифікації за найменшою відстанню у просторі образів. Образи у n-мірному Евклідовому просторі формуються за ознаками вимірювань методами статистичного та рекурентного аналізу, показниками складності тексту. Метод рекурентного аналізу часових рядів адаптовано до аналізу природньомовних текстів. Встановлено, що визначені ознаки мають недостатньо високу ефективність при визначенні авторства; у 85% випадків хоча б один з методів дозволяє встановити авторство; модифікований метод рекурентного аналізу має той же рівень ефективності, як статистичний та аналіз складності тексту.
RUS: Исследованы возможности установления авторства естественноязыковых текстов и их фрагментов методом классификации по наименьшим расстоянием в пространстве образов. Образы в n-мерном Эвклидовом пространстве формируются по признакам измерений методами статистического и рекуррентного анализа, показателями сложности текста. Метод рекуррентного анализа временных рядов адаптировано к анализу естественноязыковых текстов. Установлено, что определенные признаки имеют недостаточно высокую эффективность при определении авторства; в 85% случаев хотя бы один из методов позволяет установить авторство; модифицированный метод рекуррентного анализа имеет тот же уровень эффективности, как статистический и анализ сложности текста
ENG: The possibility of defining the authorship of natural language texts and its fragments was explored by minimum distance classification in space images. In n-dimensional Euclidean space the image forms by measurement signs of statistic and recurrent analysis, complexity indicators. The method of recurrent analysis of time series was adapted to the analysis of natural language texts. Certain signs weren’t efficient enough in authorship determination; in 85% of cases at least one of the methods allows to establish authorship; the modified method of recurrent analysis has the same level of efficiency as statistical and complexity analysis.
Description
В. Шинкаренко: ORCID 0000-0001-8738-7225
Keywords
природньомовні тексти, рекурентний аналіз, статистичний аналіз, складність текстів, авторство тексту, класифікація, естественноязыковые тексты, рекуррентный анализ, статистический анализ, сложность текстов, авторство текста, классификация, natural language texts, recurrence analysis, statistic analysis, text complexity, text authorship, classification, КІТ
Citation
Шинкаренко, В. І. Визначення ознак авторства природньомовних текстів: [препринт] / В. І. Шинкаренко, І. М. Демидович // Штучний інтелект. – 2018. – № 3 (81). – С. 27–35.