Визначення авторства художнього україномовного тексту засобами штучного інтелекту за надкороткими уривками

Loading...
Thumbnail Image
Date
2023
Journal Title
Journal ISSN
Volume Title
Publisher
Український державний університет науки і технологій, Дніпро
Abstract
UKR: Мета. Інтелектуальну пошукову систему Bing можна використати як метод і засіб визначення автора художнього україномовного тесту. Bing допомагає знайти інформацію про текстовий фрагмент та його автора, але результати пошуку можуть бути неточними або неповними. Основною метою роботи є дослідження ефективності встановлення авторства художніх текстів надсучасними засобами штучного інтелекту за над-короткими уривками. Методика. Відібрано десять українських авторів, із багатим наробком художніх творів, які відображають різні аспекти української культури та історії, а також випадкові фрагменти довжиною по 3–7 слів із різних творів цих авторів. Проведено експеримент із визначення авторства 2 000 фрагментів. Результати. За допомогою мови програмування Python та пакета skpy розроблено програмне забезпечення, що передає запитання та отримує відповіді від вбудованого в Microsoft Skype боту Bing. У текстах відповідей перевірено наявність імені автора фрази та відповідної назви твору. За результатами Іван Франко має найвищий відсоток відповідей, де було згадано ім’я автора (65 %), а Олександр Довженко має найнижчий результат (23 %). Проаналізовано відповіді за довжиною фрагментів. Звісно, чим більша довжина фрагмента тексту, тим більша вірогідність точного встановлення його авторства. Особливості стилю автора проявляються у 20–40% коротких фрагментах. Останні 60–80 % можуть складати загальновживані мовні конструкції, які ретрансльовано автором із зовнішнього середовища. Наукова новизна. У цій роботі вперше представлено методику перевірки авторства фрагментів україномовного тексту за допомогою боту Bing зі штучним інтелектом. Виконано порівняльний аналіз та наведено експерименти з визначення авторства коротких фрагментів по 3–7 слів. Установлено що навіть досить малі фрагменти тексту мають ознаки, властиві оригінальному стилю автора художніх творів. Практична значимість. З’ясовано, якою мірою експерти з визначення авторства природномовних текстів можуть спиратись на наявні надсучасні засоби штучного інтелекту у поєднанні з широкою базою текстів в інтернет-просторі.
ENG: Purpose. The intelligent search engine Bing can be used as a method and a means of determining the author of a Ukrainian-language test. Bing helps to find information about a text fragment and its author, but the search results may be inaccurate or incomplete. The main purpose of the paper is to study the effectiveness of establishing the authorship of literary texts by state-of-the-art artificial intelligence tools based on ultra-short excerpts. Methodology. Ten Ukrainian authors with a rich body of fiction reflecting various aspects of Ukrainian culture and history were selected, as well as random fragments of 3–7 words each from different works of these authors. An experiment was conducted to determine the authorship of 2,000 fragments. Findings. Using the Python program-ming language and the skpy package, we developed software that sends questions and receives answers from the Bing bot built into Microsoft Skype. The answers were checked for the name of the author of the phrase and the corresponding title of the work. According to the results, Ivan Franko has the highest percentage of answers where the author's name was mentioned (65%), and Oleksandr Dovzhenko has the lowest result (23%). The answers were analyzed by the length of the fragments. Of course, the longer the length of a text fragment, the greater the likelihood of accurately identifying its authorship. Features of the author's style are manifested in 20–40 % of short frag-ments. The remaining 60–80% may be commonly used language constructions that the author relayed from the external environment. Originality. In this work, for the first time, the method of checking the authorship of frag-ments of Ukrainian-language text using the Bing bot with artificial intelligence is presented. A comparative analysis was performed and experiments were given to determine the authorship of short fragments of 3–7 words. It has been established that even quite small fragments of the text have signs characteristic of the original style of the author of artistic works. Practical value. It has been determined to what extent experts in determining the authorship of natu-ral language texts can rely on existing state-of-the-art artificial intelligence tools in combination with an extensive database of texts in the Internet space.
Description
О. Іванов: ORCID 0000-0003-1259-6377, В. Шинкаренко: ORCID 0000-0001-8738-7225, В. Скалозуб: ORCID 0000-0002-1941-4751, А. Косолапов: ORCID: 0000-0001-8878-568X
Keywords
визначення авторства, природномовний текст, штучний інтелект, генеративні мовні моделі, бот Bing, authorship detection, natural language text, artificial intelligence, generative language models, ChatGPT, Bing bot, Skype, Microsoft, Bard, Google, КІТ, КЕОМ
Citation
Іванов О. П., Шинкаренко В. І., Скалозуб В. В., Косолапов А. А. Визначення авторства художнього україномовного тексту засобами штучного інтелекту за надкороткими уривками. Наука та прогрес транспорту. 2023. № 2 (102). С. 45–53.