Розробка засобів підбору та перевірки коректності УДК-шифрів наукових робіт

Loading...
Thumbnail Image
Date
2023
Journal Title
Journal ISSN
Volume Title
Publisher
Український державний університет науки і технологій, Дніпро
Abstract
UKR: Предметом розробки є система підбору та перевірки коректності УДК- шифрів наукових робіт. Мета роботи полягає у розробці програмного забезпечення для підбору та перевірки коректності УДК-шифрів наукових робіт. Основними задачами є розробка та реалізація: • засобів попередньої обробки та токенізації текстів; • моделі УДК, яка містить класи та ключові та слова, та засобів їїнаповнення шляхом тренувань; • засобів підбору та перевірки коректності УДК-шифру на основі розробленої моделі. Методи розв’язання задачі. Для реалізації системи застосовано об’єктно- орієнтований (ОО) підхід до проектування з використанням UML та ОО програмування мовою Python. Для обробки текстів використано алгоритми токенізація, видалення стоп слів, розмічування частин мови та іменованих сутностей, побудовані на основі компонентів бібліотеки spaCy. Отримані результати. Розроблено настільний додаток з CLI для підбору та перевірки коректності УДК-шифрів для англомовних текстів. Значення роботи. Додаток може бути корисним для часткової автоматизації класифікації великих бібліотек: результати ручної класифікації застосовуються для навчання моделі, для класифікації решти використовуються рекомендації програми. У розділі висновків наведено пропозиції щодо подальшого розвитку та покращення роботи додатку. Пояснювальна записка складається з семи розділів, переліку умовних познак, списку використаної літератури та додатків. Загальний обсяг: 83 с., 16 рис., 4 табл., 1 додаток, 101 джерел.
ENG: Development object is a tool for selection and verification of UDC codes of scientific works. The purpose of the work is to develop tool for selection and verification of UDC codes of scientific works. The main tasks are development and implementation of: • tools for pre-processing and tokenization of texts; • UDC model, that would consist of classes, keywords, and means of training that model; • tool for selection and verification of UDC codes of scientific works based on the developed model. Problem solving methods. The system is developed with object-oriented (OO) methodology, using UML and OO-programming in Python language. Texts are processed with tokenization, stop-word removal, part-of-speech tagging, and named-entity recognition algorithms, based on components of spaCy library. Obtained results. A desktop app with CLI for selection and verification of UDC codes of scientific works was developed. Value of the work. The application can be used for partial optimization of big libraries: results of manual classifications are used for model training, and the rest of the texts are classified with aid of the program. The summary has propositions for further imporvment of the app. The explanatory note consists of 7 chapters, list of symbolic markers, list of references, and appendices. Total volume: 83 pages, 16 drawings, 4 tables, 1 appendix, 101 references.
Description
Keywords
машинне навчання, обробка природної мови, УДК, інтерфейс командного рядка, ітераційна розробка, автоматизація, PYTHON, SPACY, machine learning, natural language processing, UDC, command line interface, iterative development, automation, ВКР, КІТ
Citation
Сафонов Д. Є. Розробка засобів підбору та перевірки коректності УДК шифрів наукових робіт : дипломна робота на здобуття кваліфікаційного ступеня бакалавра : спец. 121 – Інженерія програмного забезпечення / наук. керівник О. С. Куроп’ятник ; Укр. держ. ун-т науки і технологій. Дніпро, 2023. 80 с.