Языковой перенос нейросетевого обучения для частеречной разметки Санкт-Петербургского корпуса агиографических текстов (СКАТ)

Авторы

  • Вадим Вадимович Гудков Санкт-Петербургский государственный университет, Российская Федерация, 199034, Санкт-Петербург, Университетская набережная, 7–9
  • Ольга Владимировна Митренина СПбГУ, Российская Федерация, 199034, Санкт-Петербург, Университетская наб., 7–9
  • Евгений Геннадьевич Соколов СПбГУ, Российская Федерация, 199034, Санкт-Петербург, Университетская наб., 7–9
  • Ангелина Александровна Коваль Санкт-Петербургский государственный университет, Российская Федерация, 199034, Санкт-Петербург, Университетская набережная, 7–9

DOI:

https://doi.org/10.21638/spbu09.2023.205

Аннотация

В статье рассказывается об эксперименте по обучению морфологического анализатора на основе искусственных нейронных сетей для разметки Санкт-Петербургского корпуса агиографических текстов (СКАТ), который разрабатывается на кафедре математической лингвистики СПбГУ. Корпус содержит тексты 23 рукописей XV–XVIII вв., объемом около 190 тыс. словоупотреблений, четыре из которых размечены вручную. Для создания автоматического частеречного анализатора использовались модели bi-LSTM, дистиллированная RuBERT-tiny2  и  модель RuBERT. Все они были обучены на корпусах текстов на современном русском языке и  перенастроены для разметки древнерусских текстов с помощью языкового переноса. Для дообучения языковых моделей на основе архитектуры трансформера необходимо было сформировать свой токенизатор на основе техники byte pair encoding и соотнести токены из оригинального русскоязычного токенизатора и нового на основе индексов. Затем модель дообучалась на задачу классификации токенов. Для настройки модели использовался размеченный подкорпус из трех житий объемом 35 603 токена, 2885 предложений. В эксперименте учитывалась только разметка с указанием части речи, классификация проводилась по 17 тегам, 13 из которых соответствовали частям речи, а оставшиеся четыре отмечали знаки препинания. Для оценки качества модели использовались стандартные метрики F1 и Accuracy. Согласно автоматическим метрикам оценки наилучший результат показала модель RuBERT. С помощью нее была проведена частеречная разметка «Жития Александра Свирского», ошибки разметки были проанализированы вручную. Большинство ошибок были связаны с неверным обобщением закономерностей линейного положения или со сходством словоформ как в крайней левой, так и в крайней правой позиции.

Ключевые слова:

агиография, корпус древнерусских текстов, нейросетевая разметка, языковой перенос нейросетевого обучения, частеречная разметка

Скачивания

Данные скачивания пока недоступны.
 

Библиографические ссылки

Литература

Алексеева и др. 2022 — Алексеева Е.Л., Азарова И.В., Рогозина Е.А., Сипунин К.В. Корпусное выделение библейских цитат в севернорусских житийных текстах XVI–XVII вв. В сб.: Источнико-ведение литературы и языка (археография, текстология, поэтика): Памяти Елены Ивановны Дергачевой-Скоп. Новосибирск: ГПНТБ СО РАН, 2022. С. 237–242.

Алексеева, Миронова 2017 — Алексеева Е.Л., Миронова Д.М. Компьютерная текстология. В кн.:Прикладная и компьютерная лингвистика. Николаев И.С., Митренина О.В., Ландо Т.М. (ред.). М.: URSS, 2017. C. 259–272.

Букия, Протопопова 2016 — Букия Г.Т., Протопопова Е.В. Машинное обучение в лингвистике. В кн.: Прикладная и компьютерная лингвистика. Николаев И.С., Митренина О.В., Ландо Т.М. (ред.). М.: URSS, 2017. С. 121–137.

Васильев 2021 — Васильев Ю. Обработка естественного языка Python и SpaCy на практике. СПб.: Питер, 2021.

Захаров 2017 — В.П. Захаров. Корпусная лингвистика В кн.: Прикладная и компьютерная лингвистика. Николаев И.С., Митренина О.В., Ландо Т.М. (ред.). М.: URSS, 2017. С. 138–155.

Николенкова 2000 — Николенкова Н.В. Некоторые принципы синтаксической организации церковнославянского текста: на примере житийных текстов XI–XIII веков: дис. … канд. филол. наук. М., 2000.

Поляков 2014 — Поляков А.Е. Корпус церковнославянских текстов: проблемы орфографии и грамматики. Przegląd Wschodnioeuropejski. 2014 (1): 245–254.

Akbik et al. 2018 — Akbik A., Blythe D., Vollgraf R. Contextual String Embeddings for Sequence Labeling. In: Proceedings of COLING 2018. The 27th International Conference on Computational Linguistics. Santa Fe, New Mexico, 2018. P. 1638–1649.

Azarova et al. 2021 — Azarova I., Alekseeva E., Lavrentiev A., Rogozina E., Sipunin K.Content Structuring in the St Petersburg Corpus of Hagiographic Texts (SCAT) Scripta & e-Scripta. The Journal of Interdisciplinary Mediaeval Studies. 2021, (21): 69–78.

Dereza et al. 2016 — Dereza O.V., Kayutenko D.A., Fenogenova A. S. Automatic Morphological Analysis for Russian: a Comparative Study. Computational Linguistics and Intellectual Technologies. In: Proceedings of the International Conference Dialogue 2016. Computational linguistics and intellectual technologies. Student session (online publication). 2016. http://www.dialog-21.ru/media/3473/dereza.pdf (дата обращения: 04.07.2021).

Haug 2015 — Haug D.T. T.Treebanks in historical linguistic research. In: Viti, Carlotta (eds), Perspectives on Historical Syntax. Amsterdam: John Benjamins Publishing Company. P. 185–202.

Jurafsky, Martin 2020 — Jurafsky D., Martin J.H. Chapter 7. Neural Networks and Neural Language Mod‑els. In: Speech and Language Processing. Draft of December 30, 2020. P. 137–147. https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf (дата обращения: 04.07.2021).

Kuratov, Arkhipov 2019 — Kuratov Yu., Arkhipov M. Adaptation of Deep Bidirectional Multilingual Trans‑formers for Russian Language 2019. https://arxiv.org/abs/1905.07213 (дата обращения: 04.07.2021).

McCulloch, Pitts 1943 — McCulloch W. S., Pitts W.A logical calculus of ideas immanent in nervous activity. Bulletin of Mathematical Biophysics. 1943 (5): 115–113.

Mitrenina 2014 — Mitrenina O. The Corpora of Old and Middle Russian Texts as an Advanced Tools for Exploring an Extinguished Language. Scrinium. 2014, (X): 455–461.

NMT — Neural Morphological Tagging. http://docs.deeppavlov.ai/en/master/features/models/morphotagger.html (дата обращения: 04.07.2021).

Podtergera et al. 2016 — Podtergera I., Mocken S., Besters-Dilger J. SlaVaComp — COMPutergestützte Untersuchung von VAriabilität im kirchenSLAvischen. Forschungsergebnisse. Freiburg: Universitätsbibliothek Freiburg, 2016.

Sokolov 2019 — Sokolov E.G.The project of a deeply tagged parallel corpus of Middle Russian translations from Latin. Journal of Applied Linguistics and Lexicography. 2019, (2): 337–364.

References

Алексеева и др. 2022 — Alekseyeva Ye.L., Azarova I.V., Rogozina E.A., Sipunin K.V. Corpus selection of biblical quotations in northern Russian hagiographic texts of the 16th–17th centuries. In.: Istochnikovedenie literatury i iazyka (arkheografiia, tekstologiia, poetika): Pamiati Eleny Ivanovny Dergachevoi Skop. Novosibirsk: GPNTB SO RAN Publ., 2022. P. 237–242. (In Russian)

Алексеева, Миронова 2017 — Alekseyeva Ye.L., Mironova D.M. Digital text studies. In: Prikladnaia i kompiuternaia lingvistika. Nikolayev I. S., Mitrenina O.V., Lando T.M. (red.). Moscow: URSS Publ., 2017. P. 259–272. (In Russian)

Букия, Протопопова 2016 — Bukiya G.T., Protopopova Ye.V. Deep learning applications in linguistics. In: Prikladnaia i kompiuternaia lingvistika. Nikolayev I. S., Mitrenina O.V., Lando T.M. (red.). M. : URSS Publ., 2017. P. 121–137. (In Russian)

Васильев 2021 — Vasilyev Yu. Natural language processing in Python and SpaCy. A practical introduction. St Petersburg: Piter Publ., 2021. (In Russian)

Захаров 2017 — Zakharov V.P. Corpus linguistics. In: Prikladnaia i kompiuternaia lingvistika. Nikolayev I. S., Mitrenina O.V., Lando T.M. (eds). Moscow: URSS Publ., 2017. P. 138–155. (In Russian)

Николенкова 2000 — Nukolenkova N.V. Some principles of the syntactic organization of the Church Slavonic text: On the example of hagiographic texts of the 11th–13th centuries. Thesis for PhD in Philological Sciences. Moscow, 2000. (In Russian)

Поляков 2014 — Polyakov A.Ye. Church Slavonic corpus: Issues in orthography and grammar. Przegląd Wschodnioeuropejski. 2014 (1). P. 245–254. (In Russian)

Akbik et al. 2018 — Akbik A., Blythe D., Vollgraf R. Contextual String Embeddings for Sequence Labeling. In: Proceedings of COLING 2018. The 27th International Conference on Computational Linguistics. Santa Fe, New Mexico, 2018. P. 1638–1649.

Azarova et al. 2021 — Azarova I., Alekseeva E., Lavrentiev A., Rogozina E., Sipunin K. Content Structuring in the St. Petersburg Corpus of Hagiographic Texts (SCAT) Scripta & e-Scripta. The Journal of Interdisciplinary Mediaeval Studies. 2021, (21): 69–78.

Dereza et al. 2016 — Dereza O.V., Kayutenko D.A., Fenogenova A. S. Automatic Morphological Analysis for Russian: a Comparative Study. Computational Linguistics and Intellectual Technologies. In: Proceedings of the International Conference Dialogue 2016. Computational linguistics and intellectual technologies. Student session (online publication). 2016. http://www.dialog-21.ru/media/3473/dereza.pdf (accessed: 04.07.2021).

Haug 2015 — Haug D.T.T. Treebanks in historical linguistic research. In: Viti, Carlotta (eds), Perspectives on Historical Syntax. Amsterdam: John Benjamins Publishing Company. P. 185–202.

Jurafsky, Martin 2020 — Jurafsky D., Martin J.H. Chapter 7. Neural Networks and Neural Language Models. In: Speech and Language Processing. Draft of December 30, 2020. P. 137–147. https://web.stanford.edu/~jurafsky/slp3/ed3book.pdf (accessed: 04.07.2021).

Kuratov, Arkhipov 2019 — Kuratov Yu., Arkhipov M.Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language 2019. https://arxiv.org/abs/1905.07213 (accessed: 04.07.2021).

McCulloch, Pitts 1943 — McCulloch W. S., Pitts W. A logical calculus of ideas immanent in nervous activity. Bulletin of Mathematical Biophysics. 1943 (5): 115–113.

Mitrenina 2014 — Mitrenina O. The Corpora of Old and Middle Russian Texts as an Advanced Tools for Exploring an Extinguished Language. Scrinium. 2014, (X): 455–461.

NMT — Neural Morphological Tagging. http://docs.deeppavlov.ai/en/master/features/models/morphotagger.html (accessed: 04.07.2021).

Podtergera et al. 2016 — Podtergera I., Mocken S., Besters-Dilger J. SlaVaComp — COMPutergestützte Untersuchung von VAriabilität im kirchenSLAvischen. Forschungsergebnisse. Freiburg: Universitätsbibliothek Freiburg, 2016.

Sokolov 2019 — Sokolov E.G. The project of a deeply tagged parallel corpus of Middle Russian translations from Latin. Journal of Applied Linguistics and Lexicography. 2019, (2): 337–364.

Загрузки

Опубликован

24.07.2023

Как цитировать

Гудков, В. В., Митренина, О. В., Соколов, Е. Г., & Коваль, А. А. (2023). Языковой перенос нейросетевого обучения для частеречной разметки Санкт-Петербургского корпуса агиографических текстов (СКАТ). Вестник Санкт-Петербургского университета. Язык и литература, 20(2), 262–282. https://doi.org/10.21638/spbu09.2023.205

Выпуск

Раздел

Языкознание