Обработка слов с частотными орфографическими ошибками (исследование на базе учебного корпуса английского языка)

Авторы

  • Маргарита Андреевна Климова Национальный исследовательский университет «Высшая школа экономики», Россия, 603155, Нижний Новгород, ул. Большая Печерская, 25/12
  • Анна Валерьевна Виклова Российская академия народного хозяйства и государственной службы при Президенте Российской Федерации, Россия, 119571, Москва, пр. Вернадского, 82
  • Дарья Алексеевна Оверникова Национальный исследовательский университет «Высшая школа экономики», Россия, 101000, Москва, ул. Мясницкая, 20

DOI:

https://doi.org/10.21638/spbu09.2023.409

Аннотация

Статья посвящена экспериментальному исследованию влияния частотности орфографических ошибок в слове на качество его репрезентации в ментальном лексиконе. Гипотеза о том, что слова, в которых часто совершаются ошибки правописания, затрудняют восприятие при чтении, даже если написаны правильно, ранее была подтверждена для носителей русского и английского языков. Данная работа нацелена на проверку гипотезы на материале учебного корпуса REALEC (Russian Error-Annotated Learner English Corpus), включающего тексты русскоязычных студентов, изучающих английский язык. Из корпуса были отобраны слова, наиболее часто пишущиеся неверно, которые стали материалом для эксперимента на распознавание верных и неверных написаний. При интерпретации результатов оценивалось влияние на успешность распознавания таких факторов, как частотность ошибок, частотность слова в учебном корпусе, энтропия (мера, отражающая количество усилий, затрачиваемых на выбор между вариантами написания) и тип ошибки. Согласно полученным данным, значимыми оказались факторы энтропии и частотности слова в корпусе, что соответствует результатам предыдущих исследований. Значимость продемонстрировал и конкретный тип ошибки — замена буквы. Особая роль данного типа проявляется в затруднениях, которые ошибки замены вызвали у респондентов при восприятии, и соответствует результатам предшествующих исследований производства письменной речи изучающих английский язык, согласно которым данный тип неверных написаний является самым частотным. Меньшая значимость фактора частотности неверного написания по сравнению с исследованиями на базе родного языка может объясняться различиями в языковой среде: так, изучающие язык реже сталкиваются с неверными написаниями.

Ключевые слова:

обработка слов, орфографические ошибки, ментальный лексикон, учебный корпус

Скачивания

Данные скачивания пока недоступны.
 

Библиографические ссылки

Литература

Алексеева, Слюсарь 2017 — Алексеева С. В., Слюсарь Н. А. Орфографические соседи в русском языке: База данных и эксперимент, направленный на изучение морфологической декомпозиции. Вопросы психолингвистики. 2017, 32 (2): 12–27.

Чернова и др. 2020a — Чернова Д. А., Алексеева С. В., Слюсарь Н. А. Чему нас учат ошибки: трудности при обработке слов с частотными орфографическими ошибками. Компьютерная лингвистика и интеллектуальные технологии. 2020, (19): 147–159.

Чернова и др. 2020б — Чернова Д. А., Слюсарь Н. А., Алексеева С. В. Особенности орфографической обработки падежных форм русских существительных в контексте предложения. Вестник Томского государственного университета. 2020, (454): 45–54.

Чернова 2022 — Чернова Д. А. Фонологическая и графическая репрезентации слова в ментальном лексиконе: восприятие омофонов при чтении. Вестник Санкт-Петербургского университета. Язык и литература. 2022, 19 (1): 181–194.

Andrews et al. 2020 — Andrews S., Veldre A., Clarke I. E. Measuring lexical quality: The role of spelling ability. Behavior Research Methods. 2020, 52 (6): 2257–2282.

Bates et al. 2015 — Bates D., Maechler M., Bolker B., Walker S. Fitting Linear Mixed-Effects Models Using lme4. Journal of Statistical Software. 2015, 67 (1): 1–48.

Bestgen, Granger 2011 — Bestgen Y., Granger S. Categorising spelling errors to assess L2 writing. InternationalJournal of Continuing Engineering Education and Life-Long Learning. 2011, 21 (2–3): 235–252.

Botley et al. 2007 — Botley S., Hakim F., Dillah D. Investigating Spelling Errors in a Malaysian Learner Corpus. Malaysian Journal of ELT Research. 2007, (3): 74–93.

Cook 1997 — Cook V. J. L2 Users and English Spelling. Journal of Multilingual and Multicultural Development. 1997, 18 (6): 474–488.

Cook 2014 — Cook V. J. The English writing system. London; New York: Routledge, 2014.

Flor, Futagi 2012 — Flor M., Futagi Y. On using context for automatic correction of non-word misspellings in student essays. In: Proceedings of the seventh workshop on building educational applications using NLP. 2012. P. 105–115.

Flor et al. 2015 — Flor M., Futagi Y., Lopez M., Mulholland M. Patterns of misspellings in L2 and L1 English: A view from the ETS Spelling Corpus. Bergen Language and Linguistics Studies. 2015, (6): 107–132.

Hothorn et al. 2015 — Hothorn T., Bretz F., Ag P., Westfall P. Simultaneous inference in general parametric models. Biometrical Journal. 2015, 50 (3): 346–363.

Klimova et al. 2021 — Klimova M. A., Smilga V. K., Overnikova D. A. Using an Error-Annotated Learner Corpus (REALEC) in DDL Lessons. In: Trudy mezhdunarodnoi konferentsii “Korpusnaia lingvistika — 2021”. Zakharov V. P. (ed.). St. Petersburg: St. Petersburg University Press, 2021. Р. 112–121.

Leacock et al. 2015 — Leacock C., Chodorow M., Tetreault J. Automatic grammar and spell-checking for language learners. In: The Cambridge Handbook of Learner Corpus Research. Granger S., Gilquin G., Meunier F. (eds). Cambridge: Cambridge University Press, 2015. P. 267–286.

Okada 2005 — Okada T. A Corpus-based Study of Spelling Errors of Japanese EFL Writers with Reference to Errors Occurring in Word-initial and Word-final Positions. In: Second Language Writing Systems. Cook V., Bassetti B. (eds). Clevedon; Buffalo; Toronto: Multilingual Matters, 2005. P. 164–183.

Perfetti 1985 — Perfetti C. A. Reading ability. Oxford: Oxford University Press, 1985.

Perfetti 2007 — Perfetti C. A. Reading ability: Lexical quality to comprehension. Scientific Studies of Reading. 2007, 11 (4): 357–383.

Perfetti, Hart 2001 — Perfetti C. A., Hart L. The lexical basis of comprehension skill. In: On the consequences of meaning selection: Perspectives on resolving lexical ambiguity. Gorfein D. S. (ed.). Washington: American Psychological Association, 2001. P. 67–86.

Rahmanian, Kuperman 2019 — Rahmanian S., Kuperman V. Spelling errors impede recognition of correctly spelled word forms. Scientific Studies of Reading. 2019, 23 (1): 24–36. R Core Team 2013 — R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. Vienna, 2013. Available at: http://www.R-project.org/ (accessed: 22.07.2022).

References

Алексеева, Слюсарь 2017 — Alexeeva S. V., Slioussar N. A. Orthographic neighbours: A database on Russian language and experimental studies of morphological decomposition. Voprosy psikholingvistiki. 2017, 32 (2): 12–27. (In Russian)

Чернова и др. 2020a — Chernova D. A., Alexeeva S. V., Slioussar N. A. What do we learn from mistakes: Processing difficulties with frequently misspelled words. Komp’iuternaia lingvistika i intellektual’nye tekhnologii. 2020, (19): 147–159. (In Russian)

Чернова и др. 2020б — Chernova D. A., Slioussar N. A., Alexeeva S. V. Orthographic processing of Russian case forms in sentential context. Vestnik Tomskogo gosudarstvennogo universiteta. 2020, (454): 45–54. (In Russian)

Чернова 2022 — Chernova D. A. Phonological and graphic representations of words in mental lexicon: Homophone processing while reading. Vestnik of Saint Petersburg University. Language and Literature. 2022, 19 (1): 181–194. (In Russian)

Andrews et al. 2020 — Andrews S., Veldre A., Clarke I. E. Measuring lexical quality: The role of spelling ability. Behavior Research Methods. 2020, 52 (6): 2257–2282.

Bates et al. 2015 — Bates D., Maechler M., Bolker B., Walker S. Fitting Linear Mixed-Effects Models Using lme4. Journal of Statistical Software. 2015, 67 (1): 1–48.

Bestgen, Granger 2011 — Bestgen Y., Granger S. Categorising spelling errors to assess L2 writing. InternationalJournal of Continuing Engineering Education and Life-Long Learning. 2011, 21 (2–3): 235–252.

Botley et al. 2007 — Botley S., Hakim F., Dillah D. Investigating Spelling Errors in a Malaysian Learner Corpus. Malaysian Journal of ELT Research. 2007, (3): 74–93.

Cook 1997 — Cook V. J. L2 Users and English Spelling. Journal of Multilingual and Multicultural Development. 1997, 18 (6): 474–488.

Cook 2014 — Cook V. J. The English writing system. London; New York: Routledge, 2014.

Flor, Futagi 2012 — Flor M., Futagi Y. On using context for automatic correction of non-word misspellings in student essays. In: Proceedings of the seventh workshop on building educational applications using NLP. 2012. P. 105–115.

Flor et al. 2015 — Flor M., Futagi Y., Lopez M., Mulholland M. Patterns of misspellings in L2 and L1 English: A view from the ETS Spelling Corpus. Bergen Language and Linguistics Studies. 2015, (6): 107–132.

Hothorn et al. 2015 — Hothorn T., Bretz F., Ag P., Westfall P. Simultaneous inference in general parametric models. Biometrical Journal. 2015, 50 (3): 346–363.

Klimova et al. 2021 — Klimova M. A., Smilga V. K., Overnikova D. A. Using an Error-Annotated Learner Corpus (REALEC) in DDL Lessons. In: Trudy mezhdunarodnoi konferentsii “Korpusnaia lingvistika — 2021”. Zakharov V. P. (ed.). St. Petersburg: St. Petersburg University Press, 2021. Р. 112–121.

Leacock et al. 2015 — Leacock C., Chodorow M., Tetreault J. Automatic grammar and spell-checking for language learners. In: The Cambridge Handbook of Learner Corpus Research. Granger S., Gilquin G., Meunier F. (eds). Cambridge: Cambridge University Press, 2015. P. 267–286.

Okada 2005 — Okada T. A Corpus-based Study of Spelling Errors of Japanese EFL Writers with Reference to Errors Occurring in Word-initial and Word-final Positions. In: Second Language Writing Systems. Cook V., Bassetti B. (eds). Clevedon; Buffalo; Toronto: Multilingual Matters, 2005. P. 164–183.

Perfetti 1985 — Perfetti C. A. Reading ability. Oxford: Oxford University Press, 1985.

Perfetti 2007 — Perfetti C. A. Reading ability: Lexical quality to comprehension. Scientific Studies of Reading. 2007, 11 (4): 357–383.

Perfetti, Hart 2001 — Perfetti C. A., Hart L. The lexical basis of comprehension skill. In: On the consequences of meaning selection: Perspectives on resolving lexical ambiguity. Gorfein D. S. (ed.). Washington: American Psychological Association, 2001. P. 67–86.

Rahmanian, Kuperman 2019 — Rahmanian S., Kuperman V. Spelling errors impede recognition of correctly spelled word forms. Scientific Studies of Reading. 2019, 23 (1): 24–36. R Core Team 2013 — R Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing. Vienna, 2013. Available at: http://www.R-project.org/ (accessed: 22.07.2022).

Загрузки

Опубликован

25.04.2024

Как цитировать

Климова, М. А., Виклова, А. В., & Оверникова, Д. А. (2024). Обработка слов с частотными орфографическими ошибками (исследование на базе учебного корпуса английского языка). Вестник Санкт-Петербургского университета. Язык и литература, 20(4), 824– 837. https://doi.org/10.21638/spbu09.2023.409

Выпуск

Раздел

Языкознание