Statistical analysis of near-synonymous words list and catalog in R

  • Андрей Валерьевич Носов

Аннотация

В данной статье приводятся результаты регрессионного анализа двух близких по значению слов list и catalog. Целью анализа является выделение наиболее объективного варианта на основе моделирования грамматических интеракций, оказывающих влияние на актуализацию рассматриваемых слов в языке. Определение list и catalog в качестве объективных и независимых лексических единиц осуществляется в системе различий и противопоставлений. На начальном этапе согласно вероятностному распределению выделяются два наиболее частотных типа интеракций при употреблении слов list и catalog. Затем модели с предикторами PRE.MOD и GENITIVE.MEAN сопоставляются с моделью без интеракций, что продиктовано необходимостью показать различие между моделями на уровне дисперсии, так как сопоставление средних значений не всегда выявляет все аспекты изучаемого явления (ср.: средние значения моделей могут быть статистически одинаковыми). Таким образом, три статистические гипотезы сопоставляются попарно. Основная, нулевая гипотеза состоит в том, что дисперсии трех рассматриваемых моделей статистически одинаковы, и альтернативная — в том, что эти дисперсии статистически различны. Оценка модели без интеракций является предсказательным логитом list для вышеуказанных уровней отсчета. Коэффициенты логистической регрессии отражают вероятность изменений при взаимодействии с тем или иным предиктором. На этапе нормализации применяется модель бинарного выбора Хосмера—Лемешоу, по результатам применения которой принимается решение о необходимости выравнивания полученных результатов или ее отсутствии. Также выявляется присутствие / отсутствие образцов корреляции среди рассмотренных предикторов на основе функции lrm, что определяет меру надежности используемой модели и позволяет получить доверительные интервалы расчетных коэффициентов. Данный подход отражает новизну работы и позволяет выявить факторы, определяющие выбор того или иного понятия, исходя из объективных семантических критериев. Интеракции рассматриваются на 4 уровнях: научный, литературный, новостной и разговорный. Итоги работы позволяют дополнить содержание слов list и catalog и выявить их динамику.

Ключевые слова:

корпусная лингвистика, логистическая регрессия, сравнительный анализ, семантика, синоним, список, каталог

Скачивания

Данные скачивания пока недоступны.
 

Литература


References

Church et al. 1994 — Church K. W., Gale W., Hanks P., Hindle D., Moon R. “Lexical substitutability”. Computational Approaches to the Lexicon. Atkins B. T. S., Zampolli A. (eds.). Oxford: Oxford University Press, 1994, pp. 153–177.

Geeraerts 2010 — Geeraerts D. Theories of Lexical Semantics. Oxford: Oxford University Press, 2010, 341 p.

Gibbs 2006 — Gibbs R. W. “Metaphor Interpretation as Embodied Simulation”. Mind & Language. 21 (3), 2006: 434–458.

Gilquin 2003 — Gilquin G. “Causative ‘Get’ and ‘Have’: So Close, So Different”. Journal of English Linguistics. 31 (2), 2003: 125–148.

Glynn 2010 — Glynn D. “Synonymy, Lexical Fields, and Grammatical Constructions. Developing Usagebased Methodology for Cognitive Semantics”. Cognitive Foundations of Linguistic Usage Patterns. Schmid H.-J., Handl S. (eds.). [Berlin; New York]: De Gruyter Mouton, 2010, рр. 89–118.

Gries 2001 — Gries S. Th. “A Corpus-linguistic Analysis of -ic and -ical Adjectives”. ICAME Journal. 25, 2001: 65–108.

Gries, Otani 2010 — Gries S. Th., Otani N. “Behavioral Profiles: A Corpus-based Perspective on Synonymy and Antonymy”. ICAME Journal. 34, 2010: 121–150.

Hosmer, Lemeshow 1989 — Hosmer D. W., Lemeshow S. Applied Logistic Regression. New York: Wiley, 1989, XIII, 307 p.

Hunston 2002 — Hunston S. Corpora in Applied Linguistics. Cambridge: Cambridge University Press, 2002, 241 p.

Leitner 1993 — Leitner G. “Where to ‘Begin’ or ‘Start’? Aspectual Verbs in Dictionarie”. Data, Description, Discourse: Papers on the English Language in Honour of J. McH Sinclair on His 60th Birthday. Hoey M. (ed.). London: Harper Collins, 1993, рр. 50–63.

Levshina 2015 — Levshina N. How to Do Linguistics with R: Data Exploration and Statistical Analysis. Amsterdam; Philadelphia: John Benjamins, 2015, 443 p.

Levshina et al. 2014 — Levshina N., Geeraerts D., Speelman D. “Dutch Causative Constructions with Doen and Laten: Quantification of Meaning and Meaning of Quantification”. Corpus Methods for Semantics: Quantitative Studies in Polysemy and Synonymy. Glynn D., Robinson J. (ed.). Amsterdam: John Benjamins, 2014, pp. 205–221.

Miller, Walter 1991 — Miller G. A., Walter G. Ch. “Contextual Correlates of Semantic Similarity”. Language and Cognitive Processes. 6 (1), 1991: 1–28.

Minitab Inc. 2010 — “Minitab Inc.”. Softline Ltd. Educational portal. 2010. URL: http://support.minitab.com/en-us/minitab/17/topic-library/modeling-statistics/regression-and-correlation/regression-models/what-are-response-and-predictor-variables/ (accessed date: 29.05.2017).

Nosov 2016 — Nosov A. V. “Lingvisticheskie parametry kontseptov «list» i «catalog»: Variant obrabotki iazyka dlia komp’iuternykh system [Linguistic Parameters of the Concepts “LIST” and “CATALOG”: Language Processing Version for Computer Systems]”. Vestnik Permskogo un-ta: Rossiskaia i zarubezhnaia filologiia [Bulletin of Perm University: Russian and Foreign Philology]”. 4 (36), 2016: 75–82. (In Russian)

Phoocharoensil 2010 — Phoocharoensil S. A. “Corpus-Based Study of English Synonyms”. International Journal of Arts and Sciences. 3 (10), 2010: 227–245.

Shah, Barnwell 2003 — Shah B. V., Barnwell B. G. “Hosmer-Lemeshow Goodness of Fit Test for Survey Data Research”. 2003 ASA Proceedings: Papers Presented at the Annual Meeting of the American Statistical Association: Joint Statistical Meetings, San Francisco, California, August 3–7, 2003, and Other ASAsponsored Conferences. S. l.: American Statistical Association, 2003, pp. 3778–3781.

Speelman 2014 — Speelman D. “Logistic Regression: A Confirmatory Technique for Comparisons in Corpus Linguistics”. Corpus Methods for Semantics: Quantitative Studies in Polysemy and Synonymy. Glynn D., Robinson J. (eds.). Amsterdam: John Benjamins, 2014, pp. 487–533.

Опубликован
2018-12-19
Как цитировать
Носов, А. В. (2018). Statistical analysis of near-synonymous words list and catalog in R. Вестник Санкт-Петербургского университета. Язык и литература, 15(3), 453–464. https://doi.org/10.21638/spbu09.2018.310
Раздел
Языкознание