EGround
Редактор
- Сообщения
- 24.319
- Реакции
- 127
Складчина: Лингвистические корпуса и их количественный анализ (Курс "Компьютерная лингвистика") [Архэ] [Александр Пиперски]
Компьютерная лингвистика — одна из наиболее динамично развивающихся областей на стыке теории и практики. С достижениями компьютерной лингвистики мы сталкиваемся каждый день: это и машинный перевод, и поиск в Интернете, и голосовые помощники, и многое другое. За каждым таким продуктом стоит серьёзная работа лингвистов и программистов. В ходе курса мы поговорим об истории компьютерной лингвистики и о наиболее популярных её методах, а также посмотрим, как они позволяют решать важные практические задачи: например, проверять орфографию или классифицировать по темам новости.
3. Лингвистические корпуса и их количественный анализ
Бо́льшая часть компьютерно-лингвистических приложений сейчас опирается на большие массивы собранных текстов — лингвистические корпуса. Некоторые из них, например Национальный корпус русского языка (), доступны для онлайн-поиска и позволяют также получать результаты, интересные и с точки зрения традиционной, некомпьютерной лингвистики. На занятии мы поговорим о том, как устроены такие большие собрания текстов и какими количественными свойствами они обладают: например, чем частотное распределение слов в корпусах похоже на численность населения городов и почему большинство слов в любом корпусе, какой бы мы ни взяли, встречаются только один раз.
Лектор: Пиперски Александр Чедович, кандидат филологических наук, доцент Института лингвистики РГГУ, научный сотрудник Школы филологии НИУ ВШЭ.
Материал «Лингвистические корпуса и их количественный анализ (Курс «Компьютерная лингвистика») [Архэ] [Александр Пиперски]», возможно, скоро появится на EGROUND.
Воспользуйтесь поиском, может быть, он уже опубликован.