CorCenCC - CorCenCC

Проект CorCenCC и логотип Корпуса

CorCenCC или (валлийский: Corpws Cenedlaethol Cymraeg Cyfoes) Национальный корпус современного валлийского языка это языковой ресурс для валлийский носители языка, изучающие валлийский язык, исследователи валлийского языка и все, кто интересуется валлийским языком. CorCenCC - это свободно доступная коллекция образцов на нескольких языках, собранная в ходе реального общения и представленная в доступном для поиска в Интернете CorCenCC. текстовый корпус. Корпус сопровождается интерактивным набором инструментов для преподавания и обучения - Y Tiwtiadur[1] - который напрямую опирается на данные из корпуса, чтобы предоставить ресурсы для изучения валлийского языка для всех возрастов и уровней.

CorCenCC, запущенный в сентябре 2020 года, является первым корпусом валлийского языка, который включает в себя все три аспекта современного валлийского: разговорный, письменный и электронный (электронный).

Сочинение

CorCenCC расширяет 11 миллионов слов естественного валлийского языка (примечание: версия корпуса, доступная на веб-сайте CorCenCC, дает результаты в токенах, а не в словах). Создание CorCenCC было проектом сообщества, который предлагал пользователям валлийского языка возможность внести свой вклад в ресурс валлийского языка, отражающий то, как валлийский язык используется в настоящее время. Таким образом, набор данных предлагает моментальный снимок валлийского языка в различных контекстах использования, например частные беседы, групповое общение, деловые и другие рабочие ситуации, в образовании, в различных изданиях и в общественных местах. Полный список контекстов, жанров и тем доступен на сайте проекта.

Разговоры были записаны исследовательской группой, а краудсорсинг Приложение позволило носителям валлийского языка в сообществе записывать и загружать образцы своего собственного языка в корпус. Опубликованный корпус CorCenCC был отобран от различных носителей и пользователей валлийского языка из всех регионов Уэльса, всех возрастов и полов, с широким спектром занятий и с различным лингвистическим образованием (например, как они начали говорить Валлийский), чтобы отразить разнообразие типов текстов и говорящих на валлийском языке в современном Уэльсе.[2]

Инструменты

  • Набор данных на валлийском языке из 11 миллионов слов
  • Основа выборки CorCenCC
  • Протоколы транскрипции для разговорного валлийского языка
  • Набор тегов POS и теггер на валлийском языке, CyTag[3] (Английский: /ˈkəтæɡ/): валлийский теггер POS (с индивидуальным набором тегов), разработанный и созданный для этого проекта. Он используется вместе с семантическим тегом для тегирования всех лексических элементов в корпусе.
  • CySemTag (английский: /ˈkəsɛмˌтæɡ/): Валлийский семантический теггер[4][5][6] автоматически применяет аннотацию корпуса к данным на валлийском языке.
  • Педагогический инструментарий валлийского языка, Y Tiwtiadur[7] (Валлийское произношение:[ə tiutˈjadɪr]), который включает:
    • инструмент для заполнения зазоров (закрытия)
    • инструмент Word Profiler
    • инструмент идентификации слов
    • инструмент Word Task Creator
  • Краудсорсинговое приложение[2] для сбора данных: позволяет носителям валлийского языка записывать разговоры между собой и другими людьми в различных контекстах и ​​загружать их с согласия участников с соблюдением этических норм для включения в окончательный корпус. Краудсорсинговый корпус данных - это относительно новое направление, которое дополняет более традиционные методы сбора языковых данных и соответствует духу сообщества, существующему среди носителей и изучающих валлийский и другие языки. миноритарные языки.
  • Новая инфраструктура корпуса CorCenCC[8] инструменты запросов, которые включают следующие функции:
    • Простой запрос
    • Сложный запрос
    • Генерация списка частот
    • Анализ коллокаций
    • N-граммовый анализ
    • Согласование
    • Анализ ключевых слов

Финансирование

Исследование, на котором был основан проект CorCenCC, финансировалось Министерством экономики и социальной защиты Великобритании. Исследовательский совет (ESRC ) и Совет по исследованиям в области искусства и гуманитарных наук (AHRC ) в качестве "Corpws Cenedlaethol Cymraeg Cyfoes (The National Corpus of Contemporary Welsh): Подход сообщества к проекту создания лингвистического корпуса »(номер гранта ES / M011348 / 1).

внешняя ссылка

Рекомендации

  1. ^ "Y Tiwtiadur - CorCenCC - Национальный корпус современного валлийского языка". Получено 2020-09-18.
  2. ^ а б Neale, S .; Спасич, I .; Потребности, Дж .; Watkins, G .; Morris, S .; Фитцпатрик, Т .; Marshall, L .; Найт, Д. (2017), "Краудсорсинговое приложение CorCenCC: специализированный инструмент для пользовательского создания национального корпуса современного валлийского языка", Конференция Corpus Linguistics 2017, Университет Ньюкасла
  3. ^ Neale, S .; Доннелли, К .; Watkins, G .; Найт, Д. (май 2018 г.). «Использование лексических ресурсов и грамматики ограничений для разметки частей речи на основе правил на валлийском языке». Стендовый доклад, представленный на конференции LREC (Language Resources Evaluation) 2018. Миядзаки, Япония.CS1 maint: дата и год (связь)
  4. ^ «Система семантического анализа UCREL (USAS)». ucrel.lancs.ac.uk. Получено 2020-09-18.
  5. ^ Piao, S .; Rayson, P .; Knight, D .; Уоткинс, Г. (май 2018 г.), «На пути к валлийской семантической системе аннотаций», Материалы конференции LREC (Language Resources Evaluation) 2018, Миядзаки, ЯпонияCS1 maint: дата и год (связь)
  6. ^ Piao, S .; Rayson, P .; Knight, D .; Watkins, G .; Доннелли, К. (июль 2017 г.), «К валлийскому семантическому теггеру: создание лексиконов для языка с ограниченными ресурсами», Труды конференции Corpus Linguistics 2017, Университет Бирмингема, Бирмингем, ВеликобританияCS1 maint: дата и год (связь)
  7. ^ Дэвис, Дж .; Thomas, E-M .; Фитцпатрик, Т .; Потребности, Дж .; Энтони, L .; Cobb, T .; Рыцарь, Д. (2020). "Y Tiwtiadur. [Цифровой ресурс]".
  8. ^ Knight, D .; Loizides, F .; Neale, S .; Энтони, L .; Спасич, И. (2020). «Разработка вычислительной инфраструктуры для корпуса CorCenCC: Национальный корпус современного валлийского языка». Языковые ресурсы и оценка: 1–28. Дои:10.1007 / s10579-020-09501-9.