Проект Моби - Moby Project

В Проект Моби представляет собой набор общедоступных лексических ресурсов. Он был создан Грэди Уорд. Ресурсы были выделены в общественное достояние и теперь отображаются на Проект Гутенберг. По состоянию на 2007 г., он содержит самую большую бесплатную фонетическую базу данных, содержащую 177 267 слов с соответствующими вариантами произношения.[нужна цитата ]

Переносчик

В Moby Hyphenator II содержит переносы из 187 175 слов и словосочетаний (включая 9 752 словарных статей без переносов, например через и Эворир). Кодировка символов выглядит так: МакРоман, а расстановка переносов обозначается маркером (десятичное значение символа 165 или шестнадцатеричное A5). Однако некоторые записи содержат комбинацию фактических дефисов и символа 165, например, «bar • ber-sur • geon».

Документация о сделанных вариантах расстановки переносов практически отсутствует; следующие примеры могут дать некоторое представление об используемом стиле расстановки переносов: at • mos • phere; у • усы • муравей; емкость; un • col • или • a • ble.

Язык

Язык Моби II содержит словари на пяти языках: Французский, Немецкий, Итальянский, Японский, и испанский:

ЯзыкСловаРазмер (в байты )
Французский138,2571,524,757
Немецкий159,8092,055,986
Итальянский60,453561,981
Японский115,523934,783
испанский86,059850,523
Общий560,1015,928,030

Однако некоторые списки загрязнены, например, список на японском языке содержит английские слова, такие как аномальный и не слова, такие как abcdefgh и м,. /. Есть также необычные особенности в сортировке этих списков, так как французский список содержит прямой алфавитный список, в то время как немецкий список содержит алфавитный список слов с традиционно заглавными буквами, а затем алфавитный список слов с традиционным нижним регистром. Список итальянских слов, однако, не содержит слов с заглавной буквы.

В списке иностранных языков не используются символы с диакритическими знаками, поэтому «e ^ tre» - это то, как пользователь будет искать французское слово. être ("быть").

Часть речи

Часть речи Моби содержит 233 356 слов, полностью описанных части речи, перечисленные в порядке приоритета. Формат файла слово части речи, при этом выделяются следующие части речи:

Часть речиКод
Имя существительноеN
Множественное числоп
Словосочетаниечас
Глагол (обычно причастие )V
Переходный глаголт
Непереходный глаголя
ПрилагательноеА
Наречиеv
СоединениеC
Предлогп
Междометие!
Местоимениер
Определенный артикльD
Неопределенный артиклья
Именительный падежо

Произношений

В Moby Pronunciator II содержит 177 267 записей с соответствующим произношением. Большинство записей описывают одно слово, но примерно 79000[1] содержать через дефис или несколько словосочетаний, имен или лексемы. Дистрибутив Project Gutenberg также содержит копию судить v0.3. Файл содержит строки формата слово [/ часть речи] произношение. Каждая строка заканчивается ASCII Возврат каретки символ (CR, ' r', 0x0D, 13 в десятичной системе).

В слово поле может включать апострофы (например, не), дефисы (например, трудоспособный) и несколько слов, разделенных подчеркиванием (например, monkey_wrench). Неанглийские слова обычно отображаются, как указано в документации, без акцентов и других диакритических знаков. Однако в 36 записях (например, São_Miguel), остаются некоторые символы с диакритическими знаками, отличными от ASCII, представленные с использованием Mac OS Роман кодирование.

Поле части речи используется для устранения неоднозначности 770 слов, которые имеют разное произношение в зависимости от их части речи. Например, для написанных слов Закрыть, глагол имеет произношение /ˈkлz/, тогда как прилагательное /ˈkлs/. Частям речи присвоены следующие коды:

Часть речиКод
Имя существительноеп
Глаголv
Прилагательноеэй
Наречиесредний
МеждометиеInterj

Далее следует произношение. Присутствуют несколько специальных символов:

СимволСмысл
_Используется для разделения слов
'Первичный стресс на следующий слог
,Вторичный стресс на следующий слог

Остальные символы используются для обозначения IPA символы. Произношение в целом соответствует General American диалект английского языка, который показывает слияние отца и беспокойства, поспешное слияние и много ткани сплит, но не выставляется банальное слияние или же винное слияние. Каждая фонема представлена ​​последовательностью из одного или нескольких символов. Некоторые последовательности разделены косой чертой «/», как показано в следующей таблице, но обратите внимание, что последовательность для /ɔɪ/ ограничен два косые черты с обоих концов:

СимволIPA
/&/æ
/-/ə
/@/ʌ, ə
/[@]/рɜr, ər
/ A /ɑ, ɑː
/ aI /аɪ
/ AU /аʊ
бб
dd
/ D /ð
/ dZ /
/ E /ɛ
/ eI /
жж
граммɡ
часчас
hwhw
/я/я
/Я/ɪ
/ j /j
/ ju /juː
kk
лл
мм
пп
/ N /ŋ
/ O /ɔ, ɔː
// Ой //ɔɪ
/ОУ/
пп
рр
ss
/ S /ʃ
тт
/ T /θ
/ tS /
/ u /u
/ U /ʊ
vv
шш
zz
/ Z /ʒ

К этой коллекции добавлен ряд дополнительных последовательностей, представляющих фонемы, встречающиеся в нескольких других языках. Они используются для кодирования неанглийских слов, фраз и имен, включенных в базу данных. Следующая таблица содержит эти дополнительные фонемы, но обратите внимание, что степень, в которой некоторые из них могут существовать из-за ошибок кодирования, не ясна.

СимволIPA
Аа
ее, ɛ
яя, ɪ
NНазализация предшествующей гласной
оо
О[намерение неясно]
рʁ
Ss
тыты
Vv, β, ʋ
Wш
/Икс/Икс
/ г /ø
Yy
/ z /ts
Zz

Шекспир

Моби Шекспир содержит полные несокращенные произведения Шекспир. Этот конкретный ресурс недоступен в Project Gutenberg.

Тезаурус

В Моби Тезаурус II содержит 30 260 корневых слов, из них 2,520 264 синонимы и родственные термины - в среднем 83,3 на одно корневое слово. Каждая строка состоит из списка значения, разделенные запятыми, причем первый термин является корневым словом, а все последующие слова - родственными терминами.

Грэди Уорд поместил этот тезаурус в всеобщее достояние в 1996 году. Он также доступен как Debian упаковка.

Слова

Моби Вордс II это самый большой список слов в мире.[2][требуется дополнительная ссылка (и) ] Дистрибутив состоит из следующих 16 файлов:

Имя файлаСловаОписание
ACRONYMS.TXT6,213Общий акронимы и сокращения
COMMON.TXT74,550Общие слова, присутствующие в двух или более опубликованных словарях
COMPOUND.TXT256,772Фразы, имена собственные, и акронимы не включен в файл общих слов
CROSSWD.TXT113,809Слова, включенные в первое издание Официальный словарь Scrabble Players
CRSWD-D.TXT4,160Дополнения к официальному словарю Scrabble Players во втором издании
FICTION.TXT467Список наиболее часто встречающихся подстроки в книге Клуб радости и удачи
FREQ.TXT1,000Наиболее часто встречающиеся слова в английский язык, перечисленные в порядке убывания
FREQ-INT.TXT1,000Наиболее часто встречающиеся слова на Usenet в 1992 г. указаны с соответствующим процентом в порядке убывания
KJVFREQ.TXT1,185Наиболее часто встречающиеся подстроки в Версия Библии короля Якова, перечислены в порядке убывания
NAMES.TXT21,986Наиболее общий имена используется в США и Великобритания
ИМЕНА-F.TXT4,946Общий английский женский имена
ИМЕНА-M.TXT3,897Общий английский мужчина имена
OFTENMIS.TXT366Самые распространенные английские слова с ошибками
PLACES.TXT10,196Названия мест в США
SINGLE.TXT354,984Отдельные слова, исключая имена собственные, сокращения, составные слова и фразы, но включая архаичный слова и значимые варианты написания
USACONST.TXT7,618Конституция Соединенных Штатов включая все поправки, действующие до 1993 г.
Общий863,149Не все уникальные слова.
Всего Uniq639,995Всего отдельных существительных, имен собственных, сокращений и составных слов и фраз (все файлы, содержащие уникальные слова).

Рекомендации

  1. ^ Получается при выполнении команды UNIX grep '. * [-_]. *. *' mobypron.unc | wc -l после преобразования окончаний строк и исправления некоторых ошибок кодирования.
  2. ^ Электронные словари

внешняя ссылка