Проект Моби - Moby Project

В Проект Моби представляет собой набор общедоступных лексических ресурсов. Он был создан Грэди Уорд. Ресурсы были выделены в общественное достояние и теперь отображаются на Проект Гутенберг. По состоянию на 2007 г.^{[Обновить]}, он содержит самую большую бесплатную фонетическую базу данных, содержащую 177 267 слов с соответствующими вариантами произношения.^{[нужна цитата ]}

Переносчик

В Moby Hyphenator II содержит переносы из 187 175 слов и словосочетаний (включая 9 752 словарных статей без переносов, например через и Эворир). Кодировка символов выглядит так: МакРоман, а расстановка переносов обозначается маркером (десятичное значение символа 165 или шестнадцатеричное A5). Однако некоторые записи содержат комбинацию фактических дефисов и символа 165, например, «bar • ber-sur • geon».

Документация о сделанных вариантах расстановки переносов практически отсутствует; следующие примеры могут дать некоторое представление об используемом стиле расстановки переносов: at • mos • phere; у • усы • муравей; емкость; un • col • или • a • ble.

Язык

Язык Моби II содержит словари на пяти языках: Французский, Немецкий, Итальянский, Японский, и испанский:

Язык	Слова	Размер (в байты )
Французский	138,257	1,524,757
Немецкий	159,809	2,055,986
Итальянский	60,453	561,981
Японский	115,523	934,783
испанский	86,059	850,523
Общий	560,101	5,928,030

Однако некоторые списки загрязнены, например, список на японском языке содержит английские слова, такие как аномальный и не слова, такие как abcdefgh и м,. /. Есть также необычные особенности в сортировке этих списков, так как французский список содержит прямой алфавитный список, в то время как немецкий список содержит алфавитный список слов с традиционно заглавными буквами, а затем алфавитный список слов с традиционным нижним регистром. Список итальянских слов, однако, не содержит слов с заглавной буквы.

В списке иностранных языков не используются символы с диакритическими знаками, поэтому «e ^ tre» - это то, как пользователь будет искать французское слово. être ("быть").

Часть речи

Часть речи Моби содержит 233 356 слов, полностью описанных части речи, перечисленные в порядке приоритета. Формат файла слово части речи, при этом выделяются следующие части речи:

Часть речи	Код
Имя существительное	N
Множественное число	п
Словосочетание	час
Глагол (обычно причастие )	V
Переходный глагол	т
Непереходный глагол	я
Прилагательное	А
Наречие	v
Соединение	C
Предлог	п
Междометие	!
Местоимение	р
Определенный артикль	D
Неопределенный артикль	я
Именительный падеж	о

Произношений

В Moby Pronunciator II содержит 177 267 записей с соответствующим произношением. Большинство записей описывают одно слово, но примерно 79000^[1] содержать через дефис или несколько словосочетаний, имен или лексемы. Дистрибутив Project Gutenberg также содержит копию судить v0.3. Файл содержит строки формата слово [/ часть речи] произношение. Каждая строка заканчивается ASCII Возврат каретки символ (CR, ' r', 0x0D, 13 в десятичной системе).

В слово поле может включать апострофы (например, не), дефисы (например, трудоспособный) и несколько слов, разделенных подчеркиванием (например, monkey_wrench). Неанглийские слова обычно отображаются, как указано в документации, без акцентов и других диакритических знаков. Однако в 36 записях (например, São_Miguel), остаются некоторые символы с диакритическими знаками, отличными от ASCII, представленные с использованием Mac OS Роман кодирование.

Поле части речи используется для устранения неоднозначности 770 слов, которые имеют разное произношение в зависимости от их части речи. Например, для написанных слов Закрыть, глагол имеет произношение /ˈkлoʊz/, тогда как прилагательное /ˈkлoʊs/. Частям речи присвоены следующие коды:

Часть речи	Код
Имя существительное	п
Глагол	v
Прилагательное	эй
Наречие	средний
Междометие	Interj

Далее следует произношение. Присутствуют несколько специальных символов:

Символ	Смысл
_	Используется для разделения слов
'	Первичный стресс на следующий слог
,	Вторичный стресс на следующий слог

Остальные символы используются для обозначения IPA символы. Произношение в целом соответствует General American диалект английского языка, который показывает слияние отца и беспокойства, поспешное слияние и много ткани сплит, но не выставляется банальное слияние или же винное слияние. Каждая фонема представлена последовательностью из одного или нескольких символов. Некоторые последовательности разделены косой чертой «/», как показано в следующей таблице, но обратите внимание, что последовательность для /ɔɪ/ ограничен два косые черты с обоих концов:

Символ	IPA
/&/	æ
/-/	ə
/@/	ʌ, ə
/[@]/р	ɜr, ər
/ A /	ɑ, ɑː
/ aI /	аɪ
/ AU /	аʊ
б	б
d	d
/ D /	ð
/ dZ /	dʒ
/ E /	ɛ
/ eI /	eɪ
ж	ж
грамм	ɡ
час	час
hw	hw
/я/	я
/Я/	ɪ
/ j /	j
/ ju /	juː
k	k
л	л
м	м
п	п
/ N /	ŋ
/ O /	ɔ, ɔː
// Ой //	ɔɪ
/ОУ/	oʊ
п	п
р	р
s	s
/ S /	ʃ
т	т
/ T /	θ
/ tS /	tʃ
/ u /	u
/ U /	ʊ
v	v
ш	ш
z	z
/ Z /	ʒ

К этой коллекции добавлен ряд дополнительных последовательностей, представляющих фонемы, встречающиеся в нескольких других языках. Они используются для кодирования неанглийских слов, фраз и имен, включенных в базу данных. Следующая таблица содержит эти дополнительные фонемы, но обратите внимание, что степень, в которой некоторые из них могут существовать из-за ошибок кодирования, не ясна.

Символ	IPA
А	а
е	е, ɛ
я	я, ɪ
N	Назализация предшествующей гласной
о	о
О	[намерение неясно]
р	ʁ
S	s
ты	ты
V	v, β, ʋ
W	ш
/Икс/	Икс
/ г /	ø
Y	y
/ z /	ts
Z	z

Шекспир

Моби Шекспир содержит полные несокращенные произведения Шекспир. Этот конкретный ресурс недоступен в Project Gutenberg.

Тезаурус

В Моби Тезаурус II содержит 30 260 корневых слов, из них 2,520 264 синонимы и родственные термины - в среднем 83,3 на одно корневое слово. Каждая строка состоит из списка значения, разделенные запятыми, причем первый термин является корневым словом, а все последующие слова - родственными терминами.

Грэди Уорд поместил этот тезаурус в всеобщее достояние в 1996 году. Он также доступен как Debian упаковка.

Слова

Моби Вордс II это самый большой список слов в мире.^[2]^{[требуется дополнительная ссылка (и) ]} Дистрибутив состоит из следующих 16 файлов:

Имя файла	Слова	Описание
ACRONYMS.TXT	6,213	Общий акронимы и сокращения
COMMON.TXT	74,550	Общие слова, присутствующие в двух или более опубликованных словарях
COMPOUND.TXT	256,772	Фразы, имена собственные, и акронимы не включен в файл общих слов
CROSSWD.TXT	113,809	Слова, включенные в первое издание Официальный словарь Scrabble Players
CRSWD-D.TXT	4,160	Дополнения к официальному словарю Scrabble Players во втором издании
FICTION.TXT	467	Список наиболее часто встречающихся подстроки в книге Клуб радости и удачи
FREQ.TXT	1,000	Наиболее часто встречающиеся слова в английский язык, перечисленные в порядке убывания
FREQ-INT.TXT	1,000	Наиболее часто встречающиеся слова на Usenet в 1992 г. указаны с соответствующим процентом в порядке убывания
KJVFREQ.TXT	1,185	Наиболее часто встречающиеся подстроки в Версия Библии короля Якова, перечислены в порядке убывания
NAMES.TXT	21,986	Наиболее общий имена используется в США и Великобритания
ИМЕНА-F.TXT	4,946	Общий английский женский имена
ИМЕНА-M.TXT	3,897	Общий английский мужчина имена
OFTENMIS.TXT	366	Самые распространенные английские слова с ошибками
PLACES.TXT	10,196	Названия мест в США
SINGLE.TXT	354,984	Отдельные слова, исключая имена собственные, сокращения, составные слова и фразы, но включая архаичный слова и значимые варианты написания
USACONST.TXT	7,618	Конституция Соединенных Штатов включая все поправки, действующие до 1993 г.
Общий	863,149	Не все уникальные слова.
Всего Uniq	639,995	Всего отдельных существительных, имен собственных, сокращений и составных слов и фраз (все файлы, содержащие уникальные слова).

внешняя ссылка

Домашняя страница проекта Moby, Университет Шеффилда; копировать сделано Wayback Machine страницы, как это было на 30 сентября 2017 г. («Последнее изменение: 24 октября 2000 г.»)
Загрузки Project Gutenberg
Поиск рифм на Perl; соответствующий код

[1] Получается при выполнении команды UNIX grep '. * [-_]. *. *' mobypron.unc | wc -l после преобразования окончаний строк и исправления некоторых ошибок кодирования.

[2] Электронные словари

[1]

[2]