Зоны частного использования - Private Use Areas

Зона дополнительного частного использования-B
Ассортимент	U + 100000..U + 10FFFF; (65 536 кодовых точек)
Самолет	СПУА-Б
Скрипты	Неизвестно
Назначено	65 534 кодовых точки
Неиспользованный	0 зарезервированных кодовых точек ; 2 не символов
История версий Unicode
2.0	65,534 (+65,534)
	Заметка:

Зона дополнительного частного использования-A
Ассортимент	U + F0000..U + FFFFF; (65 536 кодовых точек)
Самолет	СПУА-А
Скрипты	Неизвестно
Назначено	65 534 кодовых точки
Неиспользованный	0 зарезервированных кодовых точек ; 2 не символов
История версий Unicode
2.0	65,534 (+65,534)
	Заметка:

Зона частного использования
Ассортимент	U + E000..U + F8FF; (6400 кодовых точек)
Самолет	BMP
Скрипты	Неизвестно
Назначено	6400 кодовых точек
Неиспользованный	0 зарезервированных кодовых точек
История версий Unicode
1.0.0	5,632 (+5,632)
1.0.1	6,400 (+768)
	Заметка: Версия 1.0.1 перемещает и расширяет блок Private Use Area (ранее находившийся в U + E800-U + FDFF в версии 1.0.0).

В Unicode, а Зона частного использования (PUA) - это диапазон кодовые точки которые по определению не будут присвоены символам Консорциум Unicode.^[1] Определены три области частного использования: одна в Базовая многоязычная плоскость (U + E000–U + F8FF), и по одному, почти покрывая, самолеты 15 и 16 (U + F0000–U + FFFFD, U + 100000–U + 10FFFD). Кодовые точки в этих областях нельзя рассматривать как стандартные символы в самом Юникоде. Они намеренно оставлены неопределенными, чтобы третьи стороны могли определять свои собственные символы без конфликта с назначениями Консорциума Unicode. Согласно Политике стабильности Unicode,^[2] Частные области использования останутся выделенными для этой цели во всех будущих версиях Unicode.

Назначения для персонажей из области частного использования не обязательно должны быть «частными» в смысле строго внутренними для организации; ряд схем распределения был опубликован несколькими организациями. Такая публикация может включать в себя шрифт, поддерживающий определение (показывающий глифы), и программное обеспечение, использующее символы для личного использования (например, графический символ для функции «печать документа»). По определению, несколько частных лиц могут назначать разные символы одной и той же кодовой точке, в результате чего пользователь может видеть один частный символ из установленного шрифта там, где предназначался другой.

Определение

Согласно определению Unicode, кодовым точкам в областях частного использования назначаются символы - они не являются несимвольными, зарезервированными или неназначенными. Их категория является "Другое, личное использование (Co)", и имена символов не указаны. Репрезентативные глифы не предоставляются, а семантика символов оставлена на усмотрение частного лица.

Символам частного использования назначаются кодовые точки Unicode, интерпретация которых не указана в настоящем стандарте и использование которых может определяться частным соглашением между сотрудничающими пользователями. Эти символы предназначены для частного использования и не имеют определенной интерпретируемой семантики, кроме как по частному соглашению.
…
Для символов частного использования не предусмотрены диаграммы, поскольку любые такие символы по самой своей природе определяются только вне контекста этого стандарта.^[3]

Присвоение

В базовой многоязычной плоскости (плоскость 0) блок под названием «Область частного использования» имеет 6400 кодовых точек. Самолеты 15 и 16 почти^{[примечание 1]} полностью переданы двум дополнительным Зонам частного использования: Зоне дополнительного частного использования-A и Зоне дополнительного частного использования-B соответственно.

Для кодирования символов с самолетов 15 и 16 в UTF-16, следующий блок BMP назначается Суррогаты с высоким уровнем частного использования (U + DB80..U + DBFF, 128 кодовых точек).

Юникод: области частного использования
Определение по свойству символа: `Общая категория = Co`^[а]^[b]
Ассортимент	Самолет	Имя блока	Количество кодовых точек	Заметка
U + E000..U + F8FF	БМП (0)	Зона частного использования	6,400
U + F0000..U + FFFFD^[c]	ЩЕНОК (15)^[d]	Зона дополнительного частного использования-A	65,534	UTF-16 кодирует эти символы с помощью кодовых точек из блока Суррогаты высокого частного использования (U + DB80..U + DBFF) в BMP.
U + 100000..U + 10FFFD^[c]	ЩЕНОК (16)^[d]	Зона дополнительного частного использования-B	65,534
Заметки ^ Unicode 13.0 Данные ^ Стандарт Юникода, раздел 23.5: символы частного использования ^ Кодовые точки U + FFFFE, U + FFFFF, U + 10FFFE и U + 10FFFF: нехарактеры, а не символы частного использования. ^ Самолет частного использования: Unicode не опубликовал идентифицирующие имена для самолеты 15 и 16. Глава 2.8 говорит Два самолета для частного использования (самолеты 15 и 16), а имена блоков PUA Дополнительный PUA-A и Дополнительный PUA-B.

Применение

Инициатива по стандартизации использует

Многие люди и организации создали коллекции персонажей для PUA. Некоторые из этих соглашений о частном использовании опубликованы, поэтому другие разработчики PUA могут стремиться к неиспользуемым или менее используемым кодовым точкам, чтобы предотвратить дублирование. Некоторые символы и скрипты, ранее закодированные в соглашениях о частном использовании, фактически были полностью закодированы в Unicode, что потребовало сопоставлений из PUA с другими кодовыми точками Unicode.

Одно из наиболее известных и широко применяемых соглашений PUA поддерживается Реестр Unicode ConScript (CSUR). CSUR, который официально не одобрен и не связан с Консорциумом Unicode, обеспечивает отображение для созданных сценариев, таких как КЛИНГОНСКАЯ ПИКАДА и сценарий ференги (Звездный путь), Тенгвар и Cirth (Курсивные и рунические шрифты Дж. Р. Р. Толкина), Александра Мелвилла Белла Видимая речь, и алфавит доктора Сьюза из По ту сторону зебры. CSUR ранее закодировал нерасшифрованный Фест персонажей, а также Шавиан и Deseret алфавиты, которые были приняты для официальной кодировки в Unicode.

Еще одно общее соглашение PUA поддерживается Средневековый шрифт Unicode (MUFI). Этот проект пытается поддержать все сокращения писцов, лигатуры, заранее составленные символы, символы и альтернативные формы букв встречается в средневековых текстах, написанных латинским алфавитом. Конкретная цель MUFI - экспериментально определить, какие символы необходимы для представления этих текстов, и чтобы эти символы были официально закодированы в Unicode. Начиная с версии 5.1 Unicode, 152 символа MUFI были включены в официальную кодировку Unicode.

Некоторые согласованные коллекции символов PUA существуют частично или полностью, потому что Консорциум Unicode не спешит их кодировать. Некоторые, например, непредставленные языки, вероятно, в будущем будут закодированы. Некоторые необычные случаи, такие как вымышленные языки, выходят за рамки обычного Юникода, но не исключаются явно принципами Юникода и могут со временем проявиться (например, системы письма «Звездный путь» и «Толкин»). В других случаях предлагаемая кодировка нарушает один или несколько принципов Unicode и, следовательно, вряд ли когда-либо будет официально признана Unicode - в основном, когда пользователи хотят напрямую кодировать альтернативные формы, лигатуры или комбинации базового символа плюс диакритический знак (например, Схема TUNE).

Издательская организация	Тема	Используемая площадь PUA	Шрифт
CSUR	Искусственные скрипты	ПУА (БМП) и Самолет 15	Code2000
MUFI	Средневековые сценарии	PUA (BMP)	несколько
SIL	Фонетика и языки	PUA (BMP)	Charis SIL
ТИТУС	Древние и средневековые письменности	PUA (BMP)	TITUS Cyberbit Basic

Эмодзи - это кодировка символов изображения или смайлов, используемых в японских беспроводных сообщениях и веб-страницах. В Unicode 6.0 и более поздних версиях многие из них были закодированы в блоке Разные символы и пиктограммы и в других местах в SMP.
GB / T 20542-2006 («Расширение набора тибетских кодированных символов A») и GB / T 22238-2008 («Расширение B набора тибетских кодированных символов») Китайские национальные стандарты которые используют PUA для кодирования предварительно составленных тибетских лигатуры.
ГБ 18030 и ГБК используйте PUA для временного кодирования символов, которых нет в стандартах Unicode.
В Институт эстонского языка использует PUA для кодирования предварительно составленных латинских и кириллических символов^[4] без кодировки Unicode.
В Бесплатный проект шрифтов Tengwar использует отображение, отличное от Реестр Unicode ConScript это в значительной степени следует за дискуссионным докладом Майкла Эверсона в Тенгваре от 2001-03-07, но расходится в некоторых деталях.
В Стандарт MARC 21 использует PUA для кодирования восточноазиатских символов, присутствующих в MARC-8^[5] без кодировки Unicode.
В SIL Корпоративный PUA использует PUA для кодирования символов, используемых на языках меньшинств, которые еще не были приняты в Unicode.
В Проект STIX Fonts использует PUA для предоставления исчерпывающего набора шрифтов математических символов и алфавитов, многие из которых теперь также доступны в SMP, например в Математические буквенно-цифровые символы блок.
Новая кодировка тамильского Unicode (TUNE)^[6] это предлагаемая схема кодирования Тамильский это устраняет очевидные недостатки в текущей кодировке Unicode.

Использование поставщика

Неформально диапазон от U + F000 до U + F8FF известен как область корпоративного использования.

В Список Adobe Glyph используется для использования PUA для некоторых своих глифов.
яблоко перечисляет диапазон из 1280 символов в документации для разработчиков.^[7] U + F400 – U + F8FF в рамках PUA для использования Apple. Из них только 311 используется в диапазоне U + F700 – U + F8FF (Следующий (Следующий шаг и ОТКРЫТЬ ) и яблоко (Mac OS X AppKit)).^[8]
- Один из них - U + F8FF. Логотип Apple обычно поддерживается 8-битными наборами Apple.
WGL4 использует PUA (U + F001 и U + F002) для кодирования дубликатов лигатур f (U + FB01) ﬂ (U + FB02).^[9]
Microsoft несуществующая функция Services For Macintosh использовала U + F001 - U + F029 в качестве замены специальных символов, разрешенных в HFS но запрещено в NTFS и U + F02A для логотипа Apple.^[10]^[11]
В старых версиях своего компонента RichEdit Microsoft отображала U + F020 – U + F0FF внутри PUA на символьные шрифты. Для любого символа в этом диапазоне RichEdit покажет символ из символьного шрифта вместо определяемого конечным пользователем символа (EUDC).^[12]^[13]
AutoCAD^{[требуется разъяснение ]} использует U + F8FC – U + F8FE для ⌀ (знак диаметра), ± (знак плюс-минус ) и ° (знак градуса) соответственно.
Некоторые шрифты ставят Клавиша с логотипом Windows в U + F000.
Число U + F000 - это числовая последовательность, начинающаяся с 13 или 18 в некоторых видеоиграх, например Agar.io.
На Ubuntu, U + E0FF отображается как логотип "Круг друзей"^[14] и U + F200 "убунту" в Шрифт Ubuntu с надстрочным индексом «Круг друзей» (это само U + F0FF)^[15].
В 3270 шрифт включает Debian логотип на U + F100
в Linux Libertine шрифт, U + E000 отображает Смокинг, талисман Linux
В Font Awesome Значок шрифта использует PUA для отображения различных глифов.
Powerline, плагин строки состояния для vim, используйте U + E0A0 – U + E0A2 и U + E0B0 – U + E0B3 для дополнительных персонажи, рисовавшие коробки.^[16]^[17]
На Fira Sans шрифт, используемый в ОС Firefox, U + E003 отображается как Mozilla логотип (голова динозавра).
Набор многобайтовых символов Lotus (LMBCS), кодировка и набор символов, используемые внутри Лотос /IBM Лотос 1-2-3, Симфония, SmartSuite, Заметки, Домино а также ряд сторонних продуктов, таких как Microsoft Работает, использует некоторые символы (U + F862-U + F89F и U + F8FB-U + F8FE) в области частного использования для символов, не определенных в Unicode. Из этих, U + F8FB известно, что зарезервировано для валюта короны символ ("Kr"), и U + F8FC и U + F8FD позже были сопоставлены с U + FB02 (ﬂ ) и U + FB01 (ф ) соответственно. Кроме того, когда коды UTF-16 встроены в LMBCS, коды UTF-16, соответствующие U + F601 через U + F6FF заменяются на коды UTF-16, которые будут содержать нулевые байты, поскольку LMBCS не содержит встроенных нулевых байтов.^[18]^[19]
IBM зарезервировала несколько идентификаторы кодовых страниц для кодовых страниц PUA: Кодовая страница 1445 (IBM AFP PUA № 1), кодовая страница 1446 (ISO 10646 UCS-PUP15 ), кодовая страница 1447 (ISO 10646 UCS-PUP16 ), кодовая страница 1449 (PUA по умолчанию IBM).
Файловая система Windows использует U + F000 к U + F0FF блок, чтобы сбежать специальные символы.

Блоки Unicode PUA

В Unicode есть три блока PUA.^[20]

Персонажи частного использования в других наборах символов

Концепция резервирования определенных кодовых точек для частного использования основана на аналогичном более раннем использовании в других наборах символов. В частности, многие устаревшие символы в сценариях Восточной Азии продолжают использоваться в определенных именах или других ситуациях, и поэтому некоторые наборы символов для этих сценариев допускают использование символов частного использования (например, определяемые пользователем плоскости CNS 11643, или гайдзи в некоторых японских кодировках). Стандарт Unicode ссылается на эти виды использования под названием «Определение символов конечного пользователя» (EUCD).^[3]

Кроме того, Блок управления C1 содержит два кода, предназначенных для частного использования "функции управления" ECMA-48: 0x91 частное использование один (PU1) и 0x92 частное использование два (PU2).^[24]^[25] Unicode включает их в U + 0091 <control-0091> и U + 0092 <control-0092> но определяет их как управляющие символы (категория Копия), а не символы частного использования (категория Co).^[22]^[26]

Кодировки, которые не имеют областей личного использования, но имеют более или менее неиспользуемые области, такие как ISO / IEC 8859 и Shift JIS, видели развитие неконтролируемых вариантов этих кодировок.^[27] Для Unicode компании-разработчики программного обеспечения могут использовать области частного использования для желаемых дополнений.

Заметки

^ Последние два символа каждой плоскости определяются как не персонажи. Остальные 65 534 символа каждого из самолетов 15 и 16 назначены как символы частного использования.

использованная литература

^ Консорциум Unicode. Глоссарий терминов Unicode: «Область частного использования (PUA)»
^ «Политика стабильности кодировки символов Unicode». 2012-05-29. Получено 2012-08-15.
^ ^а ^б Стандарт Unicode, глава 16.5 Персонажи частного использования
^ "База писем". Eki.ee. Получено 2013-04-11.
^ «Наборы символов: символы Восточной Азии: альтернативные сопоставления Unicode для символов MARC 21, назначенных для области частного использования (PUA): спецификации MARC 21 для структуры записи, наборов символов и носителей обмена (Библиотека Конгресса)». Loc.gov. 2004-09-02. Получено 2013-04-11.
^ "tunerfc.tn.nic.in". tunerfc.tn.nic.in. Архивировано из оригинал на 2010-07-29. Получено 2013-04-11.
^ «NSOpenStepUnicodeReservedBase - Документация разработчика Apple». Apple Inc.. Получено 2020-10-16.
^ Apple Computer, Inc. (2005 г.) [1994]. "CORPCHAR.TXT - Реестр (внешняя версия) использования Apple символов корпоративной зоны Unicode". c03. Unicode Inc. Получено 2020-10-16.
^ Увидеть WGL4 Диапазон Unicode от U + 2013 до U + FB02
^ "SFM преобразует имена файлов Macintosh HFS в NTFS Unicode". Служба поддержки Microsoft. 24 февраля 2014 г. Архивировано с оригинал 27 мая 2016 г.
^ "ntfs.util.c". 2008. Кодируются недопустимые символы файла NTFS [sic ] с использованием SFM (Services for Macintosh) в частном порядке используют символы Unicode.
^ База знаний Microsoft, Диапазон символов между U + F020 и U + F0FF в области частного использования Unicode отображается в символьные шрифты в Richedit 4.1..
^ «Обработка символов PUA в программном обеспечении Microsoft». SIL International. 2003-04-25. Архивировано из оригинал на 2015-05-11. Получено 2014-03-04.
^ «Комментарий № 8: Ошибка № 651606 (круг друзей): Ошибки: семейство шрифтов Ubuntu». Панель запуска. Получено 2020-10-17.
^ «Комментарий № 2: Ошибка № 853855: Ошибки: семейство шрифтов Ubuntu». Панель запуска. Получено 2020-10-17.
^ Вопрос о плагине строки состояния Powerline в StackOverflow, в котором упоминаются символы области частного использования
^ Изображения, показывающие символы области личного использования в исправленных шрифтах Powerline
^ "lmb-excp.ucm". 2000-02-10.
^ "Anhang 2. Многобайтовый лотос Zeichensatz (LMBCS)" [Приложение 2. Многобайтовый набор символов Lotus (LMBCS)]. Lotus 1-2-3 Версия 3.1 Справочник [Справочное руководство Lotus 1-2-3 версии 3.1] (на немецком языке) (1-е изд.). Кембридж, Массачусетс, США: Lotus Development Corporation. 1989. С. A2–1 - A2–13. 302168.
^ «Глава 16: Особые области и символы формата» (PDF). Стандарт Юникода. Консорциум Unicode.
^ «Дополнение к Unicode 1.0.1» (PDF). Стандарт Юникода. 1992-11-03. Получено 2016-07-09.
^ ^а ^б ^c ^d «База данных символов Юникода». Стандарт Юникода. Получено 2016-07-09.
^ ^а ^б ^c «Нумерованные версии стандарта Unicode». Стандарт Юникода. Получено 2016-07-09.
^ Стандарт ECMA-48, пятое издание - июнь 1991 г. §8.2.14 Разные функции управления, §8.3.100, §8.3.101
^ C1 Управляющий набор символов ISO 6429 (1983)
^ Юникод 6.1.0, Глава 4, Таблица 4-9
^ Карта (внешняя версия) из японской кодировки Mac OS в Unicode 2.1 и выше.

[cnote_a] 
Unicode 13.0 Данные

[cnote_b] 
Стандарт Юникода, раздел 23.5: символы частного использования

[cnote_c] 
Кодовые точки U + FFFFE, U + FFFFF, U + 10FFFE и U + 10FFFF: нехарактеры, а не символы частного использования.

[cnote_d] 
Самолет частного использования: Unicode не опубликовал идентифицирующие имена для самолеты 15 и 16. Глава 2.8 говорит Два самолета для частного использования (самолеты 15 и 16), а имена блоков PUA Дополнительный PUA-A и Дополнительный PUA-B.

[4] Последние два символа каждой плоскости определяются как не персонажи. Остальные 65 534 символа каждого из самолетов 15 и 16 назначены как символы частного использования.

[1] Консорциум Unicode. Глоссарий терминов Unicode: «Область частного использования (PUA)»

[stability-2] «Политика стабильности кодировки символов Unicode». 2012-05-29. Получено 2012-08-15.

[chapter_16.5-3] а ^б Стандарт Unicode, глава 16.5 Персонажи частного использования

[5] "База писем". Eki.ee. Получено 2013-04-11.

[6] «Наборы символов: символы Восточной Азии: альтернативные сопоставления Unicode для символов MARC 21, назначенных для области частного использования (PUA): спецификации MARC 21 для структуры записи, наборов символов и носителей обмена (Библиотека Конгресса)». Loc.gov. 2004-09-02. Получено 2013-04-11.

[7] "tunerfc.tn.nic.in". tunerfc.tn.nic.in. Архивировано из оригинал на 2010-07-29. Получено 2013-04-11.

[8] «NSOpenStepUnicodeReservedBase - Документация разработчика Apple». Apple Inc.. Получено 2020-10-16.

[PUA_CORPCHAR-9] Apple Computer, Inc. (2005 г.) [1994]. "CORPCHAR.TXT - Реестр (внешняя версия) использования Apple символов корпоративной зоны Unicode". c03. Unicode Inc. Получено 2020-10-16.

[10] Увидеть WGL4 Диапазон Unicode от U + 2013 до U + FB02

[11] "SFM преобразует имена файлов Macintosh HFS в NTFS Unicode". Служба поддержки Microsoft. 24 февраля 2014 г. Архивировано с оригинал 27 мая 2016 г.

[12] "ntfs.util.c". 2008. Кодируются недопустимые символы файла NTFS [sic ] с использованием SFM (Services for Macintosh) в частном порядке используют символы Unicode.

[13] База знаний Microsoft, Диапазон символов между U + F020 и U + F0FF в области частного использования Unicode отображается в символьные шрифты в Richedit 4.1..

[14] «Обработка символов PUA в программном обеспечении Microsoft». SIL International. 2003-04-25. Архивировано из оригинал на 2015-05-11. Получено 2014-03-04.

[15] «Комментарий № 8: Ошибка № 651606 (круг друзей): Ошибки: семейство шрифтов Ubuntu». Панель запуска. Получено 2020-10-17.

[16] «Комментарий № 2: Ошибка № 853855: Ошибки: семейство шрифтов Ubuntu». Панель запуска. Получено 2020-10-17.

[17] Вопрос о плагине строки состояния Powerline в StackOverflow, в котором упоминаются символы области частного использования

[18] Изображения, показывающие символы области личного использования в исправленных шрифтах Powerline

[LMB-EXCP-19] "lmb-excp.ucm". 2000-02-10.

[Lotus_1989_RM31-20] "Anhang 2. Многобайтовый лотос Zeichensatz (LMBCS)" [Приложение 2. Многобайтовый набор символов Lotus (LMBCS)]. Lotus 1-2-3 Версия 3.1 Справочник [Справочное руководство Lotus 1-2-3 версии 3.1] (на немецком языке) (1-е изд.). Кембридж, Массачусетс, США: Lotus Development Corporation. 1989. С. A2–1 - A2–13. 302168.

[UCh16-21] «Глава 16: Особые области и символы формата» (PDF). Стандарт Юникода. Консорциум Unicode.

[22] «Дополнение к Unicode 1.0.1» (PDF). Стандарт Юникода. 1992-11-03. Получено 2016-07-09.

[UData-23] а ^б ^c ^d «База данных символов Юникода». Стандарт Юникода. Получено 2016-07-09.

[UEnumerated-24] а ^б ^c «Нумерованные версии стандарта Unicode». Стандарт Юникода. Получено 2016-07-09.

[25] Стандарт ECMA-48, пятое издание - июнь 1991 г. §8.2.14 Разные функции управления, §8.3.100, §8.3.101

[26] C1 Управляющий набор символов ISO 6429 (1983)

[27] Юникод 6.1.0, Глава 4, Таблица 4-9

[28] Карта (внешняя версия) из японской кодировки Mac OS в Unicode 2.1 и выше.

[1]

[2]

[3]

[примечание 1]

[а]

[b]

[c]

[d]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

Зона частного использования
Ассортимент	U + E000..U + F8FF (6400 кодовых точек)
Самолет	BMP
Скрипты	Неизвестно
Назначено	6400 кодовых точек
Неиспользованный	0 зарезервированных кодовых точек
История версий Unicode

1.0.0	5,632 (+5,632)
1.0.1	6,400 (+768)

Заметка: Версия 1.0.1 перемещает и расширяет блок Private Use Area (ранее находившийся в U + E800-U + FDFF в версии 1.0.0).^[21]^[22]^[23]

Зона дополнительного частного использования-A
Ассортимент	U + F0000..U + FFFFF (65 536 кодовых точек)
Самолет	СПУА-А
Скрипты	Неизвестно
Назначено	65 534 кодовых точки
Неиспользованный	0 зарезервированных кодовых точек 2 не символов
История версий Unicode

2.0	65,534 (+65,534)

Заметка: ^[22]^[23]

Зона дополнительного частного использования-B
Ассортимент	U + 100000..U + 10FFFF (65 536 кодовых точек)
Самолет	СПУА-Б
Скрипты	Неизвестно
Назначено	65 534 кодовых точки
Неиспользованный	0 зарезервированных кодовых точек 2 не символов
История версий Unicode

2.0	65,534 (+65,534)

Заметка: ^[22]^[23]