Зоны частного использования - Private Use Areas

В Unicode, а Зона частного использования (PUA) - это диапазон кодовые точки которые по определению не будут присвоены символам Консорциум Unicode.[1] Определены три области частного использования: одна в Базовая многоязычная плоскость (U + E000U + F8FF), и по одному, почти покрывая, самолеты 15 и 16 (U + F0000U + FFFFD, U + 100000U + 10FFFD). Кодовые точки в этих областях нельзя рассматривать как стандартные символы в самом Юникоде. Они намеренно оставлены неопределенными, чтобы третьи стороны могли определять свои собственные символы без конфликта с назначениями Консорциума Unicode. Согласно Политике стабильности Unicode,[2] Частные области использования останутся выделенными для этой цели во всех будущих версиях Unicode.

Назначения для персонажей из области частного использования не обязательно должны быть «частными» в смысле строго внутренними для организации; ряд схем распределения был опубликован несколькими организациями. Такая публикация может включать в себя шрифт, поддерживающий определение (показывающий глифы), и программное обеспечение, использующее символы для личного использования (например, графический символ для функции «печать документа»). По определению, несколько частных лиц могут назначать разные символы одной и той же кодовой точке, в результате чего пользователь может видеть один частный символ из установленного шрифта там, где предназначался другой.

Определение

Согласно определению Unicode, кодовым точкам в областях частного использования назначаются символы - они не являются несимвольными, зарезервированными или неназначенными. Их категория является "Другое, личное использование (Co)", и имена символов не указаны. Репрезентативные глифы не предоставляются, а семантика символов оставлена ​​на усмотрение частного лица.

Символам частного использования назначаются кодовые точки Unicode, интерпретация которых не указана в настоящем стандарте и использование которых может определяться частным соглашением между сотрудничающими пользователями. Эти символы предназначены для частного использования и не имеют определенной интерпретируемой семантики, кроме как по частному соглашению.

Для символов частного использования не предусмотрены диаграммы, поскольку любые такие символы по самой своей природе определяются только вне контекста этого стандарта.[3]

Присвоение

В базовой многоязычной плоскости (плоскость 0) блок под названием «Область частного использования» имеет 6400 кодовых точек. Самолеты 15 и 16 почти[примечание 1] полностью переданы двум дополнительным Зонам частного использования: Зоне дополнительного частного использования-A и Зоне дополнительного частного использования-B соответственно.

Для кодирования символов с самолетов 15 и 16 в UTF-16, следующий блок BMP назначается Суррогаты с высоким уровнем частного использования (U + DB80..U + DBFF, 128 кодовых точек).

Юникод: области частного использования
Определение по свойству символа: Общая категория = Co[а][b]
АссортиментСамолетИмя блокаКоличество кодовых точекЗаметка
U + E000..U + F8FFБМП (0)Зона частного использования6,400
U + F0000..U + FFFFD[c]ЩЕНОК (15)[d]Зона дополнительного частного использования-A65,534UTF-16 кодирует эти символы с помощью кодовых точек из блока Суррогаты высокого частного использования (U + DB80..U + DBFF) в BMP.
U + 100000..U + 10FFFD[c]ЩЕНОК (16)[d]Зона дополнительного частного использования-B65,534
Заметки
  1. ^
  2. ^
  3. ^
    Кодовые точки U + FFFFE, U + FFFFF, U + 10FFFE и U + 10FFFF: нехарактеры, а не символы частного использования.
  4. ^
    Самолет частного использования: Unicode не опубликовал идентифицирующие имена для самолеты 15 и 16. Глава 2.8 говорит Два самолета для частного использования (самолеты 15 и 16), а имена блоков PUA Дополнительный PUA-A и Дополнительный PUA-B.

Применение

Инициатива по стандартизации использует

Многие люди и организации создали коллекции персонажей для PUA. Некоторые из этих соглашений о частном использовании опубликованы, поэтому другие разработчики PUA могут стремиться к неиспользуемым или менее используемым кодовым точкам, чтобы предотвратить дублирование. Некоторые символы и скрипты, ранее закодированные в соглашениях о частном использовании, фактически были полностью закодированы в Unicode, что потребовало сопоставлений из PUA с другими кодовыми точками Unicode.

Одно из наиболее известных и широко применяемых соглашений PUA поддерживается Реестр Unicode ConScript (CSUR). CSUR, который официально не одобрен и не связан с Консорциумом Unicode, обеспечивает отображение для созданных сценариев, таких как КЛИНГОНСКАЯ ПИКАДА и сценарий ференги (Звездный путь), Тенгвар и Cirth (Курсивные и рунические шрифты Дж. Р. Р. Толкина), Александра Мелвилла Белла Видимая речь, и алфавит доктора Сьюза из По ту сторону зебры. CSUR ранее закодировал нерасшифрованный Фест персонажей, а также Шавиан и Deseret алфавиты, которые были приняты для официальной кодировки в Unicode.

Еще одно общее соглашение PUA поддерживается Средневековый шрифт Unicode (MUFI). Этот проект пытается поддержать все сокращения писцов, лигатуры, заранее составленные символы, символы и альтернативные формы букв встречается в средневековых текстах, написанных латинским алфавитом. Конкретная цель MUFI - экспериментально определить, какие символы необходимы для представления этих текстов, и чтобы эти символы были официально закодированы в Unicode. Начиная с версии 5.1 Unicode, 152 символа MUFI были включены в официальную кодировку Unicode.

Некоторые согласованные коллекции символов PUA существуют частично или полностью, потому что Консорциум Unicode не спешит их кодировать. Некоторые, например, непредставленные языки, вероятно, в будущем будут закодированы. Некоторые необычные случаи, такие как вымышленные языки, выходят за рамки обычного Юникода, но не исключаются явно принципами Юникода и могут со временем проявиться (например, системы письма «Звездный путь» и «Толкин»). В других случаях предлагаемая кодировка нарушает один или несколько принципов Unicode и, следовательно, вряд ли когда-либо будет официально признана Unicode - в основном, когда пользователи хотят напрямую кодировать альтернативные формы, лигатуры или комбинации базового символа плюс диакритический знак (например, Схема TUNE).

Издательская организацияТемаИспользуемая площадь PUAШрифт
CSURИскусственные скриптыПУА (БМП) и Самолет 15Code2000
MUFIСредневековые сценарииPUA (BMP)несколько
SILФонетика и языкиPUA (BMP)Charis SIL
ТИТУСДревние и средневековые письменностиPUA (BMP)TITUS Cyberbit Basic
  • Эмодзи - это кодировка символов изображения или смайлов, используемых в японских беспроводных сообщениях и веб-страницах. В Unicode 6.0 и более поздних версиях многие из них были закодированы в блоке Разные символы и пиктограммы и в других местах в SMP.
  • GB / T 20542-2006 («Расширение набора тибетских кодированных символов A») и GB / T 22238-2008 («Расширение B набора тибетских кодированных символов») Китайские национальные стандарты которые используют PUA для кодирования предварительно составленных тибетских лигатуры.
  • ГБ 18030 и ГБК используйте PUA для временного кодирования символов, которых нет в стандартах Unicode.
  • В Институт эстонского языка использует PUA для кодирования предварительно составленных латинских и кириллических символов[4] без кодировки Unicode.
  • В Бесплатный проект шрифтов Tengwar использует отображение, отличное от Реестр Unicode ConScript это в значительной степени следует за дискуссионным докладом Майкла Эверсона в Тенгваре от 2001-03-07, но расходится в некоторых деталях.
  • В Стандарт MARC 21 использует PUA для кодирования восточноазиатских символов, присутствующих в MARC-8[5] без кодировки Unicode.
  • В SIL Корпоративный PUA использует PUA для кодирования символов, используемых на языках меньшинств, которые еще не были приняты в Unicode.
  • В Проект STIX Fonts использует PUA для предоставления исчерпывающего набора шрифтов математических символов и алфавитов, многие из которых теперь также доступны в SMP, например в Математические буквенно-цифровые символы блок.
  • Новая кодировка тамильского Unicode (TUNE)[6] это предлагаемая схема кодирования Тамильский это устраняет очевидные недостатки в текущей кодировке Unicode.

Использование поставщика

Неформально диапазон от U + F000 до U + F8FF известен как область корпоративного использования.

  • В Список Adobe Glyph используется для использования PUA для некоторых своих глифов.
  • яблоко перечисляет диапазон из 1280 символов в документации для разработчиков.[7] U + F400 – U + F8FF в рамках PUA для использования Apple. Из них только 311 используется в диапазоне U + F700 – U + F8FF (Следующий (Следующий шаг и ОТКРЫТЬ ) и яблоко (Mac OS X AppKit)).[8]
    • Один из них - U + F8FF. Логотип Apple обычно поддерживается 8-битными наборами Apple.
  • WGL4 использует PUA (U + F001 и U + F002) для кодирования дубликатов лигатур f (U + FB01) fl (U + FB02).[9]
  • Microsoft несуществующая функция Services For Macintosh использовала U + F001 - U + F029 в качестве замены специальных символов, разрешенных в HFS но запрещено в NTFS и U + F02A для логотипа Apple.[10][11]
  • В старых версиях своего компонента RichEdit Microsoft отображала U + F020 – U + F0FF внутри PUA на символьные шрифты. Для любого символа в этом диапазоне RichEdit покажет символ из символьного шрифта вместо определяемого конечным пользователем символа (EUDC).[12][13]
  • AutoCAD[требуется разъяснение ] использует U + F8FC – U + F8FE для ⌀ (знак диаметра), ± (знак плюс-минус ) и ° (знак градуса) соответственно.
  • Некоторые шрифты ставят Клавиша с логотипом Windows в U + F000.
  • Число U + F000 - это числовая последовательность, начинающаяся с 13 или 18 в некоторых видеоиграх, например Agar.io.
  • На Ubuntu, U + E0FF отображается как логотип "Круг друзей"[14] и U + F200 "убунту" в Шрифт Ubuntu с надстрочным индексом «Круг друзей» (это само U + F0FF)[15].
  • В 3270 шрифт включает Debian логотип на U + F100
  • в Linux Libertine шрифт, U + E000 отображает Смокинг, талисман Linux
  • В Font Awesome Значок шрифта использует PUA для отображения различных глифов.
  • Powerline, плагин строки состояния для vim, используйте U + E0A0 – U + E0A2 и U + E0B0 – U + E0B3 для дополнительных персонажи, рисовавшие коробки.[16][17]
  • На Fira Sans шрифт, используемый в ОС Firefox, U + E003 отображается как Mozilla логотип (голова динозавра).
  • Набор многобайтовых символов Lotus (LMBCS), кодировка и набор символов, используемые внутри Лотос /IBM Лотос 1-2-3, Симфония, SmartSuite, Заметки, Домино а также ряд сторонних продуктов, таких как Microsoft Работает, использует некоторые символы (U + F862-U + F89F и U + F8FB-U + F8FE) в области частного использования для символов, не определенных в Unicode. Из этих, U + F8FB известно, что зарезервировано для валюта короны символ ("Kr"), и U + F8FC и U + F8FD позже были сопоставлены с U + FB02 ( ) и U + FB01 (ф ) соответственно. Кроме того, когда коды UTF-16 встроены в LMBCS, коды UTF-16, соответствующие U + F601 через U + F6FF заменяются на коды UTF-16, которые будут содержать нулевые байты, поскольку LMBCS не содержит встроенных нулевых байтов.[18][19]
  • IBM зарезервировала несколько идентификаторы кодовых страниц для кодовых страниц PUA: Кодовая страница 1445 (IBM AFP PUA № 1), кодовая страница 1446 (ISO 10646 UCS-PUP15 ), кодовая страница 1447 (ISO 10646 UCS-PUP16 ), кодовая страница 1449 (PUA по умолчанию IBM).
  • Файловая система Windows использует U + F000 к U + F0FF блок, чтобы сбежать специальные символы.

Блоки Unicode PUA

В Unicode есть три блока PUA.[20]

Зона частного использования
АссортиментU + E000..U + F8FF
(6400 кодовых точек)
СамолетBMP
СкриптыНеизвестно
Назначено6400 кодовых точек
Неиспользованный0 зарезервированных кодовых точек
История версий Unicode
1.0.05,632 (+5,632)
1.0.16,400 (+768)
Заметка: Версия 1.0.1 перемещает и расширяет блок Private Use Area (ранее находившийся в U + E800-U + FDFF в версии 1.0.0).[21][22][23]
Зона дополнительного частного использования-A
АссортиментU + F0000..U + FFFFF
(65 536 кодовых точек)
СамолетСПУА-А
СкриптыНеизвестно
Назначено65 534 кодовых точки
Неиспользованный0 зарезервированных кодовых точек
2 не символов
История версий Unicode
2.065,534 (+65,534)
Заметка: [22][23]
Зона дополнительного частного использования-B
АссортиментU + 100000..U + 10FFFF
(65 536 кодовых точек)
СамолетСПУА-Б
СкриптыНеизвестно
Назначено65 534 кодовых точки
Неиспользованный0 зарезервированных кодовых точек
2 не символов
История версий Unicode
2.065,534 (+65,534)
Заметка: [22][23]

Персонажи частного использования в других наборах символов

Концепция резервирования определенных кодовых точек для частного использования основана на аналогичном более раннем использовании в других наборах символов. В частности, многие устаревшие символы в сценариях Восточной Азии продолжают использоваться в определенных именах или других ситуациях, и поэтому некоторые наборы символов для этих сценариев допускают использование символов частного использования (например, определяемые пользователем плоскости CNS 11643, или гайдзи в некоторых японских кодировках). Стандарт Unicode ссылается на эти виды использования под названием «Определение символов конечного пользователя» (EUCD).[3]

Кроме того, Блок управления C1 содержит два кода, предназначенных для частного использования "функции управления" ECMA-48: 0x91 частное использование один (PU1) и 0x92 частное использование два (PU2).[24][25] Unicode включает их в U + 0091 <control-0091> и U + 0092 <control-0092> но определяет их как управляющие символы (категория Копия), а не символы частного использования (категория Co).[22][26]

Кодировки, которые не имеют областей личного использования, но имеют более или менее неиспользуемые области, такие как ISO / IEC 8859 и Shift JIS, видели развитие неконтролируемых вариантов этих кодировок.[27] Для Unicode компании-разработчики программного обеспечения могут использовать области частного использования для желаемых дополнений.

Заметки

  1. ^ Последние два символа каждой плоскости определяются как не персонажи. Остальные 65 534 символа каждого из самолетов 15 и 16 назначены как символы частного использования.

использованная литература

  1. ^ Консорциум Unicode. Глоссарий терминов Unicode: «Область частного использования (PUA)»
  2. ^ «Политика стабильности кодировки символов Unicode». 2012-05-29. Получено 2012-08-15.
  3. ^ а б Стандарт Unicode, глава 16.5 Персонажи частного использования
  4. ^ "База писем". Eki.ee. Получено 2013-04-11.
  5. ^ «Наборы символов: символы Восточной Азии: альтернативные сопоставления Unicode для символов MARC 21, назначенных для области частного использования (PUA): спецификации MARC 21 для структуры записи, наборов символов и носителей обмена (Библиотека Конгресса)». Loc.gov. 2004-09-02. Получено 2013-04-11.
  6. ^ "tunerfc.tn.nic.in". tunerfc.tn.nic.in. Архивировано из оригинал на 2010-07-29. Получено 2013-04-11.
  7. ^ «NSOpenStepUnicodeReservedBase - Документация разработчика Apple». Apple Inc.. Получено 2020-10-16.
  8. ^ Apple Computer, Inc. (2005 г.) [1994]. "CORPCHAR.TXT - Реестр (внешняя версия) использования Apple символов корпоративной зоны Unicode". c03. Unicode Inc. Получено 2020-10-16.
  9. ^ Увидеть WGL4 Диапазон Unicode от U + 2013 до U + FB02
  10. ^ "SFM преобразует имена файлов Macintosh HFS в NTFS Unicode". Служба поддержки Microsoft. 24 февраля 2014 г. Архивировано с оригинал 27 мая 2016 г.
  11. ^ "ntfs.util.c". 2008. Кодируются недопустимые символы файла NTFS [sic ] с использованием SFM (Services for Macintosh) в частном порядке используют символы Unicode.
  12. ^ База знаний Microsoft, Диапазон символов между U + F020 и U + F0FF в области частного использования Unicode отображается в символьные шрифты в Richedit 4.1..
  13. ^ «Обработка символов PUA в программном обеспечении Microsoft». SIL International. 2003-04-25. Архивировано из оригинал на 2015-05-11. Получено 2014-03-04.
  14. ^ «Комментарий № 8: Ошибка № 651606 (круг друзей): Ошибки: семейство шрифтов Ubuntu». Панель запуска. Получено 2020-10-17.
  15. ^ «Комментарий № 2: Ошибка № 853855: Ошибки: семейство шрифтов Ubuntu». Панель запуска. Получено 2020-10-17.
  16. ^ Вопрос о плагине строки состояния Powerline в StackOverflow, в котором упоминаются символы области частного использования
  17. ^ Изображения, показывающие символы области личного использования в исправленных шрифтах Powerline
  18. ^ "lmb-excp.ucm". 2000-02-10.
  19. ^ "Anhang 2. Многобайтовый лотос Zeichensatz (LMBCS)" [Приложение 2. Многобайтовый набор символов Lotus (LMBCS)]. Lotus 1-2-3 Версия 3.1 Справочник [Справочное руководство Lotus 1-2-3 версии 3.1] (на немецком языке) (1-е изд.). Кембридж, Массачусетс, США: Lotus Development Corporation. 1989. С. A2–1 - A2–13. 302168.
  20. ^ «Глава 16: Особые области и символы формата» (PDF). Стандарт Юникода. Консорциум Unicode.
  21. ^ «Дополнение к Unicode 1.0.1» (PDF). Стандарт Юникода. 1992-11-03. Получено 2016-07-09.
  22. ^ а б c d «База данных символов Юникода». Стандарт Юникода. Получено 2016-07-09.
  23. ^ а б c «Нумерованные версии стандарта Unicode». Стандарт Юникода. Получено 2016-07-09.
  24. ^ Стандарт ECMA-48, пятое издание - июнь 1991 г. §8.2.14 Разные функции управления, §8.3.100, §8.3.101
  25. ^ C1 Управляющий набор символов ISO 6429 (1983)
  26. ^ Юникод 6.1.0, Глава 4, Таблица 4-9
  27. ^ Карта (внешняя версия) из японской кодировки Mac OS в Unicode 2.1 и выше.