Предварительно составленный персонаж - Precomposed character - Wikipedia

А заранее составленный персонаж (альтернативно составной персонаж или же разложимый персонаж) это Unicode сущность, которую также можно определить как последовательность из одного или нескольких других символов. Предварительно составленный символ обычно может представлять букву с диакритический знак, Такие как é (Латинская строчная буква е с острый акцент ). Технически, é (U + 00E9) - это персонаж, который можно разложить на эквивалент строка базовой буквы е (U + 0065) и объединение острый акцент (U + 0301). По аналогии, лигатуры являются предварительными композициями составляющих их букв или графемы.

Предварительно составленные символы - это устаревшее решение для представления многих специальных букв в различных наборы символов. В Unicode они включены в первую очередь для помощи компьютерным системам с неполной поддержкой Unicode, где эквивалентные разложенные символы могут отображаться некорректно.

Сравнение предварительно составленных и разложенных символов

В следующем примере есть общий Шведский фамилия Åström записывается двумя альтернативными способами, первая с предварительно составленным Å (U + 00C5) и ö (U + 00F6), а второй - с использованием разложенной базовой буквы А (U + 0041) с объединением кольцо выше (U + 030A) и о (U + 006F) с объединением диэрезис (U + 0308).

  1. Åулöм (U + 00C5 U + 0073 U + 0074 U + 0072 U + 00F6 U + 006D)
  2. Остром (U + 0041 U + 030A U + 0073 U + 0074 U + 0072 U + 006F U + 0308 U + 006D)

За исключением разных цветов, два решения эквивалентны и должны отображаться одинаково. Однако на практике некоторые реализации Unicode все еще испытывают трудности с разложенными символами. В худшем случае объединение диакритических знаков может не приниматься во внимание или отображаться как нераспознанные символы после их базовых букв, поскольку они не включены во все шрифты. Чтобы преодолеть проблемы, некоторые приложения могут просто попытаться заменить разложенные символы эквивалентными заранее составленными символами.

Однако с неполным шрифтом предварительно составленные символы также могут быть проблематичными, особенно если они более экзотичны, как в следующем примере (показывающий реконструированный Протоиндоевропейский слово для "собаки"):

  1. ḱṷṓп (U + 1E31 U + 1E77 U + 1E53 U + 006E)
  2. ḱṷṓn (U + 006B U + 0301 U + 0075 U + 032D U + 006F U + 0304 U + 0301 U + 006E)

В некоторых случаях предварительно составленный зеленый k, ты и о с диакритическими знаками может отображаться как неопознанные персонажи, или их типографский внешний вид может сильно отличаться от последней буквы п без диакритики. Во второй строке базовые буквы должны по крайней мере отображаться правильно, даже если объединяющие диакритические знаки не могут быть распознаны.

OpenType имеет ccmp «тег функции» для определения глифов, которые представляют собой композиции или декомпозиции, включающие комбинирование символов.

китайские иероглифы

Теоретически большинство китайские иероглифы как закодировано Ханьское объединение и аналогичные схемы можно рассматривать как предварительно составленные символы, поскольку они могут быть сведены (разложены) на их составляющие удары и описания идеограмм с Языки описания китайских иероглифов. Такой подход может уменьшить количество символов в наборе символов с десятков тысяч до нескольких сотен. С другой стороны, такой сильно разложенный набор символов привел бы к проблемам при поиске и редактировании программного обеспечения и потребовал бы большего количества байтов кодирования на документ.

Смотрите также

Источники

внешняя ссылка