Наборы западных латинских символов (вычисления) - Western Latin character sets (computing)

Несколько двоичных представлений 8-битных наборы символов для общего Западноевропейский языки сравниваются в этой статье. Эти кодировки были разработаны для представления Итальянский, испанский, португальский, Французский, Немецкий, нидерландский язык, английский, Датский, Шведский, норвежский язык, и исландский, которые используют Латинский алфавит, несколько дополнительных букв и буквы с предварительно составленными диакритические знаки, немного пунктуация, и различные символы (включая некоторые греческие буквы). Хотя их называют «западноевропейскими», на многих из этих языков говорят во всем мире. Кроме того, эти наборы символов поддерживают многие другие языки, такие как малайский, суахили, и Классическая латынь.

Этот материал технически устарел, функционально заменен на Unicode. Однако он по-прежнему представляет исторический интерес.

Резюме

В ISO-8859 серия 8 бит наборы символов кодирует все латинский наборы символов, используемые в Европа хотя то же самое кодовые точки имеют несколько применений, вызывающих определенные трудности (в том числе моджибаке, или искаженные символы, а также проблемы со связью). Прибытие из Unicode, с уникальным кодом для каждого глиф, решил эти проблемы.

История

Более ранние семи-кусочек НАС. Американский стандартный код для обмена информацией ('ASCII') содержит символы, достаточные для правильного представления только нескольких языков, таких как английский, латинский, малайский и суахили. В нем отсутствуют некоторые буквы и буквенно-диакритические комбинации, используемые в других языках латинского алфавита. Однако, поскольку на большинстве компьютерных платформ, поставляемых в США, другого выбора не было, использование ASCII было неизбежным, за исключением тех случаев, когда существовала сильная национальная вычислительная промышленность. Был ISO 646 группа кодировок, которые заменяли некоторые символы в ASCII локальными символами, но пространство было очень ограниченным, а некоторые из замененных символов были довольно распространены в таких вещах, как языки программирования.

Большинство компьютеров внутренне использовали восьмибитные байты, но для связи (которая по своей сути ненадежная) использовалось семь бит данных плюс один. бит четности. Со временем стало обычным использовать все восемь бит для данных, создавая пространство для еще 128 символов. Вначале большинство из них были системными, но постепенно ISO / IEC 8859 стандарты появились для обеспечения некоторого межплатформенного сходства для обеспечения обмена информацией.

К концу 20-го века, когда снизились затраты на хранение и память, проблемы, связанные с множественными значениями данного восьмиразрядного кода (существует только семь кодовых наборов ISO-Latin), перестали быть оправданными. Все основные операционные системы перешли на Unicode как их основное внутреннее представление. Однако, поскольку Windows не поддерживает UTF-8 метод кодирования Unicode (предпочитая UTF-16 ), многие приложения по-прежнему ограничивались этими устаревшими наборами символов.

Знак евро

В евро и это знак евро оказало значительное давление на поддержку знака евро (€), и большинство 8-битных наборов символов пришлось каким-то образом адаптировать.

  • Apple с MacRoman и Sun Microsystems с ОС Solaris просто заменил общий знак валюты (¤ ). Это вызвало значительные трудности, поскольку организации нашли ему другое применение, например, логотип компании.
  • ISO представила дополнительный вариант ISO 8859, ISO 8859-15, который заменил общий знак валюты знаком евро, а также произвел некоторые другие замены символов буквами с диакритическими знаками. ISO 8859-15 так и не получил широкого распространения.
  • С Окна-1252, Microsoft поместила знак евро в пробел (позиция 80шестнадцатеричный) в существующих Коды управления C1.

Все эти проблемы были решены, поскольку операционные системы были обновлены для поддержки Unicode как стандарт, который кодирует знак евро как U + 20AC (десятичное число 8364).

Сравнительная таблица

Кодовые точки U + 0000 до U + 007F в настоящее время не показаны в этой таблице, так как они напрямую отображаются во всех перечисленных здесь наборах символов. В ASCII Стандарт кодирования определяет исходную спецификацию для отображения первых 0–127 символов.

Таблица составлена Unicode кодовая точка. Наборы символов здесь называются их IANA имена в верхний регистр.

ХарактерКодовая точкаISO-8859-1ISO-8859-15WINDOWS-1252IBM437IBM850МАКИНТОШ
NBSPU + 00A0A0A0A0FFFFCA
¡U + 00A1A1A1A1ОБЪЯВЛЕНИЕОБЪЯВЛЕНИЕC1
¢U + 00A2A2A2A29BBDA2
£U + 00A3A3A3A39C9CA3
¤U + 00A4A4 A4 CF 
¥U + 00A5A5A5A59DБЫТЬB4
¦U + 00A6A6 A6 DD 
§U + 00A7A7A7A7 F5A4
¨U + 00A8A8 A8 F9AC
©U + 00A9A9A9A9 B8A9
ªU + 00AAAAAAAAA6A6BB
«U + 00ABABABABAEAEC7
¬U + 00ACACACACAAAAC2
ЗАСТЕНЧИВЫЙU + 00ADОБЪЯВЛЕНИЕОБЪЯВЛЕНИЕОБЪЯВЛЕНИЕ F0 
®U + 00AEAEAEAE A9A8
¯U + 00AFAFAFAF EEF8
ХарактерКодовая точкаISO-8859-1ISO-8859-15WINDOWS-1252IBM437IBM850МАКИНТОШ
°U + 00B0B0B0B0F8F8A1
±U + 00B1B1B1B1F1F1B1
²U + 00B2Би 2Би 2Би 2FDFD 
³U + 00B3B3B3B3 FC 
´U + 00B4B4 B4 EFAB
µU + 00B5B5B5B5E6E6B5
U + 00B6B6B6B6 F4A6
·U + 00B7B7B7B7FAFAE1
¸U + 00B8B8 B8 F7FC
¹U + 00B9B9B9B9 FB 
ºU + 00BABABABAA7A7до н.э
»U + 00BBBBBBBBAFAFC8
¼U + 00BCдо н.э до н.эACAC 
½U + 00BDBD BDABAB 
¾U + 00BEБЫТЬ БЫТЬ F3 
¿U + 00BFBFBFBFA8A8C0
ХарактерКодовая точкаISO-8859-1ISO-8859-15WINDOWS-1252IBM437IBM850МАКИНТОШ
АU + 00C0C0C0C0 B7CB
ÁU + 00C1C1C1C1 B5E7
ÂU + 00C2C2C2C2 B6E5
ÃU + 00C3C3C3C3 C7CC
ÄU + 00C4C4C4C48E8E80
ÅU + 00C5C5C5C58F8F81
ÆU + 00C6C6C6C69292AE
ÇU + 00C7C7C7C7808082
ÈU + 00C8C8C8C8 D4E9
ÉU + 00C9C9C9C9909083
ÊU + 00CACACACA D2E6
ËU + 00CBCBCBCB D3E8
ЯU + 00CCCCCCCC DEED
ЯU + 00CDCDCDCD D6EA
ЯU + 00CECECECE D7EB
ЯU + 00CFCFCFCF D8EC
ХарактерКодовая точкаISO-8859-1ISO-8859-15WINDOWS-1252IBM437IBM850МАКИНТОШ
ÐU + 00D0D0D0D0 D1 
ÑU + 00D1D1D1D1A5A584
ÒU + 00D2D2D2D2 E3F1
ÓU + 00D3D3D3D3 E0EE
ÔU + 00D4D4D4D4 E2EF
ÕU + 00D5D5D5D5 E5CD
ÖU + 00D6D6D6D6999985
×U + 00D7D7D7D7 9E 
ØU + 00D8D8D8D8 9DAF
ÙU + 00D9D9D9D9 EBF4
ÚU + 00DADADADA E9F2
ÛU + 00DBБДБДБД EAF3
ÜU + 00DCОКРУГ КОЛУМБИЯОКРУГ КОЛУМБИЯОКРУГ КОЛУМБИЯ86
ÝU + 00DDDDDDDD ED 
ÞU + 00DEDEDEDE E8 
SSU + 00DFDFDFDFE1E1A7
ХарактерКодовая точкаISO-8859-1ISO-8859-15WINDOWS-1252IBM437IBM850МАКИНТОШ
àU + 00E0E0E0E0858588
áU + 00E1E1E1E1A0A087
âU + 00E2E2E2E2838389
ãU + 00E3E3E3E3 C68B
äU + 00E4E4E4E484848A
åU + 00E5E5E5E586868C
æU + 00E6E6E6E69191БЫТЬ
çU + 00E7E7E7E787878D
èU + 00E8E8E8E88A8A8F
éU + 00E9E9E9E982828E
êU + 00EAEAEAEA888890
ëU + 00EBEBEBEB898991
яU + 00ECECECEC8D8D93
яU + 00EDEDEDEDA1A192
яU + 00EEEEEEEE8C8C94
яU + 00EFEFEFEF8B8B95
ХарактерКодовая точкаISO-8859-1ISO-8859-15WINDOWS-1252IBM437IBM850МАКИНТОШ
ðU + 00F0F0F0F0 D0 
ñU + 00F1F1F1F1A4A496
òU + 00F2F2F2F2959598
óU + 00F3F3F3F3A2A297
ôU + 00F4F4F4F4939399
хU + 00F5F5F5F5 E49B
öU + 00F6F6F6F69494
÷U + 00F7F7F7F7F6F6D6
øU + 00F8F8F8F8 9BBF
ùU + 00F9F9F9F997979D
úU + 00FAFAFAFAA3A39C
ûU + 00FBFBFBFB96969E
üU + 00FCFCFCFC81819F
ýU + 00FDFDFDFD EC 
þU + 00FEFEFEFE E7 
ÿU + 00FFFFFFFF9898D8
ХарактерКодовая точкаISO-8859-1ISO-8859-15WINDOWS-1252IBM437IBM850МАКИНТОШ
яU + 0131    D5F5
ŒU + 0152 до н.э8C  CE
œU + 0153 BD9C  CF
ŠU + 0160 A68A   
šU + 0161 A8   
ŸU + 0178 БЫТЬ9F  D9
ŽU + 017D B48E   
žU + 017E B89E   
ƒU + 0192  839F9FC4
ˆU + 02C6  88  F6
ˇU + 02C7     FF
˘U + 02D8     F9
˙U + 02D9     FA
˚U + 02DA     FB
˛U + 02DB     FE
˜U + 02DC  98  F7
ХарактерКодовая точкаISO-8859-1ISO-8859-15WINDOWS-1252IBM437IBM850МАКИНТОШ
˝U + 02DD     FD
ΓU + 0393   E2  
ΘU + 0398   E9  
ΣU + 03A3   E4  
ΦU + 03A6   E8  
ΩU + 03A9   EA BD
αU + 03B1   E0  
δU + 03B4   EB  
εU + 03B5   EE  
πU + 03C0   E3 B9
σU + 03C3   E5  
τU + 03C4   E7  
φU + 03C6   ED  
U + 2013  96  D0
U + 2014  97  D1
U + 2017    F2 
ХарактерКодовая точкаISO-8859-1ISO-8859-15WINDOWS-1252IBM437IBM850МАКИНТОШ
U + 2018  91  D4
U + 2019  92  D5
U + 201A  82  E2
U + 201C  93  D2
U + 201D  94  D3
U + 201E  84  E3
U + 2020  86  A0
U + 2021  87  E0
U + 2022  95  A5
U + 2026  85  C9
U + 2030  89  E4
U + 2039  8B  ОКРУГ КОЛУМБИЯ
U + 203A  9B  DD
U + 2044     DA
U + 207F   FC  
U + 20A7   9E  
ХарактерКодовая точкаISO-8859-1ISO-8859-15WINDOWS-1252IBM437IBM850МАКИНТОШ
U + 20AC A480 (D5)[nb 1][2][3]БД
U + 2122  99  AA
U + 2202     B6
U + 2206     C6
U + 220F     B8
U + 2211     B7
U + 2219   F9  
U + 221A   FB C3
U + 221E   EC B0
U + 2229   EF  
U + 222B     BA
U + 2248   F7 C5
U + 2260     ОБЪЯВЛЕНИЕ
U + 2261   F0  
U + 2264   F3 Би 2
U + 2265   F2 B3
ХарактерКодовая точкаISO-8859-1ISO-8859-15WINDOWS-1252IBM437IBM850МАКИНТОШ
U + 2310   A9  
U + 2320   F4  
U + 2321   F5  
U + 2500   C4C4 
U + 2502   B3B3 
U + 250C   DADA 
U + 2510   BFBF 
U + 2514   C0C0 
U + 2518   D9D9 
U + 251C   C3C3 
U + 2524   B4B4 
U + 252C   C2C2 
U + 2534   C1C1 
U + 253C   C5C5 
U + 2550   CDCD 
U + 2551   BABA 
ХарактерКодовая точкаISO-8859-1ISO-8859-15WINDOWS-1252IBM437IBM850МАКИНТОШ
U + 2552   D5  
U + 2553   D6  
U + 2554   C9C9 
U + 2555   B8  
U + 2556   B7  
U + 2557   BBBB 
U + 2558   D4  
U + 2559   D3  
U + 255A   C8C8 
U + 255B   БЫТЬ  
U + 255C   BD  
U + 255D   до н.эдо н.э 
U + 255E   C6  
U + 255F   C7  
U + 2560   CCCC 
U + 2561   B5  
ХарактерКодовая точкаISO-8859-1ISO-8859-15WINDOWS-1252IBM437IBM850МАКИНТОШ
U + 2562   B6  
U + 2563   B9B9 
U + 2564   D1  
U + 2565   D2  
U + 2566   CBCB 
U + 2567   CF  
U + 2568   D0  
U + 2569   CACA 
U + 256A   D8  
U + 256B   D7  
U + 256C   CECE 
U + 2580   DFDF 
U + 2584   ОКРУГ КОЛУМБИЯОКРУГ КОЛУМБИЯ 
U + 2588   БДБД 
U + 258C   DD  
U + 2590   DE  
ХарактерКодовая точкаISO-8859-1ISO-8859-15WINDOWS-1252IBM437IBM850МАКИНТОШ
U + 2591   B0B0 
U + 2592   B1B1 
U + 2593   Би 2Би 2 
U + 25A0   FEFE 
U + 25CA     D7
фU + FB01     DE
U + FB02     DF
  • Отображения кодовых страниц IBM взяты из Unicode сайт предоставлен Microsoft. См. Документ Консорциума Unicode по различия между сопоставлениями IBM и Microsoft для этих кодовых страниц.
  • IBM437 и IBM850 определили печатаемые символы для диапазонов управляющих кодов. Хотя их нельзя было использовать при печати текста через ДОС, поскольку они будут захвачены до того, как достигнут экрана, они могут использоваться приложениями, которые напрямую используют память экрана.
  • Macintosh имеет логотип Apple ⟨⟩ по адресу 0xF0 и переводит его как U + F8FF в Зона частного использования для Юникода.

Примечания

  1. ^ IBM ПК DOS 2000, выпущенная в 1998 году, изменила определение кодовой страницы 850 на то, что они назвали измененная кодовая страница 850 теперь включают знак евро в кодовой точке 213 вместо добавления поддержки нового кодовая страница 858. Причина этого могла быть связана с существующими ограничениями в реализации логики переключения кодовых страниц в MS-DOS /ПК DOS, который ограничивал файлы .CPI размером 64 КБ или максимум шестью кодовыми страницами, ограничение, которое было обойдено в некоторых OEM-версиях MS-DOS, в Windows NT, а также не существует в DR-DOS. Кроме того, синтаксический анализатор в MS-DOS / PC DOS ограничивает количество возможных записей страны / кодовой страницы в COUNTRY.SYS файлов до 146 или 438, ограничение отсутствует в DR-DOS. Таким образом, добавление поддержки кодовой страницы 858 могло означать одновременное удаление другой (например, кодовой страницы 850), что могло не быть жизнеспособным решением в то время, учитывая, что некоторые приложения были жестко запрограммированы для использования кодовой страницы 850.

Рекомендации

  1. ^ "00858". Кодовые страницы по CPGID. IBM. В архиве из оригинала от 06.06.2016. Получено 2016-06-06.
  2. ^ Пол, Матиас Р. (15 августа 2001 г.). «Изменение кодовых страниц в FreeDOS» (Техническая спецификация на основе сообщения fd-dev [1] ). Архивировано из оригинал на 2016-06-06. Получено 2016-06-06. Новый официальный идентификатор для многоязычной «кодовой страницы 850 с EURO SIGN» - 858, а не 850. IBM перейдет на использование 858 вместо своего варианта 850 в будущих выпусках своих продуктов. […] Я могу только догадываться, почему они не добавили 858 к своим EGAx.CPI, COUNTRY.SYS, и KEYBOARD.SYS файлы в ПК DOS 2000. Многие сторонние приложения разработаны для работы с 850 и не знали о 858 на момент выпуска PC DOS 2000, так что это проще для всех, но, к сожалению, несовместимо. […] Как объяснялось выше, COUNTRY.SYS и KEYBOARD.SYS содержат только две записи кодовой страницы для данной страны в западных выпусках DOS. (В выпусках на арабском языке и иврите может быть до 8 кодовых страниц для одной страны, теоретически нет предела ниже допустимого диапазона кодовых страниц 1..65534). […] Проблема в том, что удаление поддержки 850 могло вызвать проблемы совместимости с приложениями, которые жестко запрограммированы на использование 850. Добавление 858 в качестве третьего варианта ко всем файлам значительно увеличило бы размеры файлов и таблиц. Парсер файлов COUNTRY.SYS в MS-DOS / PC DOS IO.SYS /IBMBIO.COM выделяет блокнот размером 6 Кбайт (для DOS 6) для загрузки всей информации. Это позволяет принять не более 438 записей в файле COUNTRY.SYS, в противном случае вы получите сообщение «COUNTRY.SYS too large.». В NLSFUNC парсер не имеет этого ограничения, и парсеры файлов в DR-DOS (ядро и NLSFUNC) также не знают о таком ограничении. В более старых выпусках MS-DOS / PC DOS даже был буфер размером 2 Кбайта для максимум 146 записей.
  3. ^ Пол, Матиас Р. (27 августа 2001 г.). «Изменение кодовых страниц в FreeDOS (продолжение)». В архиве с оригинала на 2014-10-01. Получено 2013-05-08. […] Можно также без проблем создавать собственные файлы .CPI в традиционном стиле FONT, но вы можете сохранить только до […] шести кодовых страниц в таком файле, если он должен использоваться MS-DOS / PC DOS (некоторые OEM issues, а NT может обрабатывать файлы размером более 64 КБ, но MS-DOS / PC DOS не может).