ISO 8859
ISO 8859 — семейство ASCII-совместимых кодовых страниц, разработанное совместными усилиями ISO и IEC. По состоянию на 2006 год это семейство состояло из 15 кодовых страниц.
Общая информация
[править | править код]Поскольку кодировки ISO 8859 разрабатывались как средства для обмена информацией, а не как средства обеспечения высококачественной типографики, то в них не включены такие символы, как парные кавычки, тире различной длины, лигатуры и т. п. (хотя там всё же присутствуют такие символы, как неразрывный пробел и символ мягкого переноса). Зато довольно много места (область 0x80—0x9F) зарезервировано под «верхние управляющие символы», предназначенные для управления терминалами.
Поскольку различные страницы ISO 8859 разрабатывались совместно, они обладают некоторой взаимной совместимостью. Например, все семь символов расширенной латиницы, используемые в немецком языке, стоят на одинаковых позициях во всех кодовых страницах, включающих эти символы. Страницы Latin-1—Latin-4 обладают ещё большей степенью совместимости: каждый символ, представленный в любой из этих страниц, стоит в них на одинаковых позициях.
Применение
[править | править код]Кодировки серии ISO 8859 применяются главным образом на юниксоподобных системах, а также для кодирования веб-страниц (поскольку большинство веб-серверов использует UNIX).
В системах Microsoft Windows используются кодировки Windows, некоторые из которых совместимы с ISO 8859, но включают больше графических символов за счёт использования области 0x80
—0x9F
.
Части ISO 8859
[править | править код]- ISO 8859-1 (Latin-1)
- Расширенная латиница, включающая символы большинства западноевропейских языков (английский, датский, ирландский, исландский, испанский, итальянский, немецкий, норвежский, португальский, ретороманский, фарерский, шведский, шотландский (гэльский) и частично голландский, финский, французский), а также некоторых восточноевропейских (албанский) и африканских языков (африкаанс, суахили). В Latin-1 отсутствуют знак евро и заглавная буква Ÿ. Эта кодовая страница считается кодировкой по умолчанию для HTML-документов и сообщений электронной почты. Также этой кодовой странице соответствуют первые 256 символов Юникода.
- ISO 8859-2 (Latin-2)
- Расширенная латиница, включающая символы центральноевропейских и восточноевропейских языков (боснийский, венгерский, польский, словацкий, словенский, хорватский, чешский). В Latin-2, как и в Latin-1, отсутствуют знак евро.
- ISO 8859-3 (Latin-3)
- Расширенная латиница, включающая символы южноевропейских языков (мальтийский, турецкий и эсперанто).
- ISO 8859-4 (Latin-4)
- Расширенная латиница, включающая символы североевропейских языков (гренландский, эстонский, латышский, литовский и саамские языки).
- ISO 8859-5 (Latin/Cyrillic)
- Кириллица, включающая символы славянских языков (белорусский, болгарский, македонский, русский, сербский и частично украинский).
- ISO 8859-6 (Latin/Arabic)
- Символы, используемые в арабском языке. Символы других языков с письмом на основе арабского не поддерживаются. Для корректного отображения текста в кодировке ISO 8859-6 требуется поддержка двунаправленного письма и контекстно-зависимых форм символов.
- ISO 8859-7 (Latin/Greek)
- Символы современного греческого языка. Может использоваться также для записи древнегреческих текстов в монотонической орфографии.
- ISO 8859-8 (Latin/Hebrew)
- Символы современного иврита. Используется в двух вариантах: с логическим порядком следования символов (требует поддержки двунаправленного письма) и с визуальным порядком следования символов.
- ISO 8859-9 (Latin-5)
- Вариант Latin-1, в котором редко используемые символы исландского языка заменены на турецкие. Используется для турецкого и курдского языков.
- ISO 8859-10 (Latin-6)
- Вариант Latin-4, более удобный для скандинавских языков.
- ISO 8859-11 (Latin/Thai)
- Символы тайского языка.
- ISO 8859-12 (Latin/Devanagari)
- Символы письма деванагари. В 1997 году работа над ISO 8859-12 была официально прекращена, и эта кодировка так и не была принята как стандарт.
- ISO 8859-13 (Latin-7)
- Вариант Latin-4, более удобный для балтийских языков.
- ISO 8859-14 (Latin-8)
- Расширенная латиница, включающая символы кельтских языков, таких как шотландский (гэльский) и бретонский.
- ISO 8859-15 (Latin-9)
- Вариант Latin-1, в котором редко используемые символы заменены на необходимые для полной поддержки финского, французского и эстонского языков. Кроме того, в Latin-9 был добавлен знак евро.
- ISO 8859-16 (Latin-10)
- Расширенная латиница, включающая символы южноевропейских и восточноевропейских (албанский, венгерский, итальянский, польский, румынский, словенский, хорватский), а также некоторых западноевропейских языков (ирландский в новой орфографии, немецкий, финский, французский). Как и в Latin-9, в Latin-10 был добавлен знак евро.