ISO/IEC 8859-1
ISO 8859-1 eller mer formellt ISO/IEC 8859-1 (även kallad latin1) är första delen i ISO/IEC 8859, som är en serie av standarder för teckenkodning definierad av ISO. Den kodar tecken ur det latinska alfabetet och består av 191 tecken kodade som 8 bitars-värden.
Denna teckenkodning stödjer västeuropeiska språk, bland annat engelska, tyska, holländska, svenska, norska, danska, isländska, spanska, portugisiska, italienska. Dessutom franska och finska med viss begränsning (ŒœŠšČč finns inte). Språk som till exempel samiska, polska, ungerska, turkiska stöds inte, utan det finns andra ISO/IEC 8859-varianter för dem.
ISO/IEC 8859-1 lider av ett par problem som till exempel att några tecken som används för franska och för finska samt eurosymbolen saknas. På grund av detta har ISO/IEC 8859-15 skapats som en uppdatering av ISO/IEC 8859-1 (Detta krävde dock att man uteslöt några sällan använda tecken som finns i ISO/IEC 8859-1, bland dem några fristående diakriter och några kvottecken, till exempel ½). ISO/IEC 8859-15 har inte använts så mycket eftersom Windows CP 1252 och Unicode har tagit över.
Kodtabell
[redigera | redigera wikitext]ISO/IEC 8859-1 | ||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
x0 | x1 | x2 | x3 | x4 | x5 | x6 | x7 | x8 | x9 | xA | xB | xC | xD | xE | xF | |
0x | reserverat för styrtecken (från ISO/IEC 6429) | |||||||||||||||
1x | ||||||||||||||||
2x | SP | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
3x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4x | @ | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O |
5x | P | Q | R | S | T | U | V | W | X | Y | Z | [ | \ | ] | ^ | _ |
6x | ` | a | b | c | d | e | f | g | h | i | j | k | l | m | n | o |
7x | p | q | r | s | t | u | v | w | x | y | z | { | | | } | ~ | |
8x | reserverat för styrtecken (till exempel (!) från ISO/IEC 6429) | |||||||||||||||
9x | ||||||||||||||||
Ax | NBSP | ¡ | ¢ | £ | ¤ | ¥ | ¦ | § | ¨ | © | ª | « | ¬ | SHY | ® | ¯ |
Bx | ° | ± | ² | ³ | ´ | µ | ¶ | · | ¸ | ¹ | º | » | ¼ | ½ | ¾ | ¿ |
Cx | À | Á | Â | Ã | Ä | Å | Æ | Ç | È | É | Ê | Ë | Ì | Í | Î | Ï |
Dx | Ð | Ñ | Ò | Ó | Ô | Õ | Ö | × | Ø | Ù | Ú | Û | Ü | Ý | Þ | ß |
Ex | à | á | â | ã | ä | å | æ | ç | è | é | ê | ë | ì | í | î | ï |
Fx | ð | ñ | ò | ó | ô | õ | ö | ÷ | ø | ù | ú | û | ü | ý | þ | ÿ |
I tabellen ovan är 20 det vanliga blanksteget och A0 är icke-radbrytande ("hårt") blanksteg, non-breaking space, medan AD är mjukt bindestreck, soft-hyphen, (rekommenderad plats för avstavning, visas inte om ingen avstavning sker).
Kodvärdena 00–1F, 7F och 80–9F har inga tecken enligt ISO/IEC 8859-1 (ej heller i någon annan ISO-standard för grafiska tecken). Dessa positioner är istället reserverade för styrtecken, till exempel från ISO/IEC 6429, eller i vissa fall från ISO 6630.
ISO/IEC 8859-1 och ISO-8859-1
[redigera | redigera wikitext]ISO-8859-1 (lägg märke till det extra bindestrecket, och att "IEC" inte är utskrivet) är en teckenkodning som IANA har registrerat för användning på Internet. Den består av ISO/IEC 8859-1 och en variant av styrkoder nästan enligt ISO/IEC 6429.
IANA har registrerat (http://www.iana.org/assignments/character-sets) följande namn för denna teckenkodning:
- ISO_8859-1:1987
- ISO_8859-1
- ISO-8859-1 (föredraget namn för MIME)
- iso-ir-100
- csISOLatin1
- latin1
- l1
- IBM819
- CP819
Namnet Latin-1 är inte registrerat av IANA.
Följande tabell visar ISO-8859-1, med trebokstäversförkortningar för styrtecken.
ISO-8859-1 | ||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
x0 | x1 | x2 | x3 | x4 | x5 | x6 | x7 | x8 | x9 | xA | xB | xC | xD | xE | xF | |
0x | NUL | SOH | STX | ETX | EOT | ENQ | ACK | BEL | BS | HT | LF | VT | FF | CR | SO | SI |
1x | DLE | DC1 | DC2 | DC3 | DC4 | NAK | SYN | ETB | CAN | EM | SUB | ESC | IS4 | IS3 | IS2 | IS1 |
2x | SP | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
3x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4x | @ | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O |
5x | P | Q | R | S | T | U | V | W | X | Y | Z | [ | \ | ] | ^ | _ |
6x | ` | a | b | c | d | e | f | g | h | i | j | k | l | m | n | o |
7x | p | q | r | s | t | u | v | w | x | y | z | { | | | } | ~ | DEL |
8x | PAD | HOP | BPH | NBH | IND | NEL | SSA | ESA | HTS | HTJ | VTS | PLD | PLU | RI | SS2 | SS3 |
9x | DCS | PU1 | PU2 | STS | CCH | MW | SPA | EPA | SOS | SGCI | SCI | CSI | ST | OSC | PM | APC |
Ax | NBSP | ¡ | ¢ | £ | ¤ | ¥ | ¦ | § | ¨ | © | ª | « | ¬ | SHY | ® | ¯ |
Bx | ° | ± | ² | ³ | ´ | µ | ¶ | · | ¸ | ¹ | º | » | ¼ | ½ | ¾ | ¿ |
Cx | À | Á | Â | Ã | Ä | Å | Æ | Ç | È | É | Ê | Ë | Ì | Í | Î | Ï |
Dx | Ð | Ñ | Ò | Ó | Ô | Õ | Ö | × | Ø | Ù | Ú | Û | Ü | Ý | Þ | ß |
Ex | à | á | â | ã | ä | å | æ | ç | è | é | ê | ë | ì | í | î | ï |
Fx | ð | ñ | ò | ó | ô | õ | ö | ÷ | ø | ù | ú | û | ü | ý | þ | ÿ |
ISO-8859-1 är vanligt förekommande för X Window System på de flesta Unix-maskiner.
ISO-8859-1 och Windows CP 1252
[redigera | redigera wikitext]Windows stöjder ett antal teckenkodningar definierade av Microsoft. En av dem är Windows-1252, och denna används som systemets default-kodning på vissa språkversioner av Windows, till exempel de större i västra och norra Europa. Windows-1252 är en teckenkodning som i stort liknar ISO-8859-1, men skiljer sig från den genom att ha skrivbara tecken istället för styrtecken på koderna 80–9F (hexadecimalt). I detta område finns tecken som stödjer franska (ŒœŸ), finska lånord (ŠšČ莞), slovenska (Č芚Žž), euro (€), holländska gulden (ƒ), tyska citationstecken („”) och lite annat man vill ha i Västeuropa.
Kodningen kallas CP1252 och har det IANA-registrerade namnet Windows-1252. Många versioner av Windows använder andra kodningar som default-kodning, men alla stödjer även andra Windows-kodningar, och andra kodningar. Men i allt högre utsträckning stöds Unicode, i högre grad ju nyare systemet eller applikationen är.
Eftersom ISO-8859-1 och Windows-1252 är lika förutom i området 80–9F, så har det varit vanligt att man egentligen använder Windows-1252, men markerar dokument som om de vore kodade i ISO-8859-1. Webbläsare, till exempel, låter därför ofta tolka en webbsida som om den är kodad i Windows-1252, även om den är märkt (direkt i dokumentet eller via webbservern) som att vara ISO-8859-1. Då styrkoderna i ISO-8859-1:s område 80–9F praktiskt taget aldrig används, i varje fall inte i webbsidor, gör denna tolkning sällan någon skada. Därmed inte sagt att det är vettigt att använda Windows-1252 men påstå att man använder ISO-8859-1. Det kommer inte att fungera i webbläsare som inte gör ovan nämnda antagande.
I HTML-standarden version 5 rekommenderas att för webbsidor som anges ha US-ASCII eller ISO-8859-1 istället anta att de har Microsofts Windows-1252, vilket standarden erkänner är ett medvetet brott mot mer grundläggande HTML/HTTP-regler.[1]
Mac OS
[redigera | redigera wikitext]Apple Macintosh använde sig tidigare av andra kodningar, till exempel MacRoman, registrerad hos IANA som macintosh, som skiljer sig från Latin-1 vid 80–FF. Mac OS bygger på Unicode, men stöder över dussinet Apple-specifika kodningar och ett flertal andra teckenkodningar utöver MacRoman.
Se även
[redigera | redigera wikitext]Referenser
[redigera | redigera wikitext]- ^ HTML Living Standard - 12.2 Parsing HTML documents Arkiverad 16 januari 2013 hämtat från the Wayback Machine.