ISO/IEC 8859-1
ISO/IEC 8859-1 è una codifica di caratteri standard appartenente alla famiglia ISO 8859, orientata principalmente alla rappresentazione delle lingue dell'Europa occidentale (elencate sotto). Standardizzato nel 1998, costituisce la base degli insiemi di caratteri ad otto bit più diffusi e utilizzati, come il Windows-1252 e coincide con il primo blocco di caratteri dell'Unicode.
Equivalenza con altre codifiche
modificaISO-8859-1 è il nome assegnato da IANA per questo standard una volta completato dai codici di controllo C0 e C1 del set ISO/IEC 6429. Per questo standard si usano inoltre anche altre denominazioni registrate come pseudonimi:
- iso-ir-100
- latin1
- l1
- csISOLatin1
- IBM819
- CP819.
La tabella di codici caratteri Windows-1252 coincide con la ISO-8859-1 per tutti i codici tranne per quelli tra il 128 e il 159, (in esadecimale, tra 0x80 e 0x9F), dove i poco usati codici di controllo C1 sono stati sostituiti da caratteri aggiuntivi che includono tutti i caratteri mancanti disponibili nell'ISO-8859-15. La tabella Code page 28591, detta anche Windows-28591, è in realtà l'ISO-8859-1.[1]
Copertura
modificaL'ISO 8859-1 codifica i cosiddetti "alfabeti latini no. 1", consistenti in 191 caratteri originati dall'alfabeto latino. Questa codifica caratteri è usata nei continenti americani, in Europa occidentale, in Oceania e in gran parte dell'Africa. È anche di uso comune nella trascrizione internazionale delle lingue dell'Asia orientale.
Ciascun carattere è rappresentato da un singolo valore ad otto bit. Questi valori possono essere usati in quasi tutti i sistemi di scambio dati per comunicare nelle seguenti lingue europee (con alcune eccezioni dovute ad alcuni caratteri mancanti, annotate nel testo):
Lingue completamente rappresentate
modifica- Tedesco
- Islandese
- Indonesiano
- Irlandese (nuova ortografia)
- Italiano
- Latino (ortografia classica)
- Leonese
- Lussemburghese (ortografia classica)
- Malese
- Mannese
Lingue non completamente rappresentate
modificaLingua | Caratteri mancanti | Soluzione alternativa | Supportata da |
---|---|---|---|
Catalano | Ŀ, ŀ (deprecato) | L·, l· | |
Ceco | Č, č, Ř, ř, Š, š, Ž, ž, ch | digrafo ch | |
Olandese | IJ, ij | digrafo IJ, ij | |
Estone | Š, š, Ž, ž (solo in parole straniere) | Sh, sh, Zh, zh | ISO-8859-15, Windows-1252 |
Finlandese | Š, š, Ž, ž (solo in parole straniere) | Sh, sh, Zh, zh | ISO-8859-15, Windows-1252 |
Francese | Œ, œ, e la molto rara Ÿ | digrafo OE, oe, e Y senza dieresi | ISO-8859-15, Windows-1252 |
Ungherese | Ő, ő, Ű, ű | Õ, õ (o Ô, ô; a volte Ö, ö), Û, û (a volte Ü, ü) | ISO-8859-2, Windows-1250 |
Irlandese (ortografia tradizionale) | Ḃ, ḃ, Ċ, ċ, Ḋ, ḋ, Ḟ, ḟ, Ġ, ġ, Ṁ, ṁ, Ṡ, ṡ, Ṫ, ṫ | Bh, bh, Ch, ch, Dh, dh, Fh, fh, Gh, gh, Mh, mh, Sh, sh, Th, th | ISO-8859-14 |
Latino con diacritici | Ā, ā, Ē, ē, Ī, ī, Ō, ō, Ū, ū | ISO-8859-13, Windows-1257 | |
Maori | Ā, ā, Ē, ē, Ī, ī, Ō, ō, Ū, ū | Ä, ä, Ë, ë, Ï, ï, Ö, ö, Ü, ü | ISO-8859-13, Windows-1257 |
Turco | İ, ı, Ğ, ğ, Ş, ş | I, i, G, g, S, s | ISO-8859-3, ISO-8859-9, Windows-1254 |
Gallese | Ẁ, ẁ, Ẃ, ẃ, Ŵ, ŵ, Ŷ, ŷ | ISO-8859-14 |
Virgolette
modificaPer alcune delle lingue elencate sopra mancano le virgolette tipografiche corrette, essendo disponibili solo quelle « », " ", e ' '. Questo set caratteri inoltre non fornisce le virgolette singole o doppie differenziate per l'apertura e per la chiusura (a forma di 6 o di 9). Alcuni tipi di carattere mostrano l'accento grave separato (0x60) e l'apostrofo (0x27) allo stesso modo di un paio di virgolette singole di apertura e di chiusura, nonostante ciò non sia contemplato nello standard moderno.
Storia
modificaL'ISO 8859-1 si fonda sul Multinational Character Set usato dalla Digital Equipment Corporation nel popolare terminale VT220. Il suo sviluppo avvenne ad opera della ECMA, European Computer Manufacturers Association, e fu pubblicato nel marzo del 1985 come il documento ECMA-94, denominazione con la quale a volte vi si fa ancora riferimento. La seconda edizione dell'ECMA-94 (giugno 1986) include anche l'ISO 8859-2, l'ISO 8859-3 e l'ISO 8859-4 quali parti delle sue specifiche.
Nel 1985 la Commodore adottò l'ISO 8859-1 per il suo nuovo sistema operativo AmigaOS. Anche la stampante ad aghi Seikosha MP-1300AI, offerta con l'Amiga 1000, includeva questa codifica dei caratteri. [senza fonte] Nel 1992, la IANA registrò la mappa di caratteri ISO_8859-1:1987, meglio nota con il suo nome MIME di ISO-8859-1 (da notare il trattino in più rispetto alla denominazione ISO 8859-1), un sovrainsieme dell'ISO 8859-1, per l'uso su Internet. Questa mappa assegna i caratteri di controllo C0 e C1 ai loro codici, non precedentemente assegnati, fornendo così 256 caratteri e sfruttando ogni possibile valore ad 8 bit.
L'ISO-8859-1 costituisce (almeno secondo gli standard) la codifica predeterminata dei documenti trasmessi via HTTP quale oggetto MIME la cui identificazione inizia per "text/". È anche la codifica preimpostata per i valori di alcune intestazioni descrittive HTTP e definisce il repertorio dei caratteri ammessi nei documenti HTML 3.2 (l'HTML 4.0 e 5.1 [2] si basano invece sull'UTF-8). Questo e i set caratteri Windows-125* sono spesso assunti come le codifiche di testo da usare nei sistemi Unix e Microsoft Windows in assenza della definizione di una localizzazione linguistica o altra informazione equivalente. Questi sistemi stanno però gradualmente sostituendo queste codifiche con quelle Unicode, come l'UTF-8 o l'UTF-16.
Struttura della codifica caratteri
modificaHex | _0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _D | _E | _F |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0_ | ||||||||||||||||
1_ | ||||||||||||||||
2_ | SP | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
3_ | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4_ | @ | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O |
5_ | P | Q | R | S | T | U | V | W | X | Y | Z | [ | \ | ] | ^ | _ |
6_ | ` | a | b | c | d | e | f | g | h | i | j | k | l | m | n | o |
7_ | p | q | r | s | t | u | v | w | x | y | z | { | | | } | ~ | |
8_ | ||||||||||||||||
9_ | ||||||||||||||||
A_ | ¡ | ¢ | £ | ¤ | ¥ | ¦ | § | ¨ | © | ª | « | ¬ | SHY | ® | ¯ | |
B_ | ° | ± | ² | ³ | ´ | µ | ¶ | · | ¸ | ¹ | º | » | ¼ | ½ | ¾ | ¿ |
C_ | À | Á | Â | Ã | Ä | Å | Æ | Ç | È | É | Ê | Ë | Ì | Í | Î | Ï |
D_ | Ð | Ñ | Ò | Ó | Ô | Õ | Ö | × | Ø | Ù | Ú | Û | Ü | Ý | Þ | ß |
E_ | à | á | â | ã | ä | å | æ | ç | è | é | ê | ë | ì | í | î | ï |
F_ | ð | ñ | ò | ó | ô | õ | ö | ÷ | ø | ù | ú | û | ü | ý | þ | ÿ |
Note
modifica- ^ Code Page Identifiers, su msdn.microsoft.com, Microsoft Corporation. URL consultato il 19 dicembre 2010.
- ^ (EN) HTML 5.1 Nightly - A vocabulary and associated APIs for HTML and XHTML, su w3.org, 3 aprile 2014.