Unicode

Unicode és un estàndard internacional de codificació de caràcters, per a suports informàtics. Permet emmagatzemar qualsevol mena d'escriptura que es faci servir actualment, moltes formes d'escriptura conegudes només pels estudiosos, i símbols com ara els símbols matemàtics, lingüístics, i APL.^[1]

Està mantingut pel Unicode Technical Committee (UTC), integrat al Consorci Unicode, on hi ha empreses com: Microsoft, Apple, Adobe, IBM, Oracle, SAP, Google o Yahoo!, institucions com la Universitat de Berkeley, i professionals i acadèmics a títol individual.^[2] Des del 1991, l'Unicode Consortium i la ISO/IEC estan d'acord a mantenir els mateixos codis per als mateixos caràcters.^[3]

Unicode vol reemplaçar tots els codis de caràcters existents. És el conjunt de caràcters més complet, i ha esdevingut l'opció a triar als entorns multilingües. Molts estàndards recents ja l'han adoptat,^[4] per exemple XML, Java, i sistemes operatius moderns.

Formes d'escriptura admeses[modifica]

Unicode té totes les formes d'escriptura actuals:^[5]

Grec
Gujarati (índic)
Gurmukhi (índic)
Hangul (coreà)
Han (kanji, hanja, CJK, Xinès)
Japonès (kanji amb hiragana i katakana.)
Hebreu
Hiragana
Katakana
Khmer (cambodjà)
Kannada (índic)
Lao

Llatí
Malai (índic)
Mongol
Myanmar (birmà)
Oriya (índic)
Siríac
Tàmil
Tailandès
Tibetà
Yi
I altres.

També té símbols (matemàtics, lògics, musicals…), ornamentació, i sistemes d'escriptura de l'antiguitat, com ara l'ogham, les runes, el lineal A i B, o els diacrítics del grec clàssic.

Tractament de la informació[modifica]

Formes de codificació[modifica]

Les computadores fan servir 8, 16, o 32 bits per representar els caràcters. Unicode té tres formes de codificació amb el nom UTF (Unicode transformation format, en català format de transformació Unicode): ^[6]

UTF-8: 8 bits, amb símbols de longitud variable.
UTF-16: 16 bits de longitud variable, adaptada al pla bàsic multilingüe (BMP).
UTF-32: 32 bits de longitud fixa, la més senzilla de les tres.

A partir de les 3 formes identificades es defineixen 7 esquemes de codificació.

Esquemes de codificació[modifica]

Els esquemes de codificació tracten de la forma en què es serialitza la informació.^[6] La seguretat fa determinar l'ordre correcte dels bits, per reconstruir la informació. Una diferència fonamental entre processadors és l'ordre de disposició dels bytes, amb paraules de 16 o 32 bits, això es diu endianness. Els esquemes de codificació han de garantir que els extrems d'una comunicació saben com interpretar la informació rebuda. A partir de les 3 formes de codificació es defineixen 7 esquemes. Tot i que comparteixen noms, no s'ha de confondre esquemes i formes de codificació.

Esquema de codificació	Endianness	Admet BOM
UTF-8	No aplicable	Sí
UTF-16	Big-endian o Little-endian	Sí
UTF-16BE	Big-endian	No
UTF-16LE	Little-endian	No
UTF-32	Big-endian o Little-endian	Sí
UTF-32BE	Big-endian	No
UTF-32LE	Little-endian	No

Unicode defineix una marca especial, la marca d'ordre de bytes (BOM, Byte Order Mark), a l'inici d'un arxiu o d'una comunicació per dir quina és l'ordenació de bytes. Quan un protocol superior especifica l'ordre de bytes, no cal cap marca. Es pot ometre, donant lloc als esquemes de la llista anterior amb sufix BE o LE. Als esquemes UTF-16 i UTF-32, que admeten BOM, si aquest no s'especifica, es suposa que l'ordenació de bytes és big-endian.

La unitat de codificació en UTF-8 és el byte, per tant no cal cap indicació d'ordre de byte. L'estàndard ni demana ni recomana la utilització de BOM, però l'admet com a marca de que el text és Unicode, o com a resultat de la conversió d'uns altres esquemes.

Caràcters UNICODE a Windows[modifica]

Mètode que pot funcionar independentment de l'idioma configurat pel teclat:

Prémer la tecla Alt.
Prémer la tecla + (més) en el teclat numèric.
Teclejar el valor decimal equivalent al valor hexadecimal Unicode
Deixar anar la tecla Alt.

Exemples:

ALT+0171...« (obrir cometes llatines)

ALT+0181...» (tancar cometes llatines)

«..dissortada i manifestament..»

ALT+0150...– (guionet més llarg per als comentaris)

– tot just feia quatre dies–

ALT+0136...ˆ (circumflex)

ALT+0152...˜ (titlla)

ALT+0209...Ñ

ALT+0209...©

Vegeu també[modifica]

Taula de codis

Referències[modifica]

↑ «Summary Narrative» (en anglès). [Consulta: 1r juliol 2014].
↑ «The Unicode Consortium Members». Unicode, Inc. [Consulta: 1r juliol 2014].
↑ The Unicode Consortium. «Appendix C. Relationship to ISO/IEC10646». A: Julie D. Allen, Joe Becker (et al.). Unicode 5.0 estàndard (en anglès). Addisson-Wesley, octubre de 2006. ISBN 0-321-48091-0 [Consulta: 1r juliol 2014].
↑ «Unicode». Gran Enciclopèdia Catalana. Barcelona: Grup Enciclopèdia Catalana.
↑ «Supported Scripts» (en anglès). [Consulta: 1r juliol 2014].
↑ ^6,0 ^6,1 The Unicode Consortium. «2.5 Encoding Forms». A: Julie D. Allen, Joe Becker (et al.). Unicode 5.0 estàndard (en anglès). Addisson-Wesley, octubre de 2006. ISBN 0-321-48091-0.

Enllaços externs[modifica]

A Wikimedia Commons hi ha contingut multimèdia relatiu a: Unicode

[1] «Summary Narrative» (en anglès). [Consulta: 1r juliol 2014].

[UNICODE-MEMBERS-2] «The Unicode Consortium Members». Unicode, Inc. [Consulta: 1r juliol 2014].

[UNICODE-ISO-3] The Unicode Consortium. «Appendix C. Relationship to ISO/IEC10646». A: Julie D. Allen, Joe Becker (et al.). Unicode 5.0 estàndard (en anglès). Addisson-Wesley, octubre de 2006. ISBN 0-321-48091-0 [Consulta: 1r juliol 2014].

[4] «Unicode». Gran Enciclopèdia Catalana. Barcelona: Grup Enciclopèdia Catalana.

[5] «Supported Scripts» (en anglès). [Consulta: 1r juliol 2014].

[UNICODE-UTF-6] 6,0 ^6,1 The Unicode Consortium. «2.5 Encoding Forms». A: Julie D. Allen, Joe Becker (et al.). Unicode 5.0 estàndard (en anglès). Addisson-Wesley, octubre de 2006. ISBN 0-321-48091-0.

[1]

[2]

[3]

[4]

[5]

[6]

Registres d'autoritat	GND (1) LCCN (1) NKC (1)
Bases d'informació	GEC (1)