Vés al contingut

Usuari:Mcapdevila/Unicode

De la Viquipèdia, l'enciclopèdia lliure

L' Unicode és un estàndard de codificació de caràcters dissenyat per facilitar el tractament informàtic, transmissió i visualització de textos de múltiples llenguatges i disciplines tècniques a part de textos clàssics de llengües mortes. El terme Unicode prové dels tres objectius perseguits: universalitat, uniformitat i unicitat. [1]

Unicode especifica un nom i identificador numèric únic per a cada caràcter o símbol, el code point o punt de codi , a més d'altres informacions necessàries per al seu ús correcte: direccionalitat, capitalització i altres atributs. Unicode tracta els caràcters alfabètics, ideogràfics i símbols de forma equivalent, el que significa que es poden barrejar en un mateix text sense la introducció de marques o caràcters de control. [2]

Aquest estàndard és mantingut per l' Unicode Technical Committee (UTC), integrat en el Unicode Consortium, del qual formen part amb diferent grau d'implicació empreses com: Microsoft, IBM, Oracle, SAP, Google, institucions com la Universitat de Berkeley, i professionals i acadèmics a títol individual. [3] El Unicode Consortium manté estreta relació amb ISO/IEC, amb la qual manté un acord des de 1991 amb l'objectiu de mantenir la sincronització entre els seus estàndards que contenen els mateixos caràcters i punts de codi. [4]

L'establiment d'Unicode ha estat un ambiciós projecte per a reemplaçar els esquemes de codificació de caràcters existents, molts dels quals estan molt limitats en grandària i són incompatibles amb entorns plurilingües. Unicode s'ha tornat el més extens i complet esquema de codificació de caràcters, sent el dominant en la internacionalització i adaptació local del programari informàtic. L'estàndard ha estat implementat en un nombre considerable de tecnologies recents, que inclouen XML, Java i sistemes operatius moderns.

La descripció completa de l'estàndard i les taules de caràcters estan disponibles a la pàgina web oficial de Unicode [1]. La referència completa es publica, a més, en forma de llibre imprès cada vegada que s'allibera una nova versió principal. La versió digital d'aquest llibre està disponible de forma gratuïta. Les revisions i addicions es publiquen de forma independent.

Repertori de caràcters

[modifica]

Tipus de caràcters

[modifica]
Diferents versions del caràcter Angstrom, com a caràcter (versió preferida), com a caràcter amb signe diacrític i com a símbol en forma de.

Els blocs de l'espai de codis contenen punts amb la informació següent: [5]

Caràcters gràfics : Lletres, signes diacrítics, xifres, caràcters de puntuació, símbols i espais.

Caràcters de format : Caràcters invisibles que afecten el procés del text proper. Exemples: U+2028 salt de línia , U+2029 salt de paràgraf , U+00A0 no break space , etc.

Codis de control : 65 codis definits per compatibilitat amb ISO/IEC 2022. Són els caràcters entre en els rangs [U+0000, U+001F], U+007F i [U+0080 .. U+009F]. Interpretar-és responsabilitat de protocols superiors.

Caràcters privats : Reservats per a l'ús fora de l'estàndard per fabricants de programari .

Caràcters reservats : Codis reservats per al seu ús per Unicode. Són posicions no assignades.

Punts de codi subrogats : Unicode reserva els punts de codi de U+D800 a U+DFFF per al seu ús com codis subrogats en UTF-16, en la representació de caràcters suplementaris.

No-caràcters : Són codis reservats permanentment per a ús intern per Unicode. Els dos últims punts de cada pla U+FFFE i U+FFFF.

Caràcters descartats : Són caràcters que es retenen per compatibilitat amb versions anteriors, però s'ha d'evitar el seu ús.

Repertori unificat xinès, coreà i japonès

[modifica]

Els ideogrames de l'Àsia oriental (popularment anomenats caràcters xinesos ) es denominen ideogrames Han al Estàndard Unicode. Aquests ideogrames es van desenvolupar a la Xina i van ser adaptats per cultures pròximes per al seu propi ús. [6] [7] Japó, Corea i el Vietnam van desenvolupar els seus propis sistemes alfabètics o sil·làbics per a usar en combinació amb els símbols xinesos: hiragana i katakana al Japó, hangul a Corea i Yi al Vietnam. L'evolució natural dels sistemes d'escriptura i els diferents moments d'entrada dels caràcters en les diferents cultures han marcat diferències en els ideogrames utilitzats. Unicode considera les diferents versions dels ideogrames com variants d'un mateix caràcter abstracte, és a dir, com a resultat de l'aplicació d'un tipus de lletra diferent en cada cas i considera les variants nacionals com a pertanyents a un mateix sistema d'escriptura . La versió original de l'estàndard es va desenvolupar a partir dels estàndards industrials existents en els països afectats.

L'organisme encarregat de desenvolupar el repertori de caràcters és el Ideographic Rapporteur Group (IRG). IRG és un grup de treball integrat en ISO/IEC JTC1/SC2/WG2, incloent a Xina, Hong Kong, Macau, Taipei Computer Association, Singapur, Japó, Corea del Sud, Corea del Nord, Vietnam i Estats Units d'Amèrica. [6]

La base de dades de caràcters CJK s'anomena Unihan i conté, a més, informació auxiliar sobre significat, conversions, dades necessàries per utilitzar en els diferents llenguatges que els utilitzen. A continuació hi ha els blocs que descriuen aquest repertori. IRG defineix els caràcters dels tres grups unificats, els següents dos grups contenen caràcters per compatibilitat amb estàndards anteriors.

Bloc Rang de codis Comentaris
Ideogrames unificats CJK 4E00-9FFF Ideogrames d'ús comú. Mida de codi 2 bytes.
Ideogrames unificats CJK - Extensió A 3400-4DFF Ideogrames d'ús poc habitual. Mida de codi 2 bytes.
Ideogrames unificats CJK - Extensió B 20.000-2A6DF Ideogrames d'ús poc habitual i històrics.
Ideogrames de compatibilitat F900-FAFF Duplicats, variants unificables i caràcters corporatius. Mida de codi 2 bytes.
Suplement de ideogrames de compatibilitat 2F800-2FA1F Variants unificables.

Composició de caràcters i seqüències

[modifica]
Composició del caràcter "ñ" . La primera és un caràcter independent, la segona una n més una titlla combinable.

Unicode inclou un mecanisme per formar caràcters i així estendre el repertori de compatibilitat amb els símbols existents. Un caràcter base es complementa amb marques: signes diacrítics, de puntuació o marcs. El tipus de cada caràcter i els seus atributs defineixen el paper que poden jugar en una combinació. Per aquest motiu, pot haver diverses opcions que representin el mateix caràcter. Per facilitar la compatibilitat amb codificacions anteriors, es proporcionen caràcters precompuestos, en la definició d'aquests caràcters es fa constar quins caràcters intervenen en la composició.

Un grup de caràcters consecutius, independentment del seu tipus, forma una seqüència. En cas que diverses seqüències representin el mateix conjunt de caràcters essencials, l'estàndard no defineix una d'elles com 'correcta', sinó que les considera equivalents. Per poder identificar aquestes equivalències, Unicode defineix els mecanismes de equivalència canònica i de equivalència de compatibilitat basats en l'obtenció de formes normalitzades de les cadenes a comparar.

Seqüències de descripció ideogràfica

[modifica]

S'admet que mai es podrà finalitzar la tasca d'incloure ideogrames en l'estàndard a causa, principalment, al fet que la creació de nous ideogrames continua. Per tal de suplir eventuals mancances, Unicode proporciona una manera que permet la representació dels símbols que falten denominat seqüències de descripció ideogràfica . Es basa en que en la pràctica, la totalitat dels ideogrames es pot descompondre en peces més petites que, al seu torn, són ideogrames. Encara que sigui possible la representació d'un símbol mitjançant una seqüència, l'estàndard especifica que es disposa d'una versió codificada seu ús ha de ser preferent. No existeix la pràctica per a la descomposició canònica d'ideogrames ni algorismes d'equivalència de manera que les operacions sobre el text, com a recerca o ordenació, poden fallar.

Unicode defineix 12 caràcters diferents per a la descripció d'ideogrames representant diferents possibilitats de combinació espacial d'altres caràcters Han

Tractament de la informació

[modifica]

Formes de codificació

[modifica]

Els punts de codi d'Unicode s'identifiquen per un nombre enter. Segons la seva arquitectura, un ordinador utilitzarà unitats de 8, 16 o 32 bits per representar aquests sencers. Les formes de codificació d'Unicode reglamenten la manera com els punts de codi es transformaran en unitats tractables per l'ordinador.

Unicode defineix tres formes de codificació sota el nom UTF o Format de Transformació Unicode ( Unicode Transformation Format ): [8]

  • UTF-8 - codificació orientada a byte amb símbols de longitud variable.
  • UTF-16 - codificació de 16 bits de longitud variable optimitzada per a la representació del mapa bàsic multilingüe (BMP).
  • UTF-32 - codificació de 32 bits de longitud fixa, i la més senzilla de les tres.

Les formes de codificació es limiten a descriure la manera com es representen els punts de codi en format intel·ligible per la màquina. A partir de les 3 formes identificades es defineixen 7 esquemes de codificació.

Esquemes de codificació

[modifica]

Els esquemes de codificació tracten de la forma en què se serialitzats, escindits la informació codificada. [8] La seguretat en els intercanvis d'informació entre sistemes heterogenis requereix la implementació de sistemes que permetin determinar l'ordre correcte dels bits i bytes i garantir que la reconstrucció de la informació és correcta. Una diferència fonamental entre processadors és l'ordre de disposició dels bytes en paraules de 16 i 32 bits, el que s'anomena endianness . Els esquemes de codificació han de garantir que els extrems d'una comunicació saben com interpretar la informació rebuda. A partir de les 3 formes de codificació es defineixen 7 esquemes. Tot i que comparteixen noms, no s'ha de confondre esquemes i formes de codificació.

Esquema de codificació endianness Admet BOM
UTF-8 No aplicable
UTF-16 Big-endian o Little endian
UTF-16BE Big-endian No
UTF-16LE Little-endian No
UTF-32 Big-endian o Little endian
UTF-32BE Big-endian No
UTF-32LE Little-endian No

Unicode defineix una marca especial, Byte order mark o BOM a l'inici d'un fitxer o una comunicació per fer explícita l'ordenació de bytes. Quan un protocol superior s'especifica l'ordre de bytes, la marca no és necessària i pot ometre donant lloc als esquemes de la llista anterior amb sufix BE o LE . En els esquemes UTF-16 i UTF-32, que admeten BOM, si aquest no s'especifica s'assumeix que l'ordenació de bytes és big-endian .

La unitat de codificació en UTF-8 és el byte pel que no necessita una indicació d'ordre de byte. L'estàndard ni requereix ni recomana la utilització de BOM, però l'admet com a marca que el text és Unicode o com a resultat de la conversió d'altres esquemes.

Història

[modifica]

El projecte unicode es va iniciar a finals de 1987, després converses entre els enginyers de Microsoft i Xerox: Joe Becker, Lee Collins i Mark Davis. [9] Resultat de la seva col·laboració, l'agost de 1988 es va publicar el primer esborrany d'Unicode sota el nom de Unicode88. [10] Aquesta primera versió, amb codis de 16 bits, es va publicar assumint que només es codificarían els caràcters necessaris per a l'ús modern.

Durant l'any 1989 el treball va continuar amb l'addició de col·laboradors d'altres companyies com Microsoft o Sun Microsystems. El Consorci Unicode es va formar el 3 de febrer de 1991 i l'octubre de 1991 es va publicar la primera versió de l'estàndard. La segona versió, incloent escriptura ideogràfica Han es va publicar el juny de 1992. A continuació es mostra una taula amb les diferents versions de l'Estàndard Unicode amb les seves addicions o modificacions més importants.

Version Data Publicació Edició ISO/IEC 10646 associada Escriptures Caràcters
# Addicions notables
1.0.0 Octubre de 1991 ISBN 0-201-56788-1 (Vol.1) 24 7.161 El repertori inicial cobreix els alfabets: Àrab, Armeni, Bengali, Bopomofo, Cirílic, devanagari, Georgià, Grec/Copte, Gujarati, Gurmukhi, Hangul, Hebreu, Hiragana, Kannada, Katakana, Lao, Llatí, Malayalam, Oriya, Tàmil, Telugu, Tailandès, i Tibetà. [11]
1.0.1 Juny 1992 ISBN 0-201-60845-6 (Vol.2) 25 28.359 Definit el primer conjunt de 20.902 ideogrames CJK unificats. [11]
01/01 Juny 1993 ISO/IEC 10646-1:1993 24 34.233 S'agreguen 4.306 caràcters Hangul més al conjunt original de 2.350. S'elimina l'alfabet tibetà. [11]
2.0 Juliol 1996 ISBN 0-201-48345-9 ISO/IEC 10646-1:1993 amb esmenes 5, 6 i 7 25 38.950 Eliminat el conjunt original de caràcters Hangul; s'agrega un nou conjunt de 11.172 caràcters Hangul en una nova ubicació. Es reincorpora l'alfabet tibetà en una nova ubicació i amb un joc de caràcters diferent. Es defineix el sistema de codis subrogats i es creen els mapas 15 i 16 de caràcters per a ús privat. [11]
2/1 Maig 1998 ISO/IEC 10646-1:1993 amb esmenes 5, 6 i 7, i dos caràcters de l'esmena 18 25 38.952 S'agrega el símbol del Euro. [11]
3.0 Setembre 1999 ISBN 0-201-61633-5 ISO/IEC 10646-1:2000 38 49.259 Ideogrames Cherokee. Escriptures Etíop, Khmer, Mongol, Myanmar, Ogham, Alfabet rúnic, Singalès, Siríaco, Thaana, Sil·labari unificat dels indígenes canadencs, i Yi a més dels patrons Braille. [11]
3/1 Març de 2001 ISO/IEC 10646-1:2000

ISO/IEC 10646-2:2001

41 94,205 S'agreguen els alfabets Deseret, Gòtic i Etrusc, i els símbols de Notació musical moderna, Música bizantina, i 42.711 ideogrames de CJK unificat. [12]
3.2 Març 2002 ISO/IEC 10646-1:2000 amb l'esmena 1

ISO/IEC 10646-2:2001

45 95.221 Agregades les escriptures filipines: Buhid, Hanunóo, Tagalog, i Tagbanwa. [13]
4.0 Abril 2003 ISBN 0-321-18578-1 ISO/IEC 10646:2003 52 96.447 S'agrega el Sil·labari xipriota, limbu, Lineal B, Osmanya, Shaviano, Tai Li, i ugarítico, i els símbols Hexagrama. [12]
04/01 Març 2005 ISO/IEC 10646:2003 amb esmena 1 59 97.720 Agregats Buginese, glagolítico, Kharoshthi, New Tai Lue, Persa antic, Syloti Nagri , i Tifinagh. Es separa el Copte de l'alfabet grec. Símbols grecs antics per a música i numeració. [12]
5.0 Juliol de 2006 ISBN 0-321-48091-0 ISO/IEC 10646:2003 amb esmenes 1 i 2 i quatre caràcters de l'esmena 3 64 99.089 Agregats Balinès, Cuneïforme, N'Ko, Phags-pa, i Fenici. [12]
01/05 Abril 2008 ISO/IEC 10646:2003 més esmenes 1, 2, 3 i 4 75 100.713 Agregats escriptura cària, Cham, Kayah Li, escriptura lepcha, Alfabet lici, Alfabet Brego, Alfabet Ol Chiki, rejang, Saurashtra, Sondanès, i el Vai. Els jeroglífics del Disc de Festos, fitxes de Mahjong i de Dòmino. Addicions importants per al Birmà, lletres i abreviatures de amanuense utilitzades en manuscrits medievals i l'addició de la ß majúscula. [14]

Unicode 5.2, en correspondència amb ISO/IEC 10646:2003 amb esmenes d'1 a 6, es publicarà a la tardor de 2009. [15]

Formes d'escriptura suportades

[modifica]

Unicode contempla gairebé qualsevol mena de forma d'escriptura utilitzada avui:

i altres. També suporta símbols (matemàtics, lògics, musicals...), ornamentació i sistemes d'escriptura de l'antiguitat, com ara l'ogham, les runes, el lineal A i B o els diacrítics del grec clàssic.

Vegeu també

[modifica]

Referències

[modifica]
  1. Resum històric. Unicode, Inc [Consulta: 21 maig 2009]. 
  2. About the Unicode Standard. Unicode, Inc [Consulta: 21 maig 2009]. 
  3. The Unicode Consortium Members. Unicode, Inc [Consulta: 21 maig 2009]. 
  4. The Unicode Consortium. «Appendix C. Relationship to ISO/IEC10646». A: Julie D. Allen, Joe Becker (et al.). Unicode 5.0 estàndard (en anglès). Addisson-Wesley, octubre 2006. ISBN 0-321-48091-0. 
  5. The Unicode Consortium. «16. Special Àrees and Format Characters». A: Julie D. Allen, Joe Becker (et al.). Unicode 5.0 estàndard (en anglès). Addisson-Wesley, octubre 2006. ISBN 0-321-48091-0. 
  6. 6,0 6,1 [http ://www.unicode.org/notes/tn26/ On the Encoding of Latin, Greek, Cyrillic, and Han]. 
  7. «12. East Asian Scripts». A: org/versions/Unicode5.0.0/ch12.pdf Unicode 5.0 Standard. 
  8. 8,0 8,1 The Unicode Consortium. «2.5 Encoding Forms». A: Julie D . Allen, Joe Becker (et al.). Unicode 5.0 estàndard (en anglès). Addisson-Wesley, octubre 2006. ISBN 0-321-48091-0. 
  9. Chronology of Unicode Version 1.0. 
  10. Becker, Joseph D. Unicode 88 (en anglès). Unicode Consortium, 10 de setembre, p. 10 [Consulta: 29 maig 2009]. 
  11. 11,0 11,1 11,2 11,3 11,4 11,5 The Unicode Consortium, Joan Aliprand, et al.. «Appendix D. Changes from Unicode Version 2.0». A: The Unicode Standard. Version 3.0 estàndard (en anglès). Addisson-Wesley, gener de 2000. ISBN 0-201-61633-5. 
  12. 12,0 12,1 12,2 12,3 The Unicode Consortium. «Appendix D. Changes from previous versions». A: Julie D. Allen, Joe Becker (et al.). Unicode 5.0 estàndard (en anglès). Addisson-Wesley, octubre 2006. ISBN 0-321-48091-0. 
  13. Error de citació: Etiqueta <ref> no vàlida; no s'ha proporcionat text per les refs nomenades Unicode-CAMBIOS5
  14. fitxer de dades d'Unicode 5.1
  15. pdf Unicode Liaison Report - WG 2 meeting 54

Enllaços externs

[modifica]