Fitxer de text

De la Viquipèdia, l'enciclopèdia lliure
Infotaula de format de fitxerFitxer de text
Tipusformat de fitxer Modifica el valor a Wikidata
Extensiótxt, text i cap valor Modifica el valor a Wikidata
MIMEtext/plain Modifica el valor a Wikidata
Més informació
Stack ExchangeEtiqueta Modifica el valor a Wikidata
Wiki del format de fitxerPlain_text Modifica el valor a Wikidata
PRONOMx-fmt/111 Modifica el valor a Wikidata

Un fitxer de text (o també arxiu de text ; un nom alternatiu antic és fitxer de text pla) és un tipus de fitxer informàtic que s'estructura com una seqüència de línies de text electrònic. Existeix un fitxer de text emmagatzemat com a dades dins d'un sistema de fitxers d'ordinador. En sistemes operatius com CP / M i MS-DOS, on el sistema operatiu no fa un seguiment de la mida del fitxer en bytes, el final d'un fitxer de text es denota posant un o més caràcters especials, coneguts com a final de Marcador de fitxers, com a farciment després de l'última línia d'un fitxer de text.

Als sistemes operatius moderns, com ara Microsoft Windows i sistemes similars a Unix, els fitxers de text no contenen cap caràcter EOF especial, perquè els sistemes de fitxers d'aquests sistemes operatius fan un seguiment de la mida del fitxer en bytes. La majoria dels fitxers de text han de tenir delimitadors de final de línia, que es fan de diverses maneres segons el sistema operatiu. Alguns sistemes operatius amb sistemes de fitxers orientats al registre poden no utilitzar nous delimitadors de línia i emmagatzemaran principalment fitxers de text amb línies separades com a registres de longitud fixa o variable.

"Fitxer de text" fa referència a un tipus de contenidor, mentre que el text sense format fa referència a un tipus de contingut. A nivell genèric de descripció, hi ha dos tipus de fitxers informàtics: fitxers de text i fitxers binaris.

Una representació icònica estilitzada d'un fitxer de text amb format CSV

Per la seva simplicitat, els fitxers de text s'utilitzen habitualment per emmagatzemar informació. Eviten alguns dels problemes que es troben amb altres formats de fitxer, com ara l'ordre dels bytes, farciment de bytes o diferències en el nombre de bytes en una paraula. A més a més, quan es produeixen danys de dades en un fitxer de text, sovint és més fàcil recuperar i continuar processant el contingut restant. Un desavantatge dels fitxers de text és que solen tenir una baixa entropia, el que significa que la informació ocupa més emmagatzematge del que és estrictament necessari.

És possible que un fitxer de text senzill no necessiti metadades addicionals (a part del coneixement del seu conjunt de caràcters) per ajudar el lector a interpretar-lo. És possible que un fitxer de text no contingui dades, és a dir, un fitxer de zero bytes.

Codificació[modifica]

El conjunt de caràcters ASCII és el subconjunt de caràcters compatible més comú per als fitxers de text en anglès i, en general, se suposa que és el format de fitxer per defecte en moltes situacions. Cobreix l'anglès americà, però per al signe de la lliura britànica, el signe Euro o els caràcters que s'utilitzen fora de l'anglès, s'ha d'utilitzar un joc de caràcters més ric. En molts sistemes, es tria en funció de la configuració regional predeterminada de l'ordinador on es llegeix. Abans de l'UTF-8, tradicionalment es tractava de codificacions d'un sol byte (com ara ISO-8859-1 a ISO-8859-16) per a llengües europees i codificacions de caràcters àmplies per a llengües asiàtiques.

Com que les codificacions necessàriament només tenen un repertori limitat de caràcters, sovint molt reduït, molts només es poden utilitzar per representar text en un subconjunt limitat de llenguatges humans. Unicode és un intent de crear un estàndard comú per representar tots els idiomes coneguts, i la majoria de conjunts de caràcters coneguts són subconjunts del conjunt de caràcters Unicode molt gran. Tot i que hi ha múltiples codificacions de caràcters disponibles per a Unicode, el més comú és UTF-8, que té l'avantatge de ser compatible amb ASCII; és a dir, cada fitxer de text ASCII també és un fitxer de text UTF-8 amb un significat idèntic. UTF-8 també té l'avantatge que és fàcilment detectable automàticament. Per tant, un mode de funcionament comú del programari compatible amb UTF-8, quan s'obren fitxers de codificació desconeguda, és provar primer UTF-8 i tornar a una codificació heretat dependent de la configuració local quan definitivament no és UTF-8.

Formats[modifica]

A la majoria de sistemes operatius, el fitxer de text de nom fa referència al format de fitxer que només permet contingut de text pla amb molt poc format (per exemple, sense tipus en negreta ni cursiva). Aquests fitxers es poden visualitzar i editar en terminals de text o en editors de text senzills. Els fitxers de text solen tenir el tipus MIMEtext/plain, normalment amb informació addicional que indica una codificació.

Fitxers de text de Microsoft Windows[modifica]

MS-DOS i Microsoft Windows utilitzen un format de fitxer de text comú, amb cada línia de text separada per una combinació de dos caràcters: retorn de carro (CR) i alimentació de línia (LF). És habitual que l'última línia de text no s'acabi amb un marcador CR-LF i molts editors de text (inclòs el Bloc de notes) no n'insereixen cap automàticament a l'última línia.

Als sistemes operatius Microsoft Windows, un fitxer es considera un fitxer de text si el sufix del nom del fitxer (l'extensió del nom del fitxer) és .txt. Tot i això, s'utilitzen molts altres sufixos per a fitxers de text amb finalitats específiques. Per exemple, el codi font dels programes d'ordinador es guarda normalment en fitxers de text que tenen sufixos de noms de fitxer que indiquen el llenguatge de programació en què s'escriu la font.

La majoria dels fitxers de text de Microsoft Windows utilitzen codificació "ANSI", "OEM", "Unicode" o "UTF-8". El que la terminologia de Microsoft Windows anomena "codificacions ANSI" solen ser codificacions ISO / IEC 8859 d'un byte (és a dir, ANSI als menús del Bloc de notes de Microsoft és realment "Pàgina de codis del sistema" (no Unicode, codificació heretada), excepte en llocs com el xinès, el japonès i el coreà que requereixen conjunts de caràcters de dos bytes. Les codificacions ANSI s'utilitzaven tradicionalment com a configuracions regionals per defecte dins de Microsoft Windows, abans de la transició a Unicode. Per contra, les codificacions OEM, també conegudes com a pàgines de codis DOS, van ser definides per IBM per al seu ús en el sistema original de visualització en mode de text de l'ordinador PC. Normalment inclouen caràcters gràfics i de dibuix de línies habituals a les aplicacions DOS. Els fitxers de text Microsoft Windows codificats per "Unicode" contenen text en format de transformació Unicode UTF-16. Aquests fitxers normalment comencen amb la marca d'ordres de bytes (BOM), que comunica la finalitat del contingut del fitxer. Tot i que UTF-8 no pateix problemes d'endianness, molts programes de Microsoft Windows (és a dir, Bloc de notes) prepend el contingut dels fitxers codificats amb UTF-8 amb BOM,[1] per diferenciar la codificació UTF-8 d'altres codificacions de 8 bits.[2]

Fitxers de text Unix[modifica]

En sistemes operatius tipus Unix, es descriu amb precisió el format dels fitxers de text: POSIX defineix un fitxer de text com un fitxer que conté caràcters organitzats en zero o més línies,[3] on les línies són seqüències de zero o més caràcters que no són de línia nova més una línia de finalització caràcter,[4] normalment LF.

POSIX defineix com a fitxer de text, aquell que té caràcters imprimibles o espai o retrocés segons les normes regionals. Això exclou la majoria de caràcters de control, que no es poden imprimir.[5]

Fitxers de text Apple Macintosh[modifica]

Abans de l'aparició de macOS, el sistema Mac OS clàssic considerava que el contingut d'un fitxer (la bifurcació de dades) era un fitxer de text quan la seva bifurcació de recursos indicava que el tipus de fitxer era "TEXT".[6] Les línies de fitxers de text de Macintosh es finalitzen amb caràcters CR. [7]

En ser certificat Unix, macOS utilitza el format POSIX per als fitxers de text.[8] Uniform Type Identifier (UTI) utilitzat per a fitxers de text en macOS és "public.plain-text"; UTI addicionals i més específiques són: "public.utf8-plain-text" per a text codificat per utf-8, "public.utf16-external-plain-text" i "public.utf16-plain-text" per a utf-16- text codificat i "com.apple.traditional-mac-plain-text" per als fitxers de text clàssics del Mac OS.[9]

Representació[modifica]

Quan l'obre un editor de text, es presenta a l'usuari contingut llegible per humans. Sovint consisteix en el text pla del fitxer visible per a l'usuari. Depenent de l'aplicació, els codis de control es poden representar com a instruccions literals que l'editor actuï o com a caràcters d'escapament visibles que es poden editar com a text pla. Tot i que pot haver-hi text pla en un fitxer de text, els caràcters de control del fitxer (especialment el caràcter de final de fitxer) poden fer que el text normal no es vegi amb un mètode concret.

Vegeu també[modifica]

Referències[modifica]

  1. «Using Byte Order Marks». Internationalization for Windows Applications. Microsoft. [Consulta: 15 desembre 2015].
  2. Freytag, Asmus. «FAQ – UTF-8, UTF-16, UTF-32 & BOM». The Unicode Consortium, 18-12-2015. [Consulta: 30 maig 2016].
  3. «3.403 Text File». IEEE Std 1003.1, 2017 Edition. IEEE Computer Society. [Consulta: 1r març 2019].
  4. «3.206 Line». IEEE Std 1003.1, 2013 Edition. IEEE Computer Society. [Consulta: 15 desembre 2015].
  5. «3.284 Printable File». IEEE Std 1003.1, 2013 Edition. IEEE Computer Society. [Consulta: 15 desembre 2015].
  6. «System-Declared Uniform Type Identifiers». Guides and Sample Code. Apple Inc., 17-11-2009. [Consulta: 12 setembre 2016].
  7. «Designing Scripts for Cross-Platform Deployment». Mac Developer Library. Apple Inc., 10-03-2014. [Consulta: 12 setembre 2016].
  8. «Designing Scripts for Cross-Platform Deployment». Mac Developer Library. Apple Inc., 10-03-2014. [Consulta: 12 setembre 2016].
  9. «System-Declared Uniform Type Identifiers». Guides and Sample Code. Apple Inc., 17-11-2009. [Consulta: 12 setembre 2016].