Viquiprojecte:Tercera trobada i primer congrés viquipedista 2009/Ponència: Estudi sobre la relació entre les variables socials i el desenvolupament de les 25 majors Wikipedies

De la Viquipèdia, l'enciclopèdia lliure

Les comunitats lingüístiques d’arreu del món no coexisteixen de forma aïllada, sinó que estan interconnectades entre elles. Durant els darrers anys han aparegut diversos treballs que han proposat models que reflecteixin el sistema lingüístic global (Calvet, 1999; de Swann, 2001). Tot i el seu interès, aquests models pràcticament no han estat posats a prova empíricament.

La wikipedia fou un projecte que començà a funcionar el 15 de gener del 2001, que es caracteritza per ser una enciclopèdia de llicència lliure, on qualsevol persona d’arreu del món interessada pot editar, copiar, modificar i distribuir articles. Actualment disposa de més de 11 milions d’articles en 265 idiomes elaborats per més de 150.000 voluntaris. Pot ser que per aquest motiu s’hagi convertit en l’enciclopèdia de referència pels 275 milions de persones que consulten cada mes els seus articles, superant a les enciclopèdies tradicionals com l’encarta o l’enciclopèdia britànica.

Així doncs, a la Wikipedia hi trobem un gran número de llengües amb comportaments diferents en relació a múltiples variables wikipèdiques (com el número d’articles, d’usuaris i de reedicions, entre moltes altres més), les quals provenen de condicions sociolingüístiques diverses: llengües amb estat i sense estat, llengües naturals i artificials, etc. Donada aquesta composició, creiem que la Wikipedia és un bon camp per explorar l’aplicació real d’aquests models, i com els factors socials (en concret els factors eductius, tecnològics, econòmics i demogràfics) i sociolingüístics afecten la presència i el comportament de les llengües a Internet. En concret, s’analitzarà fins a quin punt la presència de les diferents llengües a la Wikipedia coincideix amb els models suggerits fins ara sobre el sistema lingüístic mundial, posant especial èmfasi en el comportament de les llengües mitjanes i, en concret, del català.

Per acotar les llengües d’estudi davant la gran quantitat de llengües que hi tenen presència, el criteri de selecció que s’ha utilitzat és què tinguessin més de 100.000 articles, de les quals n’hi ha vint-i-cinc. Entre aquestes vint-i-cinc hi trobem llengües amb condicions sociolingüístiques diferents: llengües franques o amb un passat colonial important, per la qual cosa es parla a molts indrets del món, com l’anglès, el francès i el castellà; llengües amb molts parlants i concentrats en un territori molt concret, com el de la Xina; llengües mitjanes (les que més ens interessa per l’objectiu d’estudi) amb estat propi, com el suec, el finès o el romanès, i sense estat, com el català; i llengües artificials, en concret l’esperanto i el volapük. Alhora, aquestes llengües s’insereixen en realitats socials diferents. Hi trobem des de llengües inserides en comunitats amb un nivell de desenvolupament tecnològic, educatiu i econòmic elevat, com les llengües nord-europees (finès, suec, danès...), l’anglès, el japonès o l’italià, que a la vegada també formen part de contextos culturals diferents; fins a llengües que pertanyen a comunitats amb un menor desenvolupament en els termes expressats anteriorment, com el cas de l’indonesi o el castellà. Entremig, llengües que pertanyen a l’Europa de l’est, com el romanès o el rus, o el xinès. Per tant, davant la diversitat lingüística i social presentada, trobem justificat establir com a filtre que tinguin més de 100.000 articles, tot i que incorporar més llengües enriquiria segurament l’anàlisi pel fet que podríem comparar casos amb situacions similars.

En el present treball s’exposarà, en primer lloc, la descripció i l’anàlisi factorial de les variables independents socials i sociolingüístiques en els seus corresponents apartats. El que es pretén és observar com es comporta cada variable per separada i, després, amb la resta de variables de la seva àrea (social o sociolingüística). Ara bé, davant les múltiples variables socials seleccionades, s’han agrupat per blocs temàtics (educatives, tecnològiques, econòmiques i demogràfiques) per fer més comprensible l’anàlisi factorial. Per tant, veurem com les diverses variables dels blocs temàtics es comporten amb les altre variables del seu mateix bloc. En segon lloc, es fa un anàlisi factorial conjunt de totes les variables independents. Ara bé, hem cregut necessari fer-ho de dues maneres: Per una banda, a partir de les diverses variables per separades; per altra banda, a partir dels tres factors més importants de cada bloc temàtic de les variables socials i de les variables sociolingüístiques. D’aquesta manera veurem si els resultats dels dos anàlisi factorials coincideixen, i si l’anàlisi de factors pot facilitar la lectura de la primera. En tercer lloc es fa el mateix amb les variables wikipèdiques, és a dir, l’anàlisi descriptiu de les diferents variables i un anàlisi factorial per veure el comportament de les diferents Wikipedies. Finalment es realitza un anàlisi de regressió per trobar relacions causals entre les variables independents i les dependents, amb l’objectiu d’explicar quins són els factors que expliquen millor els resultats obtinguts.