Vés al contingut

Automated Similarity Judgment Program

De la Viquipèdia, l'enciclopèdia lliure
Automated Similarity Judgment Program
ProductorMax-Planck-Institut für Menschheitsgeschichte (Alemanya Alemanya)
IdiomesAnglès
Accés
CostLliure
Cobertura
DisciplinesLingüística comparativa

L'Automated Similarity Judgment Program (ASJP) és un projecte col·laboratiu que aplica enfocaments computacionals a lingüística comparada mitjançant una base de dades de llistes de paraules. La base de dades és d'accés obert i consta de llistes de vocabulari bàsic de 40 ítems per a més de la meitat de les llengües del món.[1] S'està ampliant contínuament. A més dels aïllaments i llenguatges de grups genealògics demostrats, la base de dades inclou pidgins, criolls, llengües mixtes i llengües construïdes. Les paraules de la base de dades es transcriuen a una ortografia estàndard simplificada (ASJPcode).[2] La base de dades s'ha utilitzat per estimar les dates en què les famílies lingüístiques han divergit en llengües filles mitjançant un mètode relacionat amb, però encara diferent de LA glotocronologia,[3] per determinar la pàtriad (Urheimat) de la protollengua,[4] investigar el simbolisme fonètic,[5] avaluar diferents mètodes filogenètics,[6] i molts altres propòsits.

L'ASJP no és àmpliament acceptat entre els lingüistes històrics com a mètode adequat per establir o avaluar relacions entre famílies de llengües.[7]

Forma parat del projecte Cross-Linguistic Linked Data organitzat pel Max-Planck-Institut für Menschheitsgeschichte.[8]

Història

[modifica]

Objectius originals

[modifica]

L'ASJP es va desenvolupar originalment com un mitjà per avaluar objectivament la semblança de paraules amb el mateix significat en diferents llengües, amb l'objectiu final de classificar les llengües computacionalment, basant-se en les semblances lèxiques observades. En el primer article ASJP,[2] dues paraules semànticament idèntiques de llengües comparades es van jutjar similars si presentaven almenys dos segments de so idèntics. La similitud entre les dues llengües es va calcular com un percentatge del nombre total de paraules comparades que es van jutjar com a similars. Aquest mètode es va aplicar a llistes de paraules de 100 ítems per a 250 idiomes de famílies lingüístiques, incloent austroasiàtics, indoeuropeus, maies, i muskogis.

Consorci ASJ

[modifica]

El consorci ASJP, fundat al voltant del 2008, va implicar al voltant de 25 lingüistes professionals i parts interessades que treballaven com a transcriptors voluntaris i/o que amplien l'ajuda al projecte d'altres maneres. La principal força motriu darrere del consorci era Cecil H. Brown. Søren Wichmann és el curador diari del projecte. Un tercer membre central del consorci és Eric W. Holman, que ha creat la majoria del programari utilitzat en el projecte.

Llistes de paraules més curtes

[modifica]

Tot i que les llistes de paraules utilitzades es basaven originalment en la llista de 100 ítems llista Swadesh, es va determinar estadísticament que un subconjunt de 40 dels 100 ítems produïa uns resultats classificatoris tan bons si no una mica millors que tota la llista.[9] Llavors les llistes de paraules reunien només 40 ítems (o menys, quan falten atestacions d'alguns).

Distància Leveshtein

[modifica]

En articles publicats des del 2008, ASJP ha emprat un programa de judici de semblança basat en la distància de Levenshtein (LD). Es va trobar que aquest enfocament produïa millors resultats classificatius comparats amb l'opinió dels experts que el mètode utilitzat inicialment. LD es defineix com el nombre mínim de canvis successius necessaris per convertir una paraula en una altra, on cada canvi és la inserció, supressió o substitució d’un símbol. Dins de l'enfocament de Levenshtein, les diferències en la longitud de les paraules es poden corregir dividint LD entre el nombre de símbols del més llarg de les dues paraules comparades. Això produeix LD normalitzat (LDN). Un LDN dividit (LDND) entre les dues llengües es calcula dividint el LDN mitjà per a tots els parells de paraules que impliquen el mateix significat pel LDN per tots els parells de paraules amb significats diferents. Aquesta segona normalització pretén corregir la semblança casual.[10]

Llista de paraules

[modifica]

L'ASJP usa la següent llista de 40 paraules.[11] És similar a la Llista Swadesh–Yakhontov, però té algunes diferències.

Parts del cos
  • ull
  • orella
  • nas
  • llengua
  • dent
  • genoll
  • sang
  • tap
  • pit (de dona)
  • fetge
  • pell
Animals i plantes
  • poll
  • gos
  • peix (substantiu)
  • banya (part animal)
  • arbre
  • full
Gent
  • persona
  • nom (substantiu)
Naturalesa
  • sol
  • estrella
  • aigua
  • foc
  • pedra
  • Camí
  • muntanya
  • nit (hora fosca)
Verbs i adjectius
  • beure (verb)
  • morir
  • veure
  • escoltar
  • menja
  • nou
  • ple
Numerals i pronoms
  • un
  • dos
  • Jo
  • vostè
  • nosaltres

Codi ASJP

[modifica]

La versió ASJP del 2016 utilitza els símbols següents per codificar fonemes: p b f v m w 8 t d s z c n r l S Z C j T 5 y k g x N q X h 7 L 4 G ! i e E 3 a u o

Representen 7 vocals i 34 consonants, totes trobades al teclat QWERTY estàndard.

Sons representats per ASJPcode[2]
ASJPcode Descripció IPA
i vocal posterior alta, arrodonida i sense arrodonir i, ɪ, y, ʏ
i vocal frontal mitjana, arrodonida i sense arrodonir e, ø
I vocal posterior baixa, arrodonida i sense arrodonir a, æ, ɛ, ɶ, œ
3 vocal central alta i mitjana, arrodonida i sense arrodonir ɨ, ɘ, ə,, ʉ, ɵ, ɞ
a vocal central baixa, sense arrodonir ɐ
u vocal posterior baixa, arrodonida i sense arrodonir ɯ, u
o vocal mitjana i baixa, arrodonida i sense arrodonir ɤ, ʌ, ɑ, o, ɔ, ɒ
p bilabial i fricativa oclusiva sorda p, ɸ
b bilabial i fricativa oclusiva sonora b, β
m bilabial nasal m
f labiodental fricativa sorda f
v labiodental fricativa sonora v
8 dental fricativa sorda i sonora θ, ð
4 dental nasal
t alveolar oclusiva sorda t
d alveolar oclusiva sonora d
s alveolar fricativa sorda s
z alveolar fricativa sonora z
c alveolar africada sorda i sonora ts, dz
n alveolar nasal sorda i sonora n
S postalveolar fricativa dotfs ʃ
Z postalveolar fricativa sonora ʒ
C palato-alveolar africada sorda
j palato-alveolar africada sonora
T palatal oclusiva sonora i sorda c, ɟ
5 palatal nasal ɲ
k oclusiva velar sonora k
g oclusiva velar sonora ɡ
x fricativa velar sorda i sonora x, ɣ
N velar nasal ŋ
q oclusiva uvular sorda q
G oclusiva uvular sonora ɢ
X uvular fricativa sorda i sonora, fricativa faringal sorda i sonora χ, ʁ, ħ, ʕ
7 oclusiva glotal sorda ʔ
h fricativa glotal sorda i sonora h, ɦ
l alveolar lateral aproximant sonora l
L totes les altres laterals ʟ, ɭ, ʎ
w bilabial-velar aproximant sonora w
y palatal aproximant j
r vibrant apico-alveolar sonora i totes les varietats de “sons r” r, ʀ, etc.
! totes les varietats de “sons click” ǃ, ǀ, ǁ, ǂ

Referències

[modifica]
  1. Wichmann, Søren, André Müller, Annkathrin Wett, Viveka Velupillai, Julia Bischoffberger, Cecil H. Brown, Eric W. Holman, Sebastian Sauppe, Zarina Molochieva, Pamela Brown, Harald Hammarström, Oleg Belyaev, Johann-Mattis List, Dik Bakker, Dmitry Egorov, Matthias Urban, Robert Mailhammer, Agustina Carrizo, Matthew S. Dryer, Evgenia Korovina, David Beck, Helen Geyer, Patience Epps, Anthony Grant, and Pilar Valenzuela. 2013. The ASJP Database (version 16). http://asjp.clld.org/
  2. 2,0 2,1 2,2 Brown, Cecil H., Eric W. Holman, Søren Wichmann, and Viveka Velupillai. 2008. Automated classification of the world's languages: A description of the method and preliminary results. STUF – Language Typology and Universals 61.4: 285-308.
  3. Holman, Eric W., Cecil H. Brown, Søren Wichmann, André Müller, Viveka Velupillai, Harald Hammarström, Sebastian Sauppe, Hagen Jung, Dik Bakker, Pamela Brown, Oleg Belyaev, Matthias Urban, Robert Mailhammer, Johann-Mattis List, and Dmitry Egorov. 2011. Automated dating of the world’s language families based on lexical similarity. Current Anthropology 52.6: 841-875.
  4. Wichmann, Søren, André Müller, and Viveka Velupillai. 2010. Homelands of the world’s language families: A quantitative approach. Diachronica 27.2: 247-276.
  5. Wichmann, Søren, Holman, Eric W., and Cecil H. Brown. 2010. Sound symbolism in basic vocabulary. Entropy 12.4: 844-858.
  6. Pompei, Simone, Vittorio Loreto, and Francesca Tria. 2011. On the accuracy of language trees. PLoS ONE 6: e20109.
  7. Cf. comments by Adelaar, Blust and Campbell in Holman, Eric W., et al. (2011) "Automated Dating of the World’s Language Families Based on Lexical Similarity." Current Anthropology, vol. 52, no. 6, pp. 841–875.
  8. «Cross-Linguistic Linked Data». [Consulta: 22 febrer 2020].
  9. Holman, Eric W., Søren Wichmann, Cecil H. Brown, Viveka Velupillai, André Müller, and Dik Bakker. 2008. Explorations in automated language classification. Folia Linguistica 42.2: 331-354.
  10. Wichmann, Søren, Eric W. Holman, Dik Bakker, and Cecil H. Brown. 2010. Evaluating linguistic distance measures. Physica A 389: 3632-3639 (doi:10.1016/j.physa.2010.05.011).
  11. [enllaç sense format] http://asjp.clld.org/static/Guidelines.pdf

Fonts

[modifica]

Enllaços externs

[modifica]