Algorisme OPTICS

De la Viquipèdia, l'enciclopèdia lliure

L'ordenació de punts per identificar l'estructura de clúster (OPTICS) és un algorisme per trobar clústers [1] basats en la densitat en dades espacials. El van presentar Mihael Ankerst, Markus M. Breunig, Hans-Peter Kriegel i Jörg Sander. La seva idea bàsica és similar a DBSCAN, però aborda una de les principals debilitats de DBSCAN: el problema de detectar clústers significatius en dades de densitat variable. Per fer-ho, els punts de la base de dades s'ordenen (linealment) de manera que els punts més propers espacialment es converteixin en veïns en l'ordenació. A més, s'emmagatzema una distància especial per a cada punt que representa la densitat que s'ha d'acceptar per a un clúster perquè tots dos punts pertanyin al mateix clúster. Això es representa com un dendrograma.[2]

Idea bàsica[modifica]

Igual que DBSCAN, OPTICS requereix dos paràmetres: ε, que descriu la distància màxima (radi) a considerar, i MinPts, que descriu el nombre de punts necessaris per formar un clúster. Un punt p és un punt central si almenys els punts MinPts es troben dins del seu veïnat ε (inclòs el propi punt p ). A diferència de DBSCAN, OPTICS també considera els punts que formen part d'un clúster més densament empaquetat, de manera que a cada punt se li assigna una distància central que descriu la distància al punt més proper de MinPts :

La distància d'accessibilitat d'un altre punt o des d'un punt p és la distància entre o i p, o la distància central de p, la que sigui més gran:

Si p i o són els veïns més propers, aquest és el hem de suposar que p i o pertanyen al mateix clúster.

Tant la distància del nucli com la distància d'accessibilitat no es defineixen si no hi ha cap clúster prou dens (wrt ε). Donat un ε prou gran, això no passa mai, però aleshores cada consulta ε -neighborhood retorna tota la base de dades, donant com a resultat temps d'execució. Per tant, el paràmetre ε és necessari per tallar la densitat de clústers que ja no són interessants i per accelerar l'algorisme.

El paràmetre ε no és, estrictament parlant, necessari. Simplement es pot configurar al valor màxim possible. Tanmateix, quan hi ha un índex espacial disponible, juga un paper pràctic pel que fa a la complexitat. L'OPTICA s'abstraeix de DBSCAN eliminant aquest paràmetre, almenys fins al punt d'haver de donar només el valor màxim.

L'enfocament bàsic d'OPTICS és similar a DBSCAN, però en comptes de mantenir els membres del clúster coneguts, però fins ara no processats en un conjunt, es mantenen en una cua de prioritat (per exemple, utilitzant un munt indexat).

Per tant, ÒPTICA produeix els punts en un ordre particular, anotats amb la seva distància d'accessibilitat més petita (en l'algorisme original, la distància central també s'exporta, però això no és necessari per a un processament posterior).[3]

Extracció dels clústers[modifica]

Utilitzant un diagrama d'accessibilitat (un tipus especial de dendrograma), l'estructura jeràrquica dels clústers es pot obtenir fàcilment. És una gràfica 2D, amb l'ordenació dels punts tal com el processa ÒPTICA en l'eix x i la distància d'accessibilitat a l'eix y. Com que els punts que pertanyen a un cúmul tenen una distància d'accessibilitat baixa al seu veí més proper, els cúmuls apareixen com a valls a la trama d'accessibilitat. Com més profunda és la vall, més dens és el cúmul.

La imatge de dalt il·lustra aquest concepte. A la seva àrea superior esquerra, es mostra un conjunt de dades d'exemple sintètic. La part superior dreta visualitza l'arbre d'abast produït per OPTICS, i la part inferior mostra la trama d'accessibilitat calculada per OPTICS. Els colors d'aquesta trama són etiquetes i no els calcula l'algorisme; però és ben visible com les valls de la parcel·la es corresponen amb els clústers del conjunt de dades anterior. Els punts grocs d'aquesta imatge es consideren sorolls i no es troba cap vall a la seva trama d'accessibilitat. Normalment no s'assignen als clústers, excepte l'omnipresent clúster "totes les dades" en un resultat jeràrquic.

L'extracció de clústers d'aquesta gràfica es pot fer manualment seleccionant intervals a l'eix x després de la inspecció visual, seleccionant un llindar a l'eix y (el resultat és semblant a un resultat de clúster DBSCAN amb el mateix i paràmetres minPts ; aquí un valor de 0,1 pot donar bons resultats), o per diferents algorismes que intenten detectar les valls per inclinació, detecció de genolls o màxims locals. Una franja de la parcel·la que comença amb un fort descens i acaba amb una forta pujada es considera vall, i correspon a una zona contigua de gran densitat. Cal tenir cura addicional dels últims punts d'una vall per assignar-los al clúster interior o exterior, això es pot aconseguir tenint en compte el predecessor. Els agrupaments obtinguts d'aquesta manera solen ser jeràrquics i no es poden aconseguir amb una sola execució de DBSCAN.[4]

Referències[modifica]

  1. Kriegel, Hans-Peter; Kröger, Peer; Sander, Jörg; Zimek, Arthur Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 1, 3, May 2011, pàg. 231–240. DOI: 10.1002/widm.30.
  2. «ML | OPTICS Clustering Explanation» (en anglès americà), 12-07-2019. [Consulta: 23 març 2024].
  3. «OPTICS Clustering: From Novice to Expert in Simple Steps» (en anglès americà), 27-09-2023. [Consulta: 23 març 2024].
  4. «sklearn.cluster.OPTICS» (en anglès). [Consulta: 23 març 2024].