Mineria de dades estructurades

La mineria d'estructures o mineria de dades estructurades és el procés de trobar i extreure informació útil de conjunts de dades semiestructurades. La mineria de gràfics, la mineria de patrons seqüencials i la mineria de molècules són casos especials de mineria de dades estructurades.^[1]

Descripció

El creixement de l'ús de dades semiestructurades ha creat noves oportunitats per a la mineria de dades, que tradicionalment s'ha ocupat dels conjunts de dades tabulars, reflectint la forta associació entre la mineria de dades i les bases de dades relacionals. Gran part de les dades interessants i explotables del món no es poden convertir fàcilment en bases de dades relacionals, tot i que una generació d'enginyers de programari han estat entrenats per creure que aquesta era l'única manera de gestionar les dades, i els algorismes de mineria de dades generalment s'han desenvolupat només per fer front a les dades tabulars.^[2]

XML, sent la forma més freqüent de representar dades semiestructurades, és capaç de representar tant dades tabulars com arbres arbitraris. Qualsevol representació particular de dades que s'intercanvien entre dues aplicacions en XML normalment es descriu mitjançant un esquema escrit sovint en XSD. Els exemples pràctics d'aquests esquemes, per exemple NewsML, són normalment molt sofisticats, contenen múltiples subarbres opcionals, utilitzats per representar dades de casos especials. Sovint, al voltant del 90% d'un esquema es preocupa per la definició d'aquests elements de dades i subarbres opcionals.^[3]

Els missatges i dades, per tant, que es transmeten o codifiquen mitjançant XML i que s'ajusten al mateix esquema poden contenir dades molt diferents segons el que es transmet.

Aquestes dades presenten grans problemes per a la mineria de dades convencional. Dos missatges que s'ajusten al mateix esquema poden tenir poques dades en comú. La creació d'un conjunt d'entrenament a partir d'aquestes dades significa que si hom intentés formatar-lo com a dades tabulars per a la mineria de dades convencional, grans seccions de les taules estarien o podrien estar buides.

Hi ha una suposició tàcita en el disseny de la majoria dels algorismes de mineria de dades que les dades presentades seran completes. L'altra necessitat és que els algorismes de mineria reals utilitzats, ja siguin supervisats o no, han de poder gestionar dades escasses. És a dir, els algorismes d'aprenentatge automàtic funcionen malament amb conjunts de dades incomplets on només es proporciona una part de la informació. Per exemple, mètodes basats en xarxes neuronals, o l'algorisme ID3 de Ross Quinlan, són altament precises amb mostres bones i representatives del problema, però funcionen malament amb dades esbiaixades. La majoria de vegades n'hi ha prou amb una millor presentació del model amb una representació més acurada i imparcial d'entrada i sortida. Una àrea especialment rellevant on trobar l'estructura i el model adequats és la qüestió clau és la mineria de textos.

XPath és el mecanisme estàndard utilitzat per referir-se a nodes i elements de dades dins de XML. Té similituds amb les tècniques estàndard per navegar per les jerarquies de directoris utilitzades a les interfícies d'usuari dels sistemes operatius. Per a la mineria de dades i estructurar dades XML de qualsevol forma, calen almenys dues extensions per a la mineria de dades convencional. Aquestes són la capacitat d'associar una declaració XPath amb qualsevol patró de dades i subinstruccions amb cada node de dades del patró de dades, i la capacitat d'explorar la presència i el recompte de qualsevol node o conjunt de nodes dins del document.

Com a exemple, si es representés un arbre genealògic en XML, amb aquestes extensions es podria crear un conjunt de dades que contingués tots els nodes d'individus de l'arbre, elements de dades com ara el nom i l'edat a la mort i el recompte de nodes relacionats, com ara com a nombre de fills. Les cerques més sofisticades podrien extreure dades com ara la vida dels avis, etc.^[4]

Referències

↑ «Web Structure Mining» (en anglès americà), 25-11-2022. [Consulta: 8 octubre 2023].
↑ Xu, Han; Yu, Haofei; Xu, Bo; Wang, Zhenyu; Wang, Feng «Machine learning coupled structure mining method visualizes the impact of multiple drivers on ambient ozone» (en anglès). Communications Earth & Environment, 4, 1, 20-07-2023, pàg. 1–10. DOI: 10.1038/s43247-023-00932-0. ISSN: 2662-4435.
↑ Yang, Long; Juhás, Pavol; Terban, Maxwell W.; Tucker, Matthew G.; Billinge, Simon J. L. «Structure-mining: screening structure models by automated fitting to the atomic pair distribution function over large numbers of models». Acta Crystallographica Section A Foundations and Advances, 76, 3, 01-05-2020, pàg. 395–409. DOI: 10.1107/S2053273320002028. ISSN: 2053-2733.
↑ «Web structure mining: an introduction» (en anglès americà). [Consulta: 8 octubre 2023].

[1] «Web Structure Mining» (en anglès americà), 25-11-2022. [Consulta: 8 octubre 2023].

[2] Xu, Han; Yu, Haofei; Xu, Bo; Wang, Zhenyu; Wang, Feng «Machine learning coupled structure mining method visualizes the impact of multiple drivers on ambient ozone» (en anglès). Communications Earth & Environment, 4, 1, 20-07-2023, pàg. 1–10. DOI: 10.1038/s43247-023-00932-0. ISSN: 2662-4435.

[3] Yang, Long; Juhás, Pavol; Terban, Maxwell W.; Tucker, Matthew G.; Billinge, Simon J. L. «Structure-mining: screening structure models by automated fitting to the atomic pair distribution function over large numbers of models». Acta Crystallographica Section A Foundations and Advances, 76, 3, 01-05-2020, pàg. 395–409. DOI: 10.1107/S2053273320002028. ISSN: 2053-2733.

[4] «Web structure mining: an introduction» (en anglès americà). [Consulta: 8 octubre 2023].

[1]

[2]

[3]

[4]