Llista de conjunts de dades per a la recerca d'aprenentatge automàtic
Aquests conjunts de dades s'apliquen a la recerca d'aprenentatge automàtic (ML) i s'han citat en revistes acadèmiques revisades per parells. Els conjunts de dades són una part integral del camp de l'aprenentatge automàtic. Els avenços importants en aquest camp poden resultar dels avenços en algorismes d'aprenentatge (com ara aprenentatge profund), maquinari informàtic i, de manera menys intuïtiva, la disponibilitat de conjunts de dades d'entrenament d'alta qualitat.[1] Els conjunts de dades d'entrenament etiquetats d'alta qualitat per als algorismes d'aprenentatge automàtic supervisat i semisupervisat solen ser difícils i costosos de produir a causa de la gran quantitat de temps necessària per etiquetar les dades. Tot i que no cal etiquetar-los, els conjunts de dades d'alta qualitat per a l'aprenentatge no supervisat també poden ser difícils i costosos de produir.[2][3][4]
Moltes organitzacions, inclosos els governs, publiquen i comparteixen els seus conjunts de dades. Els conjunts de dades es classifiquen, segons les llicències, en Dades obertes i Dades no obertes. Els conjunts de dades de diversos organismes governamentals es presenten a Llista de llocs de dades de govern oberts. Els conjunts de dades es porten a portals de dades obertes. Estan disponibles per cercar, dipositar i accedir a través d'interfícies com Open API. Els conjunts de dades estan disponibles com a diversos tipus i subtipus ordenats.
Llista d'ordenació utilitzada per a conjunts de dades[modifica]
Tipus | Subtipus |
---|---|
Categoria específica | Finances, Economia, Comerç, Social, Salut, Acadèmia, Esports, Alimentació, Agricultura , Viatges, Geoespacial, Polític, Consumidor, Transport, Logística, Mediambiental, Immobiliària, Legal, Entreteniment, Energia, Hostaleria |
Àmbit | Unió Supranacional, Nacional, Subnacional, Municipi, Urbana, Rural |
Llenguatge | Xinès mandarí, espanyol, anglès, àrab, hindi, bengalí |
Tipus | Tabular, Gràfic, Text, Imatge, So, Vídeo |
Ús | Formació, validació i prova |
Fitxer-Formats | CSV, JSON, XML, KML, GeoJSON, Shapefile, GML |
Llicències | Creative-Commons, GPL, Altres llicències de dades no obertes |
Última actualització | Última hora, darrer dia, darrera setmana, darrer mes, darrer any |
Mida de l'arxiu | Mínim, màxim, rang |
Estat | Verificat, en preparació, desactivat (o obsolet) |
Nombre de registres | 100, 1000, 10000, 100000, milions |
Nombre de variables | Menys de 10, 10, 100, 1000, 10000 |
Serveis | Individual, Agregació |
El portal de dades es classifica en funció del seu tipus de llicència. Els portals de dades basats en llicències de codi obert es coneixen com a portals de dades obertes que són utilitzats per moltes organitzacions governamentals i institucions acadèmiques.
Llista de portals de dades obertes[modifica]
Portal-Nom | llicència | Llistat d'Instal·lacions del Portal | Usos típics |
---|---|---|---|
Xarxa d'arxius de coneixement integral (CKAN) | AGPL | https://ckan.github.io/ckan-instances/
https://github.com/sebneu/ckan_instances/blob/master/instances.csv |
Repositori de dades per a organitzacions governamentals o sense ànim de lucre, Data Management Solution for Research Institutes |
DKAN | GPL | https://getdkan.org/community | Repositori de dades per a organitzacions governamentals o sense ànim de lucre, Data Management Solution for Research Institutes |
Dataverse | Apache | https://dataverse.org/installations | Solució de gestió de dades per a instituts de recerca |
DSpace | BSD | https://registry.lyrasis.org/ | Solució de gestió de dades per a instituts de recerca |
OpenML | BSD | https://www.openml.org/search?type=data&sort=runs&status=active | Solució de gestió de dades per compartir conjunts de dades, algorismes i resultats d'experiments mitjançant API. |
Llista de portals aptes per a múltiples tipus d'aplicacions[modifica]
El portal de dades de vegades enumera una gran varietat de subtipus de conjunts de dades relacionats amb moltes aplicacions d'aprenentatge automàtic.
Referències[modifica]
- ↑ Wissner-Gross, A. «Datasets Over Algorithms» (en anglès). Edge.com. [Consulta: 8 gener 2016].
- ↑ Weiss, G. M.; Provost, F. Journal of Artificial Intelligence Research, 19, September 1, 2003, pàg. 315–354. DOI: 10.1613/jair.1199. ISSN: 1076-9757.
- ↑ Abney, Steven. Semisupervised Learning for Computational Linguistics (en anglès). CRC Press, September 17, 2007. ISBN 978-1-4200-1080-0.
- ↑ Žliobaitė, Indrė. «Active Learning with Evolving Streaming Data». A: Machine Learning and Knowledge Discovery in Databases (en anglès). Berlin, Heidelberg: Springer Berlin Heidelberg, 2011, p. 597–612. DOI 10.1007/978-3-642-23808-6_39. ISBN 978-3-642-23807-9.