Llista de conjunts de dades per a la recerca d'aprenentatge automàtic

De la Viquipèdia, l'enciclopèdia lliure

Aquests conjunts de dades s'apliquen a la recerca d'aprenentatge automàtic (ML) i s'han citat en revistes acadèmiques revisades per parells. Els conjunts de dades són una part integral del camp de l'aprenentatge automàtic. Els avenços importants en aquest camp poden resultar dels avenços en algorismes d'aprenentatge (com ara aprenentatge profund), maquinari informàtic i, de manera menys intuïtiva, la disponibilitat de conjunts de dades d'entrenament d'alta qualitat.[1] Els conjunts de dades d'entrenament etiquetats d'alta qualitat per als algorismes d'aprenentatge automàtic supervisat i semisupervisat solen ser difícils i costosos de produir a causa de la gran quantitat de temps necessària per etiquetar les dades. Tot i que no cal etiquetar-los, els conjunts de dades d'alta qualitat per a l'aprenentatge no supervisat també poden ser difícils i costosos de produir.[2][3][4]

Moltes organitzacions, inclosos els governs, publiquen i comparteixen els seus conjunts de dades. Els conjunts de dades es classifiquen, segons les llicències, en Dades obertes i Dades no obertes. Els conjunts de dades de diversos organismes governamentals es presenten a Llista de llocs de dades de govern oberts. Els conjunts de dades es porten a portals de dades obertes. Estan disponibles per cercar, dipositar i accedir a través d'interfícies com Open API. Els conjunts de dades estan disponibles com a diversos tipus i subtipus ordenats.

Llista d'ordenació utilitzada per a conjunts de dades[modifica]

Tipus Subtipus
Categoria específica Finances, Economia, Comerç, Social, Salut, Acadèmia, Esports, Alimentació, Agricultura , Viatges, Geoespacial, Polític, Consumidor, Transport, Logística, Mediambiental, Immobiliària, Legal, Entreteniment, Energia, Hostaleria
Àmbit Unió Supranacional, Nacional, Subnacional, Municipi, Urbana, Rural
Llenguatge Xinès mandarí, espanyol, anglès, àrab, hindi, bengalí
Tipus Tabular, Gràfic, Text, Imatge, So, Vídeo
Ús Formació, validació i prova
Fitxer-Formats CSV, JSON, XML, KML, GeoJSON, Shapefile, GML
Llicències Creative-Commons, GPL, Altres llicències de dades no obertes
Última actualització Última hora, darrer dia, darrera setmana, darrer mes, darrer any
Mida de l'arxiu Mínim, màxim, rang
Estat Verificat, en preparació, desactivat (o obsolet)
Nombre de registres 100, 1000, 10000, 100000, milions
Nombre de variables Menys de 10, 10, 100, 1000, 10000
Serveis Individual, Agregació

El portal de dades es classifica en funció del seu tipus de llicència. Els portals de dades basats en llicències de codi obert es coneixen com a portals de dades obertes que són utilitzats per moltes organitzacions governamentals i institucions acadèmiques.

Llista de portals de dades obertes[modifica]

Portal-Nom llicència Llistat d'Instal·lacions del Portal Usos típics
Xarxa d'arxius de coneixement integral (CKAN) AGPL https://ckan.github.io/ckan-instances/

https://github.com/sebneu/ckan_instances/blob/master/instances.csv

Repositori de dades per a organitzacions governamentals o sense ànim de lucre, Data Management Solution for Research Institutes
DKAN GPL https://getdkan.org/community Repositori de dades per a organitzacions governamentals o sense ànim de lucre, Data Management Solution for Research Institutes
Dataverse Apache https://dataverse.org/installations

https://dataverse.org/metrics

Solució de gestió de dades per a instituts de recerca
DSpace BSD https://registry.lyrasis.org/ Solució de gestió de dades per a instituts de recerca
OpenML BSD https://www.openml.org/search?type=data&sort=runs&status=active Solució de gestió de dades per compartir conjunts de dades, algorismes i resultats d'experiments mitjançant API.

Llista de portals aptes per a múltiples tipus d'aplicacions[modifica]

El portal de dades de vegades enumera una gran varietat de subtipus de conjunts de dades relacionats amb moltes aplicacions d'aprenentatge automàtic.

Torrents Acadèmics https://academictorrents.com
Conjunts de dades d'Amazon https://registry.opendata.aws/
Col·lecció de conjunts de dades públics impressionant https://github.com/awesomedata/awesome-public-datasets
dades.món https://data.world/datasets/machine-learning
Datahub: conjunts de dades bàsics https://datahub.io/docs/core-data
DataONE https://www.dataone.org/
DataPortals https://dataportals.org/
Datasetlist.com https://www.datasetlist.com
Global Open Data Index – Open Knowledge Foundation https://index.okfn.org/ Arxivat 25 May 2020 a Wayback Machine. </link>
Cerca de conjunt de dades de Google https://datasetsearch.research.google.cat/[Enllaç no actiu]
Cara abraçada https://huggingface.co/docs/datasets/
Intercanvi d'actius de dades d'IBM https://developer.ibm.com/exchanges/data/
Jupyter – Dades del tutorial https://jupyter-tutorial.readthedocs.io/en/latest/data-processing/opendata.html
Kaggle https://www.kaggle.com/datasets
Conjunts de dades d'aprenentatge automàtic https://macgence.com/data-sets-and-cataloges/
Principals ciutats intel·ligents amb dades obertes https://rlist.io/l/major-smart-cities-with-open-data-portals
Conjunts de dades de Microsoft https://msropendata.com/datasets
Inici de dades obertes https://opendatainception.io/
Opendatasoft https://data.opendatasoft.com/explore/dataset/open-data-sources%40public/table/?sort=code_en
OpenDOAR https://v2.sherpa.ac.uk/opendoar/
OpenML https://www.openml.org/search?type=data
Papers amb codi https://paperswithcode.com/datasets
Punts de referència d'aprenentatge automàtic de Penn https://github.com/EpistasisLab/pmlb/tree/master/datasets
API públiques https://github.com/public-apis/public-apis
Registre de dipòsits d'accés obert http://roar.eprints.org/
Registre de Repositoris de Dades de Recerca https://www.re3data.org/
Repositori d'aprenentatge automàtic de la UCI http://mlr.cs.umass.edu/ml/ Arxivat 2020-06-26 a Wayback Machine.
Conjunt de dades de parla https://www.shaip.com/offerings/speech-data-catalog/
Descobriment de dades visuals https://visualdata.io/discovery

Referències[modifica]

  1. Wissner-Gross, A. «Datasets Over Algorithms» (en anglès). Edge.com. [Consulta: 8 gener 2016].
  2. Weiss, G. M.; Provost, F. Journal of Artificial Intelligence Research, 19, September 1, 2003, pàg. 315–354. DOI: 10.1613/jair.1199. ISSN: 1076-9757.
  3. Abney, Steven. Semisupervised Learning for Computational Linguistics (en anglès). CRC Press, September 17, 2007. ISBN 978-1-4200-1080-0. 
  4. Žliobaitė, Indrė. «Active Learning with Evolving Streaming Data». A: Machine Learning and Knowledge Discovery in Databases (en anglès). Berlin, Heidelberg: Springer Berlin Heidelberg, 2011, p. 597–612. DOI 10.1007/978-3-642-23808-6_39. ISBN 978-3-642-23807-9.