Dades sintètiques

Les dades sintètiques són dades que es generen artificialment i, per tant, no provenen d'esdeveniments del món real. Tenen l'objectiu d'assemblar-se a un conjunt de dades autèntiques, però tenen una naturalesa totalment falsa.^[1]

Els conjunts de dades tenen una distribució i una configuració que defineix la seva aparença. Tenen, per exemple, forma de taula. Un conjunt de dades sintètiques tabulars reprodueix les interaccions entre les columnes, les correlacions i els patrons inherents, l'aspecte, la interacció i el comportament de les dades, entre altres paràmetres, del conjunt de dades real.^[2] Això és possible perquè el model ha après les propietats estadístiques del conjunt de dades autèntic i les ha utilitzat per crear un conjunt de dades diferents.^[1]

Les dades sintètiques resolen el problema de l'escassetat de dades. Aquest és un dels grans problemes de la Intel·ligència Artificial, que necessita una gran quantitat de dades per entrenar algorismes i models, ja que sovint no hi ha dades reals suficients perquè els models dibuixin patrons, extreguin estadístiques, generin prediccions i formin models més intel·ligents.^[1]

La principal aplicació de les dades sintètiques és la protecció de la privadesa de les dades.^[3] Les bases de dades personals d'empreses, governs i institucions contenen informació d'identificació personal o altres atributs sensibles com noms complets, números de compte bancaris i documents d'identitat. Però l'ús de dades sintètiques permet anonimitzar les dades autèntiques sense renunciar a una quantitat de dades suficient per a poder dur a terme una anàlisi, l'elaboració d'un model o la creació d'un programa de gestió de dades.^[1] ^[4]

Història[modifica]

La idea d'utilitzar dades sintètiques per protegir la privacitat de dades es remunta al 1993, quan un professor d'Estadística de la Universitat Harvard, Donald Rubin, va presentar una recerca sobre la protecció de la privadesa en les anàlisis estadístiques.^[5]

El 2013, un equip d'investigadors del laboratori Data to AI (DAI) del Massachusetts Institute of Technology (MIT) va rebre l'encàrrec d'analitzar una gran quantitat d'informació d'una plataforma que ofereix cursos en línia de Harvard, el MIT i altres universitats nord-americanes. Però les dades eren sensibles i no es podien compartir, de manera que l'equip va crear dades artificials amb què els investigadors poguessin treballar. L'objectiu final era utilitzar les dades reals.^[4]

El 2016, el mateix laboratori va dissenyar un algorisme capaç de captar amb precisió les correlacions entre els diferents camps d'un conjunt de dades reals. Després, va crear un conjunt de dades sintètic que mantenia les mateixes relacions, però sense incloure cap informació privada. Les solucions que oferien les dades sintètiques van mostrar un 70% d'efectivitat respecte les resolucions derivades de les dades reals.^[2]^[4]

Tot i així, els models de xarxes neuronals existents no aconseguien modelar amb una precisió completa les dades sintètiques.^[6] El 2019, investigadors de la mateixa universitat va aconseguir crear dades sintètiques d'alta qualitat aplicant amb èxit Xarxes Generatives Antagòniques (XGAs) per formar dades tabulars, les més utilitzades per empreses, governs i organitzacions en les seves bases de dades.^[6]

A l'octubre del 2020, el laboratori DAI del MIT va presentar un conjunt d'eines de generació de dades de codi obert que permeten als usuaris obtenir tantes dades sintètiques com necessitin per als seus projectes. El projecte, anomenat Synthetic Data Vault,^[7] permet a diferents grups d'interès sense un gran coneixement expert obtenir les dades sintètiques que necessiten, ja sigui una taula gran, una petita quantitat de dades de sèries temporals o una combinació de molts tipus de dades diferents.^[4]

Mètode[modifica]

Hi ha diversos algorismes d'aprenentatge automàtic per generar dades sintètiques. Actualment, un dels mètodes més populars és aquell que utilitza XGAs^[1] que primer pren mostres d'un conjunt de dades i després crea un model capaç de produir nous conjunts de dades seguint la mateixa distribució que les dades originals.^[8] Aquest mètode ha estat desenvolupat en el marc d'un projecte de codi obert anomenat CTGAN que utilitza dues xarxes neuronals: la xarxa de generació i la xarxa de discriminació. El generador intenta generar dades falses o sintètiques mentre el discriminador intenta determinar si les dades que està veient són reals o no. A mesura que les dues xarxes interactuen, el generador aprèn a crear cada cop millors dades falses, cosa que dificulta i, per tant, perfecciona la tasca del discriminador.^[6]

Usabilitat[modifica]

La usabilitat d'un conjunt de dades sintètiques depèn de la seva qualitat. És a dir, que el seu comportament sigui prou fidel al del conjunt de dades reals.^[6] En primer lloc, les dades sintètiques només són vàlides si presenten semblança estadística amb el conjunt de dades original. O sigui, si té les mateixes propietats matemàtiques i estadístiques que el conjunt de dades que representa. En segon lloc, són vàlides si presenten la mateixa eficàcia en l'aprenentatge automàtic que les dades reals. D'aquesta manera, si les dades sintètiques s'utilitzen per crear o provar una aplicació, funcionen tal com ho farien les dades autèntiques.^[4]

Aplicacions principals[modifica]

Institucions sanitàries[modifica]

Per exemple, un desenvolupador de programari contractat per un hospital pot haver rebut l'encàrrec de crear una aplicació que permeti als pacients accedir als resultats de les proves, a les receptes i a d'altra informació sobre salut. Però no pot treballar amb les dades dels pacients reals, ja que són privades.^[4] Les dades sintètiques són l'única opció per dissenyar el programari.

Per altra banda, l'European Health Data ha adoptat tecnologies d'anonimització d'informació de pacients utilitzant dades sintètiques per entrenar algorismes d'intel·ligència artificial i millorar el diagnòstic de malalties.^[9]

Sector financer[modifica]

L'augment de la digitalització i les noves regulacions sobre la privadesa de dades han desencadenat un interès creixent en les dades sintètiques en el sector de la banca.^[4] Per utilitzar dades del compte corrent per entrenar un model, caldria una gran quantitat de comptes corrents que sovint no estan disponibles. L'ús de dades sintètiques fa possible examinar una base de dades dels clients i sintetitzar nous comptes corrents amb el seu ús associat, per exemple, cosa que permet analitzar i estudiar aquestes dades immediatament.^[1]

Detecció del frau[modifica]

Les dades sintètiques també poden ser útils per a fer simulacions i testejar sistemes informàtics. És el cas d'un programa de detecció de fraus que permet crear perfils de comportament realistes per a usuaris i atacants. Les dades sintètiques s'utilitzen per entrenar els algoritmes de detecció i, alhora, crear l'adaptació necessària del sistema a un entorn específic. A continuació, el sistema s'exposa a un conjunt de dades autèntiques per mesurar paràmetres com la capacitat de detecció i la taxa d'alarma falsa, així com un conjunt de dades sintètiques corresponent. Finalment, es comparen els resultats.^[10]

Creació de contingut fals[modifica]

Una altra aplicació de les dades sintètiques és la generació de contingut enganyós, com els hipertrucatges o les fake news. El 2018, el periodista Sam Cole va descobrir que un usuari d'una xarxa social publicava vídeos pornogràfics falsos fent servir un algoritme d'intel·ligència artificial per substituir els rostres per cares de celebritats. El 2019, els hipertrucatges s'havien estès molt més enllà d'aquesta plataforma. Els últims anys també s'han propagat vídeos falsos de polítics que han pogut generar notícies falses utilitzant XGAs i les tecnologies pròpies de la síntesi de dades.^[11]

Referències[modifica]

↑ ^1,0 ^1,1 ^1,2 ^1,3 ^1,4 ^1,5 «Overcoming Data Scarcity and Privacy Challenges with Synthetic Data», 25-12-2020. [Consulta: 30 desembre 2020].
↑ ^2,0 ^2,1 «Artificial data give the same results as real data — without compromising privacy». MIT News, 03-03-2017. [Consulta: 30 desembre 2020].
↑ Abowd J.M., Lane J. «[https://doi.org/10.1007/978-3-540-25955-8_22 New Approaches to Confidentiality Protection: Synthetic Data, Remote Access and Research Data Centers]». Privacy in Statistical Databases. PSD 2004. Lecture Notes in Computer Science, vol 3050., 2004.
↑ ^4,0 ^4,1 ^4,2 ^4,3 ^4,4 ^4,5 ^4,6 «The real promise of synthetic data». MIT News, 16-10-2020. [Consulta: 30 desembre 2020].
↑ Rubin, D. «Discussion: Statistical Disclosure Limitation». Journal of Official Statistics, 1993, pàg. 461–468.
↑ ^6,0 ^6,1 ^6,2 ^6,3 Xu, L.; Skoularidou, M.; Cuesta-Infante, A.; Veeramachaneni, K. «Modeling Tabular Data using Conditional GAN». 33rd Conference on Neural Information Processing Systems (NeurIPS 2019), Vancouver, Canada., 28-10-2019.
↑ Patki, N.; Wedge, R.; Veeramachaneni, K. «[doi: 10.1109/DSAA.2016.49 The Synthetic data vault]». IEEE International Conference on Data Science and Advanced Analytics (DSAA), Montreal, QC, 2016, pàg. 399-410.
↑ Lin, Z.; Jain, A.; Wang, C.; Fanti, G.; Sekar, V. «Using GANs for Sharing Networked Time Series Data: Challenges, Initial Promise, and Open Questions». ACM Internet Measurement Conference, 15-11-2020.
↑ «Datos sintéticos». Diario de Levante, 31-05-2020. [Consulta: 30 desembre 2020].
↑ Barse, E.L.; Kvarnstrom, H.; Jonsson, E. «Synthesizing Test Data for Fraud Detection Systems». IEEE, 08-01-2004, pàg. 384-394.
↑ «The year deepfakes went mainstream». MIT Technology Review, 24-12-2020. [Consulta: 30 desembre 2020].

[:0-1] 1,0 ^1,1 ^1,2 ^1,3 ^1,4 ^1,5 «Overcoming Data Scarcity and Privacy Challenges with Synthetic Data», 25-12-2020. [Consulta: 30 desembre 2020].

[:1-2] 2,0 ^2,1 «Artificial data give the same results as real data — without compromising privacy». MIT News, 03-03-2017. [Consulta: 30 desembre 2020].

[3] Abowd J.M., Lane J. «[https://doi.org/10.1007/978-3-540-25955-8_22 New Approaches to Confidentiality Protection: Synthetic Data, Remote Access and Research Data Centers]». Privacy in Statistical Databases. PSD 2004. Lecture Notes in Computer Science, vol 3050., 2004.

[:2-4] 4,0 ^4,1 ^4,2 ^4,3 ^4,4 ^4,5 ^4,6 «The real promise of synthetic data». MIT News, 16-10-2020. [Consulta: 30 desembre 2020].

[5] Rubin, D. «Discussion: Statistical Disclosure Limitation». Journal of Official Statistics, 1993, pàg. 461–468.

[:3-6] 6,0 ^6,1 ^6,2 ^6,3 Xu, L.; Skoularidou, M.; Cuesta-Infante, A.; Veeramachaneni, K. «Modeling Tabular Data using Conditional GAN». 33rd Conference on Neural Information Processing Systems (NeurIPS 2019), Vancouver, Canada., 28-10-2019.

[7] Patki, N.; Wedge, R.; Veeramachaneni, K. «[doi: 10.1109/DSAA.2016.49 The Synthetic data vault]». IEEE International Conference on Data Science and Advanced Analytics (DSAA), Montreal, QC, 2016, pàg. 399-410.

[8] Lin, Z.; Jain, A.; Wang, C.; Fanti, G.; Sekar, V. «Using GANs for Sharing Networked Time Series Data: Challenges, Initial Promise, and Open Questions». ACM Internet Measurement Conference, 15-11-2020.

[9] «Datos sintéticos». Diario de Levante, 31-05-2020. [Consulta: 30 desembre 2020].

[10] Barse, E.L.; Kvarnstrom, H.; Jonsson, E. «Synthesizing Test Data for Fraud Detection Systems». IEEE, 08-01-2004, pàg. 384-394.

[11] «The year deepfakes went mainstream». MIT Technology Review, 24-12-2020. [Consulta: 30 desembre 2020].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]