Aprenentatge profund

De Viquipèdia

L'aprenentatge profund (en anglès, deep learning) és una tècnica d’extracció i transformació de noves característiques del processament de la informació, les quals poden ser de forma supervisada o no. Són algoritmes que funcionen en un sistema per capes, simulant el funcionament bàsic del cervell que s’utilitza amb les neurones. És a dir, el conjunt de capes que forma el deep learning representen les neurones del cervell. Aquest mètode va ser promogut als anys 80 per l'investigador japonès Kunihiko Fukushima, el qual va proposar un model neuronal entre cinc i sis capes nomenat “ neocognitró ”. Actualment la definició d’aprenentatge profund és un sinònim modern de les aplicacions de les xarxes neuronals. Hi ha molts sistemes actuals de reconeixement de veu, visió artificial i reconeixements d’imatges que utilitzen aquesta tecnologia.

Definicions[modifica]

Hi ha diverses definicions que ens permeten obtenir una idea més detallada del que engloba el concepte del Deep Learning. - Classe de tècniques del Machine Learning que busquen l'extracció i transformació de les característiques referents al processament de la informació, sigui de forma supervisada o no supervisada.

- Un camp contingut al Machine Learning que es basa en algoritmes per aprendre diversos nivells de representació buscant relacions complexes. Obtenint característiques d'alt nivell i baix nivell, jerarquitzant-les.

- Continuació: les característiques de baix nivell poden ajudar a definir les d'alt nivell. És a dir, tenir en compte que algunes representacions són millors que altres depenent de les tasques que vulguem assolir.

- Nova zona creada per tornar al Machine Learning un dels seus objectius: intel·ligència artificial. Buscant nivells d'abstracció que ens permeten donar sentit a les imatges, sons i text.

Resum[modifica]

La majoria dels models moderns d'aprenentatge profund es basen en xarxes neuronals artificials, específicament xarxa neuronal convolucional (CNN), encara que també poden incloure fórmules proposicionals o variables latents organitzades en models generatius profunds, com els nodes en xarxes de creences profundes i màquines Boltzmann.

En l'aprenentatge profund, cada nivell aprèn a transformar les seves dades d'entrada en una representació lleugerament més abstracta i composta. En una aplicació de reconeixement d'imatges, l'entrada en brut pot ser una matriu de píxels; la primera capa representativa pot absorbir els píxels i codificar les vores; la segona capa pot compondre i codificar els arranjaments de les vores; la tercera capa pot codificar un nas i ulls; i la quarta capa pot reconèixer que la imatge conté una cara. És important destacar que un procés d'aprenentatge profund pot aprendre quines característiques té per a situar-se de manera òptima en quin nivell. Això no elimina la necessitat d'un afinament manual; per exemple, els diferents nombres de capes i mides de les capes poden proporcionar diferents graus d'abstracció.

La paraula "profund" en "aprenentatge profund" es refereix al nombre de capes a través de les quals es transformen les dades. Més precisament, els sistemes d'aprenentatge profund tenen una profunditat substancial de la ruta de l'assignació de crèdit (PAC). La PAC és la cadena de transformacions de l'entrada a la sortida. Els PAC descriuen les connexions potencialment causals entre entrada i sortida. Per a una xarxa neuronal, la profunditat de les capes cap endavant és la de la xarxa i és el nombre de capes ocultes més una capa extra (ja que la capa de sortida també està parametritzada). Per a xarxes neuronals recurrents, en les quals un senyal pot propagar-se a través d'una capa més d'una vegada, la profunditat de la CAP és potencialment il·limitada. No hi ha un llindar de profunditat acordat, universalment divideix l'aprenentatge superficial de l'aprenentatge profund, però la majoria dels investigadors estan d'acord que l'aprenentatge profund implica una profunditat de la CAP més alta que 2. S'ha demostrat que la capade profunditat 2 és un aproximador universal en el sentit que pot emular qualsevol funció. Més enllà d'això, més capes no afegeixen a la capacitat de l'aproximador de funcions de la xarxa. Els models profunds (CAP . 2) són capaços d'extreure millors característiques que els models superficials i, per tant, les capes addicionals ajuden a aprendre les característiques de manera efectiva.

Les arquitectures d'aprenentatge profund es poden construir amb un mètode de capa a capa cobdiciós. L'aprenentatge profund ajuda a desentranyar aquestes abstraccions i triar quines característiques milloren el rendiment.

Per a les tasques d'aprenentatge supervisat, els mètodes d'aprenentatge profund eliminen l'enginyeria de funcions, traduint les dades en representacions intermèdies compactes similars als components principals, i deriven estructures en capes que eliminen la redundància en la representació.

Els algoritmes d'aprenentatge profund es poden aplicar a tasques d'aprenentatge no supervisades. Es tracta d'un benefici important perquè les dades no etiquetades són més abundants que les dades etiquetades. Exemples d'estructures profundes que es poden formar de manera no supervisada són xarxes de creences profundes.

Interpretacions[modifica]

Les xarxes neuronals profundes s'interpreten generalment en termes del teorema d'aproximació universal o inferència probabilística.

El teorema d'aproximació universal clàssic es refereix a la capacitat de xarxes neuronals amb una sola capa oculta de mida finita per aproximar funcions contínues. El 1989, la primera demostració va ser publicada per George Cybenko per a funcions d'activació sigmoide i es va generalitzar per a arquitectures multicapa sigmoide el 1991 per Kurt Hornik. Els treballs recents també van mostrar que l'aproximació universal també es compleix per a funcions d'activació no fitades com la unitat lineal rectificada.

El teorema d'aproximació universal de les xarxes neuronals profundes es refereix a la capacitat de les xarxes amb amplada limitada, però la profunditat pot créixer. Lu et al. va demostrar que si l'amplada d'una xarxa neuronal profunda amb activació de ReLU és estrictament més gran que la dimensió d'entrada, doncs la xarxa pot aproximar qualsevol funció integral de Lebesgue; en canvi si l'amplada és més petita o igual a la dimensió d'entrada, doncs una xarxa neuronal profunda no és un aproximador universal.

La interpretació probabilísticas deriva del camp de l'aprenentatge automàtic. Té inferència, així com els conceptes d'optimització de la formació i les proves, relacionats amb l'ajust i la generalització, respectivament. Més específicament, la interpretació probabilística considera la no linealitat d'activació com una funció de distribució acumulada. La interpretació probabilística va portar a la introducció de la sortida com a regularitzador en les xarxes neuronals . La interpretació probabilística va ser introduïda per investigadors com Hopfield, Widrow i Narendra i popularitzada en enquestes com la de Bishop.

Història[modifica]

Algunes fonts assenyalen que Frank Rosenblatt va desenvolupar i explorar tots els ingredients bàsics dels sistemes d'aprenentatge profund d'avui. El va descriure en el seu llibre "Principis de Neurodinàmica: Perceptrons i la Teoria dels Mecanismes Brain", publicat per Cornell Aeronautical Laboratory, Inc., Universitat Cornell el 1962.

El primer algorisme general d'aprenentatge de treball per a perceptrons supervisats, profunds i amb múltiples capes va ser publicat per Alexey Ivakhnenko i Lapa el 1967 va descriure una xarxa profunda amb vuit capes entrenades pel mètode de grup de manipulació de dades. Altres arquitectures de treball d'aprenentatge profund, específicament les construïdes per a visió informàtica, van començar amb el Neocognitron introduït per Kunihiko Fukushima el 1980.

El terme Aprenentatge Profund va ser introduït a la comunitat d'aprenentatge de màquines per Rina Dechter el 1986, i a les xarxes neuronals artificials per Igor Aizenberg i col·laboradors el 2000, en el context de les neurones del llindar booleà.

El 1989, Yann LeCun et al. va aplicar l'algorisme estàndard de retropropagació, que havia estat al voltant com el mode invers de la diferenciació automàtica des de 1970, a una xarxa neuronal profunda amb el propòsit de reconèixer codis postals escrits a mà en el correu. Mentre que l'algorisme funcionava, l'entrenament requeria 3 dies.

El 1994, André de Carvalho, juntament amb Mike Fairhurst i David Bisset, van publicar els resultats experimentals d'una xarxa neuronal booleana multicapa, també coneguda com una xarxa neuronal sense pes, composta per un mòdul de xarxa neuronal d'extracció de característiques de 3 capes (SOFT) seguit per un mòdul de xarxa neuronal de classificació multicapa (GSN), que van ser entrenats de forma independent. Cada capa en el mòdul d'extracció de característiques extreu característiques amb una complexitat creixent respecte a la capa anterior.

El 1995, Brendan Frey va demostrar que era possible entrenar (més de dos dies) una xarxa que contenia sis capes totalment connectades i diversos centenars d'unitats ocultes utilitzant l'algorisme d'activació-dormit, codesenvolupat amb Peter Dayan i Hinton. Molts factors contribueixen a la velocitat lenta, inclòs el problema del gradient de fuga analitzat el 1991 per Sepp Hochreiter.

Des de 1997, Sven Behnke va estendre l'enfocament convolucional jeràrquic de l'abstracció neuronal Pyramid per connexions laterals i endarrerides amb la finalitat d'incorporar de manera flexible el context a les decisions i resoldre iterativament les ambigüitats locals.

Els models més senzills que utilitzen característiques artesanals específiques de la tasca com filtres de Gabor i màquines vectorials de suport (SVM) van ser una elecció popular en els anys 90 i 2000, a causa del cost computacional de la xarxa neuronal artificial (ANN) i la manca de comprensió de com el cervell filtra les seves xarxes biològiques.

S'han explorat tant l'aprenentatge superficial com l'aprenentatge profund (per exemple, les xarxes recurrents) d'ANN durant molts anys. Aquests mètodes mai van superar la tecnologia de mescla gaussiana no uniforme (per exemple, el model de barreja gaussiana gaussiana / el model de barreja de Gauss / el model de Markov amagat (GMM-HMM) basat en models generatius de parla amb discriminació. S'han analitzat les dificultats clau gradient, incloent la disminució del gradient i una feble estructura de correlació temporal en els models predictius neuronals. Les dificultats addicionals van ser la manca de dades d'entrenament i la capacitat de computació limitada.

La majoria dels investigadors de reconeixement de la parla es van allunyar de les xarxes neuronals per seguir el modelatge generatiu. Una excepció va ser a SRI International a finals de la dècada de 1990. Fundat per la NSA i DARPA del govern dels Estats Units, SRI va estudiar xarxes neuronals profundes en el reconeixement de la parla i l'altaveu. L'equip de reconeixement d'altaveus liderat per Larry Heck va reportar un èxit significatiu amb xarxes neuronals profundes en el processament de la parla a l'Institut Nacional d'Estàndards i Tecnologia d'Avaluació d'Oportunitats. La xarxa neuronal profunda de SRI es va desplegar llavors en el Verificador de Nuance, representant la primera aplicació industrial important d'aprenentatge profund.

El principi d'elevar les característiques de la "cara" sobre l'optimització artesanal va ser explorat per primera vegada amb èxit en l'arquitectura d'un codificador profund en l'espectrograma de la "llista" o característiques lineals de la banca de filtres a finals de la dècada de 1990, mostrant la seva superioritat sobre les característiques Mel-Cepstral que contenen etapes de transformació fixa a partir d'espectrogrames. Les característiques bàsiques de la parla, les formes d'ona, més tard van produir excel·lents resultats a gran escala.

Molts aspectes del reconeixement de la parla van ser assumits per un mètode d'aprenentatge profund anomenat memòria a curt termini (LSTM), una xarxa neuronal recurrent publicada per Hochreiter i Schmidhuber en 1997 L50 LSTM RNNs eviten el problema del gradient decreixent i poden aprendre "Very Deep Learning" tasques que requereixen records d'esdeveniments que van passar milers de passos de temps discrets abans, que és important per a la parla. El 2003, el LSTM va començar a ser competitiu amb els reconeixedors de parla tradicionals en certes tasques. Més tard es va combinar amb la classificació temporal connectiva (CTC) en les piles de RNN LSTM.ST53. El 2015, el reconeixement de veu de Google va experimentar un salt de rendiment dramàtic del 49% a través del LSTM entrenat per CTC, que van posar a disposició a través de Google Voice Search.

En 2006, les publicacions de Geoff Hinton, Ruslan Salakhutdinov, Osindero i Teh van mostrar com una xarxa neuronal de moltes capes podia ser efectivament pre-entrenada una capa alhora, tractant cada capa al seu torn com una màquina de Boltzmann restringida sense supervisió, i després ajustant-la mitjançant retropropagació supervisada. Els articles es referien a aprendre per a xarxes de creences profundes.

L'aprenentatge profund forma part dels sistemes d'art en diverses disciplines, en particular la visió informàtica i el reconeixement automàtic de la parla (ASR). Els resultats en conjunts d'avaluació comunament utilitzats com ara TIMIT (ASR) i MNIST (classificació d'imatge), així com una sèrie de tasques de reconeixement de veu de gran vocabulari han millorat de manera constant. Les xarxes neuronals convolucionals (CNNs) van ser reemplaçades per ASR, per CTC5252, per LSTM però tenen més èxit en la visió de l'ordinador.

L'impacte de l'aprenentatge profund en la indústria va començar a principis de la dècada del 2000, quan les CNN ja processaven d'un 10% a 20% de tots els controls escrits als Estats Units, segons Yann LeCun. Aplicacions industrials d'aprenentatge profund al reconeixement de parla a gran escala, van començar al voltant del 2010.

El 2009, el "NIPS Workshop on Deep Learning for Speech Recognition" va ser motivat per les limitacions dels models generatius profunds de parla, i la possibilitat que, donats els conjunts de dades més capaços i a gran escala, les xarxes neuronals profundes (DNN) poguessin arribar a ser pràctiques. Es creia que les DNN "pre-training" utilitzant models generatius de xarxes de creences profundes (DBN) superarien les principals dificultats de les xarxes neuronals. No obstant això, es va descobrir que la substitució del pre-training per grans quantitats de dades d'entrenament per retropropagació simple quan s'utilitzaven DNNs amb grans capes de producció dependents del context, produïa taxes d'error dramàticament més baixes que el model de mescla gaussiana (GMM)/Hidden Markov Model (HMM) i també que els errors de reconeixement produïts pels dos tipus de sistemes eren característicament diferents, oferint coneixements tècnics sobre com integrar l'aprenentatge profund en el sistema de descodificació de la parla altament eficient existent i en temps d'execució desplegat per tots els sistemes de reconeixement de la parla principals.  Anàlisi al voltant de 2009–2010, contrastant el GMM (i altres models generatius de parla) contra els models DNN, estimulà la inversió industrial primerenca en l'aprenentatge profund per al reconeixement de la parla, eventualment conduint a un ús generalitzat i dominant en aquesta indústria. Aquesta anàlisi es va fer amb un rendiment comparable (menys de l'1,5% en la taxa d'error) entre les DNN discriminatives i els models generatius.

El 2010, els investigadors van estendre l'aprenentatge profund del TIMIT al reconeixement de parla de vocabulari gran, adoptant grans capes de sortida de la DNN basades en estats HMM dependents del context construïts per arbres de decisió.

Els avanços en el maquinari han impulsat l'interès renovat per l'aprenentatge profund. El 2009, Nvidia va participar en el que es va anomenar el Big Bang de l'aprenentatge profund, "com lesxarxes neuronals d'aprenentatge profund van ser entrenades amb les unitats de processament gràfic de Nvidia (GPUs)". Aquell any, Andrew Ng va determinar que les GPUs podrien augmentar la velocitat dels sistemes d'aprenentatge profund en unes 100 vegades. En particular, les GPUs estan ben adaptades per als càlculs de matriu/vectors implicats en l'aprenentatge automàtic. GPUs acceleren els algoritmes d'entrenament per ordres de magnitud, reduint els temps d'execució de setmanes a dies. Més, el maquinari especialitzat i les optimitzacions d'algorismes d'aprenentatge profund es poden utilitzar per al processament eficient dels models d'aprenentatge profund.

Arquitectura de l'aprenentatge profund[modifica]

L'aprenentatge profund es pot definir com la suma dels següents factors:

Sent DL: Aprenentatge profund (Deep Learning), NN: xarxa neuronal (Neuronal Network), GM: Modelat gràfic (Graph Modeling), PP: Processament de patrons, SP: Processament de senyals (Signal processing).

Jerarquia de funcions[modifica]

Són tècniques que reben major quantitat de dades, més capes que es desenvolupen aquestes jerarquies entre la informació que permetran obtenir característiques de forma supervisada i realitzar classificacions.

- Aprendre la jerarquia

- Tot el camí des dels píxels fins a arribar als classificadors.

- Una capa extreu característiques de la sortida de la capa anterior. Capacitar totes les capes de manera conjunta

Punts de vista per funcions d'aprenentatge[modifica]

Aprenentatge Supervisat[modifica]

- Aprenentatge d'extrem a extrem de les arquitectures de profunditat amb retropropagació.

- Funciona bé quan les quantitats d'etiquetes és gran.

- Estructura del model és important (per exemple, estructura convolucional)

Aprenentatge no supervisat[modifica]

- Aprendre estructura estadística o dependències de les dades a partir de dades sense etiqueta

- Formació per capes

- És útil quan la quantitat d'etiquetes no és gran.

Classificació de mètodes d'aprenentatge de funcions[modifica]

Mètode Supervisat No supervisat
Superficial Suport Vector Machine

Regressió logística

Perceptró (Perceptron)

Denoising Autoencoder

Màquines Restringides Boltzmann

Codificació Sparse

Profund xarxa neuronal Profunda

xarxa neuronal convolucional

xarxa neuronal recurrent

Profund Denoising Autoencoder

Les xarxes de creences profundes

Màquines Profund Boltzmann

Codificació Jeràrquica Sparse

Xarxes Neuronals[modifica]

L'aprenentatge profund està format per xarxes neuronals artificials (RNA) formades per un conjunt de neurones artificials interconnectades i diverses capes interrelacionades entre elles, la sortida d'una capa és l'entrada a la següent, amb la qual es poden enviar informació. El nombre de capes intermèdies i el nombre de neurones de cada capa dependrà del tipus d'aplicació que s'utilitzi.

Funcionament[modifica]

En la capa inicial hi ha una neurona per cada variable amb la qual volem predir la classe. Aquesta neurona rep les dades corresponents d'aquesta variable i ho envia a la superior.

A la capa final hi ha una neurona per cada classe, aquesta agafa senyals de la capa inferior i aplica la probabilitat que pertany a la dada de la classe.

La capa inferior rep les dades i les envia a la segona capa, aquesta converteix les dades en senyals i els envia a la segona capa i així successivament.

Exemple de funcionament red neuronal

Problemes[modifica]

Les xarxes neuronals presenten diversos problemes: - La quantitat de variables lliure que s'han d'entrenar és molt alta. - La funció objectiu no és convexa en els seus paràmetres, això causa que l'algoritme d'optimització s'estanqui en els seus òptims locals. - El resultat depèn de la inicialització dels paràmetres.

Solucions[modifica]

Els problemes anteriors es poden solucionar o millorar de la següent manera:

- Utilitzant les Xarxes de convolució Neuronal, utilitzades per al reconeixement de caràcters.

- Múltiples inicialitzacions de la xarxa.

- Utilització de Màquines de Boltzmann i Deep Belief Networks.

Aprenentatge[modifica]

L'aprenentatge és essencial per a totes les xarxes neuronals, per tant l'elecció de l'algoritme d'aprenentatge és un punt molt important pel desenvolupament d'una xarxa. Hi ha dos tipus d'aprenentatges, el supervisat i el no supervisat, el primer es proveeix d'una resposta correcta durant el seu entrenament i el segon es caracteritza per no tenir present l'objectiu que ha d'assolir.

Xarxes amb aprenentatge supervisat[modifica]

L'aprenentatge supervisat es caracteritza per un procés d'aprenentatge realitzat amb un entrenament controlat per un agent extern (supervisor) que determina la resposta que hauria de generar la xarxa a partir d'una entrada concreta. La funció del supervisor és controlar la sortida la xarxa i en el cas que no coincideixi amb la sortida desitjada es procedeix a modificar el pes de les connexions per aconseguir una sortida aproximada a l'esperada.

Procediment[modifica]

El procediment del mètode amb xarxes de convolució supervisat és el següent:

Entrada: Pixels / Característiques

Capa 1: Filtració + No linealitat

Capa 2: Pooling (posada en comú)

Capa 3: Normalització

Sortida: Característiques

Tipus de xarxes[modifica]

Aprenentatge per correcció d'error: Consisteix a ajustar el pes de les connexions de la xarxa en funció de l'error comès a la sortida.

Aprenentatge per reforç: Es caracteritza per no indicar donat l'entrenament exactament la sortida que es desitja que proporcioni la xarxa en una determinada entrada.

Aprenentatge estocàstic: Consisteix a realitzar canvis aleatoris al pes de les diferents connexions i avaluar el seu efecte a partir d'un objectiu

Regla del Perceptró

Aprenentatge Supervisat Hebbià

Xarxes amb aprenentatge no supervisat[modifica]

Aquest tipus de xarxes representa un grau de similitud entre la informació que hi ha a l'entrada i les informacions que s'han anat mostrant durant el procediment. Està format per un conjunt de regles que donen a la xarxa una habilitat per aprendre associacions entre els diversos patrons que es formen en un conjunt. Un cop els patrons es coneixen, es permet que les xarxes realitzin tasques útils de reconeixement de patrons i habilitat per tenir memòria.

Tipus de xarxes[modifica]

Aprenentatge Hebbià

Aprenentatge competitiu i comparatiu

Supervisat vs No supervisat[modifica]

  • Model supervisat
    • Funcionen molt bé amb grans quantitats d'etiquetes, per exemple: IMAGEnet.
    • donen importància a l'estructura convolucional.
  • Model no supervisat
    • Funciona bé amb quantitats limitades d'etiquetes.
    • Pot aprofitar una quantitat pràcticament il·limitada de dades sense necessitat d'etiquetatge.

Hardware[modifica]

Des de la dècada de 2010, els avenços tant en algorismes d'aprenentatge automàtic com en maquinari d'ordinador han portat a mètodes més eficients per a la formació de xarxes neuronals profundes que contenen moltes capes d'unitats ocultes no lineals i una gran capa de sortida. Pel 2019, les unitats de processament gràfic (GPUs), sovint amb millores específiques de la IA, havien desplaçat les CPU com el mètode dominant d'entrenament a núvols comercials a gran escala. OpenAI va estimar el càlcul del maquinari utilitzat en els projectes d'aprenentatge profund més grans d'AlexNet (2012) a AlphaZero (2017), i va trobar un augment de 300.000 vegades en la quantitat de computació requerida, amb una línia de tendència de 3.4 mesos.

Els circuits electrònics especials anomenats processadors d'aprenentatge profund van ser dissenyats per accelerar els algoritmes d'aprenentatge profund. Els processadors d'aprenentatge profund inclouen unitats de processament neuronal (NPU) en mòbils Huawei i servidors de computació al núvol com unitats de processament tensorial (TPU) en la Google Cloud Platform.

Els semiconductors prims atòmicament es consideren prometedors per a un maquinari d'aprenentatge profund eficient des del punt de vista energètic, on s'utilitza la mateixa estructura de dispositius bàsics per a operacions lògiques i emmagatzematge de dades.

El 2020, Marega et al. va publicar experiments amb un material de canal actiu de gran àrea per desenvolupar dispositius lògics en memòria i circuits basats en transistors d'efecte de camp de porta flotant (FGFET, de les seves sigles en anglés).

En 2021, J. Feldmann et al. van proposar un accelerador de maquinari fotònic integrat per al processament convolucional paral·lel. Els autors identifiquen dos avantatges clau de la integració fotònica sobre els seus homòlegs electrònics: (1) transferència massiva de dades a través de divisió de longituds d'ona multiplexat en conjunció amb combois de freqüència, i (2) velocitats de modulació de dades extremadament altes. El seu sistema pot executar bilions d'operacions multi-acumulades per segon, indicant el potencial de la integració fotònica en aplicacions de IA que requereixen un gran volum de dades.

Aplicacions[modifica]

Reconeixement automàtic per veu[modifica]

El reconeixement automàtic per veu a gran escala és el primer i més convincent cas d'aprenentatge profund. LSTM RNNs pot aprendre "Very Deep Learning" tasques que impliquen intervals de diversos segons que contenen esdeveniments de parla separats per milers de passos de temps discrets, on un pas de temps correspon a uns 10 ms. El LSTM amb portes oblidades és competitiu amb els reconeixedors de veu tradicionals en certes tasques.

L'èxit inicial en el reconeixement de la parla es basava en tasques de reconeixement a petita escala basades en TIMIT. El conjunt de dades conté 630 parlants de vuit dailecte principals de l'anglès americà, on cada parlant llegeix 10 frases. La seva mida petita permet provar moltes configuracions. El més important, la tasca TIMIT es refereix al reconeixement de la seqüència de telèfons, que, a diferència del reconeixement de la seqüència de paraules, permet models de llenguatge de bigrames de telèfon febles. Això permet analitzar més fàcilment la força dels aspectes de modelatge acústic del reconeixement de la parla. Les taxes d'error llistades a continuació, incloent aquests primers resultats i mesurades com a percentatge d'errors de telèfon (PER), s'han resumit des de 1991.

Métode Percentatge d'error telefónic
Inicialització Aleatória RNN 26.1
Trifón bayesià GMM-HMM 25.6
Model de Trajectòria Oculta (Generativa) 24.8
Monofón Inicialitzat Aleatóriament DNN 23.4
Monofón DBN-DNN 22.4
Trifón GMM-HMM amb Entrenament BMMI 21.7
Monofón DBN-DNN en fbank 20.7
DNN Convolucional 20.0
DNN Convolucional amb Pooling Heterogeni 18.7
Ensemble DNN/CNN/RNN 18.3
Bidirectional LSTM 17.8
Xarxa Jeràrquica de Maxout Profund Convolucional 16.5

El debut de DNNs per al reconeixement de l'altaveu a finals de la dècada de 1990 i el reconeixement de la parla al voltant de 2009-2011 i del LSTM al voltant de 2003-2007, va accelerar el progrés en vuit àrees principals:

  • Escalar/allunyar i entrenament accelerat de la DNN i descodificació
  • Seqüència entrenament discriminatori
  • Processament de funcions per models profunds amb una sòlida comprensió dels mecanismes subjacents
  • Adaptació de DNNs i models profunds relacionats
  • Multi-task i l'aprenentatge de transferències per DNNs i models profunds relacionats
  • CNNs i com dissenyar-los per explotar millor el coneixement de domini de parla
  • RNN i les seves variants de LSTM riques
  • Altres tipus de models profunds, incloent-hi models basats en tensors i models integrats generatius/discriminatius profunds.

Tots els principals sistemes comercials de reconeixement de veu (per exemple, Microsoft Cortana, Xbox, Skype Translator, Amazon Alexa, Google Now, Apple Siri, Baidu i iFlyTek, i una sèrie de productes de parla de Nuance, etc.) es basen en l'aprenentatge profund.

Reconeixement d'imatges[modifica]

Un conjunt d'avaluació comú per a la classificació d'imatges és el conjunt de dades de la base de dades MNIST. MNIST està compost de dígits escrits a mà i inclou 60.000 exemples d'entrenament i 10.000 exemples de prova. Com amb TIMIT, la seva petita mida permet als usuaris provar diverses configuracions. Hi ha disponible una llista exhaustiva de resultats en aquest conjunt.

El reconeixement d'imatge basat en l'aprenentatge profund s'ha convertit en "superhumà", produint resultats més precisos que els concursants humans. Això va ocórrer per primera vegada el 2011 en reconeixement de senyals de trànsit, i el 2014, amb reconeixement de cares humanes.

Un altre exemple és la Dismorfologia Facial Anàlítica Nova (FDNA) utilitzada per analitzar casos de malformació humana connectats a una gran base de dades de síndromes genètics.

Processament de llenguatge natural[modifica]

Les xarxes neuronals s'han utilitzat per implementar models lingüístics des de principis dels anys 2000. LSTM ha ajudat a millorar la traducció automàtica i el modelatge de llenguatge.

Altres tècniques clau en aquest camp són mostreig negatiu i incrustació de paraules. La incrustació de paraules, com el word2vec, es pot considerar com una capa representativa en una arquitectura d'aprenentatge profund que transforma una paraula atòmica en una representació posicional de la paraula relativa a altres paraules en el conjunt de dades; la posició es representa com un punt en un espai vectorial. L'ús de la incrustació de paraules com una capa d'entrada RNN permet a la xarxa analitzar frases i frases utilitzant una gramàtica vectorial de composició efectiva. Una gramàtica vectorial de composició es pot considerar com a gramàtica lliure de context probabilístic (PCFG) implementada per una RNN. Arquitectures automàtiques recursives construïdes a dalt de les paraules poden avaluar la similitud de frases i detectar la parafrasejament. Arquitectures neuronals profundes proporcionen els millors resultats per a l'anàlisi de sentiments, informació recuperació, entendiment, comprensió de la llengua parlada, traducció automàtica, enllaç d'entitat contextual, reconeixement d'estil d'escriptura, classificació de text i altres.

Els desenvolupaments recents generalitzen la incrustació de paraules a la incrustació de frases.

Google Translate (GT) utilitza una gran xarxa de memòria a curt termini (LSTM) d'extrem a extrem. Google Neural Machine Translation (GNMT) utilitza un mètode de traducció a màquina basat en exemples en el qual el sistema "s'escapa de milions d'exemples". Es tradueix "s'han de complir les frases alhora, en lloc de les peces. Google Translate admet més de cent idiomes.1145. La xarxa codifica la «semàntica de la frase en lloc de simplement memoritzar les traduccions frase a frase.". GT utilitza l'anglès com un intermedi entre la majoria de parelles lingüístiques.

Descobriment de drogues i toxicologia[modifica]

Un gran percentatge de drogues candidates no aconsegueixen l'aprovació de la normativa. Aquests errors són causats per una eficàcia insuficient (efecte en l'objectiu), interaccions no desitjades (efectes fora de l'objectiu) o efectes tòxics inesperats. Investigació ha explorat l'ús d'aprenentatge profund per predir els objectius biomoleculars, fora de l'objectiu, i efectes tòxics de productes químics ambientals en nutrients, productes domèstics i drogues.

L'AtomNet és un sistema d'aprenentatge profund per al disseny de fàrmacs racionals basats en estructures. L'AtomNet es va utilitzar per predir biomolècules candidates per a malalties com el virus de l'Ebola i l'esclerosi múltple.

El 2017, les xarxes neuronals gràfiques es van utilitzar per primera vegada per predir diverses propietats de les molècules en un gran conjunt de dades toxicològiques. El 2019, les xarxes neuronals generatives es van utilitzar per produir molècules que van ser validades experimentalment fins a ratolins.

Gestió de relacions amb clients[modifica]

L'aprenentatge profund reforçat s'ha utilitzat per aproximar el valor de possibles accions de màrqueting directe, definides en termes de variables RFM. Es va demostrar que la funció de valor estimat tenia una interpretació natural com a valor de vida del client.

Recomanació de sistemes[modifica]

Els sistemes de recomanació han utilitzat aprenentatge profund per extreure característiques significatives per a un model de factor latent per a la música basada en contingut i les recomanacions de diari. S'ha aplicat aprenentatge multi-vista a les preferències d'usuari d'aprenentatge des de múltiples dominis. El model utilitza un enfocament híbrid col·laboratiu i basat en contingut i millora les recomanacions en múltiples tasques.

Bioinformàtica[modifica]

Una ANN autoencoder es va utilitzar en bioinformàtica, per predir anotacions d'ontologia gènica i relacions de funció gènica.16162. En la bininformàtica, l'aprenentatge profund es va utilitzar per predir la qualitat del son basant-se en les dades dels portadors i les prediccions sobre les dades dels registres de salut electrònics.

Anàlisi d'imatges mèdiques[modifica]

S'ha demostrat que l'aprenentatge profund produeix resultats competitius en l'aplicació mèdica com la classificació de les cèl·lules canceroses, la detecció de lesions, la segmentació d'òrgans i la millora de la imatge.Les eines modernes d'aprenentatge profund demostren l'alta precisió de la detecció de diverses malalties i la utilitat del seu ús pels especialistes per millorar l'eficiència del diagnòstic.

Publicació mòbil[modifica]

Trobar l'audiència mòbil apropiada per a la publicitat mòbil sempre és un repte, ja que molts punts de dades s'han de considerar i analitzar abans que un segment d’aquest objectiu es pugui crear i utilitzar en anuncis que serveixin qualsevol tipus de servidor d'anuncis. L'aprenentatge profund s'ha utilitzat per interpretar grans conjunts de dades publicitàries de molts dimensions. Molts punts de dades es recullen durant el cicle de publicitat d'Internet de sol·licitud/servei/clic. Aquesta informació pot formar la base de l'aprenentatge automàtic per millorar la selecció d'anuncis.

Restauració d'imatge[modifica]

L'aprenentatge profund s'ha aplicat amb èxit a problemes inversos com ara la desnobilització, la superrevolució, la pintura i la coloració de la pel·lícula.Aquestes aplicacions inclouen mètodes d'aprenentatge com "Camps de beguda per a la Restauració efectiva d'imatges" que s'entrena en un conjunt de dades d'imatge, i Deep Image Prior, que s'entrena en la imatge que necessita restauració.

Reconstrucció d'imatge[modifica]

La reconstrucció d'imatges és la reconstrucció de les imatges subjacents a partir de les mesures relacionades amb la imatge. Diverses obres van mostrar el millor i superior rendiment dels mètodes d'aprenentatge profund en comparació amb els mètodes analítics per a diverses aplicacions, per exemple, les imatges espectrals i les imatges ultrasòliques.

Detecció de fraus financers[modifica]

L'aprenentatge profund s'aplica amb èxit a la detecció de fraus financers, la detecció d'evasió fiscal i el blanqueig de capitals.

Militar[modifica]

El Departament de Defensa dels Estats Units va aplicar l'aprenentatge profund per entrenar robots en noves tasques a través de l'observació.

Equacions diferencials parcials[modifica]

Les xarxes neuronals informades en física s'han utilitzat per resoldre equacions diferencials tant en problemes “d’anada” i “ tornada” d'una manera impulsada per les dades. Un exemple és el flux de fluids reconstruïts governat per les equacions de Navier-Stokes. L'ús de xarxes neuronals informades en física no requereix la generació d’una malla, sovint amb un cost elevat , i en la qual es basen els mètodes CFD convencionals.

Altres[modifica]

Deep Belief Network (DBN): models de probabilitat generatius que estan compostos per múltiples capes i variables ocultes.

Boltzmann Machine (BM): xarxa connectada de forma simètrica, implementada amb neurones que tenen com a funció decidir si estan connectades o no.

Restricted Boltzmann Machine (RBM): Tipus especial de BM on no es permet la interrelació entre neurones del mateix tipus.

Deep Neural Network (DNN): perceptró de múltiples capes , diverses d'elles ocultes.

Deep Autoencoders: model discriminatiu DNN que utilitza com a sortida els mateixos valors de l'entrada, es tracta d'un model no supervisat. Quan l'objectiu és eliminar soroll es comporta com un model generatiu.

Relació amb al desenvolupament cognitiu i cerebral humà[modifica]

L'aprenentatge profund està estretament relacionat amb una classe de teories del desenvolupament del cervell (específicament, desenvolupament neocòrtic) proposada per neurocientífics cognitius a principis dels anys 90. Aquestes teories de desenvolupament van ser instanciades en models computacionals, convertint-les en predecessors de sistemes d'aprenentatge profund. Aquests models de desenvolupament comparteixen la propietat que diverses dinàmiques d'aprenentatge proposades en el cervell (per exemple, una ona de factor de creixement dels nervis) donen suport a l'autoorganització una mica anàloga a les xarxes neuronals utilitzades en els models d'aprenentatge profund. Igual que el neocòrtex, les xarxes neuronals utilitzen una jerarquia de filtres en capes en què cada capa considera informació d'una capa anterior (o l'entorn operatiu), i després passa la seva sortida (i possiblement l'entrada original), a altres capes. Aquest procés dona una pila auto organitzadora de transductors, ben ajustada al seu entorn operatiu. Una descripció de 1995 va declarar: "... el cervell de l'infant sembla organitzar-se sota la influència d'ones de anomenats factors trofics... les diferents regions del cervell es connecten seqüencialment, amb una capa de teixit madurant abans d'una altra i així fins que tot el cervell sigui madur."

S'han utilitzat diversos enfocaments per investigar la plausibleització dels models d'aprenentatge profund des d'una perspectiva neurobiològica. D'una banda, s'han proposat diverses variants de l'algorisme de retropropagació per tal d'augmentar el seu realisme de processament. Altres investigadors han argumentat que formes no supervisades d'aprenentatge profund, com les basades en models generatius jeràrquics i xarxes de creences profundes, poden estar més a prop de la realitat biològica. En aquest sentit, els models generatius de xarxes neuronals han estat relacionats amb l'evidència neurobiològica sobre el processament basat en el mostreig en l'escorça cerebral.

Encara que és una comparació sistemàtica entre l'organització del cervell humà i la neuronal Encara no s'ha establert la codificació en xarxes profundes, s'han informat de diverses analogies. Per exemple, els càlculs realitzats per les unitats d'aprenentatge profund podrien ser similars als de les neurones reals i les poblacions neuronals. De la mateixa manera, les representacions desenvolupades per models d'aprenentatge profund són similars a les que es mesuren en el sistema visual de primats, tant en la unitat única com en els nivells de població.

Deep learning a les empreses[modifica]

El laboratori IA del Facebook realitza tasques com ara etiquetar automàticament les imatges pujades amb els noms de les persones que hi ha.

DeepMind Technologies de Google va desenvolupar un sistema capaç d'aprendre a jugar a videojocs Atari utilitzant només píxels com a entrada de dades. El 2015 van demostrar el seu sistema AlphaGo, que va aprendre el joc de Go prou bé per vèncer un jugador professional de Go. Google Translate utilitza una xarxa neuronal per traduir entre més de 100 llengües.

El 2017, Covariant.ai va ser llançat, que se centra en la integració de l'aprenentatge profund a les fàbriques.

A partir de 2008, investigadors de la Universitat de Texas a Austin (UT) van desenvolupar un marc d'aprenentatge automàtic anomenat Formació d'un agent manualment a través de la Reforçació Avaluativa, o TAMER, que va proposar nous mètodes per a robots o programes d'ordinador per aprendre a realitzar tasques interaccionant amb un instructor humà. Es va desenvolupar per primera vegada com TAMER, un nou algorisme anomenat Deep TAMER es va introduir més tard el 2018 durant una col·laboració entre els investigadors de l'Exèrcit dels Estats Units (ARL) i UT. Deep TAMER va utilitzar l'aprenentatge profund per proporcionar a un robot la capacitat d'aprendre noves tasques mitjançant l'observació. Amb Deep TAMER, un robot va aprendre una tasca amb un entrenador humà, veient fluxos de vídeo o observant un ésser humà realitzant una tasca en persona. El robot més tard va exercir la tasca amb l'ajuda d'alguns entrenadors de l'entrenador, que van proporcionar comentaris com “bon treball” i “dolent treball”.

En els últims cinc anys, companyies com Google, Apple i IBM, han comprat de forma agressiva "startups" i investigadors experts en aquests mètodes. Per als consumidors diaris, això es tradueix en un millor software, capaç d'ordenar fotografies, entendre la nostra veu i traduir textos de llengües estrangeres. Tots aquests mètodes no es basen en la sintaxi, sinó amb la semàntica, una frase pot estar sintàcticament correcta però semànticament no dir res. Per altra banda altres companyies utilitzen estadístiques per aconseguir resultats similars.

Crítics i comentaris[modifica]

L'aprenentatge profund ha atret tant crítiques com comentaris, en alguns casos de fora del camp de la informàtica.

Teoria[modifica]

Vegeu també: IA explicable

Una crítica principal es refereix a la manca de teoria al voltant d'alguns mètodes. L'aprenentatge en les arquitectures profundes més comunes s'implementa utilitzant un descens de gradient ben entès. No obstant això, la teoria que envolta altres algorismes, com la divergència contrastiva, és menys clara. (per exemple, convergeix?) En cas afirmatiu, amb quina rapidesa? Què aproxima?) Els mètodes d'aprenentatge profund es veuen sovint com una caixa negra, amb la majoria de les confirmacions fetes empíricament, en lloc de teòricament.

Uns altres assenyalen que l'aprenentatge profund hauria de considerar-se un pas cap a la consecució d'una IA forta, no com una solució que abasti a tots. Malgrat el poder dels mètodes d'aprenentatge profund, encara manquen de gran part de la funcionalitat necessària per a fer realitat aquest objectiu. El psicòleg d'investigació Gary Marcus va assenyalar:

"Realistament, l'aprenentatge profund és només part del gran desafiament de construir màquines intel·ligents. Aquestes tècniques no tenen maneres de representar les relacions causals (...) no tenen formes òbvies de realitzar inferències lògiques, i també estan molt lluny d'integrar el coneixement abstracte, com ara informació sobre quins objectes són, per a què són i com s'utilitzen normalment. Els sistemes A.I. més poderosos, com Watson (...) utilitzen tècniques com l'aprenentatge profund com un sol element en un conjunt de tècniques molt complicat, que van des de la tècnica estadística de la inferència bayesiana fins al raonament deductiu."

En referència a la idea que la sensibilitat artística podria ser inherent en nivells relativament baixos de la jerarquia cognitiva, una sèrie publicada de representacions gràfiques dels estats interns de les xarxes neuronals profundes (20-30 capes) intentant discernir dins de dades essencialment aleatòries les imatges en les quals van ser entrenades demostren una apel·lació visual: l'avís de recerca original va rebre més de 1.000 comentaris, i va ser el tema del que va ser durant un temps l'article més freqüentment accedit al lloc web de The Guardian.

Errors[modifica]

Algunes arquitectures d'aprenentatge profund mostren comportaments problemàtics, com ara classificar amb confiança les imatges irrecognoscibles com a pertanyents a una categoria familiar d'imatges normals (2014) i classificar erròniament les pertorbacions minúscules de les imatges classificades correctament (2013). Goertzel va plantejar la hipòtesi que aquests comportaments són deguts a limitacions en les seves representacions internes i que aquestes limitacions inhibeixen la integració en les arquitectures d'intel·ligència general artificial multicomponent (AGI) heterogènies. L'aprenentatge d'una gramàtica (visual o lingüística) de les dades d'entrenament seria equivalent a restringir el sistema a raonaments de sentit comú que funciona en termes de regles de producció gramaticals i és un objectiu bàsic de l'adquisició de llenguatge humà i intel·ligència artificial (AI).

Amenaces ciber[modifica]

A mesura que l'aprenentatge profund es mou des del laboratori al món, la investigació i l'experiència demostren que les xarxes neuronals artificials són vulnerables als hacks i a l'engany. En identificar patrons que aquests sistemes utilitzen per funcionar, els atacants poden modificar les entrades a les xarxes neuronals artificials (ANN) de tal manera que l'ANN troba un combat que els observadors humans no reconeixerien. Per exemple, un atacant pot fer canvis subtils en una imatge de tal manera que l'ANN troba una coincidència, tot i que la imatge no sembla un objectiu de cerca. Aquesta manipulació es denomina un “atac adversari”.

El 2016, els investigadors van utilitzar una ANN per doctorar imatges en forma de prova i error, identificar els punts focals d'una altra i així generar imatges que la van enganyar. Les imatges modificades no eren diferents dels ulls humans. Un altre grup va mostrar que les impressions d'imatges doctorades després fotografiades trucaven amb èxit un sistema de classificació d'imatges. Una defensa és la cerca d'imatges invertida, en la qual es presenta una possible imatge falsa a un lloc com TinEye que pot trobar altres instàncies. Un refinament consisteix a cercar utilitzant només parts de la imatge, per identificar imatges de les quals aquesta peça pot haver estat presa.

Un altre grup va demostrar que certs espectacles psicodèlics podien enganyar un sistema de reconeixement facial en pensar que la gent normal era celebritat, permetent potencialment que una persona suplantés a una altra. El 2017, els investigadors van afegir adhesius als senyals d'aturada i van fer que una ANN els classifiqués malament.

No obstant això, les ANNs poden ser entrenades per detectar intents d'engany, atacants i defensors potencialment líders en una carrera armamentística similar a la que ja defineix la indústria de defensa malware. Les ANNs han estat entrenades per derrotar el programari anti-malware basat en ANN atacant repetidament una defensa amb malware que va ser contínuament alterat per un algorisme genètic fins que va enganyar l'anti-malware mentre conservava la seva capacitat de danyar l'objectiu.

El 2016, un altre grup va demostrar que certs sons podrien fer que el sistema de comandament de veu de Google Now obri una adreça web en particular, i va fer la hipòtesi que això podria "servir-se com un esglaó per a més atacs (per exemple, obrir una pàgina web que alberga malware)."

En "enverinament de dades", les dades falses es troben contínuament de contraban en un sistema d'aprenentatge automàtic establert per evitar que arribi a dominar-se.

Millores de l'article original[modifica]

Deep Learning (Article original), respecte a l'article original s'ha intentat fer un article entenedor per a tot el públic a diferència de l'original que és molt tècnic, també s'ha donat més importància als dos tipus d'aprenentatge supervisat i no supervisat i s'ha fet una comparació entre ells buscant els avantatges i els defectes de cadascun d'ells. L'article també comenta com està afectant actualment aquesta tecnologia a les grans empreses i perquè la utilitzen.

Vegeu també[modifica]

Referències[modifica]

Enllaços externs[modifica]