Vés al contingut

Reconeixement d'escriptura a mà

De la Viquipèdia, l'enciclopèdia lliure
Mètode utilitzat per explotar la informació contextual en el primer sistema d'interpretació d'adreces escrites a mà desenvolupat per Sargur Srihari i Jonathan Hull.

El reconeixement d'escriptura a mà (amb acrònim anglès HWR), també conegut com a reconeixement de text escrit a mà (HTR), és la capacitat d'un ordinador per rebre i interpretar inputs intel·ligibles escrits a mà de fonts com ara documents en paper, fotografies, pantalles tàctils i altres dispositius.[1][2] La imatge del text escrit es pot detectar "fora de línia" des d'un tros de paper mitjançant l'escaneig òptic (reconeixement òptic de caràcters) o el reconeixement intel·ligent de paraules. Alternativament, els moviments de la punta del llapis es poden detectar "en línia", per exemple per una superfície de pantalla d'ordinador basada en llapis, una tasca generalment més fàcil, ja que hi ha més pistes disponibles. Un sistema de reconeixement d'escriptura a mà gestiona el format, realitza la segmentació correcta en caràcters i troba les paraules més plausibles.

Des del 2009, les xarxes neuronals recurrents i les xarxes neuronals de feedforward profundes desenvolupades al grup de recerca de Jürgen Schmidhuber al Swiss AI Lab IDSIA han guanyat diversos concursos internacionals d'escriptura a mà.[3] En particular, la memòria a llarg termini (LSTM) bidireccional i multidimensional [4][5] d'Alex Graves et al. va guanyar tres concursos de reconeixement d'escriptura connectada a la Conferència Internacional sobre Anàlisi i Reconeixement de Documents (ICDAR) de 2009, sense cap coneixement previ sobre les tres llengües diferents (francès, àrab i persa) que s'han d'aprendre. Els recents mètodes d'aprenentatge profund basats en GPU per a xarxes feedforward de Dan Ciresan i els seus col·legues de l'IDSIA van guanyar el concurs de reconeixement d'escriptura xinesa fora de línia ICDAR 2011; les seves xarxes neuronals també van ser els primers reconeixedors de patrons artificials a aconseguir un rendiment competitiu humà [6] en el famós problema dels dígits escrits a mà MNIST [7] de Yann LeCun i els seus col·legues de la NYU.

Referències[modifica]

  1. Förstner, Wolfgang; Joachim M. Buhmann, Annett Faber, Petko Faber. Mustererkennung 1999 : 21. DAGM-Symposium Bonn, 15.-17. September 1999 (en anglès), 1999. ISBN 978-3-642-60243-6. OCLC 913706869. 
  2. Schenk, Joachim; Gerhard Rigoll. Mensch-maschine-kommunikation : grundlagen von sprach- und bildbasierten benutzerschnittstellen (en anglès). Heidelberg: Springer, 2010. ISBN 978-3-642-05457-0. OCLC 609418875. 
  3. 2012 Kurzweil AI Interview Arxivat 31 August 2018 a Wayback Machine. with Jürgen Schmidhuber on the eight competitions won by his Deep Learning team 2009-2012
  4. Graves, Alex; and Schmidhuber, Jürgen; Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks, in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.), Advances in Neural Information Processing Systems 22 (NIPS'22), December 7th–10th, 2009, Vancouver, BC, Neural Information Processing Systems (NIPS) Foundation, 2009, pp. 545–552
  5. A. Graves, M. Liwicki, S. Fernandez, R. Bertolami, H. Bunke, J. Schmidhuber. A Novel Connectionist System for Improved Unconstrained Handwriting Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 31, no. 5, 2009.
  6. D. C. Ciresan, U. Meier, J. Schmidhuber. Multi-column Deep Neural Networks for Image Classification. IEEE Conf. on Computer Vision and Pattern Recognition CVPR 2012.
  7. LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P. (1998). Gradient-based learning applied to document recognition. Proc. IEEE, 86, pp. 2278–2324.