Enginyeria de característiques

De la Viquipèdia, l'enciclopèdia lliure

L'enginyeria de característiques o l'extracció de característiques o el descobriment de característiques és el procés d'extracció de característiques (característiques, propietats, atributs) de dades en brut.[1] A causa de les xarxes d'aprenentatge profund, com les xarxes neuronals convolucionals, que són capaços d'aprendre per si mateixes, l'enginyeria de característiques basades en dominis específics ha quedat obsoleta per al processament de la visió i la parla.

Altres exemples de característiques en física inclouen la construcció de nombres adimensionals com el nombre de Reynolds en dinàmica de fluids; després el nombre de Nusselt en la transferència de calor; Nombre d'Arquímedes en sedimentació; construcció de primeres aproximacions de la solució com la resistència analítica de solucions de materials en mecànica, etc.

Rellevància[modifica]

Les característiques varien en importància.[2] Fins i tot característiques relativament insignificants poden contribuir a un model. La selecció de funcions pot reduir el nombre de funcions per evitar que un model sigui massa específic per al conjunt de dades d'entrenament (sobreajustament).[3]

Explosió[modifica]

L'explosió de característiques es produeix quan el nombre de característiques identificades augmenta de manera inadequada. Les causes habituals inclouen:

  • Plantilles de funcions: implementar plantilles de funcions en lloc de codificar funcions noves.
  • Combinacions de característiques: combinacions que no es poden representar per un sistema linea.

L'explosió de característiques es pot limitar mitjançant tècniques com ara: regularització, mètodes del nucli i selecció de característiques.[4]

Automatització[modifica]

L'automatització de l'enginyeria de funcions és un tema de recerca que es remunta als anys noranta.[5] El programari d'aprenentatge automàtic que incorpora enginyeria de funcions automatitzada està disponible comercialment des del 2016.[6] La literatura acadèmica relacionada es pot separar aproximadament en dos tipus:

  • L'aprenentatge de l'arbre de decisions multirelacional (MRDTL) utilitza un algorisme supervisat que és similar a un arbre de decisions.
  • Deep Feature Synthesis utilitza mètodes més senzills.

Aprenentatge de l'arbre de decisions multi-relacional (MRDTL)[modifica]

MRDTL genera funcions en forma de consultes SQL afegint clàusules successivament a les consultes. Per exemple, l'algoritme podria començar amb

SELECT COUNT(*) FROM ATOM t1 LEFT JOIN MOLECULE t2 ON t1.mol_id = t2.mol_id GROUP BY t1.mol_id

Aleshores, la consulta es pot refinar successivament afegint condicions, com ara "WHERE t1.charge <= -0,392".

No obstant això, la majoria d'estudis MRDTL basen les implementacions en bases de dades relacionals, la qual cosa resulta en moltes operacions redundants. Aquestes redundàncies es poden reduir utilitzant tècniques com la propagació d'identificadors de tuple.[7][8] L'eficiència es pot augmentar utilitzant actualitzacions incrementals, que eliminen les redundàncies.[9]

Referències[modifica]

  1. «Machine Learning and AI via Brain simulations» (en anglès). Stanford University. [Consulta: 1r agost 2019].
  2. «Feature Engineering» (en anglès), 22-04-2010. [Consulta: 12 novembre 2015].
  3. «Feature engineering and selection» (en anglès). Alexandre Bouchard-Côté, 01-10-2009. [Consulta: 12 novembre 2015].
  4. «Feature engineering in Machine Learning» (en anglès). Zdenek Zabokrtsky. Arxivat de l'original el 4 març 2016. [Consulta: 12 novembre 2015].
  5. «Multi-relational Decision Tree Induction». A: Principles of Data Mining and Knowledge Discovery (en anglès). 1704, 1999, p. 378–383 (Lecture Notes in Computer Science). DOI 10.1007/978-3-540-48247-5_46. ISBN 978-3-540-66490-1. 
  6. «Its all about the features» (en anglès). Reality AI Blog, setembre 2017. Arxivat de l'original el 2019-08-18. [Consulta: 16 agost 2023].
  7. «CrossMine: Efficient classification across multiple database relations». A: Proceedings. 20th International Conference on Data Engineering (en anglès), 2004, p. 399–410. DOI 10.1109/ICDE.2004.1320014. ISBN 0-7695-2065-0. 
  8. «A Method for Multi-relational Classification Using Single and Multi-feature Aggregation Functions». A: Knowledge Discovery in Databases: PKDD 2007 (en anglès). 4702, 2007, p. 430–437 (Lecture Notes in Computer Science). DOI 10.1007/978-3-540-74976-9_43. ISBN 978-3-540-74975-2. 
  9. «How automated feature engineering works - The most efficient feature engineering solution for relational data and time series» (en anglès). [Consulta: 21 novembre 2019].[Enllaç no actiu]