Apache OpenNLP

De la Viquipèdia, l'enciclopèdia lliure
Apache OpenNLP
Modifica el valor a Wikidata

Tipusprogramari lliure i de codi obert, Java software library (en) Tradueix i natural language processing toolkit (en) Tradueix Modifica el valor a Wikidata
Versió inicial22 abril 2004 i 14 abril 2012 Modifica el valor a Wikidata
Versió estable
2.3.2 (31 gener 2024) Modifica el valor a Wikidata
LlicènciaLlicència Apache, versió 2.0 Modifica el valor a Wikidata
Característiques tècniques
PlataformaMultiplataforma
Escrit enJava Modifica el valor a Wikidata
Equip
Desenvolupador(s)Apache Software Foundation Modifica el valor a Wikidata
Més informació
Lloc webopennlp.apache.org Modifica el valor a Wikidata
Stack ExchangeEtiqueta Modifica el valor a Wikidata
Seguiment d'errorsSeguiment d'errors Modifica el valor a Wikidata

Twitter (X): ApacheOpennlp GitHub: apache/opennlp Modifica el valor a Wikidata

La biblioteca Apache OpenNLP és un conjunt d'eines basat en l'aprenentatge automàtic escrit en el llenguatge de programació Java per processar text en llenguatge natural en el camp de la lingüística computacional o el processament del llenguatge natural (NLP). Admet les tasques de PNL més habituals, com ara la identificació del llenguatge, la tokenització, la segmentació de frases, l'etiquetatge de part del discurs, l'extracció d'entitats amb nom, la fragmentació, l'anàlisi i la resolució de correferència. Aquestes tasques solen ser necessàries per crear serveis de processament de textos més avançats. S'aplica la llicència de programari lliure de l'Apache Software Foundation. L'objectiu del projecte OpenNLP és desenvolupar un conjunt d'eines madur per a les tasques anteriors i proporcionar una sèrie de models ja fets per a diferents idiomes.[cal citació]

Els components inclosos permeten realitzar la tasca de processament de la parla respectiva, entrenar un model i sovint també avaluar un model. Cadascun d'aquests components és accessible mitjançant la seva interfície de programació d'aplicacions (API). A més, tots són accessibles mitjançant la línia d'ordres (CLI) per facilitar l'experimentació i la formació.[1]

Propietats:[2]

  • Identificació de l'idioma: El "LanguageDetector" requereix un model entrenat. El propi OpenNLP ofereix el model preparat "langdetect-183.bin" com a descàrrega. Això és capaç d'identificar 103 idiomes.[3]
  • Reconeixement de frases: el "SentenceDetector" reconeix si un punt marca el final d'una frase o si té un altre significat. També aquí cal especificar un model entrenat. OpenNLP ofereix models per a diferents idiomes, p. B. "de-sent.bin" per al reconeixement de frases en textos alemanys.[4]
  • Tokenització: el tokenitzador trenca una cadena en fitxes. Les fitxes solen ser paraules, signes de puntuació, números, etc.
  • Etiquetatge de part de la parla: OpenNLP té una selecció de models ja entrenats per a diferents idiomes (alemany, anglès, espanyol, portuguès, danès, etc.).). Amb l'ajuda d'aquests models, es pot proporcionar automàticament un corpus de text en un d'aquests idiomes amb les etiquetes adequades.[5]
  • Extracció d'entitats amb nom: el "TokenNameFinder" pot reconèixer objectes i números amb nom al text. Per poder reconèixer les entitats cal un model. El model depèn de l'idioma i del tipus d'entitat per als quals s'ha format. El projecte OpenNLP ofereix una sèrie de models pre-entrenats que han estat entrenats en diversos corpus de lliure disposició. Es poden descarregar des de la pàgina de descàrrega del model.

Referències[modifica]