Apache OpenNLP

Apache OpenNLP
Tipus	programari lliure i de codi obert, Java software library (en) i natural language processing toolkit (en)
Versió inicial	22 abril 2004 i 14 abril 2012
Versió estable	2.3.2 (31 gener 2024)
Llicència	Llicència Apache, versió 2.0
Característiques tècniques
Plataforma	Multiplataforma
Escrit en	Java
Equip
Desenvolupador(s)	Apache Software Foundation
Codi font	Fonts de codi
Codi font	Codi font
Més informació
Lloc web	opennlp.apache.org
Stack Exchange	Etiqueta
Seguiment d'errors	Seguiment d'errors

La biblioteca Apache OpenNLP és un conjunt d'eines basat en l'aprenentatge automàtic escrit en el llenguatge de programació Java per processar text en llenguatge natural en el camp de la lingüística computacional o el processament del llenguatge natural (NLP). Admet les tasques de PNL més habituals, com ara la identificació del llenguatge, la tokenització, la segmentació de frases, l'etiquetatge de part del discurs, l'extracció d'entitats amb nom, la fragmentació, l'anàlisi i la resolució de correferència. Aquestes tasques solen ser necessàries per crear serveis de processament de textos més avançats. S'aplica la llicència de programari lliure de l'Apache Software Foundation. L'objectiu del projecte OpenNLP és desenvolupar un conjunt d'eines madur per a les tasques anteriors i proporcionar una sèrie de models ja fets per a diferents idiomes.^{[cal citació]}

Els components inclosos permeten realitzar la tasca de processament de la parla respectiva, entrenar un model i sovint també avaluar un model. Cadascun d'aquests components és accessible mitjançant la seva interfície de programació d'aplicacions (API). A més, tots són accessibles mitjançant la línia d'ordres (CLI) per facilitar l'experimentació i la formació.^[1]

Propietats:^[2]

Identificació de l'idioma: El "LanguageDetector" requereix un model entrenat. El propi OpenNLP ofereix el model preparat "langdetect-183.bin" com a descàrrega. Això és capaç d'identificar 103 idiomes.^[3]
Reconeixement de frases: el "SentenceDetector" reconeix si un punt marca el final d'una frase o si té un altre significat. També aquí cal especificar un model entrenat. OpenNLP ofereix models per a diferents idiomes, p. B. "de-sent.bin" per al reconeixement de frases en textos alemanys.^[4]
Tokenització: el tokenitzador trenca una cadena en fitxes. Les fitxes solen ser paraules, signes de puntuació, números, etc.
Etiquetatge de part de la parla: OpenNLP té una selecció de models ja entrenats per a diferents idiomes (alemany, anglès, espanyol, portuguès, danès, etc.).). Amb l'ajuda d'aquests models, es pot proporcionar automàticament un corpus de text en un d'aquests idiomes amb les etiquetes adequades.^[5]
Extracció d'entitats amb nom: el "TokenNameFinder" pot reconèixer objectes i números amb nom al text. Per poder reconèixer les entitats cal un model. El model depèn de l'idioma i del tipus d'entitat per als quals s'ha format. El projecte OpenNLP ofereix una sèrie de models pre-entrenats que han estat entrenats en diversos corpus de lliure disposició. Es poden descarregar des de la pàgina de descàrrega del model.

Referències[modifica]

↑ Tyson, Matthew. «Natural language processing with Apache OpenNLP» (en anglès). https://www.infoworld.com,+13-10-2022.+[Consulta: 21 març 2023].
↑ baeldung. «Intro to Apache OpenNLP | Baeldung» (en anglès). https://www.baeldung.com,+25-04-2018.+[Consulta: 21 març 2023].
↑ «Models Download - Apache OpenNLP».
↑ «OpenNLP Tools Models».
↑ «Apache Stanbol - OpenNLP POS Tagging Engine».

[1] Tyson, Matthew. «Natural language processing with Apache OpenNLP» (en anglès). https://www.infoworld.com,+13-10-2022.+[Consulta: 21 març 2023].

[2] ung. «Intro to Apache OpenNLP | Baeldung» (en anglès). https://www.baeldung.com,+25-04-2018.+[Consulta: 21 març 2023].

[3] «Models Download - Apache OpenNLP».

[4] «OpenNLP Tools Models».

[5] «Apache Stanbol - OpenNLP POS Tagging Engine».

[1]

[2]

[3]

[4]

[5]