El procesamiento del lenguaje natural es el campo de conocimiento de la Inteligencia Artificial que investiga la comunicación de las máquinas con las personas a través de lenguas naturales, como el español o el inglés. Cuando hablamos de lengua natural nos referimos a la forma del lenguaje humano con fines comunicativos, que obedece a los principios económicos y de optimalidad.
Algunos de los componentes lingüísticos que se emplean en el procesamiento del lenguaje natural, dependiendo del objetivo de su aplicación son:
- Morfología, rama lingüística que estudia la estructura interna de las palabras.
- Sintaxis, parte de la gramática que estudia la forma en la que se combinan las palabras, además de las relaciones sintagmáticas y paradigmáticas existentes entre ellas.
- Semántica, enfocada a diversos aspectos entre el significado, sentido e interpretación de signos lingüísticos.
- Pragmática, relacionada con la influencia del contexto en la interpretación del significado.
Modelos de lenguaje enmascarado
Los modelos de lenguaje enmascarado o Masked Language Models (MLM) deben su nombre a que se encubre un cierto porcentaje de palabras en una oración determinada y se espera que el modelo prediga esas palabras en función de otras palabras de la oración. Este modelo es de naturaleza bidireccional porque la representación de la palabra enmascarada se aprende en función de las palabras que aparecen tanto a la izquierda como a la derecha. Un ejemplo de este tipo de modelo es Bert:
Modelos de lenguaje causal
Los modelos de lenguaje causal o Causal language models (CLM) siguen el mismo concepto que el modelo anterior, es decir, predicen las palabras enmascaradas, pero en este caso solo se tienen en cuenta las palabras que ocurren a su izquierda para repetir el proceso. Por esta razón, el modelo es de naturaleza unidireccional. Un ejemplo de esto es el traductor DeepL.
Visita este enlace para conocer más información sobre IA.
También puedes ver nuestra entrada sobre redes neuronales recurrentes aquí
2 comentarios