Identificación Automática de Idioma en Lenguaje Hablado

D. Martínez; E. Lleida; A. Miguel; J. Villalba; A. Ortega

doi:10.26754/jji-i3a.201201796

Authors

D. Martínez ViVoLab: Voice Input Voice Output Laboratory-Grupo de Tecnologías de la Comunicación (GTC) Instituto de Investigación en Ingeniería de Aragón (I3A) Universidad de Zaragoza
E. Lleida ViVoLab: Voice Input Voice Output Laboratory-Grupo de Tecnologías de la Comunicación (GTC) Instituto de Investigación en Ingeniería de Aragón (I3A) Universidad de Zaragoza
A. Miguel ViVoLab: Voice Input Voice Output Laboratory-Grupo de Tecnologías de la Comunicación (GTC) Instituto de Investigación en Ingeniería de Aragón (I3A) Universidad de Zaragoza
J. Villalba ViVoLab: Voice Input Voice Output Laboratory-Grupo de Tecnologías de la Comunicación (GTC) Instituto de Investigación en Ingeniería de Aragón (I3A) Universidad de Zaragoza
A. Ortega ViVoLab: Voice Input Voice Output Laboratory-Grupo de Tecnologías de la Comunicación (GTC) Instituto de Investigación en Ingeniería de Aragón (I3A) Universidad de Zaragoza

DOI:

https://doi.org/10.26754/jji-i3a.201201796

Abstract

La identificación automática de idioma (LID) es la tarea por la cual se ha de reconocer en qué idioma se está hablando en una conversación. Podemos encontrar dos problemas típicos: identificación, donde decidiremos el idioma de entre un conjunto conocido de posibilidades; o detección, donde decidiremos si la conversación se habla o no en un idioma objetivo. Las utilidades principales son el enrutamiento de llamadas en call-centers, audiodescripción, y seguridad militar. Las principales técnicas utilizadas se dividen en tres grupos: a) técnicas acústicas: se extraen las características frecuenciales a corto plazo de la señal, principalmente mediante los mel frequency cepstral coefficients (MFCC); b) técnicas basadas en tokens: se particiona la señal en grupos preestablecidos (tokens) y se estudian las frecuencias y el orden de aparición de los mismos, como en el reconocimiento de fonemas seguido de modelo de lenguaje (PRLM), donde los tokens son fonemas; c) técnicas prosódicas: se extraen características suprasegmentales de la señal a largo plazo, como el pitch, la energía, la duración o los formantes. Una vez extraídos uno o varios de estos parámetros, se utilizan técnicas de reconocimiento de patrones para formar modelos de cada idioma, con los que realizaremos la clasificación. Nuestro grupo está investigando principalmente técnicas acústicas y prosódicas, utilizando clasificadores basados en iVectors, basados a su vez en factor analysis. Para comparar las prestaciones entre diferentes grupos de investigación se realizan evaluaciones a nivel nacional e internacional, con idiomas muy variados, donde nuestro grupo ha obtenido muy buenos resultados en las últimas ediciones.

Downloads

Download data is not yet available.

Identificación Automática de Idioma en Lenguaje Hablado

Authors

DOI:

Abstract

Downloads

Downloads

How to Cite

Issue

Section

Developed By

Language

Information

License

Creative Commons