Algoritmos y Métodos para el Reconocimiento de Voz en el Español Mediante Sílabas

JOSÉ LUIS OROPEZA RODRÍGUEZ

Resumen


ACTUALMENTE EL USO DE LOS FONEMAS TIENE IMPLÍCITA VARIAS DIFICULTADES DEBIDO A QUE LA IDENTIFICACIÓN DE LAS FRONTERAS ENTRE ELLOS POR LO REGULAR ES DIFÍCIL DE ENCONTRAR EN REPRESENTACIONES ACÚSTICAS DE VOZ. EL PRESENTE TRABAJO PLANTEA UNA ALTERNATIVA A LA FORMA EN LA QUE EL RECONOCIMIENTO DE VOZ SE HA ESTADO IMPLEMENTANDO DESDE HACE YA BASTANTE TIEMPO, ANALIZANDO LA FORMA EN LA CUAL EL PARADIGMA DE LA SÍLABA RESPONDE A TAL LABOR DENTRO DEL ESPAÑOL. DURANTE LOS EXPERIMENTOS REALIZADOS FUERON EXAMINADOS PARA LA TAREA DE SEGMENTACIÓN TRES ELEMENTOS ESENCIALES: A) LA FUNCIÓN DE ENERGÍA TOTAL EN CORTO TIEMPO, B) LA FUNCIÓN DE ENERGÍA DE ALTAS FRECUENCIAS CEPSTRALES (CONOCIDA COMO ENERGÍA DEL PARÁMETRO RO), Y C) UN SISTEMA BASADO EN CONOCIMIENTO. TANTO EL SISTEMA BASADO EN CONOCIMIENTO Y LA FUNCIÓN DE ENERGÍA TOTAL EN CORTO TIEMPO FUERON USADOS EN UN CORPUS DE DÍGITOS EN DONDE LOS RESULTADOS ALCANZADOS USANDO SÓLO LA FUNCIÓN DE ENERGÍA TOTAL EN CORTO TIEMPO, FUERON DE 90.58%. CUANDO SE UTILIZARON LOS PARÁMETROS FUNCIÓN DE ENERGÍA TOTAL EN CORTO TIEMPO Y LA ENERGÍA DEL PARÁMETRO RO SE OBTUVO UN 94.70% DE RAZÓN DE RECONOCIMIENTO. LO CUAL CAUSA UN INCREMENTO DEL 5% CON RELACIÓN AL USO DE PALABRAS COMPLETAS EN UN CORPUS DE VOZ DEPENDIENTE DE CONTEXTO. POR OTRO LADO, CUANDO SE UTILIZÓ UN CORPUS DE LABORATORIO DEL HABLA CONTINUA AL USAR LA FUNCIÓN DE ENERGÍA TOTAL EN CORTO TIEMPO Y EL SISTEMA BASADO EN CONOCIMIENTO, SE ALCANZÓ UN 78.5% DE RAZÓN DE RECONOCIMIENTO Y UN 80.5% DE RECONOCIMIENTO AL USAR LOS TRES PARÁMETROS ANTERIORES. EL MODELO DEL LENGUAJE UTILIZADO PARA ESTE CASO FUE EL BIGRAM Y SE UTILIZARON CADENAS OCULTAS DE MARKOV DE DENSIDAD CONTINUA CON TRES Y CINCO ESTADOS, CON 3 MIXTURAS GAUSSIANAS POR ESTADO.

Palabras clave


RECONOCIMIENTO DE VOZ; RECONOCIMIENTO DE SÍLABAS; SISTEMAS EXPERTOS; PROCESAMIENTO DE VOZ

Texto completo:

pdf


Contacto:
Oscar Zavala