BASE TTS de Amazon, un sistema más realista

BASE TTS de Amazon, un sistema más realista
Carlos Miguel Ramos Linares
Ecosistema digital

Ecosistema digital escribe Carlos Miguel Ramos Linares

Desde hace años, los asistentes de voz han sido parte de nuestra vida cotidiana, ofreciéndonos una amplia gama de funciones y utilidades. Podemos cambiar la voz del Asistente de Google o escuchar grabaciones de Alexa a través de un altavoz Echo. Sin embargo, hoy no nos detendremos en el pasado o presente de los modelos TTS, sino que miraremos hacia el futuro, donde Amazon tiene razones para celebrar.

BASE TTS: Un Potencial sin Precedentes

Los modelos TTS, conocidos por sus siglas en inglés text-to-speech, son herramientas sofisticadas que convierten texto en voz. En esta ocasión, nos adentramos en el mundo de BASE TTS, tal como lo describe la página web de Amazon Science, se trata de un nuevo modelo de conversión de texto a voz llamado Big Adaptative Streamable TTS (BASE TTS).

Se trata del modelo TTS más grande jamás creado, una tecnología que permite a los asistentes de voz comunicarse de manera natural y cercana con los usuarios. Estos modelos se esfuerzan por capturar matices como la entonación y las inflexiones, ofreciendo una experiencia más humana.

La investigación está lista para su publicación, revelando cómo se utilizan 980 millones de parámetros para la conversión de texto a voz. El esfuerzo detrás de este modelo es asombroso: Amazon reporta haber invertido 100,000 horas de grabaciones de páginas web públicas para su entrenamiento.

Además, el modelo se ha enriquecido con frases y ejemplos en diversos idiomas, buscando que las voces generadas sean lo más realistas posible, reflejando matices como acentos y pronunciaciones. Además de una comprensión más avanzada de los textos y una fonética contextualmente apropiada a partir de la variante mediana del modelo. Es capaz de reproducir palabras paralingüísticas, interpretar elementos de puntuación y manejar complejidades sintácticas.

Algunos ejemplos del desempeño de BASE TTS en inglés o español, se encuentran en Amazon y ofrece una selección de muestras que seguramente te impresionarán al escucharlas.

Los investigadores destacan que lo que distingue a su modelo, además de ser el más grande, es su capacidad para manejar palabras complejas y expresar emociones, así como para enfatizar la puntuación. Sin embargo, por el momento, el modelo no estará disponible para el público en general por preocupaciones sobre un uso inapropiado destacando consideraciones éticas sobre la Inteligencia Artificial avanzada. Se mantendrá como una herramienta interna, continuando así el avance en la síntesis del habla.

Hasta hace poco, las habilidades que escapaban a los modelos de voz parecían inalcanzables, pero BASE TTS ha demostrado lo contrario. El equipo de investigación enfatiza la relevancia de una variedad de datos de habla para abarcar distintos idiomas, etnias, dialectos y géneros. Demandan una mayor investigación sobre el impacto de estos datos en el modelo y estrategias para hacer que la tecnología de voz sea más inclusiva.