 |
|
de voz en sus plataformas.

En octubre de 2024, Google anunció que su chatbot, Gemini Live, ya puede
procesar consultas y respuestas en español a través de dispositivos Android. Ese
mismo mes, Microsoft anunció que Copilot será capaz de conversar con los
usuarios con varias voces similares a las humanas, gestionando las
interrupciones y las pausas con naturalidad.

En enero de este año, el modo de voz de ChatGPT fue presentado como un chatbot
que no tiene dificultades para interpretar intenciones y entonaciones de las
consultas, el reconocimiento de objetos y la resolución de problemas
matemáticos, además de permitir conversaciones más fluidas y naturales.
En la carrera por ofrecer un servicio más avanzado a los usuarios, uno de los
enfoques consiste en acelerar la percepción general de que estamos
interactuando, no con una computadora o un robot, sino con una persona, un amigo
incluso, siempre dispuesto a ayudar; se trata de restarle lo “artificial” a la
inteligencia artificial del asistente. Para muchas empresas, superar la barrera
de voz parece ser el siguiente paso lógico en la progresiva humanización de la
máquina. |
Mientras el público usuario parece estar satisfecho
con la generación de texto e imagen en sus interacciones con sus
chatbots favoritos, Google quiere apostarle a la voz como la
interacción de preferencia en los modelos de IA generativa de
próxima generación. Es por ello que Google Cloud anunció la
incorporación de Chirp 3 a su plataforma de inteligencia artificial,
Vertex AI.
Chirp 3 es la más reciente versión del modelo de generación de audio
de Google. Esta plataforma combina tecnologías de reconocimiento de
voz (speech-to-text) y generación de voz en alta definición (HD text-to-speech),
y ahora cuenta con ocho nuevas voces en 31 idiomas (es decir, 248
“hablantes”).
Equipado con “inflexiones emotivas” y “una entonación realista”, una
representante de Google Cloud indicó que Chirp 3 es la herramienta
perfecta para crear asistentes de voz, audiolibros y narración de
podcasts, así como agentes de soporte y voz en off para contenidos
de medios. Como parte de Vertex AI, Chirp 3
estará disponible a partir de la próxima semana.

Al agregar estas capacidades a Vertex AI, usuarios pueden incorporar
funciones
|
|
de voz avanzadas al desarrollo de sus aplicaciones; no obstante,
Chirp 3 estará sujeto a ciertas restricciones por el momento, esto con el fin de
evitar el uso inapropiado de la plataforma generadora de audio.
“Nuestra visión general para la IA ha sido ofrecer una amplia gama de modelos;
nos centraremos en Gemini, pero también ofrecemos Imagen, Veo y Chirp, junto con
[otros] modelos científicos”, dijo Thomas Kurian, director ejecutivo de Google
Cloud, en un evento en las oficinas de DeepMind en Londres.
A
diferencia del más amigable y fácil de usar Gemini, una herramienta valiosa para
usuarios casuales que simplemente desean mejorar su productividad, Vertex AI es
una plataforma más compleja porque se centra en la creación y gestión de
aplicaciones de IA personalizadas, más acorde a las necesidades de
desarrolladores y científicos de datos.
El fantasma en la máquina quiere hablar
Aunque los comandos a base de texto siguen siendo la manera habitual de
interacción con los modelos de la IA generativa, las grandes empresas del Big
Tech, así como diversas start-ups, llevan tiempo experimentando con las
interfaces
|