OpenAI retrasa el lanzamiento de
Voice Engine, su tecnología de clonación de voz
La síntesis de voz ha avanzado mucho desde el juguete Speak & Spell
de 1978, que en su día asombró a la gente con su capacidad de última
generación para leer palabras en voz alta utilizando un sonido
electrónico. Ahora, gracias a los modelos de inteligencia artificial
(IA) de aprendizaje profundo, el software no solo crea voces que
suenan realistas, sino que también imita de forma convincente las ya
existentes mediante pequeñas muestras de audio.
En esta línea, OpenAI acaba de anunciar Voice Engine, un modelo de
IA para crear voces sintéticas a partir de instrucciones escritas
basadas en un segmento de 15 segundos de audio grabado. En su página
web ofrece muestras del sistema en acción.
¿Qué implicaría el lanzamiento de Voice Engine de OpenAI?
Una vez clonada una voz, un usuario introduce un texto en Voice
Engine y obtiene un resultado generado por la IA. Pero OpenAI aún no
está preparada para lanzar de forma generalizada su tecnología.
Inicialmente, la empresa tenía previsto presentar un programa piloto
para que los desarrolladores se inscribieran en la interfaz de
programación de aplicaciones (API, por sus siglas en inglés) a
principios de este mes. Pero tras considerar más detenidamente las
implicaciones éticas, la compañía decidió frenar sus intenciones por
el momento.
“En sintonía con nuestro enfoque de la seguridad de la IA y nuestros
compromisos voluntarios, optamos por ofrecer una vista
previa de esta tecnología, pero no difundirla
ampliamente en este momento”, escribe la empresa. “Esperamos que
este avance de Voice Engine destaque su potencial y también motive
la necesidad de reforzar la resistencia de la sociedad frente a los
retos que plantean unos modelos generativos cada vez más
convincentes”.
La tecnología de clonación de voz en general no es particularmente
nueva: hemos cubierto varios modelos de síntesis de voz de IA desde
2022 y ha estado activa en la comunidad de código abierto con
paquetes como OpenVoice y XTTSv2. Pero la idea de que OpenAI esté
dando un paso adelante para que cualquier persona use su peculiar
tecnología de voz es notable. Y en cierto modo, la reticencia de la
|
|
compañía a liberarla por completo quizá sea la historia más
importante.
OpenAI asegura que entre las ventajas de su tecnología de voz se encuentran la
asistencia a la lectura mediante voces que suenan naturales, el alcance global
de los creadores mediante la traducción de contenidos conservando los acentos
nativos, el apoyo a las personas con discapacidades verbales a través de
opciones de voz personalizadas y el apoyo a los pacientes para que recuperen su
propia voz tras sufrir trastornos del habla.
Pero también significa que cualquiera que tenga 15 segundos de la voz grabada de
alguien podría clonarla, y eso tiene implicaciones obvias para un posible uso
indebido. Aunque OpenAI nunca publique de forma generalizada Voice Engine, la
capacidad de clonación ya ha causado problemas en la sociedad a través de
estafas telefónicas en las que alguien imita la voz de un ser querido y de
llamadas automatizadas en campañas electorales con voces clonadas de políticos
como Joe Biden.
Además, investigadores y periodistas han demostrado que la tecnología de
clonación de voz sirve para acceder a las cuentas bancarias que emplean la
autenticación por voz, como Voice ID de Chase, lo que llevó al senador Sherrod
Brown, demócrata de Ohio, presidente del Comité de Banca, Vivienda y Asuntos
Urbanos del Senado de EE UU, a enviar una carta
a los directores generales de varios
bancos importantes en mayo de 2023 para preguntar por las medidas de seguridad
que están tomando las instituciones financieras para contrarrestar los riesgos
potenciados por la IA.
OpenAI reconoce que la tecnología causaría problemas si se difundiera
ampliamente, por lo que, en un principio, está intentando resolver esos
problemas con un conjunto de normas. La ha estado probando con un grupo de
empresas asociadas selectas desde el año pasado. Por ejemplo, la compañía de
síntesis de video HeyGen ha estado empleando el modelo para traducir la voz de
un hablante a otros idiomas manteniendo el mismo tono vocal.
Para usar Voice Engine, cada socio debe aceptar unas condiciones de uso que
prohíben “la suplantación de otro individuo u organización sin consentimiento o
derecho legal”. Los términos también exigen que los asociados obtengan la
autorización informada de las personas cuyas voces se clonan, y también deben
revelar claramente que los resultados obtenidos son generados por inteligencia
artificial. OpenAI también está incorporando una marca de agua en cada muestra
de voz que ayudará a rastrear el origen de cualquier voz generada por su modelo.
Recomendaciones de OpenAI ante la clonación de voz con IA
Así que, tal y como está la situación ahora, OpenAI está presentando Voice
Engine, pero la empresa aún no está dispuesta a jugársela por el posible caos
social que provocaría una liberación generalizada. En su lugar, la compañía ha
reajustado su enfoque de marketing para que parezca que nos está advirtiendo a
todos sobre esta tecnología ya existente de una forma responsable.
“Estamos adoptando un enfoque cauteloso e informado ante un lanzamiento más
amplio debido al potencial de uso indebido de la voz sintética”, declaró la
empresa en un comunicado. “Esperamos
|
|
iniciar un diálogo sobre la
implementación responsable de las voces sintéticas y sobre cómo puede adaptarse
la sociedad a estas nuevas capacidades. Con base en estas conversaciones y a los
resultados de estas pruebas a pequeña escala, tomaremos una decisión más
informada sobre si implantar esta tecnología a gran escala y el modo de llevarlo
a cabo”.
De acuerdo con su misión de introducir la tecnología con cautela, OpenAI ha
hecho tres recomendaciones en su blog sobre la manera en que la sociedad debería
cambiar para adaptarse a su nuevo modelo. Estos pasos incluyen eliminar
gradualmente la autenticación basada en la voz para las cuentas bancarias,
educar a la población para que comprenda “la posibilidad de contenido engañoso”
y acelerar el desarrollo de técnicas que rastreen el origen del contenido de
audio, “para que siempre quede claro cuándo estás interactuando con una persona
real o con una inteligencia artificial”.
OpenAI también resalta que la futura tecnología de clonación de voz debería
exigir verificar que el hablante original “añade conscientemente su voz al
servicio” y crear una lista de aquellas que están prohibida para tales usos,
como las que son “demasiado parecidas a figuras prominentes”. Ese sistema de
control quizá acabe excluyendo a cualquiera cuya voz se asemeje demasiado, de
forma natural y accidental, a la de un famoso o a la de un presidente.
Tecnología desarrollada en 2022
Según la compañía, OpenAI desarrolló su tecnología de Voice Engine a finales de
2022, y muchas personas ya han estado usando una versión con voces predefinidas,
y no clonadas, de dos formas: el modo de conversación hablada de la aplicación
ChatGPT lanzada en septiembre y la API de texto a voz de la empresa que debutó
en noviembre del año pasado.
Con toda la competencia de clonación de voz que existe, OpenAI sostiene que
Voice Engine destaca por ser un modelo de IA “pequeño”; qué tanto, exactamente,
no lo sabemos. Pero al haberse desarrollado en 2022, casi parece que llega tarde
a la fiesta. Y tal vez no sea perfecto en su capacidad de clonación. Los modelos
anteriores de texto a voz entrenados por el usuario, como los de ElevenLabs y
Microsoft, han tenido problemas con los acentos que quedan fuera de su conjunto
de datos de entrenamiento.
Por ahora, Voice Engine sigue siendo un lanzamiento limitado a socios selectos.
Pero si tenemos la oportunidad de experimentar con la tecnología de clonación de
voz de OpenAI, te lo contaremos en un próximo informe. |