No items found.
No items found.
No items found.
No items found.
Imagen generada por AI. Imagen generada por AI DJ 029 / Reuters.
El avance tecnológico abre nuevos caminos a la creatividad, pero también afecta a las personas que utilizan su cuerpo y su voz como principal instrumento de trabajo. ¿Es posible regular un fenómeno imparable?, ¿el uso de inteligencia artificial es la oportunidad de explorar nuevos instrumentos?
“Mi primera chamba… me acuerdo el día que de la chamba yo me enamoré”, dicen las primeras estrofas de una canción que aparenta ser interpretada por Eladio Carrión, y que samplea “Si la calle llama”, uno de sus temas originales. Pero el audio que se convirtió en uno de los hits más virales de TikTok en 2023 fue, en realidad, creado en Cochabamba, Bolivia, por un estudiante universitario de 19 años de edad que tiene como uno de sus pasatiempos jugar con herramientas de inteligencia artificial (IA).
“El DAW que utilicé —que es un programa para esto de la música— fue FL Studio, y para el tema de la inteligencia artificial usé una página en línea que se llama Kits.AI”, resume por videollamada Ignacio Molina, estudiante de tercer semestre de ingeniería en sistemas en la Universidad Mayor de San Simón. Las herramientas que utilizó para crear el audio viral las aprendió por cuenta propia tras ver tutoriales en TikTok, red social donde otros creadores opinaban que era muy sencillo hacerse viral, es decir, lograr la visualización masiva de un contenido y ser compartido por miles de usuarios.
“La manera más fácil que miré de ser viral en TikTok es hacer un meme, y para mí esto de la música es mi hobby, y quería hacer un meme relacionado con mi hobby”, dice.
En TikTok, el audio de “Mi primera chamba” fue adoptado rápidamente por usuarios tras su publicación a fines de agosto, desde su perfil @bluegrave_. La canción parodia se acompaña de videos de personas cometiendo errores en el trabajo, y la combinación del meme resultó en un hashtag que lleva más de 6 200 millones de vistas en la red social desde una multitud de videos que trascendieron esta plataforma digital y se popularizaron en Instagram, Facebook o X (antes Twitter).
Pero la parodia de “Si la calle llama” es solo una de múltiples creaciones que toman como punto de partida la modificación con IA de las voces de otros, un acto que va desde la infracción de propiedad intelectual hasta la suplantación de identidad para fines comerciales o criminales.
Modelos de voz
El audio original de @bluegrave_ de “Mi primera chamba” fue dado de baja en octubre de 2023 por TikTok por infringir sus Normas de la Comunidad, que incluyen protección a la propiedad intelectual y contenido generado por IA. En sus políticas, TikTok tiene etiquetas para marcar contenido hecho con procesos de aprendizaje profundo o automático, y tiene prohibido aquel que persiga fines comerciales o políticos.
“Les pedimos a los creadores que marquen el contenido generado por IA para ayudar a prevenir la difusión de información engañosa en TikTok, dejando claro a los espectadores qué contenido no está alterado y cuál está alterado o modificado”, dice la empresa en su centro de ayuda.
Las reglas de la plataforma digital para marcar el contenido hecho con ayuda de IA no han impedido que la canción se disperse, pues se mantiene en la red desde audios de otros usuarios, y su versión completa está disponible en YouTube. Al mismo tiempo que “Mi primera chamba”, en las redes sociales circulan audios y canciones que hacen uso de la voz —sin consentimiento— de cantantes, actores de doblaje y otros artistas: Luis Miguel canta los temas de Dragon Ball y Pokémon, Valentín Elizalde interpreta canciones de Radiohead, Alex Turner de Arctic Monkeys canta “El muchacho de los ojos tristes”, Drake y The Weeknd en una colaboración que no ha existido en realidad. Y una versión en IA de Justin Bieber, Bad Bunny y Daddy Yankee interpretando una canción original, llamada “Demo #5: NostalgIA”.
Para crear un audio que imite la voz de una persona se necesita un modelo de voz, un archivo que captura sus características como el tono, el timbre o la modulación. Según una guía de Moises.AI, una de decenas de empresas que tienen software especializado en el tema, entrenar un modelo de voz requiere un promedio de 40 minutos de audio con la voz de una persona. Estas grabaciones idealmente deben ser de alta calidad, en diferentes registros, con buena claridad y pronunciación. Algunas empresas ofrecen guiones de textos recomendados para grabar, debido a que son fonéticamente diversos. Entre mejor sea la calidad de la fuente, el sistema tendrá mayores recursos para crear una voz artificial que suene lo más parecida a la persona real.
De acuerdo con Víctor Ruiz, instructor certificado en ciberseguridad, alguien interesado en entrenar una IA podría obtener los audios de diversas fuentes. Contenido en voz o video disponible en redes sociales, o incluso audios de WhatsApp de suficiente duración podrían compilar el material necesario. Según Molina, en el caso de cantantes, la voz filtrada (sin instrumentos) desde sus canciones puede ayudar a clonar sus voces con IA.
También te puede interesa leer: "¿Los androides sueñan con quitarme el trabajo?"
Molina, el estudiante boliviano, no tuvo que crear la voz de Eladio Carrión desde cero. Dijo que obtuvo su modelo de voz de un servidor en Discord, llamado AI Hispano, con más de 220 000 miembros. En el foro es frecuente la solicitud de modelos de voz de figuras públicas populares en Latinoamérica (sí, el modelo de voz de Andrés Manuel López Obrador también está disponible). Una vez conseguido, solo tuvo que subir el modelo a Kits.AI para aplicarlo como si fuera un filtro a la grabación donde él cantó "Mi primera chamba" y la herramienta logró que sonara como el cantante.
Las voces en IA están presentes en los asistentes como Siri o Alexa, las voces de Google Traductor o las herramientas de lectura en voz alta de las computadoras. Pero la proliferación de software gratuito —o al menos con pruebas gratis— para crear modelos de voz ha facilitado el acceso a su uso por personas comunes.
“Son perfectamente legales en el sentido de que pues son herramientas”, explica Cynthia Solis, Doctora en Derecho privado y ciencias criminales, quien se ha especializado en temas de propiedad intelectual y cibercriminalidad.
“La conducta del ser humano es la que sí está regulada y el uso de estas creaciones está regulado por las normas de derecho civil, las normas de derecho penal, y en materia de propiedad intelectual, que en el caso de México es la Ley Federal del Derecho de Autor y la Ley Federal de Protección industrial”.
Según la abogada, todos los audios y canciones con fines comerciales de artistas que no han dado autorización para su uso con IA violan alguna u otra normativa, pero los afectados deben iniciar un procedimiento para que se ejerzan sanciones o indemnizaciones.
“Si a ustedes les gusta esa mierda de canción que está viral en TikTok sálganse de este grupo ahora mismo”, Bad Bunny.
“Cuando se hace una canción están vulnerando un elemento de tu personalización sin tu autorización, luego entonces, están cometiendo una infracción en materia de comercio. Sobre todo si se hace con fines comerciales”.
Eladio Carrión supo de su canción con IA y llegó a cantar un fragmento durante un concierto, pero otros artistas no han tomado a bien la utilización de su voz, como sucedió con ‘Demo #5: NostalgIA’, canción creada por el productor musical chileno Mauricio Bustos, conocido como Mauryceo, bajo el alias Flow GPT.
“Si a ustedes les gusta esa mierda de canción que está viral en TikTok sálganse de este grupo ahora mismo”, escribió Bad Bunny a sus casi 19 millones de suscriptores en su canal de WhatsApp, a mediados de noviembre.
El creador respondió que el objetivo de Flow GPT era revolucionar la industria musical, y que se sentía motivado por la innovación. En la canción intentó imitar el estilo de composición de Bad Bunny para convertirla en uno de sus hits.
“El broche de oro va a ser cuando un artista top transforme este demo en un sencillo oficial”, dijo Mauryceo en un video de Instagram, publicado en noviembre de 2023. “El fin de este proyecto es que los artistas colaboren con él”.
Demo #5 ocupó brevemente el primer lugar en listas de popularidad de Spotify, antes de ser eliminada de la plataforma. Lo mismo ha hecho la empresa con miles de canciones generadas con IA, que han violado reglas de derechos de autor o inflado artificialmente sus reproducciones.
“Estamos trabajando con nuestros socios para tratar de establecer una posición donde permitamos innovación, pero al mismo tiempo, protejamos a todos los creadores que tenemos en nuestra plataforma”, dijo Daniel Elk, CEO de Spotify, en una llamada para presentar reportes financieros en abril pasado.
Los riesgos en el uso de la IA
Las implicaciones de la utilización de imagen y voz de personas para entrenar IAs también han llegado a los usuarios comunes de internet, y muchos no saben siquiera que su voz será utilizada con estos fines. En agosto pasado, la actriz de voz Keiity González, quien ha sido voz de personajes de videojuegos y series animadas, denunció en internet haber sido víctima de un contrato engañoso en México. Según su testimonio, trabajó durante tres meses en un proyecto de grabación de voz que terminó siendo utilizado para crear un modelo de IA del que no estaba enterada, pues además, la información del contrato estaba en inglés y ella no conocía el idioma.
“Perdí los derechos de mi voz por engaños y por estas personas que según no sabían para dónde iba su proyecto, y bueno, la IA nos robó, no podemos hacer nada, y ahora van por IA de cantantes, es una basura lo que está sucediendo”, expuso en X.
Según la abogada Solís, ante casos de uso no autorizado se puede proceder legalmente, si se demuestra que hubo dolo en la firma de un contrato que la víctima no tenía claro. “Eso puede llevar algún tiempo, pero vamos, sí ha habido casos en los que se anulan este tipo de contratos”, dijo. La recolección de datos relativos a la voz conforma un elemento inherente a la personalidad sobre el que las personas tienen los derechos desde su nacimiento, explicó la especialista.
También te puede interesar leer "Inteligencia artificial: los riesgos de la caja blanca".
Para Sibille, director sénior de Compliance para Oracle Latinoamérica, la educación y concientización sobre la IA es vital, tanto para la fuerza laboral, como para que la sociedad comprenda y se involucre con esta tecnología de forma informada y crítica. “Lo principal es entender si existe el consentimiento de las personas para el fin propuesto, y que el fin que se destina sea conocido y respetado con un contrato, una vez que se establecen las obligaciones entre las partes para ver si se puede responsabilizar a la parte que de alguna forma cometió un error o infracción contractual”, explica en videollamada.
La suplantación de la identidad de alguien por medio de audios hechos con IA puede usarse con fines maliciosos o de fraude, una práctica conocida como vishing en la industria de ciberseguridad. En estos casos, los atacantes intentan obtener información bancaria, transacciones o acceso a cuentas privadas al hacerse pasar por una persona, explica David González, investigador de seguridad de ESET México.
“Puede ser que lleguen por una llamada, por algún mensaje, de esa manera tratan de ganarse la confianza”, explica. El modus operandi común de los ciberdelincuentes es recrear la voz de un ser querido para intentar estafar. Datos de la Dirección General Científica de la Guardia Nacional contabilizaron más de 35 000 denuncias durante 2023 sobre casos de robo de contraseñas, fraude y suplantación de identidad, 186 por ciento más que lo registrado en 2019.
"Perdí los derechos de mi voz por engaños y por estas personas que según no sabían para dónde iba su proyecto, y bueno, la IA nos robó, no podemos hacer nada", Keiity González.
La suplantación de identidad y la aparición de mensajes falsos atribuidos a figuras públicas y políticos también corre el riesgo de multiplicarse durante los procesos electorales, estima Víctor Ruiz. El Instituto Electoral de la Ciudad de México ya investiga una denuncia sobre un supuesto audio donde se escucha a Clara Brugada, aspirante a la Jefatura de Gobierno, expresar su apoyo a su contrincante Santiago Taboada.
“En el tema político es muy complejo porque de entrada se pueden generar noticias e información falsa que la gente puede creer”, sostiene Ruiz. A diferencia de las imágenes generadas por Midjourney u otras IAs generativas, que suelen tener defectos en su creación, la manipulación de audio puede ser más difícil de evaluar sobre su autenticidad.
“No solamente es que se genere, sino la rapidez con la que se difunde. Hay personas que pueden mandar estos audios a través de WhatsApp, rapidísimo”.
¿Es posible regular a la inteligencia artificial?
Esta tecnología no necesitaría una regulación legal específica porque la mayoría de sus usos potencialmente ilegales ya están cubiertos por la ley, según Cynthia Solis, la abogada consultada.
“No habría necesidad realmente de generar una regulación específica porque lo único que se está creando es una nueva herramienta para llevar a cabo ciertas conductas, que ya están estipuladas en diferentes ordenamientos”.
Si la imagen de una persona es utilizada para crear un video a través de una herramienta de deepfakes, se incurre en el delito de suplantación de identidad, fraude, o los que se acumulen, explica Solis. Si se crea un modelo de voz que terminará siendo utilizado para estafas telefónicas, es otra violación a la ley que ya está penada.
“A lo que quiero llegar es que esto ya está regulado, con independencia de que se utilice una herramienta de inteligencia artificial o simplemente hayan utilizado Photoshop para implicarte en la comisión de un delito”, agrega.
En el tema coincide Grecia Macías, abogada de la Red de Defensa de Derechos Digitales. Los sistemas de IA generativa o de modelos de lenguaje aprenden y crean contenido a partir de solicitudes humanas. Pero igualmente, la ley puede reconocer a las parodias como uso legítimo de estas herramientas, y considerarse discurso protegido dentro de la libertad de expresión, mientras no haya uso comercial.
“Una cosa es para los fines que te dije y otra cuando se hacen para generar contenido sexual sin consentimiento de la persona, ahí ya estamos hablando de un delito, estamos hablando de una invasión grave de la intimidad”, dice.
Uno de los casos más recientes de este ejemplo fueron una serie de imágenes explícitas de Taylor Swift, salidas del foro 4chan y visibles en X por más de 17 horas antes de que la red social eliminara su publicación, este enero. Según 404 Media, se crearon con una herramienta de IA de Microsoft, usando instrucciones especiales que lograron esquivar sus políticas de creación de contenido pornográfico.
En opinión de Víctor Ruiz, el especialista en ciberseguridad, las regulaciones posibles en materia de IA podrían ser impulsadas desde la esencia de su contenido. “Un tema que pudiera ayudar mucho la regulación sería que, precisamente, se advirtiera a la gente que este contenido fue generado por inteligencia artificial”, explica. Esto llevaría las etiquetas de "contenido generado por IA" que algunas redes sociales han implementado a una esfera mayor, como avisos en televisión u otros medios sobre contenido real y generado por inteligencia artificial.
El tema de las posibles políticas públicas a regular en torno a la IA está en revisión por la Alianza Nacional de Inteligencia Artificial (ANIA), una iniciativa del Senado de México. La alianza ha organizado mesas de trabajo con representantes de organizaciones, universidades, empresas y entidades de gobierno desde 2023, con miras a regulaciones este 2024. De acuerdo con Daniele Sibille, de Oracle Latinoamérica, la IA plantea nuevos dilemas que requieren enfoques éticos y transparentes para su desarrollo e implementación. Sobre todo para las empresas que recolectan o facilitan la creación de contenido con estas herramientas.
“Estamos en un debate constante en la sociedad y es fundamental que tengamos una discusión ética de hasta qué punto podemos ir con la responsabilización, los límites para utilización de datos, el consentimiento, la aseguranza, la producción de materiales que son nocivos a la sociedad”, argumenta.
Sitios como FakeYou.ai ofrecen listas disponibles de voces de artistas para imitar, desde Shakira hasta Cristiano Ronaldo, sin tener que conseguir el modelo de voz en otro lado. Uberduck, una plataforma que ofrece un servicio similar, se comprometió a eliminar de su sitio los modelos de artistas que no quieran ser usados por IA. En una hoja de cálculo de acceso público hay más de 260 figuras públicas, cantantes, youtubers y actores de doblaje, quienes han solicitado su remoción o expresado su inconformidad con su uso. Entre ellos se encuentran los actores mexicanos Mario Castañeda y René García, conocidos por poner voz a Gokú y Vegeta de la serie japonesa Dragon Ball. Según la lista, ambos solicitaron la eliminación de sus voces de Fake You.
“En el tema político es muy complejo porque de entrada se pueden generar noticias e información falsa que la gente puede creer”, Víctor Ruiz, instructor certificado en ciberseguridad.
Entre la multitud de clips y canciones creadas con las voces artificiales de artistas que no están de acuerdo, también están quienes han sacado provecho de esta tecnología. La cantante canadiense Grimes, participó de un reto global para crear canciones con su modelo de voz y concursar por 10 000 dólares. Además, permite la clonación de su voz con fines comerciales, siempre y cuando reciba la mitad de las ganancias. James Earl Jones, el actor de Darth Vader, aprobó la creación de su modelo de voz para su utilización en producciones futuras de Star Wars. Snoop Dog y Gwyneth Paltrow son voces disponibles en Speechify, un servicio de lectura de texto a voz natural. Y “Now and then”, la primera canción lanzada por The Beatles desde 1995, se hizo realidad en noviembre pasado gracias a la IA, que convirtió una grabación demo de John Lennon en la voz clonada que suena en la canción.
La IA en el futuro del arte y la creación de contenido
Pese a la polémica que envuelve los usos de la inteligencia artificial para crear modelos de lenguaje, Canek Zapata, artista de internet, considera que su potencial artístico no hará más que expandirse en el corto y mediano plazo. “Como herramienta facilita mucho la creación artística. No creo que haya un no a ello. Facilita y va a hacer cosas que antes tomaban mucho tiempo, mucho más rápido. El problema es dónde está el humano, esa es la gran pregunta”, dijo.“Ya estamos en ese punto donde puede ser que las próximas canciones de los grandes artistas ya no sean de ellos”.
Respecto a la regulación, Zapata visualiza un punto medio donde las herramientas que faciliten la creación de estos modelos paguen regalías a los artistas implicados. Además de los usuarios de redes sociales que crean éxitos virales ocasionales, los artistas deberán preocuparse por las empresas creativas para quienes trabajan, actualmente en el ojo del debate por la creación no solo de modelos de lenguaje, sino de réplicas 3D de actores para utilizar en producciones de cine o televisión. La negociación de contratos y la defensa de derechos comerciales serán las batallas más inmediatas en las industrias creativas, según el especialista. En Estados Unidos, la huelga del Sindicato de Guionistas de Hollywood tuvo entre sus demandas la protección de actores de bajo sueldo contra el uso de personajes digitales con IA, que pudieran usarse incluso después de su muerte.
Zapata, que lleva al menos seis años utilizando bots y herramientas de IA generativa para crear piezas de arte, piensa que las personas detrás de clips virales como “Mi primera chamba” o “Demo #5” tienen mérito por establecer un proceso creativo para sus piezas y un nivel alto de autoría, que va desde la composición hasta el canto, además de la producción musical.
“Vamos a ver este punto donde las empresas van a querer explotar estos métodos muy baratos de producción, pero te vas a dar cuenta que Bad Bunny es mejor cuando lo hace el morrito de 18 años, que cuando lo escribe Bad Bunny ahorita millonario”, dice.
En sus ratos libres, Molina, el joven boliviano, escribió la letra completa de “Mi primera chamba” y después se grabó cantando la canción, para que el "filtro" de Eladio Carrión sonara menos robótico al modificar su voz. Hacer audios texto a voz es posible, es decir, al simplemente teclear las palabras que el software va a recrear. Pero los mejores resultados se obtienen al editar la voz directamente, según el creador. Las herramientas de IA no harán más que seguir presentes como herramientas que ayuden a los artistas a hacer volar su creatividad, pero él cree que debería darse en un marco de responsabilidad y límites.
“No estaría lindo suplantar identidades o ganar a costa de usar la voz de otros artistas u otras personas”, dice. “Entonces creo que ahí un par de reglas o normativas para regular el uso de la inteligencia artificial estarían bien”.
El avance tecnológico abre nuevos caminos a la creatividad, pero también afecta a las personas que utilizan su cuerpo y su voz como principal instrumento de trabajo. ¿Es posible regular un fenómeno imparable?, ¿el uso de inteligencia artificial es la oportunidad de explorar nuevos instrumentos?
“Mi primera chamba… me acuerdo el día que de la chamba yo me enamoré”, dicen las primeras estrofas de una canción que aparenta ser interpretada por Eladio Carrión, y que samplea “Si la calle llama”, uno de sus temas originales. Pero el audio que se convirtió en uno de los hits más virales de TikTok en 2023 fue, en realidad, creado en Cochabamba, Bolivia, por un estudiante universitario de 19 años de edad que tiene como uno de sus pasatiempos jugar con herramientas de inteligencia artificial (IA).
“El DAW que utilicé —que es un programa para esto de la música— fue FL Studio, y para el tema de la inteligencia artificial usé una página en línea que se llama Kits.AI”, resume por videollamada Ignacio Molina, estudiante de tercer semestre de ingeniería en sistemas en la Universidad Mayor de San Simón. Las herramientas que utilizó para crear el audio viral las aprendió por cuenta propia tras ver tutoriales en TikTok, red social donde otros creadores opinaban que era muy sencillo hacerse viral, es decir, lograr la visualización masiva de un contenido y ser compartido por miles de usuarios.
“La manera más fácil que miré de ser viral en TikTok es hacer un meme, y para mí esto de la música es mi hobby, y quería hacer un meme relacionado con mi hobby”, dice.
En TikTok, el audio de “Mi primera chamba” fue adoptado rápidamente por usuarios tras su publicación a fines de agosto, desde su perfil @bluegrave_. La canción parodia se acompaña de videos de personas cometiendo errores en el trabajo, y la combinación del meme resultó en un hashtag que lleva más de 6 200 millones de vistas en la red social desde una multitud de videos que trascendieron esta plataforma digital y se popularizaron en Instagram, Facebook o X (antes Twitter).
Pero la parodia de “Si la calle llama” es solo una de múltiples creaciones que toman como punto de partida la modificación con IA de las voces de otros, un acto que va desde la infracción de propiedad intelectual hasta la suplantación de identidad para fines comerciales o criminales.
Modelos de voz
El audio original de @bluegrave_ de “Mi primera chamba” fue dado de baja en octubre de 2023 por TikTok por infringir sus Normas de la Comunidad, que incluyen protección a la propiedad intelectual y contenido generado por IA. En sus políticas, TikTok tiene etiquetas para marcar contenido hecho con procesos de aprendizaje profundo o automático, y tiene prohibido aquel que persiga fines comerciales o políticos.
“Les pedimos a los creadores que marquen el contenido generado por IA para ayudar a prevenir la difusión de información engañosa en TikTok, dejando claro a los espectadores qué contenido no está alterado y cuál está alterado o modificado”, dice la empresa en su centro de ayuda.
Las reglas de la plataforma digital para marcar el contenido hecho con ayuda de IA no han impedido que la canción se disperse, pues se mantiene en la red desde audios de otros usuarios, y su versión completa está disponible en YouTube. Al mismo tiempo que “Mi primera chamba”, en las redes sociales circulan audios y canciones que hacen uso de la voz —sin consentimiento— de cantantes, actores de doblaje y otros artistas: Luis Miguel canta los temas de Dragon Ball y Pokémon, Valentín Elizalde interpreta canciones de Radiohead, Alex Turner de Arctic Monkeys canta “El muchacho de los ojos tristes”, Drake y The Weeknd en una colaboración que no ha existido en realidad. Y una versión en IA de Justin Bieber, Bad Bunny y Daddy Yankee interpretando una canción original, llamada “Demo #5: NostalgIA”.
Para crear un audio que imite la voz de una persona se necesita un modelo de voz, un archivo que captura sus características como el tono, el timbre o la modulación. Según una guía de Moises.AI, una de decenas de empresas que tienen software especializado en el tema, entrenar un modelo de voz requiere un promedio de 40 minutos de audio con la voz de una persona. Estas grabaciones idealmente deben ser de alta calidad, en diferentes registros, con buena claridad y pronunciación. Algunas empresas ofrecen guiones de textos recomendados para grabar, debido a que son fonéticamente diversos. Entre mejor sea la calidad de la fuente, el sistema tendrá mayores recursos para crear una voz artificial que suene lo más parecida a la persona real.
De acuerdo con Víctor Ruiz, instructor certificado en ciberseguridad, alguien interesado en entrenar una IA podría obtener los audios de diversas fuentes. Contenido en voz o video disponible en redes sociales, o incluso audios de WhatsApp de suficiente duración podrían compilar el material necesario. Según Molina, en el caso de cantantes, la voz filtrada (sin instrumentos) desde sus canciones puede ayudar a clonar sus voces con IA.
También te puede interesa leer: "¿Los androides sueñan con quitarme el trabajo?"
Molina, el estudiante boliviano, no tuvo que crear la voz de Eladio Carrión desde cero. Dijo que obtuvo su modelo de voz de un servidor en Discord, llamado AI Hispano, con más de 220 000 miembros. En el foro es frecuente la solicitud de modelos de voz de figuras públicas populares en Latinoamérica (sí, el modelo de voz de Andrés Manuel López Obrador también está disponible). Una vez conseguido, solo tuvo que subir el modelo a Kits.AI para aplicarlo como si fuera un filtro a la grabación donde él cantó "Mi primera chamba" y la herramienta logró que sonara como el cantante.
Las voces en IA están presentes en los asistentes como Siri o Alexa, las voces de Google Traductor o las herramientas de lectura en voz alta de las computadoras. Pero la proliferación de software gratuito —o al menos con pruebas gratis— para crear modelos de voz ha facilitado el acceso a su uso por personas comunes.
“Son perfectamente legales en el sentido de que pues son herramientas”, explica Cynthia Solis, Doctora en Derecho privado y ciencias criminales, quien se ha especializado en temas de propiedad intelectual y cibercriminalidad.
“La conducta del ser humano es la que sí está regulada y el uso de estas creaciones está regulado por las normas de derecho civil, las normas de derecho penal, y en materia de propiedad intelectual, que en el caso de México es la Ley Federal del Derecho de Autor y la Ley Federal de Protección industrial”.
Según la abogada, todos los audios y canciones con fines comerciales de artistas que no han dado autorización para su uso con IA violan alguna u otra normativa, pero los afectados deben iniciar un procedimiento para que se ejerzan sanciones o indemnizaciones.
“Si a ustedes les gusta esa mierda de canción que está viral en TikTok sálganse de este grupo ahora mismo”, Bad Bunny.
“Cuando se hace una canción están vulnerando un elemento de tu personalización sin tu autorización, luego entonces, están cometiendo una infracción en materia de comercio. Sobre todo si se hace con fines comerciales”.
Eladio Carrión supo de su canción con IA y llegó a cantar un fragmento durante un concierto, pero otros artistas no han tomado a bien la utilización de su voz, como sucedió con ‘Demo #5: NostalgIA’, canción creada por el productor musical chileno Mauricio Bustos, conocido como Mauryceo, bajo el alias Flow GPT.
“Si a ustedes les gusta esa mierda de canción que está viral en TikTok sálganse de este grupo ahora mismo”, escribió Bad Bunny a sus casi 19 millones de suscriptores en su canal de WhatsApp, a mediados de noviembre.
El creador respondió que el objetivo de Flow GPT era revolucionar la industria musical, y que se sentía motivado por la innovación. En la canción intentó imitar el estilo de composición de Bad Bunny para convertirla en uno de sus hits.
“El broche de oro va a ser cuando un artista top transforme este demo en un sencillo oficial”, dijo Mauryceo en un video de Instagram, publicado en noviembre de 2023. “El fin de este proyecto es que los artistas colaboren con él”.
Demo #5 ocupó brevemente el primer lugar en listas de popularidad de Spotify, antes de ser eliminada de la plataforma. Lo mismo ha hecho la empresa con miles de canciones generadas con IA, que han violado reglas de derechos de autor o inflado artificialmente sus reproducciones.
“Estamos trabajando con nuestros socios para tratar de establecer una posición donde permitamos innovación, pero al mismo tiempo, protejamos a todos los creadores que tenemos en nuestra plataforma”, dijo Daniel Elk, CEO de Spotify, en una llamada para presentar reportes financieros en abril pasado.
Los riesgos en el uso de la IA
Las implicaciones de la utilización de imagen y voz de personas para entrenar IAs también han llegado a los usuarios comunes de internet, y muchos no saben siquiera que su voz será utilizada con estos fines. En agosto pasado, la actriz de voz Keiity González, quien ha sido voz de personajes de videojuegos y series animadas, denunció en internet haber sido víctima de un contrato engañoso en México. Según su testimonio, trabajó durante tres meses en un proyecto de grabación de voz que terminó siendo utilizado para crear un modelo de IA del que no estaba enterada, pues además, la información del contrato estaba en inglés y ella no conocía el idioma.
“Perdí los derechos de mi voz por engaños y por estas personas que según no sabían para dónde iba su proyecto, y bueno, la IA nos robó, no podemos hacer nada, y ahora van por IA de cantantes, es una basura lo que está sucediendo”, expuso en X.
Según la abogada Solís, ante casos de uso no autorizado se puede proceder legalmente, si se demuestra que hubo dolo en la firma de un contrato que la víctima no tenía claro. “Eso puede llevar algún tiempo, pero vamos, sí ha habido casos en los que se anulan este tipo de contratos”, dijo. La recolección de datos relativos a la voz conforma un elemento inherente a la personalidad sobre el que las personas tienen los derechos desde su nacimiento, explicó la especialista.
También te puede interesar leer "Inteligencia artificial: los riesgos de la caja blanca".
Para Sibille, director sénior de Compliance para Oracle Latinoamérica, la educación y concientización sobre la IA es vital, tanto para la fuerza laboral, como para que la sociedad comprenda y se involucre con esta tecnología de forma informada y crítica. “Lo principal es entender si existe el consentimiento de las personas para el fin propuesto, y que el fin que se destina sea conocido y respetado con un contrato, una vez que se establecen las obligaciones entre las partes para ver si se puede responsabilizar a la parte que de alguna forma cometió un error o infracción contractual”, explica en videollamada.
La suplantación de la identidad de alguien por medio de audios hechos con IA puede usarse con fines maliciosos o de fraude, una práctica conocida como vishing en la industria de ciberseguridad. En estos casos, los atacantes intentan obtener información bancaria, transacciones o acceso a cuentas privadas al hacerse pasar por una persona, explica David González, investigador de seguridad de ESET México.
“Puede ser que lleguen por una llamada, por algún mensaje, de esa manera tratan de ganarse la confianza”, explica. El modus operandi común de los ciberdelincuentes es recrear la voz de un ser querido para intentar estafar. Datos de la Dirección General Científica de la Guardia Nacional contabilizaron más de 35 000 denuncias durante 2023 sobre casos de robo de contraseñas, fraude y suplantación de identidad, 186 por ciento más que lo registrado en 2019.
"Perdí los derechos de mi voz por engaños y por estas personas que según no sabían para dónde iba su proyecto, y bueno, la IA nos robó, no podemos hacer nada", Keiity González.
La suplantación de identidad y la aparición de mensajes falsos atribuidos a figuras públicas y políticos también corre el riesgo de multiplicarse durante los procesos electorales, estima Víctor Ruiz. El Instituto Electoral de la Ciudad de México ya investiga una denuncia sobre un supuesto audio donde se escucha a Clara Brugada, aspirante a la Jefatura de Gobierno, expresar su apoyo a su contrincante Santiago Taboada.
“En el tema político es muy complejo porque de entrada se pueden generar noticias e información falsa que la gente puede creer”, sostiene Ruiz. A diferencia de las imágenes generadas por Midjourney u otras IAs generativas, que suelen tener defectos en su creación, la manipulación de audio puede ser más difícil de evaluar sobre su autenticidad.
“No solamente es que se genere, sino la rapidez con la que se difunde. Hay personas que pueden mandar estos audios a través de WhatsApp, rapidísimo”.
¿Es posible regular a la inteligencia artificial?
Esta tecnología no necesitaría una regulación legal específica porque la mayoría de sus usos potencialmente ilegales ya están cubiertos por la ley, según Cynthia Solis, la abogada consultada.
“No habría necesidad realmente de generar una regulación específica porque lo único que se está creando es una nueva herramienta para llevar a cabo ciertas conductas, que ya están estipuladas en diferentes ordenamientos”.
Si la imagen de una persona es utilizada para crear un video a través de una herramienta de deepfakes, se incurre en el delito de suplantación de identidad, fraude, o los que se acumulen, explica Solis. Si se crea un modelo de voz que terminará siendo utilizado para estafas telefónicas, es otra violación a la ley que ya está penada.
“A lo que quiero llegar es que esto ya está regulado, con independencia de que se utilice una herramienta de inteligencia artificial o simplemente hayan utilizado Photoshop para implicarte en la comisión de un delito”, agrega.
En el tema coincide Grecia Macías, abogada de la Red de Defensa de Derechos Digitales. Los sistemas de IA generativa o de modelos de lenguaje aprenden y crean contenido a partir de solicitudes humanas. Pero igualmente, la ley puede reconocer a las parodias como uso legítimo de estas herramientas, y considerarse discurso protegido dentro de la libertad de expresión, mientras no haya uso comercial.
“Una cosa es para los fines que te dije y otra cuando se hacen para generar contenido sexual sin consentimiento de la persona, ahí ya estamos hablando de un delito, estamos hablando de una invasión grave de la intimidad”, dice.
Uno de los casos más recientes de este ejemplo fueron una serie de imágenes explícitas de Taylor Swift, salidas del foro 4chan y visibles en X por más de 17 horas antes de que la red social eliminara su publicación, este enero. Según 404 Media, se crearon con una herramienta de IA de Microsoft, usando instrucciones especiales que lograron esquivar sus políticas de creación de contenido pornográfico.
En opinión de Víctor Ruiz, el especialista en ciberseguridad, las regulaciones posibles en materia de IA podrían ser impulsadas desde la esencia de su contenido. “Un tema que pudiera ayudar mucho la regulación sería que, precisamente, se advirtiera a la gente que este contenido fue generado por inteligencia artificial”, explica. Esto llevaría las etiquetas de "contenido generado por IA" que algunas redes sociales han implementado a una esfera mayor, como avisos en televisión u otros medios sobre contenido real y generado por inteligencia artificial.
El tema de las posibles políticas públicas a regular en torno a la IA está en revisión por la Alianza Nacional de Inteligencia Artificial (ANIA), una iniciativa del Senado de México. La alianza ha organizado mesas de trabajo con representantes de organizaciones, universidades, empresas y entidades de gobierno desde 2023, con miras a regulaciones este 2024. De acuerdo con Daniele Sibille, de Oracle Latinoamérica, la IA plantea nuevos dilemas que requieren enfoques éticos y transparentes para su desarrollo e implementación. Sobre todo para las empresas que recolectan o facilitan la creación de contenido con estas herramientas.
“Estamos en un debate constante en la sociedad y es fundamental que tengamos una discusión ética de hasta qué punto podemos ir con la responsabilización, los límites para utilización de datos, el consentimiento, la aseguranza, la producción de materiales que son nocivos a la sociedad”, argumenta.
Sitios como FakeYou.ai ofrecen listas disponibles de voces de artistas para imitar, desde Shakira hasta Cristiano Ronaldo, sin tener que conseguir el modelo de voz en otro lado. Uberduck, una plataforma que ofrece un servicio similar, se comprometió a eliminar de su sitio los modelos de artistas que no quieran ser usados por IA. En una hoja de cálculo de acceso público hay más de 260 figuras públicas, cantantes, youtubers y actores de doblaje, quienes han solicitado su remoción o expresado su inconformidad con su uso. Entre ellos se encuentran los actores mexicanos Mario Castañeda y René García, conocidos por poner voz a Gokú y Vegeta de la serie japonesa Dragon Ball. Según la lista, ambos solicitaron la eliminación de sus voces de Fake You.
“En el tema político es muy complejo porque de entrada se pueden generar noticias e información falsa que la gente puede creer”, Víctor Ruiz, instructor certificado en ciberseguridad.
Entre la multitud de clips y canciones creadas con las voces artificiales de artistas que no están de acuerdo, también están quienes han sacado provecho de esta tecnología. La cantante canadiense Grimes, participó de un reto global para crear canciones con su modelo de voz y concursar por 10 000 dólares. Además, permite la clonación de su voz con fines comerciales, siempre y cuando reciba la mitad de las ganancias. James Earl Jones, el actor de Darth Vader, aprobó la creación de su modelo de voz para su utilización en producciones futuras de Star Wars. Snoop Dog y Gwyneth Paltrow son voces disponibles en Speechify, un servicio de lectura de texto a voz natural. Y “Now and then”, la primera canción lanzada por The Beatles desde 1995, se hizo realidad en noviembre pasado gracias a la IA, que convirtió una grabación demo de John Lennon en la voz clonada que suena en la canción.
La IA en el futuro del arte y la creación de contenido
Pese a la polémica que envuelve los usos de la inteligencia artificial para crear modelos de lenguaje, Canek Zapata, artista de internet, considera que su potencial artístico no hará más que expandirse en el corto y mediano plazo. “Como herramienta facilita mucho la creación artística. No creo que haya un no a ello. Facilita y va a hacer cosas que antes tomaban mucho tiempo, mucho más rápido. El problema es dónde está el humano, esa es la gran pregunta”, dijo.“Ya estamos en ese punto donde puede ser que las próximas canciones de los grandes artistas ya no sean de ellos”.
Respecto a la regulación, Zapata visualiza un punto medio donde las herramientas que faciliten la creación de estos modelos paguen regalías a los artistas implicados. Además de los usuarios de redes sociales que crean éxitos virales ocasionales, los artistas deberán preocuparse por las empresas creativas para quienes trabajan, actualmente en el ojo del debate por la creación no solo de modelos de lenguaje, sino de réplicas 3D de actores para utilizar en producciones de cine o televisión. La negociación de contratos y la defensa de derechos comerciales serán las batallas más inmediatas en las industrias creativas, según el especialista. En Estados Unidos, la huelga del Sindicato de Guionistas de Hollywood tuvo entre sus demandas la protección de actores de bajo sueldo contra el uso de personajes digitales con IA, que pudieran usarse incluso después de su muerte.
Zapata, que lleva al menos seis años utilizando bots y herramientas de IA generativa para crear piezas de arte, piensa que las personas detrás de clips virales como “Mi primera chamba” o “Demo #5” tienen mérito por establecer un proceso creativo para sus piezas y un nivel alto de autoría, que va desde la composición hasta el canto, además de la producción musical.
“Vamos a ver este punto donde las empresas van a querer explotar estos métodos muy baratos de producción, pero te vas a dar cuenta que Bad Bunny es mejor cuando lo hace el morrito de 18 años, que cuando lo escribe Bad Bunny ahorita millonario”, dice.
En sus ratos libres, Molina, el joven boliviano, escribió la letra completa de “Mi primera chamba” y después se grabó cantando la canción, para que el "filtro" de Eladio Carrión sonara menos robótico al modificar su voz. Hacer audios texto a voz es posible, es decir, al simplemente teclear las palabras que el software va a recrear. Pero los mejores resultados se obtienen al editar la voz directamente, según el creador. Las herramientas de IA no harán más que seguir presentes como herramientas que ayuden a los artistas a hacer volar su creatividad, pero él cree que debería darse en un marco de responsabilidad y límites.
“No estaría lindo suplantar identidades o ganar a costa de usar la voz de otros artistas u otras personas”, dice. “Entonces creo que ahí un par de reglas o normativas para regular el uso de la inteligencia artificial estarían bien”.
Imagen generada por AI. Imagen generada por AI DJ 029 / Reuters.
El avance tecnológico abre nuevos caminos a la creatividad, pero también afecta a las personas que utilizan su cuerpo y su voz como principal instrumento de trabajo. ¿Es posible regular un fenómeno imparable?, ¿el uso de inteligencia artificial es la oportunidad de explorar nuevos instrumentos?
“Mi primera chamba… me acuerdo el día que de la chamba yo me enamoré”, dicen las primeras estrofas de una canción que aparenta ser interpretada por Eladio Carrión, y que samplea “Si la calle llama”, uno de sus temas originales. Pero el audio que se convirtió en uno de los hits más virales de TikTok en 2023 fue, en realidad, creado en Cochabamba, Bolivia, por un estudiante universitario de 19 años de edad que tiene como uno de sus pasatiempos jugar con herramientas de inteligencia artificial (IA).
“El DAW que utilicé —que es un programa para esto de la música— fue FL Studio, y para el tema de la inteligencia artificial usé una página en línea que se llama Kits.AI”, resume por videollamada Ignacio Molina, estudiante de tercer semestre de ingeniería en sistemas en la Universidad Mayor de San Simón. Las herramientas que utilizó para crear el audio viral las aprendió por cuenta propia tras ver tutoriales en TikTok, red social donde otros creadores opinaban que era muy sencillo hacerse viral, es decir, lograr la visualización masiva de un contenido y ser compartido por miles de usuarios.
“La manera más fácil que miré de ser viral en TikTok es hacer un meme, y para mí esto de la música es mi hobby, y quería hacer un meme relacionado con mi hobby”, dice.
En TikTok, el audio de “Mi primera chamba” fue adoptado rápidamente por usuarios tras su publicación a fines de agosto, desde su perfil @bluegrave_. La canción parodia se acompaña de videos de personas cometiendo errores en el trabajo, y la combinación del meme resultó en un hashtag que lleva más de 6 200 millones de vistas en la red social desde una multitud de videos que trascendieron esta plataforma digital y se popularizaron en Instagram, Facebook o X (antes Twitter).
Pero la parodia de “Si la calle llama” es solo una de múltiples creaciones que toman como punto de partida la modificación con IA de las voces de otros, un acto que va desde la infracción de propiedad intelectual hasta la suplantación de identidad para fines comerciales o criminales.
Modelos de voz
El audio original de @bluegrave_ de “Mi primera chamba” fue dado de baja en octubre de 2023 por TikTok por infringir sus Normas de la Comunidad, que incluyen protección a la propiedad intelectual y contenido generado por IA. En sus políticas, TikTok tiene etiquetas para marcar contenido hecho con procesos de aprendizaje profundo o automático, y tiene prohibido aquel que persiga fines comerciales o políticos.
“Les pedimos a los creadores que marquen el contenido generado por IA para ayudar a prevenir la difusión de información engañosa en TikTok, dejando claro a los espectadores qué contenido no está alterado y cuál está alterado o modificado”, dice la empresa en su centro de ayuda.
Las reglas de la plataforma digital para marcar el contenido hecho con ayuda de IA no han impedido que la canción se disperse, pues se mantiene en la red desde audios de otros usuarios, y su versión completa está disponible en YouTube. Al mismo tiempo que “Mi primera chamba”, en las redes sociales circulan audios y canciones que hacen uso de la voz —sin consentimiento— de cantantes, actores de doblaje y otros artistas: Luis Miguel canta los temas de Dragon Ball y Pokémon, Valentín Elizalde interpreta canciones de Radiohead, Alex Turner de Arctic Monkeys canta “El muchacho de los ojos tristes”, Drake y The Weeknd en una colaboración que no ha existido en realidad. Y una versión en IA de Justin Bieber, Bad Bunny y Daddy Yankee interpretando una canción original, llamada “Demo #5: NostalgIA”.
Para crear un audio que imite la voz de una persona se necesita un modelo de voz, un archivo que captura sus características como el tono, el timbre o la modulación. Según una guía de Moises.AI, una de decenas de empresas que tienen software especializado en el tema, entrenar un modelo de voz requiere un promedio de 40 minutos de audio con la voz de una persona. Estas grabaciones idealmente deben ser de alta calidad, en diferentes registros, con buena claridad y pronunciación. Algunas empresas ofrecen guiones de textos recomendados para grabar, debido a que son fonéticamente diversos. Entre mejor sea la calidad de la fuente, el sistema tendrá mayores recursos para crear una voz artificial que suene lo más parecida a la persona real.
De acuerdo con Víctor Ruiz, instructor certificado en ciberseguridad, alguien interesado en entrenar una IA podría obtener los audios de diversas fuentes. Contenido en voz o video disponible en redes sociales, o incluso audios de WhatsApp de suficiente duración podrían compilar el material necesario. Según Molina, en el caso de cantantes, la voz filtrada (sin instrumentos) desde sus canciones puede ayudar a clonar sus voces con IA.
También te puede interesa leer: "¿Los androides sueñan con quitarme el trabajo?"
Molina, el estudiante boliviano, no tuvo que crear la voz de Eladio Carrión desde cero. Dijo que obtuvo su modelo de voz de un servidor en Discord, llamado AI Hispano, con más de 220 000 miembros. En el foro es frecuente la solicitud de modelos de voz de figuras públicas populares en Latinoamérica (sí, el modelo de voz de Andrés Manuel López Obrador también está disponible). Una vez conseguido, solo tuvo que subir el modelo a Kits.AI para aplicarlo como si fuera un filtro a la grabación donde él cantó "Mi primera chamba" y la herramienta logró que sonara como el cantante.
Las voces en IA están presentes en los asistentes como Siri o Alexa, las voces de Google Traductor o las herramientas de lectura en voz alta de las computadoras. Pero la proliferación de software gratuito —o al menos con pruebas gratis— para crear modelos de voz ha facilitado el acceso a su uso por personas comunes.
“Son perfectamente legales en el sentido de que pues son herramientas”, explica Cynthia Solis, Doctora en Derecho privado y ciencias criminales, quien se ha especializado en temas de propiedad intelectual y cibercriminalidad.
“La conducta del ser humano es la que sí está regulada y el uso de estas creaciones está regulado por las normas de derecho civil, las normas de derecho penal, y en materia de propiedad intelectual, que en el caso de México es la Ley Federal del Derecho de Autor y la Ley Federal de Protección industrial”.
Según la abogada, todos los audios y canciones con fines comerciales de artistas que no han dado autorización para su uso con IA violan alguna u otra normativa, pero los afectados deben iniciar un procedimiento para que se ejerzan sanciones o indemnizaciones.
“Si a ustedes les gusta esa mierda de canción que está viral en TikTok sálganse de este grupo ahora mismo”, Bad Bunny.
“Cuando se hace una canción están vulnerando un elemento de tu personalización sin tu autorización, luego entonces, están cometiendo una infracción en materia de comercio. Sobre todo si se hace con fines comerciales”.
Eladio Carrión supo de su canción con IA y llegó a cantar un fragmento durante un concierto, pero otros artistas no han tomado a bien la utilización de su voz, como sucedió con ‘Demo #5: NostalgIA’, canción creada por el productor musical chileno Mauricio Bustos, conocido como Mauryceo, bajo el alias Flow GPT.
“Si a ustedes les gusta esa mierda de canción que está viral en TikTok sálganse de este grupo ahora mismo”, escribió Bad Bunny a sus casi 19 millones de suscriptores en su canal de WhatsApp, a mediados de noviembre.
El creador respondió que el objetivo de Flow GPT era revolucionar la industria musical, y que se sentía motivado por la innovación. En la canción intentó imitar el estilo de composición de Bad Bunny para convertirla en uno de sus hits.
“El broche de oro va a ser cuando un artista top transforme este demo en un sencillo oficial”, dijo Mauryceo en un video de Instagram, publicado en noviembre de 2023. “El fin de este proyecto es que los artistas colaboren con él”.
Demo #5 ocupó brevemente el primer lugar en listas de popularidad de Spotify, antes de ser eliminada de la plataforma. Lo mismo ha hecho la empresa con miles de canciones generadas con IA, que han violado reglas de derechos de autor o inflado artificialmente sus reproducciones.
“Estamos trabajando con nuestros socios para tratar de establecer una posición donde permitamos innovación, pero al mismo tiempo, protejamos a todos los creadores que tenemos en nuestra plataforma”, dijo Daniel Elk, CEO de Spotify, en una llamada para presentar reportes financieros en abril pasado.
Los riesgos en el uso de la IA
Las implicaciones de la utilización de imagen y voz de personas para entrenar IAs también han llegado a los usuarios comunes de internet, y muchos no saben siquiera que su voz será utilizada con estos fines. En agosto pasado, la actriz de voz Keiity González, quien ha sido voz de personajes de videojuegos y series animadas, denunció en internet haber sido víctima de un contrato engañoso en México. Según su testimonio, trabajó durante tres meses en un proyecto de grabación de voz que terminó siendo utilizado para crear un modelo de IA del que no estaba enterada, pues además, la información del contrato estaba en inglés y ella no conocía el idioma.
“Perdí los derechos de mi voz por engaños y por estas personas que según no sabían para dónde iba su proyecto, y bueno, la IA nos robó, no podemos hacer nada, y ahora van por IA de cantantes, es una basura lo que está sucediendo”, expuso en X.
Según la abogada Solís, ante casos de uso no autorizado se puede proceder legalmente, si se demuestra que hubo dolo en la firma de un contrato que la víctima no tenía claro. “Eso puede llevar algún tiempo, pero vamos, sí ha habido casos en los que se anulan este tipo de contratos”, dijo. La recolección de datos relativos a la voz conforma un elemento inherente a la personalidad sobre el que las personas tienen los derechos desde su nacimiento, explicó la especialista.
También te puede interesar leer "Inteligencia artificial: los riesgos de la caja blanca".
Para Sibille, director sénior de Compliance para Oracle Latinoamérica, la educación y concientización sobre la IA es vital, tanto para la fuerza laboral, como para que la sociedad comprenda y se involucre con esta tecnología de forma informada y crítica. “Lo principal es entender si existe el consentimiento de las personas para el fin propuesto, y que el fin que se destina sea conocido y respetado con un contrato, una vez que se establecen las obligaciones entre las partes para ver si se puede responsabilizar a la parte que de alguna forma cometió un error o infracción contractual”, explica en videollamada.
La suplantación de la identidad de alguien por medio de audios hechos con IA puede usarse con fines maliciosos o de fraude, una práctica conocida como vishing en la industria de ciberseguridad. En estos casos, los atacantes intentan obtener información bancaria, transacciones o acceso a cuentas privadas al hacerse pasar por una persona, explica David González, investigador de seguridad de ESET México.
“Puede ser que lleguen por una llamada, por algún mensaje, de esa manera tratan de ganarse la confianza”, explica. El modus operandi común de los ciberdelincuentes es recrear la voz de un ser querido para intentar estafar. Datos de la Dirección General Científica de la Guardia Nacional contabilizaron más de 35 000 denuncias durante 2023 sobre casos de robo de contraseñas, fraude y suplantación de identidad, 186 por ciento más que lo registrado en 2019.
"Perdí los derechos de mi voz por engaños y por estas personas que según no sabían para dónde iba su proyecto, y bueno, la IA nos robó, no podemos hacer nada", Keiity González.
La suplantación de identidad y la aparición de mensajes falsos atribuidos a figuras públicas y políticos también corre el riesgo de multiplicarse durante los procesos electorales, estima Víctor Ruiz. El Instituto Electoral de la Ciudad de México ya investiga una denuncia sobre un supuesto audio donde se escucha a Clara Brugada, aspirante a la Jefatura de Gobierno, expresar su apoyo a su contrincante Santiago Taboada.
“En el tema político es muy complejo porque de entrada se pueden generar noticias e información falsa que la gente puede creer”, sostiene Ruiz. A diferencia de las imágenes generadas por Midjourney u otras IAs generativas, que suelen tener defectos en su creación, la manipulación de audio puede ser más difícil de evaluar sobre su autenticidad.
“No solamente es que se genere, sino la rapidez con la que se difunde. Hay personas que pueden mandar estos audios a través de WhatsApp, rapidísimo”.
¿Es posible regular a la inteligencia artificial?
Esta tecnología no necesitaría una regulación legal específica porque la mayoría de sus usos potencialmente ilegales ya están cubiertos por la ley, según Cynthia Solis, la abogada consultada.
“No habría necesidad realmente de generar una regulación específica porque lo único que se está creando es una nueva herramienta para llevar a cabo ciertas conductas, que ya están estipuladas en diferentes ordenamientos”.
Si la imagen de una persona es utilizada para crear un video a través de una herramienta de deepfakes, se incurre en el delito de suplantación de identidad, fraude, o los que se acumulen, explica Solis. Si se crea un modelo de voz que terminará siendo utilizado para estafas telefónicas, es otra violación a la ley que ya está penada.
“A lo que quiero llegar es que esto ya está regulado, con independencia de que se utilice una herramienta de inteligencia artificial o simplemente hayan utilizado Photoshop para implicarte en la comisión de un delito”, agrega.
En el tema coincide Grecia Macías, abogada de la Red de Defensa de Derechos Digitales. Los sistemas de IA generativa o de modelos de lenguaje aprenden y crean contenido a partir de solicitudes humanas. Pero igualmente, la ley puede reconocer a las parodias como uso legítimo de estas herramientas, y considerarse discurso protegido dentro de la libertad de expresión, mientras no haya uso comercial.
“Una cosa es para los fines que te dije y otra cuando se hacen para generar contenido sexual sin consentimiento de la persona, ahí ya estamos hablando de un delito, estamos hablando de una invasión grave de la intimidad”, dice.
Uno de los casos más recientes de este ejemplo fueron una serie de imágenes explícitas de Taylor Swift, salidas del foro 4chan y visibles en X por más de 17 horas antes de que la red social eliminara su publicación, este enero. Según 404 Media, se crearon con una herramienta de IA de Microsoft, usando instrucciones especiales que lograron esquivar sus políticas de creación de contenido pornográfico.
En opinión de Víctor Ruiz, el especialista en ciberseguridad, las regulaciones posibles en materia de IA podrían ser impulsadas desde la esencia de su contenido. “Un tema que pudiera ayudar mucho la regulación sería que, precisamente, se advirtiera a la gente que este contenido fue generado por inteligencia artificial”, explica. Esto llevaría las etiquetas de "contenido generado por IA" que algunas redes sociales han implementado a una esfera mayor, como avisos en televisión u otros medios sobre contenido real y generado por inteligencia artificial.
El tema de las posibles políticas públicas a regular en torno a la IA está en revisión por la Alianza Nacional de Inteligencia Artificial (ANIA), una iniciativa del Senado de México. La alianza ha organizado mesas de trabajo con representantes de organizaciones, universidades, empresas y entidades de gobierno desde 2023, con miras a regulaciones este 2024. De acuerdo con Daniele Sibille, de Oracle Latinoamérica, la IA plantea nuevos dilemas que requieren enfoques éticos y transparentes para su desarrollo e implementación. Sobre todo para las empresas que recolectan o facilitan la creación de contenido con estas herramientas.
“Estamos en un debate constante en la sociedad y es fundamental que tengamos una discusión ética de hasta qué punto podemos ir con la responsabilización, los límites para utilización de datos, el consentimiento, la aseguranza, la producción de materiales que son nocivos a la sociedad”, argumenta.
Sitios como FakeYou.ai ofrecen listas disponibles de voces de artistas para imitar, desde Shakira hasta Cristiano Ronaldo, sin tener que conseguir el modelo de voz en otro lado. Uberduck, una plataforma que ofrece un servicio similar, se comprometió a eliminar de su sitio los modelos de artistas que no quieran ser usados por IA. En una hoja de cálculo de acceso público hay más de 260 figuras públicas, cantantes, youtubers y actores de doblaje, quienes han solicitado su remoción o expresado su inconformidad con su uso. Entre ellos se encuentran los actores mexicanos Mario Castañeda y René García, conocidos por poner voz a Gokú y Vegeta de la serie japonesa Dragon Ball. Según la lista, ambos solicitaron la eliminación de sus voces de Fake You.
“En el tema político es muy complejo porque de entrada se pueden generar noticias e información falsa que la gente puede creer”, Víctor Ruiz, instructor certificado en ciberseguridad.
Entre la multitud de clips y canciones creadas con las voces artificiales de artistas que no están de acuerdo, también están quienes han sacado provecho de esta tecnología. La cantante canadiense Grimes, participó de un reto global para crear canciones con su modelo de voz y concursar por 10 000 dólares. Además, permite la clonación de su voz con fines comerciales, siempre y cuando reciba la mitad de las ganancias. James Earl Jones, el actor de Darth Vader, aprobó la creación de su modelo de voz para su utilización en producciones futuras de Star Wars. Snoop Dog y Gwyneth Paltrow son voces disponibles en Speechify, un servicio de lectura de texto a voz natural. Y “Now and then”, la primera canción lanzada por The Beatles desde 1995, se hizo realidad en noviembre pasado gracias a la IA, que convirtió una grabación demo de John Lennon en la voz clonada que suena en la canción.
La IA en el futuro del arte y la creación de contenido
Pese a la polémica que envuelve los usos de la inteligencia artificial para crear modelos de lenguaje, Canek Zapata, artista de internet, considera que su potencial artístico no hará más que expandirse en el corto y mediano plazo. “Como herramienta facilita mucho la creación artística. No creo que haya un no a ello. Facilita y va a hacer cosas que antes tomaban mucho tiempo, mucho más rápido. El problema es dónde está el humano, esa es la gran pregunta”, dijo.“Ya estamos en ese punto donde puede ser que las próximas canciones de los grandes artistas ya no sean de ellos”.
Respecto a la regulación, Zapata visualiza un punto medio donde las herramientas que faciliten la creación de estos modelos paguen regalías a los artistas implicados. Además de los usuarios de redes sociales que crean éxitos virales ocasionales, los artistas deberán preocuparse por las empresas creativas para quienes trabajan, actualmente en el ojo del debate por la creación no solo de modelos de lenguaje, sino de réplicas 3D de actores para utilizar en producciones de cine o televisión. La negociación de contratos y la defensa de derechos comerciales serán las batallas más inmediatas en las industrias creativas, según el especialista. En Estados Unidos, la huelga del Sindicato de Guionistas de Hollywood tuvo entre sus demandas la protección de actores de bajo sueldo contra el uso de personajes digitales con IA, que pudieran usarse incluso después de su muerte.
Zapata, que lleva al menos seis años utilizando bots y herramientas de IA generativa para crear piezas de arte, piensa que las personas detrás de clips virales como “Mi primera chamba” o “Demo #5” tienen mérito por establecer un proceso creativo para sus piezas y un nivel alto de autoría, que va desde la composición hasta el canto, además de la producción musical.
“Vamos a ver este punto donde las empresas van a querer explotar estos métodos muy baratos de producción, pero te vas a dar cuenta que Bad Bunny es mejor cuando lo hace el morrito de 18 años, que cuando lo escribe Bad Bunny ahorita millonario”, dice.
En sus ratos libres, Molina, el joven boliviano, escribió la letra completa de “Mi primera chamba” y después se grabó cantando la canción, para que el "filtro" de Eladio Carrión sonara menos robótico al modificar su voz. Hacer audios texto a voz es posible, es decir, al simplemente teclear las palabras que el software va a recrear. Pero los mejores resultados se obtienen al editar la voz directamente, según el creador. Las herramientas de IA no harán más que seguir presentes como herramientas que ayuden a los artistas a hacer volar su creatividad, pero él cree que debería darse en un marco de responsabilidad y límites.
“No estaría lindo suplantar identidades o ganar a costa de usar la voz de otros artistas u otras personas”, dice. “Entonces creo que ahí un par de reglas o normativas para regular el uso de la inteligencia artificial estarían bien”.
El avance tecnológico abre nuevos caminos a la creatividad, pero también afecta a las personas que utilizan su cuerpo y su voz como principal instrumento de trabajo. ¿Es posible regular un fenómeno imparable?, ¿el uso de inteligencia artificial es la oportunidad de explorar nuevos instrumentos?
“Mi primera chamba… me acuerdo el día que de la chamba yo me enamoré”, dicen las primeras estrofas de una canción que aparenta ser interpretada por Eladio Carrión, y que samplea “Si la calle llama”, uno de sus temas originales. Pero el audio que se convirtió en uno de los hits más virales de TikTok en 2023 fue, en realidad, creado en Cochabamba, Bolivia, por un estudiante universitario de 19 años de edad que tiene como uno de sus pasatiempos jugar con herramientas de inteligencia artificial (IA).
“El DAW que utilicé —que es un programa para esto de la música— fue FL Studio, y para el tema de la inteligencia artificial usé una página en línea que se llama Kits.AI”, resume por videollamada Ignacio Molina, estudiante de tercer semestre de ingeniería en sistemas en la Universidad Mayor de San Simón. Las herramientas que utilizó para crear el audio viral las aprendió por cuenta propia tras ver tutoriales en TikTok, red social donde otros creadores opinaban que era muy sencillo hacerse viral, es decir, lograr la visualización masiva de un contenido y ser compartido por miles de usuarios.
“La manera más fácil que miré de ser viral en TikTok es hacer un meme, y para mí esto de la música es mi hobby, y quería hacer un meme relacionado con mi hobby”, dice.
En TikTok, el audio de “Mi primera chamba” fue adoptado rápidamente por usuarios tras su publicación a fines de agosto, desde su perfil @bluegrave_. La canción parodia se acompaña de videos de personas cometiendo errores en el trabajo, y la combinación del meme resultó en un hashtag que lleva más de 6 200 millones de vistas en la red social desde una multitud de videos que trascendieron esta plataforma digital y se popularizaron en Instagram, Facebook o X (antes Twitter).
Pero la parodia de “Si la calle llama” es solo una de múltiples creaciones que toman como punto de partida la modificación con IA de las voces de otros, un acto que va desde la infracción de propiedad intelectual hasta la suplantación de identidad para fines comerciales o criminales.
Modelos de voz
El audio original de @bluegrave_ de “Mi primera chamba” fue dado de baja en octubre de 2023 por TikTok por infringir sus Normas de la Comunidad, que incluyen protección a la propiedad intelectual y contenido generado por IA. En sus políticas, TikTok tiene etiquetas para marcar contenido hecho con procesos de aprendizaje profundo o automático, y tiene prohibido aquel que persiga fines comerciales o políticos.
“Les pedimos a los creadores que marquen el contenido generado por IA para ayudar a prevenir la difusión de información engañosa en TikTok, dejando claro a los espectadores qué contenido no está alterado y cuál está alterado o modificado”, dice la empresa en su centro de ayuda.
Las reglas de la plataforma digital para marcar el contenido hecho con ayuda de IA no han impedido que la canción se disperse, pues se mantiene en la red desde audios de otros usuarios, y su versión completa está disponible en YouTube. Al mismo tiempo que “Mi primera chamba”, en las redes sociales circulan audios y canciones que hacen uso de la voz —sin consentimiento— de cantantes, actores de doblaje y otros artistas: Luis Miguel canta los temas de Dragon Ball y Pokémon, Valentín Elizalde interpreta canciones de Radiohead, Alex Turner de Arctic Monkeys canta “El muchacho de los ojos tristes”, Drake y The Weeknd en una colaboración que no ha existido en realidad. Y una versión en IA de Justin Bieber, Bad Bunny y Daddy Yankee interpretando una canción original, llamada “Demo #5: NostalgIA”.
Para crear un audio que imite la voz de una persona se necesita un modelo de voz, un archivo que captura sus características como el tono, el timbre o la modulación. Según una guía de Moises.AI, una de decenas de empresas que tienen software especializado en el tema, entrenar un modelo de voz requiere un promedio de 40 minutos de audio con la voz de una persona. Estas grabaciones idealmente deben ser de alta calidad, en diferentes registros, con buena claridad y pronunciación. Algunas empresas ofrecen guiones de textos recomendados para grabar, debido a que son fonéticamente diversos. Entre mejor sea la calidad de la fuente, el sistema tendrá mayores recursos para crear una voz artificial que suene lo más parecida a la persona real.
De acuerdo con Víctor Ruiz, instructor certificado en ciberseguridad, alguien interesado en entrenar una IA podría obtener los audios de diversas fuentes. Contenido en voz o video disponible en redes sociales, o incluso audios de WhatsApp de suficiente duración podrían compilar el material necesario. Según Molina, en el caso de cantantes, la voz filtrada (sin instrumentos) desde sus canciones puede ayudar a clonar sus voces con IA.
También te puede interesa leer: "¿Los androides sueñan con quitarme el trabajo?"
Molina, el estudiante boliviano, no tuvo que crear la voz de Eladio Carrión desde cero. Dijo que obtuvo su modelo de voz de un servidor en Discord, llamado AI Hispano, con más de 220 000 miembros. En el foro es frecuente la solicitud de modelos de voz de figuras públicas populares en Latinoamérica (sí, el modelo de voz de Andrés Manuel López Obrador también está disponible). Una vez conseguido, solo tuvo que subir el modelo a Kits.AI para aplicarlo como si fuera un filtro a la grabación donde él cantó "Mi primera chamba" y la herramienta logró que sonara como el cantante.
Las voces en IA están presentes en los asistentes como Siri o Alexa, las voces de Google Traductor o las herramientas de lectura en voz alta de las computadoras. Pero la proliferación de software gratuito —o al menos con pruebas gratis— para crear modelos de voz ha facilitado el acceso a su uso por personas comunes.
“Son perfectamente legales en el sentido de que pues son herramientas”, explica Cynthia Solis, Doctora en Derecho privado y ciencias criminales, quien se ha especializado en temas de propiedad intelectual y cibercriminalidad.
“La conducta del ser humano es la que sí está regulada y el uso de estas creaciones está regulado por las normas de derecho civil, las normas de derecho penal, y en materia de propiedad intelectual, que en el caso de México es la Ley Federal del Derecho de Autor y la Ley Federal de Protección industrial”.
Según la abogada, todos los audios y canciones con fines comerciales de artistas que no han dado autorización para su uso con IA violan alguna u otra normativa, pero los afectados deben iniciar un procedimiento para que se ejerzan sanciones o indemnizaciones.
“Si a ustedes les gusta esa mierda de canción que está viral en TikTok sálganse de este grupo ahora mismo”, Bad Bunny.
“Cuando se hace una canción están vulnerando un elemento de tu personalización sin tu autorización, luego entonces, están cometiendo una infracción en materia de comercio. Sobre todo si se hace con fines comerciales”.
Eladio Carrión supo de su canción con IA y llegó a cantar un fragmento durante un concierto, pero otros artistas no han tomado a bien la utilización de su voz, como sucedió con ‘Demo #5: NostalgIA’, canción creada por el productor musical chileno Mauricio Bustos, conocido como Mauryceo, bajo el alias Flow GPT.
“Si a ustedes les gusta esa mierda de canción que está viral en TikTok sálganse de este grupo ahora mismo”, escribió Bad Bunny a sus casi 19 millones de suscriptores en su canal de WhatsApp, a mediados de noviembre.
El creador respondió que el objetivo de Flow GPT era revolucionar la industria musical, y que se sentía motivado por la innovación. En la canción intentó imitar el estilo de composición de Bad Bunny para convertirla en uno de sus hits.
“El broche de oro va a ser cuando un artista top transforme este demo en un sencillo oficial”, dijo Mauryceo en un video de Instagram, publicado en noviembre de 2023. “El fin de este proyecto es que los artistas colaboren con él”.
Demo #5 ocupó brevemente el primer lugar en listas de popularidad de Spotify, antes de ser eliminada de la plataforma. Lo mismo ha hecho la empresa con miles de canciones generadas con IA, que han violado reglas de derechos de autor o inflado artificialmente sus reproducciones.
“Estamos trabajando con nuestros socios para tratar de establecer una posición donde permitamos innovación, pero al mismo tiempo, protejamos a todos los creadores que tenemos en nuestra plataforma”, dijo Daniel Elk, CEO de Spotify, en una llamada para presentar reportes financieros en abril pasado.
Los riesgos en el uso de la IA
Las implicaciones de la utilización de imagen y voz de personas para entrenar IAs también han llegado a los usuarios comunes de internet, y muchos no saben siquiera que su voz será utilizada con estos fines. En agosto pasado, la actriz de voz Keiity González, quien ha sido voz de personajes de videojuegos y series animadas, denunció en internet haber sido víctima de un contrato engañoso en México. Según su testimonio, trabajó durante tres meses en un proyecto de grabación de voz que terminó siendo utilizado para crear un modelo de IA del que no estaba enterada, pues además, la información del contrato estaba en inglés y ella no conocía el idioma.
“Perdí los derechos de mi voz por engaños y por estas personas que según no sabían para dónde iba su proyecto, y bueno, la IA nos robó, no podemos hacer nada, y ahora van por IA de cantantes, es una basura lo que está sucediendo”, expuso en X.
Según la abogada Solís, ante casos de uso no autorizado se puede proceder legalmente, si se demuestra que hubo dolo en la firma de un contrato que la víctima no tenía claro. “Eso puede llevar algún tiempo, pero vamos, sí ha habido casos en los que se anulan este tipo de contratos”, dijo. La recolección de datos relativos a la voz conforma un elemento inherente a la personalidad sobre el que las personas tienen los derechos desde su nacimiento, explicó la especialista.
También te puede interesar leer "Inteligencia artificial: los riesgos de la caja blanca".
Para Sibille, director sénior de Compliance para Oracle Latinoamérica, la educación y concientización sobre la IA es vital, tanto para la fuerza laboral, como para que la sociedad comprenda y se involucre con esta tecnología de forma informada y crítica. “Lo principal es entender si existe el consentimiento de las personas para el fin propuesto, y que el fin que se destina sea conocido y respetado con un contrato, una vez que se establecen las obligaciones entre las partes para ver si se puede responsabilizar a la parte que de alguna forma cometió un error o infracción contractual”, explica en videollamada.
La suplantación de la identidad de alguien por medio de audios hechos con IA puede usarse con fines maliciosos o de fraude, una práctica conocida como vishing en la industria de ciberseguridad. En estos casos, los atacantes intentan obtener información bancaria, transacciones o acceso a cuentas privadas al hacerse pasar por una persona, explica David González, investigador de seguridad de ESET México.
“Puede ser que lleguen por una llamada, por algún mensaje, de esa manera tratan de ganarse la confianza”, explica. El modus operandi común de los ciberdelincuentes es recrear la voz de un ser querido para intentar estafar. Datos de la Dirección General Científica de la Guardia Nacional contabilizaron más de 35 000 denuncias durante 2023 sobre casos de robo de contraseñas, fraude y suplantación de identidad, 186 por ciento más que lo registrado en 2019.
"Perdí los derechos de mi voz por engaños y por estas personas que según no sabían para dónde iba su proyecto, y bueno, la IA nos robó, no podemos hacer nada", Keiity González.
La suplantación de identidad y la aparición de mensajes falsos atribuidos a figuras públicas y políticos también corre el riesgo de multiplicarse durante los procesos electorales, estima Víctor Ruiz. El Instituto Electoral de la Ciudad de México ya investiga una denuncia sobre un supuesto audio donde se escucha a Clara Brugada, aspirante a la Jefatura de Gobierno, expresar su apoyo a su contrincante Santiago Taboada.
“En el tema político es muy complejo porque de entrada se pueden generar noticias e información falsa que la gente puede creer”, sostiene Ruiz. A diferencia de las imágenes generadas por Midjourney u otras IAs generativas, que suelen tener defectos en su creación, la manipulación de audio puede ser más difícil de evaluar sobre su autenticidad.
“No solamente es que se genere, sino la rapidez con la que se difunde. Hay personas que pueden mandar estos audios a través de WhatsApp, rapidísimo”.
¿Es posible regular a la inteligencia artificial?
Esta tecnología no necesitaría una regulación legal específica porque la mayoría de sus usos potencialmente ilegales ya están cubiertos por la ley, según Cynthia Solis, la abogada consultada.
“No habría necesidad realmente de generar una regulación específica porque lo único que se está creando es una nueva herramienta para llevar a cabo ciertas conductas, que ya están estipuladas en diferentes ordenamientos”.
Si la imagen de una persona es utilizada para crear un video a través de una herramienta de deepfakes, se incurre en el delito de suplantación de identidad, fraude, o los que se acumulen, explica Solis. Si se crea un modelo de voz que terminará siendo utilizado para estafas telefónicas, es otra violación a la ley que ya está penada.
“A lo que quiero llegar es que esto ya está regulado, con independencia de que se utilice una herramienta de inteligencia artificial o simplemente hayan utilizado Photoshop para implicarte en la comisión de un delito”, agrega.
En el tema coincide Grecia Macías, abogada de la Red de Defensa de Derechos Digitales. Los sistemas de IA generativa o de modelos de lenguaje aprenden y crean contenido a partir de solicitudes humanas. Pero igualmente, la ley puede reconocer a las parodias como uso legítimo de estas herramientas, y considerarse discurso protegido dentro de la libertad de expresión, mientras no haya uso comercial.
“Una cosa es para los fines que te dije y otra cuando se hacen para generar contenido sexual sin consentimiento de la persona, ahí ya estamos hablando de un delito, estamos hablando de una invasión grave de la intimidad”, dice.
Uno de los casos más recientes de este ejemplo fueron una serie de imágenes explícitas de Taylor Swift, salidas del foro 4chan y visibles en X por más de 17 horas antes de que la red social eliminara su publicación, este enero. Según 404 Media, se crearon con una herramienta de IA de Microsoft, usando instrucciones especiales que lograron esquivar sus políticas de creación de contenido pornográfico.
En opinión de Víctor Ruiz, el especialista en ciberseguridad, las regulaciones posibles en materia de IA podrían ser impulsadas desde la esencia de su contenido. “Un tema que pudiera ayudar mucho la regulación sería que, precisamente, se advirtiera a la gente que este contenido fue generado por inteligencia artificial”, explica. Esto llevaría las etiquetas de "contenido generado por IA" que algunas redes sociales han implementado a una esfera mayor, como avisos en televisión u otros medios sobre contenido real y generado por inteligencia artificial.
El tema de las posibles políticas públicas a regular en torno a la IA está en revisión por la Alianza Nacional de Inteligencia Artificial (ANIA), una iniciativa del Senado de México. La alianza ha organizado mesas de trabajo con representantes de organizaciones, universidades, empresas y entidades de gobierno desde 2023, con miras a regulaciones este 2024. De acuerdo con Daniele Sibille, de Oracle Latinoamérica, la IA plantea nuevos dilemas que requieren enfoques éticos y transparentes para su desarrollo e implementación. Sobre todo para las empresas que recolectan o facilitan la creación de contenido con estas herramientas.
“Estamos en un debate constante en la sociedad y es fundamental que tengamos una discusión ética de hasta qué punto podemos ir con la responsabilización, los límites para utilización de datos, el consentimiento, la aseguranza, la producción de materiales que son nocivos a la sociedad”, argumenta.
Sitios como FakeYou.ai ofrecen listas disponibles de voces de artistas para imitar, desde Shakira hasta Cristiano Ronaldo, sin tener que conseguir el modelo de voz en otro lado. Uberduck, una plataforma que ofrece un servicio similar, se comprometió a eliminar de su sitio los modelos de artistas que no quieran ser usados por IA. En una hoja de cálculo de acceso público hay más de 260 figuras públicas, cantantes, youtubers y actores de doblaje, quienes han solicitado su remoción o expresado su inconformidad con su uso. Entre ellos se encuentran los actores mexicanos Mario Castañeda y René García, conocidos por poner voz a Gokú y Vegeta de la serie japonesa Dragon Ball. Según la lista, ambos solicitaron la eliminación de sus voces de Fake You.
“En el tema político es muy complejo porque de entrada se pueden generar noticias e información falsa que la gente puede creer”, Víctor Ruiz, instructor certificado en ciberseguridad.
Entre la multitud de clips y canciones creadas con las voces artificiales de artistas que no están de acuerdo, también están quienes han sacado provecho de esta tecnología. La cantante canadiense Grimes, participó de un reto global para crear canciones con su modelo de voz y concursar por 10 000 dólares. Además, permite la clonación de su voz con fines comerciales, siempre y cuando reciba la mitad de las ganancias. James Earl Jones, el actor de Darth Vader, aprobó la creación de su modelo de voz para su utilización en producciones futuras de Star Wars. Snoop Dog y Gwyneth Paltrow son voces disponibles en Speechify, un servicio de lectura de texto a voz natural. Y “Now and then”, la primera canción lanzada por The Beatles desde 1995, se hizo realidad en noviembre pasado gracias a la IA, que convirtió una grabación demo de John Lennon en la voz clonada que suena en la canción.
La IA en el futuro del arte y la creación de contenido
Pese a la polémica que envuelve los usos de la inteligencia artificial para crear modelos de lenguaje, Canek Zapata, artista de internet, considera que su potencial artístico no hará más que expandirse en el corto y mediano plazo. “Como herramienta facilita mucho la creación artística. No creo que haya un no a ello. Facilita y va a hacer cosas que antes tomaban mucho tiempo, mucho más rápido. El problema es dónde está el humano, esa es la gran pregunta”, dijo.“Ya estamos en ese punto donde puede ser que las próximas canciones de los grandes artistas ya no sean de ellos”.
Respecto a la regulación, Zapata visualiza un punto medio donde las herramientas que faciliten la creación de estos modelos paguen regalías a los artistas implicados. Además de los usuarios de redes sociales que crean éxitos virales ocasionales, los artistas deberán preocuparse por las empresas creativas para quienes trabajan, actualmente en el ojo del debate por la creación no solo de modelos de lenguaje, sino de réplicas 3D de actores para utilizar en producciones de cine o televisión. La negociación de contratos y la defensa de derechos comerciales serán las batallas más inmediatas en las industrias creativas, según el especialista. En Estados Unidos, la huelga del Sindicato de Guionistas de Hollywood tuvo entre sus demandas la protección de actores de bajo sueldo contra el uso de personajes digitales con IA, que pudieran usarse incluso después de su muerte.
Zapata, que lleva al menos seis años utilizando bots y herramientas de IA generativa para crear piezas de arte, piensa que las personas detrás de clips virales como “Mi primera chamba” o “Demo #5” tienen mérito por establecer un proceso creativo para sus piezas y un nivel alto de autoría, que va desde la composición hasta el canto, además de la producción musical.
“Vamos a ver este punto donde las empresas van a querer explotar estos métodos muy baratos de producción, pero te vas a dar cuenta que Bad Bunny es mejor cuando lo hace el morrito de 18 años, que cuando lo escribe Bad Bunny ahorita millonario”, dice.
En sus ratos libres, Molina, el joven boliviano, escribió la letra completa de “Mi primera chamba” y después se grabó cantando la canción, para que el "filtro" de Eladio Carrión sonara menos robótico al modificar su voz. Hacer audios texto a voz es posible, es decir, al simplemente teclear las palabras que el software va a recrear. Pero los mejores resultados se obtienen al editar la voz directamente, según el creador. Las herramientas de IA no harán más que seguir presentes como herramientas que ayuden a los artistas a hacer volar su creatividad, pero él cree que debería darse en un marco de responsabilidad y límites.
“No estaría lindo suplantar identidades o ganar a costa de usar la voz de otros artistas u otras personas”, dice. “Entonces creo que ahí un par de reglas o normativas para regular el uso de la inteligencia artificial estarían bien”.
Imagen generada por AI. Imagen generada por AI DJ 029 / Reuters.
El avance tecnológico abre nuevos caminos a la creatividad, pero también afecta a las personas que utilizan su cuerpo y su voz como principal instrumento de trabajo. ¿Es posible regular un fenómeno imparable?, ¿el uso de inteligencia artificial es la oportunidad de explorar nuevos instrumentos?
“Mi primera chamba… me acuerdo el día que de la chamba yo me enamoré”, dicen las primeras estrofas de una canción que aparenta ser interpretada por Eladio Carrión, y que samplea “Si la calle llama”, uno de sus temas originales. Pero el audio que se convirtió en uno de los hits más virales de TikTok en 2023 fue, en realidad, creado en Cochabamba, Bolivia, por un estudiante universitario de 19 años de edad que tiene como uno de sus pasatiempos jugar con herramientas de inteligencia artificial (IA).
“El DAW que utilicé —que es un programa para esto de la música— fue FL Studio, y para el tema de la inteligencia artificial usé una página en línea que se llama Kits.AI”, resume por videollamada Ignacio Molina, estudiante de tercer semestre de ingeniería en sistemas en la Universidad Mayor de San Simón. Las herramientas que utilizó para crear el audio viral las aprendió por cuenta propia tras ver tutoriales en TikTok, red social donde otros creadores opinaban que era muy sencillo hacerse viral, es decir, lograr la visualización masiva de un contenido y ser compartido por miles de usuarios.
“La manera más fácil que miré de ser viral en TikTok es hacer un meme, y para mí esto de la música es mi hobby, y quería hacer un meme relacionado con mi hobby”, dice.
En TikTok, el audio de “Mi primera chamba” fue adoptado rápidamente por usuarios tras su publicación a fines de agosto, desde su perfil @bluegrave_. La canción parodia se acompaña de videos de personas cometiendo errores en el trabajo, y la combinación del meme resultó en un hashtag que lleva más de 6 200 millones de vistas en la red social desde una multitud de videos que trascendieron esta plataforma digital y se popularizaron en Instagram, Facebook o X (antes Twitter).
Pero la parodia de “Si la calle llama” es solo una de múltiples creaciones que toman como punto de partida la modificación con IA de las voces de otros, un acto que va desde la infracción de propiedad intelectual hasta la suplantación de identidad para fines comerciales o criminales.
Modelos de voz
El audio original de @bluegrave_ de “Mi primera chamba” fue dado de baja en octubre de 2023 por TikTok por infringir sus Normas de la Comunidad, que incluyen protección a la propiedad intelectual y contenido generado por IA. En sus políticas, TikTok tiene etiquetas para marcar contenido hecho con procesos de aprendizaje profundo o automático, y tiene prohibido aquel que persiga fines comerciales o políticos.
“Les pedimos a los creadores que marquen el contenido generado por IA para ayudar a prevenir la difusión de información engañosa en TikTok, dejando claro a los espectadores qué contenido no está alterado y cuál está alterado o modificado”, dice la empresa en su centro de ayuda.
Las reglas de la plataforma digital para marcar el contenido hecho con ayuda de IA no han impedido que la canción se disperse, pues se mantiene en la red desde audios de otros usuarios, y su versión completa está disponible en YouTube. Al mismo tiempo que “Mi primera chamba”, en las redes sociales circulan audios y canciones que hacen uso de la voz —sin consentimiento— de cantantes, actores de doblaje y otros artistas: Luis Miguel canta los temas de Dragon Ball y Pokémon, Valentín Elizalde interpreta canciones de Radiohead, Alex Turner de Arctic Monkeys canta “El muchacho de los ojos tristes”, Drake y The Weeknd en una colaboración que no ha existido en realidad. Y una versión en IA de Justin Bieber, Bad Bunny y Daddy Yankee interpretando una canción original, llamada “Demo #5: NostalgIA”.
Para crear un audio que imite la voz de una persona se necesita un modelo de voz, un archivo que captura sus características como el tono, el timbre o la modulación. Según una guía de Moises.AI, una de decenas de empresas que tienen software especializado en el tema, entrenar un modelo de voz requiere un promedio de 40 minutos de audio con la voz de una persona. Estas grabaciones idealmente deben ser de alta calidad, en diferentes registros, con buena claridad y pronunciación. Algunas empresas ofrecen guiones de textos recomendados para grabar, debido a que son fonéticamente diversos. Entre mejor sea la calidad de la fuente, el sistema tendrá mayores recursos para crear una voz artificial que suene lo más parecida a la persona real.
De acuerdo con Víctor Ruiz, instructor certificado en ciberseguridad, alguien interesado en entrenar una IA podría obtener los audios de diversas fuentes. Contenido en voz o video disponible en redes sociales, o incluso audios de WhatsApp de suficiente duración podrían compilar el material necesario. Según Molina, en el caso de cantantes, la voz filtrada (sin instrumentos) desde sus canciones puede ayudar a clonar sus voces con IA.
También te puede interesa leer: "¿Los androides sueñan con quitarme el trabajo?"
Molina, el estudiante boliviano, no tuvo que crear la voz de Eladio Carrión desde cero. Dijo que obtuvo su modelo de voz de un servidor en Discord, llamado AI Hispano, con más de 220 000 miembros. En el foro es frecuente la solicitud de modelos de voz de figuras públicas populares en Latinoamérica (sí, el modelo de voz de Andrés Manuel López Obrador también está disponible). Una vez conseguido, solo tuvo que subir el modelo a Kits.AI para aplicarlo como si fuera un filtro a la grabación donde él cantó "Mi primera chamba" y la herramienta logró que sonara como el cantante.
Las voces en IA están presentes en los asistentes como Siri o Alexa, las voces de Google Traductor o las herramientas de lectura en voz alta de las computadoras. Pero la proliferación de software gratuito —o al menos con pruebas gratis— para crear modelos de voz ha facilitado el acceso a su uso por personas comunes.
“Son perfectamente legales en el sentido de que pues son herramientas”, explica Cynthia Solis, Doctora en Derecho privado y ciencias criminales, quien se ha especializado en temas de propiedad intelectual y cibercriminalidad.
“La conducta del ser humano es la que sí está regulada y el uso de estas creaciones está regulado por las normas de derecho civil, las normas de derecho penal, y en materia de propiedad intelectual, que en el caso de México es la Ley Federal del Derecho de Autor y la Ley Federal de Protección industrial”.
Según la abogada, todos los audios y canciones con fines comerciales de artistas que no han dado autorización para su uso con IA violan alguna u otra normativa, pero los afectados deben iniciar un procedimiento para que se ejerzan sanciones o indemnizaciones.
“Si a ustedes les gusta esa mierda de canción que está viral en TikTok sálganse de este grupo ahora mismo”, Bad Bunny.
“Cuando se hace una canción están vulnerando un elemento de tu personalización sin tu autorización, luego entonces, están cometiendo una infracción en materia de comercio. Sobre todo si se hace con fines comerciales”.
Eladio Carrión supo de su canción con IA y llegó a cantar un fragmento durante un concierto, pero otros artistas no han tomado a bien la utilización de su voz, como sucedió con ‘Demo #5: NostalgIA’, canción creada por el productor musical chileno Mauricio Bustos, conocido como Mauryceo, bajo el alias Flow GPT.
“Si a ustedes les gusta esa mierda de canción que está viral en TikTok sálganse de este grupo ahora mismo”, escribió Bad Bunny a sus casi 19 millones de suscriptores en su canal de WhatsApp, a mediados de noviembre.
El creador respondió que el objetivo de Flow GPT era revolucionar la industria musical, y que se sentía motivado por la innovación. En la canción intentó imitar el estilo de composición de Bad Bunny para convertirla en uno de sus hits.
“El broche de oro va a ser cuando un artista top transforme este demo en un sencillo oficial”, dijo Mauryceo en un video de Instagram, publicado en noviembre de 2023. “El fin de este proyecto es que los artistas colaboren con él”.
Demo #5 ocupó brevemente el primer lugar en listas de popularidad de Spotify, antes de ser eliminada de la plataforma. Lo mismo ha hecho la empresa con miles de canciones generadas con IA, que han violado reglas de derechos de autor o inflado artificialmente sus reproducciones.
“Estamos trabajando con nuestros socios para tratar de establecer una posición donde permitamos innovación, pero al mismo tiempo, protejamos a todos los creadores que tenemos en nuestra plataforma”, dijo Daniel Elk, CEO de Spotify, en una llamada para presentar reportes financieros en abril pasado.
Los riesgos en el uso de la IA
Las implicaciones de la utilización de imagen y voz de personas para entrenar IAs también han llegado a los usuarios comunes de internet, y muchos no saben siquiera que su voz será utilizada con estos fines. En agosto pasado, la actriz de voz Keiity González, quien ha sido voz de personajes de videojuegos y series animadas, denunció en internet haber sido víctima de un contrato engañoso en México. Según su testimonio, trabajó durante tres meses en un proyecto de grabación de voz que terminó siendo utilizado para crear un modelo de IA del que no estaba enterada, pues además, la información del contrato estaba en inglés y ella no conocía el idioma.
“Perdí los derechos de mi voz por engaños y por estas personas que según no sabían para dónde iba su proyecto, y bueno, la IA nos robó, no podemos hacer nada, y ahora van por IA de cantantes, es una basura lo que está sucediendo”, expuso en X.
Según la abogada Solís, ante casos de uso no autorizado se puede proceder legalmente, si se demuestra que hubo dolo en la firma de un contrato que la víctima no tenía claro. “Eso puede llevar algún tiempo, pero vamos, sí ha habido casos en los que se anulan este tipo de contratos”, dijo. La recolección de datos relativos a la voz conforma un elemento inherente a la personalidad sobre el que las personas tienen los derechos desde su nacimiento, explicó la especialista.
También te puede interesar leer "Inteligencia artificial: los riesgos de la caja blanca".
Para Sibille, director sénior de Compliance para Oracle Latinoamérica, la educación y concientización sobre la IA es vital, tanto para la fuerza laboral, como para que la sociedad comprenda y se involucre con esta tecnología de forma informada y crítica. “Lo principal es entender si existe el consentimiento de las personas para el fin propuesto, y que el fin que se destina sea conocido y respetado con un contrato, una vez que se establecen las obligaciones entre las partes para ver si se puede responsabilizar a la parte que de alguna forma cometió un error o infracción contractual”, explica en videollamada.
La suplantación de la identidad de alguien por medio de audios hechos con IA puede usarse con fines maliciosos o de fraude, una práctica conocida como vishing en la industria de ciberseguridad. En estos casos, los atacantes intentan obtener información bancaria, transacciones o acceso a cuentas privadas al hacerse pasar por una persona, explica David González, investigador de seguridad de ESET México.
“Puede ser que lleguen por una llamada, por algún mensaje, de esa manera tratan de ganarse la confianza”, explica. El modus operandi común de los ciberdelincuentes es recrear la voz de un ser querido para intentar estafar. Datos de la Dirección General Científica de la Guardia Nacional contabilizaron más de 35 000 denuncias durante 2023 sobre casos de robo de contraseñas, fraude y suplantación de identidad, 186 por ciento más que lo registrado en 2019.
"Perdí los derechos de mi voz por engaños y por estas personas que según no sabían para dónde iba su proyecto, y bueno, la IA nos robó, no podemos hacer nada", Keiity González.
La suplantación de identidad y la aparición de mensajes falsos atribuidos a figuras públicas y políticos también corre el riesgo de multiplicarse durante los procesos electorales, estima Víctor Ruiz. El Instituto Electoral de la Ciudad de México ya investiga una denuncia sobre un supuesto audio donde se escucha a Clara Brugada, aspirante a la Jefatura de Gobierno, expresar su apoyo a su contrincante Santiago Taboada.
“En el tema político es muy complejo porque de entrada se pueden generar noticias e información falsa que la gente puede creer”, sostiene Ruiz. A diferencia de las imágenes generadas por Midjourney u otras IAs generativas, que suelen tener defectos en su creación, la manipulación de audio puede ser más difícil de evaluar sobre su autenticidad.
“No solamente es que se genere, sino la rapidez con la que se difunde. Hay personas que pueden mandar estos audios a través de WhatsApp, rapidísimo”.
¿Es posible regular a la inteligencia artificial?
Esta tecnología no necesitaría una regulación legal específica porque la mayoría de sus usos potencialmente ilegales ya están cubiertos por la ley, según Cynthia Solis, la abogada consultada.
“No habría necesidad realmente de generar una regulación específica porque lo único que se está creando es una nueva herramienta para llevar a cabo ciertas conductas, que ya están estipuladas en diferentes ordenamientos”.
Si la imagen de una persona es utilizada para crear un video a través de una herramienta de deepfakes, se incurre en el delito de suplantación de identidad, fraude, o los que se acumulen, explica Solis. Si se crea un modelo de voz que terminará siendo utilizado para estafas telefónicas, es otra violación a la ley que ya está penada.
“A lo que quiero llegar es que esto ya está regulado, con independencia de que se utilice una herramienta de inteligencia artificial o simplemente hayan utilizado Photoshop para implicarte en la comisión de un delito”, agrega.
En el tema coincide Grecia Macías, abogada de la Red de Defensa de Derechos Digitales. Los sistemas de IA generativa o de modelos de lenguaje aprenden y crean contenido a partir de solicitudes humanas. Pero igualmente, la ley puede reconocer a las parodias como uso legítimo de estas herramientas, y considerarse discurso protegido dentro de la libertad de expresión, mientras no haya uso comercial.
“Una cosa es para los fines que te dije y otra cuando se hacen para generar contenido sexual sin consentimiento de la persona, ahí ya estamos hablando de un delito, estamos hablando de una invasión grave de la intimidad”, dice.
Uno de los casos más recientes de este ejemplo fueron una serie de imágenes explícitas de Taylor Swift, salidas del foro 4chan y visibles en X por más de 17 horas antes de que la red social eliminara su publicación, este enero. Según 404 Media, se crearon con una herramienta de IA de Microsoft, usando instrucciones especiales que lograron esquivar sus políticas de creación de contenido pornográfico.
En opinión de Víctor Ruiz, el especialista en ciberseguridad, las regulaciones posibles en materia de IA podrían ser impulsadas desde la esencia de su contenido. “Un tema que pudiera ayudar mucho la regulación sería que, precisamente, se advirtiera a la gente que este contenido fue generado por inteligencia artificial”, explica. Esto llevaría las etiquetas de "contenido generado por IA" que algunas redes sociales han implementado a una esfera mayor, como avisos en televisión u otros medios sobre contenido real y generado por inteligencia artificial.
El tema de las posibles políticas públicas a regular en torno a la IA está en revisión por la Alianza Nacional de Inteligencia Artificial (ANIA), una iniciativa del Senado de México. La alianza ha organizado mesas de trabajo con representantes de organizaciones, universidades, empresas y entidades de gobierno desde 2023, con miras a regulaciones este 2024. De acuerdo con Daniele Sibille, de Oracle Latinoamérica, la IA plantea nuevos dilemas que requieren enfoques éticos y transparentes para su desarrollo e implementación. Sobre todo para las empresas que recolectan o facilitan la creación de contenido con estas herramientas.
“Estamos en un debate constante en la sociedad y es fundamental que tengamos una discusión ética de hasta qué punto podemos ir con la responsabilización, los límites para utilización de datos, el consentimiento, la aseguranza, la producción de materiales que son nocivos a la sociedad”, argumenta.
Sitios como FakeYou.ai ofrecen listas disponibles de voces de artistas para imitar, desde Shakira hasta Cristiano Ronaldo, sin tener que conseguir el modelo de voz en otro lado. Uberduck, una plataforma que ofrece un servicio similar, se comprometió a eliminar de su sitio los modelos de artistas que no quieran ser usados por IA. En una hoja de cálculo de acceso público hay más de 260 figuras públicas, cantantes, youtubers y actores de doblaje, quienes han solicitado su remoción o expresado su inconformidad con su uso. Entre ellos se encuentran los actores mexicanos Mario Castañeda y René García, conocidos por poner voz a Gokú y Vegeta de la serie japonesa Dragon Ball. Según la lista, ambos solicitaron la eliminación de sus voces de Fake You.
“En el tema político es muy complejo porque de entrada se pueden generar noticias e información falsa que la gente puede creer”, Víctor Ruiz, instructor certificado en ciberseguridad.
Entre la multitud de clips y canciones creadas con las voces artificiales de artistas que no están de acuerdo, también están quienes han sacado provecho de esta tecnología. La cantante canadiense Grimes, participó de un reto global para crear canciones con su modelo de voz y concursar por 10 000 dólares. Además, permite la clonación de su voz con fines comerciales, siempre y cuando reciba la mitad de las ganancias. James Earl Jones, el actor de Darth Vader, aprobó la creación de su modelo de voz para su utilización en producciones futuras de Star Wars. Snoop Dog y Gwyneth Paltrow son voces disponibles en Speechify, un servicio de lectura de texto a voz natural. Y “Now and then”, la primera canción lanzada por The Beatles desde 1995, se hizo realidad en noviembre pasado gracias a la IA, que convirtió una grabación demo de John Lennon en la voz clonada que suena en la canción.
La IA en el futuro del arte y la creación de contenido
Pese a la polémica que envuelve los usos de la inteligencia artificial para crear modelos de lenguaje, Canek Zapata, artista de internet, considera que su potencial artístico no hará más que expandirse en el corto y mediano plazo. “Como herramienta facilita mucho la creación artística. No creo que haya un no a ello. Facilita y va a hacer cosas que antes tomaban mucho tiempo, mucho más rápido. El problema es dónde está el humano, esa es la gran pregunta”, dijo.“Ya estamos en ese punto donde puede ser que las próximas canciones de los grandes artistas ya no sean de ellos”.
Respecto a la regulación, Zapata visualiza un punto medio donde las herramientas que faciliten la creación de estos modelos paguen regalías a los artistas implicados. Además de los usuarios de redes sociales que crean éxitos virales ocasionales, los artistas deberán preocuparse por las empresas creativas para quienes trabajan, actualmente en el ojo del debate por la creación no solo de modelos de lenguaje, sino de réplicas 3D de actores para utilizar en producciones de cine o televisión. La negociación de contratos y la defensa de derechos comerciales serán las batallas más inmediatas en las industrias creativas, según el especialista. En Estados Unidos, la huelga del Sindicato de Guionistas de Hollywood tuvo entre sus demandas la protección de actores de bajo sueldo contra el uso de personajes digitales con IA, que pudieran usarse incluso después de su muerte.
Zapata, que lleva al menos seis años utilizando bots y herramientas de IA generativa para crear piezas de arte, piensa que las personas detrás de clips virales como “Mi primera chamba” o “Demo #5” tienen mérito por establecer un proceso creativo para sus piezas y un nivel alto de autoría, que va desde la composición hasta el canto, además de la producción musical.
“Vamos a ver este punto donde las empresas van a querer explotar estos métodos muy baratos de producción, pero te vas a dar cuenta que Bad Bunny es mejor cuando lo hace el morrito de 18 años, que cuando lo escribe Bad Bunny ahorita millonario”, dice.
En sus ratos libres, Molina, el joven boliviano, escribió la letra completa de “Mi primera chamba” y después se grabó cantando la canción, para que el "filtro" de Eladio Carrión sonara menos robótico al modificar su voz. Hacer audios texto a voz es posible, es decir, al simplemente teclear las palabras que el software va a recrear. Pero los mejores resultados se obtienen al editar la voz directamente, según el creador. Las herramientas de IA no harán más que seguir presentes como herramientas que ayuden a los artistas a hacer volar su creatividad, pero él cree que debería darse en un marco de responsabilidad y límites.
“No estaría lindo suplantar identidades o ganar a costa de usar la voz de otros artistas u otras personas”, dice. “Entonces creo que ahí un par de reglas o normativas para regular el uso de la inteligencia artificial estarían bien”.
No items found.