Tecnología

No te creas nada de lo que oigas, llegan los “deep fakes” de audio

Sharing is caring!

Xataca.com 4.6.2019.- Los deepfake de vídeo hace ya tiempo que son causa de preocupación, pero hay otra clase de deepfakes que está pasando bastante más desapercibida, pese a contar con su misma capacidad para destruir reputación y erosionar el espacio público: los deepfakes de audio.

Según Siwey Lyu, responsable de machine learning del laboratorio de la Univ. de Albany, “en un par de año tendremos voces [sintéticas] capaces de imitar a individuos concretos, pronunciando cualquier palabra que queramos que diga“. Sin ir más lejos, la semana pasada Facebook AI Research presentó un método para ‘traducir’ la voz de un cantante a la de otro sin alterar la canción.

Lo que puede falsificarse puede detectarse

Pero, para Lyu, estamos ante “una oportunidad única” para lograr que la tecnología de generación de los deepfakes se desarrolle al mismo ritmo que la tecnología forense (esto es, la que permitirá detectarlos), de manera que sea posible detectar todo nuevo método de falsificación de voces que se vaya creando.

El pasado mes de enero Google ya puso a disposición de los investigadores un enorme dataset cuyos datos de entrenamiento confían que puedan ayudar a los sistemas de IA a detectar las características de las voces falsas, igual que es posible detectar ciertos patrones en los deepfakes de vídeo.

Pero Pindrop también está avanzando en el campo de la falsificación de sonidos para poder entrenar a sus propios sistemas de detección. El sistema usado para ello no difiere demasiado de las redes generativas antagónicas que se usan para producir imágenes.

Sin embargo, como el mismo Balasubramaniyan reconoce, “nuestros sistemas llevan a cabo un buen trabajo en la síntesis de voz, pero aún no afina cosas como la cadencia o lasemociones”.

Los métodos que permitirán falsificar el audio se clasifica en dos categorías principales:

  • Modulación: Cambia aspectos de una voz ya grabada para hacer que suene como la de otra persona, permitiendo así cambiar el género o el acento de la persona que nosotros oímos. Los investigadores de Baidu o la startup estadounidense Modulate.ai han logrado avances notables en este campo.
  • Síntesis: Permite aplicar una voz predefinida a cualquier texto que proporcionemos a la computadora, o bien ‘editar’ las declaraciones de una persona real. El software VoCo de Adobe, aún no disponible en el mercado, se centra en esta clase de tecnología.

La ventaja es que, por ahora, la creación de deepfakes de audio creíbles sólo está al alcance de grandes empresas (al contrario de lo que ocurre con los de vídeo, que ya han generado una oleada de vídeos porno creados por usuarios particulares que encuentran fácilmente en Internet todo el material necesario).

Related posts

Instagram se modernizará para parecerse más a TikTok

REDACCION

Enel empieza a construir la planta eólica

JULIAN MALAESPINA

Telegram: “Es posible que estemos presenciando la migración digital mas grande de la historia”, Pável Dúrov

REDACCION

Leave a Comment

shares