Hoy: 23 de noviembre de 2024
En un fascinante avance en el campo de la inteligencia artificial (IA), investigadores de la Universidad de Inteligencia Artificial Mohamed bin Zayed (MBZUAI) en Abu Dabi, han presentado una nueva herramienta generativa capaz de replicar el formato y trazo de la escritura manual de los usuarios a partir de unos simples párrafos de ejemplo.
El proyecto, liderado por el profesor asistente del área de Visión por Ordenador de MBZUAI, Hisham Cholakkal, nació de la curiosidad de explorar si un modelo de IA podría aprender el estilo de escritura de una persona a partir de un fragmento de texto escrito por ella.
El equipo de investigadores descubrió que técnicas previas empleadas en este enfoque utilizaban redes generativas antagónicas (GAN) basadas en aprendizaje automático (‘machine learning’). En lugar de las GAN, optaron por utilizar los transformadores de visión (ViT), un modelo de procesamiento visual utilizado en el reconocimiento de imágenes.
Los ViT permitieron a los investigadores procesar dependencias de largo alcance, concepto vinculado a cómo partes físicamente distantes en una imagen pueden guardar relación. Así, determinaron que para imitar el estilo de escritura de alguien, era esencial observar párrafos escritos a mano y comprender cómo el autor enlazó caracteres y letras, así como cómo espació las palabras, según explicó Fahad Shahbaz Khan, vicepresidente del Departamento de Visión por Computadora de MBZUAI.
Aunque el estudio inicial se centró en generar textos que imitasen la escritura a mano en inglés, los investigadores expresaron su interés en aplicar esta tecnología a otros idiomas, como el árabe, que presenta mayores desafíos debido a la conexión particular de sus letras.
Para evaluar la capacidad de la nueva IA, denominada HWT, para reproducir texto escrito a mano con realismo, los investigadores compararon sus resultados con otras dos tecnologías de generación de escritura: GANwriting y el modelo Davis et al. Las tres aplicaciones fueron entrenadas con muestras de texto de seis escritores diferentes.
Davis et al logró captar la inclinación del texto pero tuvo dificultades para imitar los detalles de estilo específicos de los autores. Por su parte, GANwriting, según los expertos, se ve limitado por la longitud de las palabras y, en ocasiones, muestra el texto de manera incompleta.
A pesar de las posibilidades beneficiosas que ofrece esta innovadora idea, los creadores son conscientes de su potencial uso indebido, ya que la escritura manual representa la identidad de una persona. Antes de su implementación, están evaluando detenidamente la ética y la responsabilidad asociada con esta tecnología. La patente de esta herramienta, que combina tecnologías antiguas y contemporáneas, se ha registrado recientemente en la Oficina de Patentes y Marcas de Estados Unidos, y se vislumbra como una ayuda para aquellas personas con dificultades para escribir o sostener un lápiz o bolígrafo.