{"id":76154,"date":"2025-06-03T18:29:16","date_gmt":"2025-06-03T23:29:16","guid":{"rendered":"https:\/\/einsteresante.com\/?p=76154"},"modified":"2025-06-03T18:29:18","modified_gmt":"2025-06-03T23:29:18","slug":"esta-ia-puede-ampliar-una-foto-250-veces-sin-perder-los-detalles","status":"publish","type":"post","link":"https:\/\/einsteresante.com\/index.php\/2025\/06\/03\/esta-ia-puede-ampliar-una-foto-250-veces-sin-perder-los-detalles\/","title":{"rendered":"Esta IA puede ampliar una foto 250 veces sin perder los detalles"},"content":{"rendered":"\n<p>En la pantalla de una computadora, la foto borrosa de una bandera comienza a enfocarse. Surgen arrugas en su superficie, pliegues que ondean en un viento fantasmal. Al acercar la imagen de nuevo, empiezan a aparecer hilos. De nuevo, y hay un indicio de deshilachado en el borde. En este juego de manos digital, no est\u00e1s viendo p\u00edxeles simplemente estirarse o mancharse. Est\u00e1s viendo c\u00f3mo la inteligencia artificial recrea lo que una c\u00e1mara mejor podr\u00eda haber visto.<\/p>\n\n\n\n<p>Esta es la promesa de Chain-of-Zoom, o CoZ, un nuevo marco de IA desarrollado por investigadores surcoreanos de&nbsp;<a href=\"https:\/\/gsai.kaist.ac.kr\/\">KAIST AI,<\/a>&nbsp;dirigidos por Kim Jaechul. Este enfoque busca resolver uno de los problemas m\u00e1s complejos de la mejora de imagen moderna: c\u00f3mo ampliar dr\u00e1sticamente una imagen de baja resoluci\u00f3n manteniendo los detalles n\u00edtidos y cre\u00edbles.<\/p>\n\n\n\n<p>Aparentemente, la mejor forma de hacerlo es no hacer zoom en todo de una vez.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-move-over-csi\">Hazte a un lado, CSI<\/h2>\n\n\n\n<p>Los sistemas tradicionales de superresoluci\u00f3n de imagen \u00fanica (SISR) se esfuerzan al m\u00e1ximo para adivinar qu\u00e9 falta cuando se les pide que aumenten la escala de una imagen. Muchos se basan en modelos generativos entrenados para crear versiones plausibles de alta resoluci\u00f3n a partir de fotos de baja resoluci\u00f3n. Es como una especie de conjetura fundamentada que rellena el espacio vac\u00edo con p\u00edxeles con alta probabilidad de estar ah\u00ed, en t\u00e9rminos probabil\u00edsticos. Pero estos modelos s\u00f3lo son eficaces en la medida en que su entrenamiento les permite, y tienden a fallar cuando se les exige m\u00e1s all\u00e1 de los l\u00edmites habituales.<\/p>\n\n\n\n<p>\u201cLos modelos de \u00faltima generaci\u00f3n se destacan en sus factores de escala entrenados, pero fallan cuando se les pide que ampl\u00eden las im\u00e1genes mucho m\u00e1s all\u00e1 de ese rango\u201d, escribe el equipo de KAIST en su art\u00edculo que apareci\u00f3 en el servidor de preimpresi\u00f3n\u00a0<a href=\"https:\/\/arxiv.org\/pdf\/2505.18600\">arXiv<\/a>.<\/p>\n\n\n\n<p>Chain-of-Zoom supera esta limitaci\u00f3n al dividir el proceso de zoom en pasos manejables. En lugar de ampliar una imagen 256 veces de una sola vez (un salto que har\u00eda que la IA difuminara o alucinara detalles), CoZ construye una escalera. Cada paso es un peque\u00f1o zoom calculado, basado en el anterior.<\/p>\n\n\n\n<p>En cada etapa de esta escalera, CoZ utiliza un modelo de superresoluci\u00f3n existente, como un modelo de difusi\u00f3n bien entrenado, para refinar la imagen. Pero no se detiene ah\u00ed. Un Modelo de Visi\u00f3n-Lenguaje (VLM) se une al proceso, generando indicaciones descriptivas que ayudan a la IA a imaginar lo que deber\u00eda aparecer en la siguiente versi\u00f3n de mayor resoluci\u00f3n.<\/p>\n\n\n\n<p>La segunda imagen es un acercamiento de la primera. Con base en este conocimiento, \u00bfqu\u00e9 hay en la segunda imagen? Esa es una de las indicaciones utilizadas durante el entrenamiento. La funci\u00f3n del VLM es responder con unas pocas palabras significativas: &#8220;nervaduras de las hojas&#8221;, &#8220;textura del pelaje&#8221;, &#8220;pared de ladrillos&#8221;, etc. Estas indicaciones gu\u00edan el siguiente paso de acercamiento, como indicaciones verbales que se le dan a un artista que dibuja con m\u00e1s detalle.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Entre p\u00edxeles y palabras<\/h2>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"512\" src=\"https:\/\/einsteresante.com\/wp-content\/uploads\/2025\/06\/image-14.png\" alt=\"\" class=\"wp-image-76169\" srcset=\"https:\/\/einsteresante.com\/wp-content\/uploads\/2025\/06\/image-14.png 1024w, https:\/\/einsteresante.com\/wp-content\/uploads\/2025\/06\/image-14-300x150.png 300w, https:\/\/einsteresante.com\/wp-content\/uploads\/2025\/06\/image-14-768x384.png 768w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption class=\"wp-element-caption\">Importancia de los indicadores multiescala propuestos: (a) Indicador nulo: se conserva la estructura b\u00e1sica, pero se suavizan los detalles de alta frecuencia. (b) Indicador DAPE: la inserci\u00f3n de texto desde un extractor de indicadores con detecci\u00f3n de degradaci\u00f3n (DAPE) resulta \u00fatil, pero las im\u00e1genes carecen de detalles intrincados a grandes aumentos. (c) Indicadores generados por VLM (nuestros): los indicadores multiescala extra\u00eddos por un VLM dirigen la estructura principal de SR para sintetizar texturas realistas y detalles n\u00edtidos. Cr\u00e9dito: KAIST AI.<\/figcaption><\/figure>\n\n\n\n<p>Esta interacci\u00f3n entre im\u00e1genes y lenguaje es lo que distingue a CoZ. A medida que se ampl\u00eda la imagen, esta pierde fidelidad: las pistas visuales se desvanecen y el contexto desaparece. Ah\u00ed es cuando las palabras cobran mayor importancia.<\/p>\n\n\n\n<p>Pero generar las indicaciones correctas no es f\u00e1cil. Los VLM est\u00e1ndar pueden repetirse, inventar frases extra\u00f1as o malinterpretar informaci\u00f3n confusa. Para mantener el proceso s\u00f3lido y eficiente, los investigadores recurrieron al aprendizaje por refuerzo con retroalimentaci\u00f3n humana (RLHF). Entrenaron su modelo de generaci\u00f3n de indicaciones para que se ajustara a las preferencias humanas mediante una t\u00e9cnica llamada Optimizaci\u00f3n Generalizada de la Pol\u00edtica de Recompensas (GRPO).<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"1023\" height=\"642\" src=\"https:\/\/einsteresante.com\/wp-content\/uploads\/2025\/06\/image-15.png\" alt=\"\" class=\"wp-image-76173\" srcset=\"https:\/\/einsteresante.com\/wp-content\/uploads\/2025\/06\/image-15.png 1023w, https:\/\/einsteresante.com\/wp-content\/uploads\/2025\/06\/image-15-300x188.png 300w, https:\/\/einsteresante.com\/wp-content\/uploads\/2025\/06\/image-15-768x482.png 768w\" sizes=\"auto, (max-width: 1023px) 100vw, 1023px\" \/><figcaption class=\"wp-element-caption\">Resultados cualitativos de la ejecuci\u00f3n de CoZ con el sistema OSEDiff de c\u00f3digo abierto (que utiliza Stable Diffusion v2.1 como eje central de la difusi\u00f3n). El VLM optimizado por GRPO se utiliza como extractor de indicaciones. Cr\u00e9dito: KAIST AI.<\/figcaption><\/figure>\n\n\n\n<p>Tres tipos de retroalimentaci\u00f3n guiaron el proceso de aprendizaje:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li>Un cr\u00edtico de VLM evalu\u00f3 las indicaciones seg\u00fan lo bien que coincid\u00edan con las im\u00e1genes.<\/li>\n\n\n\n<li>Una lista negra penaliza frases confusas como \u201cprimera imagen\u201d o \u201csegunda imagen\u201d.<\/li>\n\n\n\n<li>Un filtro de repetici\u00f3n desaconseja el texto gen\u00e9rico o repetitivo.<\/li>\n<\/ul>\n\n\n\n<p>A medida que avanzaba el entrenamiento, las indicaciones se volvieron m\u00e1s claras, espec\u00edficas y \u00fatiles. Palabras como &#8220;pinza de cangrejo&#8221; reemplazaron conjeturas vagas como &#8220;pata de hormiga&#8221;. El modelo final gui\u00f3 consistentemente al motor de superresoluci\u00f3n hacia im\u00e1genes detalladas y cre\u00edbles, incluso con un zoom de 256 aumentos.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-real-world-potential\">Potencial del mundo real<\/h2>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"750\" height=\"598\" src=\"https:\/\/einsteresante.com\/wp-content\/uploads\/2025\/06\/image-16.png\" alt=\"\" class=\"wp-image-76175\" srcset=\"https:\/\/einsteresante.com\/wp-content\/uploads\/2025\/06\/image-16.png 750w, https:\/\/einsteresante.com\/wp-content\/uploads\/2025\/06\/image-16-300x239.png 300w\" sizes=\"auto, (max-width: 750px) 100vw, 750px\" \/><figcaption class=\"wp-element-caption\">Im\u00e1genes fotorrealistas de superresoluci\u00f3n extrema con CoZ y aumento de hasta 64x. Cr\u00e9dito: KAIST AI.<\/figcaption><\/figure>\n\n\n\n<p>En comparaciones directas con otros m\u00e9todos, como el aumento de escala por vecino m\u00e1s cercano y la superresoluci\u00f3n de un paso, CoZ produjo im\u00e1genes que destacaron por su claridad y textura. Sus resultados se evaluaron utilizando diversas m\u00e9tricas de calidad sin referencia, como NIQE y CLIPIQA. En cuatro niveles de aumento (4\u00d7, 16\u00d7, 64\u00d7 y 256\u00d7), CoZ super\u00f3 consistentemente a las alternativas, especialmente a escalas m\u00e1s altas. Pero m\u00e1s all\u00e1 de los n\u00fameros, la promesa de Chain-of-Zoom radica en su flexibilidad.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"750\" height=\"591\" src=\"https:\/\/einsteresante.com\/wp-content\/uploads\/2025\/06\/image-17.png\" alt=\"\" class=\"wp-image-76177\" srcset=\"https:\/\/einsteresante.com\/wp-content\/uploads\/2025\/06\/image-17.png 750w, https:\/\/einsteresante.com\/wp-content\/uploads\/2025\/06\/image-17-300x236.png 300w\" sizes=\"auto, (max-width: 750px) 100vw, 750px\" \/><figcaption class=\"wp-element-caption\">Im\u00e1genes fotorrealistas de superresoluci\u00f3n extrema con CoZ, con un aumento de hasta 256\u00d7. Cr\u00e9dito: KAIST AI.<\/figcaption><\/figure>\n\n\n\n<p>No requiere reentrenar el modelo de superresoluci\u00f3n subyacente. Esto lo hace m\u00e1s accesible para desarrolladores e investigadores que ya utilizan modelos como Difusi\u00f3n Estable. Tambi\u00e9n facilita el acceso a aplicaciones que requieren un zoom r\u00e1pido y de alta fidelidad sin un alto coste computacional.<\/p>\n\n\n\n<p>Todo esto puede transformar el modo en que abordamos la superresoluci\u00f3n.<\/p>\n\n\n\n<p>Los usos potenciales abarcan diversos campos, incluidos:<\/p>\n\n\n\n<ul class=\"wp-block-list\">\n<li><strong>Im\u00e1genes m\u00e9dicas<\/strong>, en las que un mayor nivel de detalle podr\u00eda ayudar al diagn\u00f3stico.<\/li>\n\n\n\n<li><strong>Im\u00e1genes de vigilancia<\/strong>\u00a0que ayudan a los investigadores a leer matr\u00edculas lejanas o rasgos faciales.<\/li>\n\n\n\n<li><strong>Preservaci\u00f3n cultural<\/strong>, restauraci\u00f3n de fotograf\u00edas antiguas con una claridad sin precedentes.<\/li>\n\n\n\n<li><strong>Visualizaci\u00f3n cient\u00edfica<\/strong>, especialmente en campos como la microscop\u00eda o la astronom\u00eda.<\/li>\n<\/ul>\n\n\n\n<p>En una demostraci\u00f3n, CoZ mejor\u00f3 la foto de una hoja hasta que se hicieron visibles las venas individuales, caracter\u00edsticas que no eran perceptibles en la imagen original de baja resoluci\u00f3n. En otra, revel\u00f3 la fina trama de un textil.<\/p>\n\n\n\n<p>Si bien estos ejemplos son convincentes, tambi\u00e9n sugieren un arma de doble filo. Al ampliar lo suficiente, ya no se ve la imagen original, sino una copia sint\u00e9tica. En otras palabras, el paisaje de la imagen mejorada no existe en la realidad, aunque pueda parecerse mucho al sujeto original de la foto. Esto no hace que este modelo sea menos \u00fatil, pero es necesario comprender perfectamente estas limitaciones.<\/p>\n\n\n\n<p>Las limitaciones conllevan riesgos asociados. Tecnolog\u00edas como Chain-of-Zoom, si bien no son enga\u00f1osas por naturaleza, podr\u00edan utilizarse para manipular datos visuales o generar contenido enga\u00f1oso a partir de fuentes borrosas.<\/p>\n\n\n\n<p>Los autores lo reconocen en su art\u00edculo: \u201cLa generaci\u00f3n de alta fidelidad a partir de entradas de baja resoluci\u00f3n puede generar preocupaci\u00f3n con respecto a la desinformaci\u00f3n o la reconstrucci\u00f3n no autorizada de datos visuales sensibles\u201d.<\/p>\n\n\n\n<p>En un mundo que ya lidia con los deepfakes y la desinformaci\u00f3n visual, la capacidad de &#8220;ver m\u00e1s&#8221; no siempre es una ventaja. La soluci\u00f3n, como siempre, reside en un desarrollo transparente y un uso responsable.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"h-a-new-lens-on-vision\">Una nueva perspectiva sobre la visi\u00f3n<\/h2>\n\n\n\n<p>Por ahora, Chain-of-Zoom representa una soluci\u00f3n elegante a un problema profundamente pr\u00e1ctico. No reinventa la rueda, simplemente cambia su funcionamiento.<\/p>\n\n\n\n<p>En lugar de estirar las im\u00e1genes m\u00e1s all\u00e1 de su punto de ruptura, CoZ pregunta: \u00bfqu\u00e9 pasa si lo hacemos con calma, un zoom a la vez?<\/p>\n\n\n\n<p>El resultado no son solo im\u00e1genes m\u00e1s n\u00edtidas. Es un camino m\u00e1s claro hacia adelante.<\/p>\n\n\n\n<p>Fuente: <a href=\"https:\/\/www.zmescience.com\/future\/chain-of-zoom-ai-upscaling\/\">ZME Science<\/a>.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>En la pantalla de una computadora, la foto borrosa de una bandera comienza a enfocarse. Surgen arrugas en su superficie, pliegues que ondean en un viento fantasmal. Al acercar la imagen de nuevo, empiezan a aparecer hilos. De nuevo, y hay un indicio de deshilachado en el borde. En este juego de manos digital, no [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":76183,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[14],"tags":[],"class_list":["post-76154","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-tecnologia"],"_links":{"self":[{"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/posts\/76154","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/comments?post=76154"}],"version-history":[{"count":24,"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/posts\/76154\/revisions"}],"predecessor-version":[{"id":76182,"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/posts\/76154\/revisions\/76182"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/media\/76183"}],"wp:attachment":[{"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/media?parent=76154"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/categories?post=76154"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/einsteresante.com\/index.php\/wp-json\/wp\/v2\/tags?post=76154"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}