Instant NeRF

De la Viquipèdia, l'enciclopèdia lliure

Instant NeRF és una nova tecnologia de l'empresa NVIDIA que reprodueix una escena en 3D partint d'imatges 2D en qüestió de segons.[1] Les seves inicials fan referència a, per una banda, "Instant", per la seva qualitat instantània de generar imatges i, per l'altra, "NeRF", en correspondència a l'acrònim neuronal radiation fields (en català: camps de radiació neuronal) que al·ludeix a la tecnologia que utilitza.

Partint de dues a quatre fotografies bidimensionals d'un mateix espai o subjecte, Instant NeRF recrea tot l'espai fotogràfic en volum fins i tot els elements que queden ocults o que no apareixen explícitament en la imatge. És a dir, a diferència d'altres programes que compleixen aquesta mateixa funció, no necessita material fotografiat des de tots els angles de l'espai, ja que davant d'aquest buit d'informació, una xarxa neuronal (a través d'intel·ligència artificial) recrea la realitat de manera precisa. Ho realitza gràcies a l'anàlisi de les fotografies que li permet conèixer els angles en què aquestes han estat capturades i, per tant, en dedueix l'origen dels píxels.

El resultat d'aquest procediment és una escena digital on l'usuari pot endinsar-se i moure's amb llibertat per ella, podent fer noves fotografies des de perspectives diferents.[2]

Estructura (arquitectura)[modifica]

L'Instant NeRF és un generador gairebé instantani de gràfics neuronals primitius en una única GPU per a múltiples tasques.

En la imatge gigapíxel representen una imatge mitjançant una xarxa neuronal. SDF aprèn una funció de distància signada a l'espai 3D el nivell zero de la qual representa una superfície 2D.

NeRF utilitza imatges en 2D i les seves posicions de càmera per reconstruir un camp volumètric de radiació i densitat que es visualitza mitjançant la marxa de raigs. Finalment, el volum neural aprèn una radiació i un camp de densitat sense soroll, directament d'un traçador de recorregut volumètric. En totes les tasques, la codificació i implementació eficient ofereixen avantatges clars: formació instantània, alta qualitat i senzillesa. La seva codificació és independent de les tasques: fan servir la mateixa implementació i hiperparàmetres en totes les tasques i només varien la mida de la taula “hash” que compensa la qualitat i el rendiment.[3]

Abstract i mètode[modifica]

L’Instant NeRF presenta un mètode que aconsegueix resultats d'última generació per sintetitzar noves vistes d'escenes complexes optimitzant una funció d'escena volumètrica contínua subjacent mitjançant un escàs conjunt de vistes d'entrada.

L’algoritme representa una escena que utilitza una xarxa profunda completament connectada (no convolucional), l'entrada de la qual és una única coordenada 5D contínua (ubicació espacial (x, y, z) i direcció de visualització (θ, φ)) i la sortida de la qual és la densitat de volum i la radiació emesa depenent de la vista en aquesta ubicació espacial.

Sintetitzen vistes consultant les coordenades 5D al llarg dels raigs de la càmera i fan servir tècniques clàssiques de renderització de volum per projectar els colors i les densitats de sortida en una imatge.

Com que la representació del volum és naturalment diferenciable, l'única entrada necessària per optimitzar la seva representació és un conjunt d'imatges amb posicions de càmera conegudes. Descriuen com optimitzar eficaçment els camps de radiació neuronal per representar noves vistes fotorealistes d'escenes amb geometria i aparença complicades, i demostren resultats que superen els treballs anteriors en la representació neuronal i la síntesi de vistes.[4]

Funcions[modifica]

Aprofita la potència de la Intel·ligència Artificial, concretament la generada a través dels anomenats camps de radiació neuronal per convertir una col·lecció d'imatges fixes en una escena digital 3D en qüestió de segons.

Instant NeRF es basa en xarxes neuronals per reconstruir cada escena a partir de les imatges, predient el color de la llum que s'irradia en qualsevol direcció.

Si les representacions 3D tradicionals, com les malles poligonals, són similars a les imatges vectorials, els NeRF són com a imatges de mapa de bits: capturen densament la manera com la llum s'irradia des d'un objecte o dins d'una escena.

Aquest efecte compost és el resultat de tres millores importants: en primer lloc, la implementació de GPU específica per a la tasca de l'algorisme de renderitzat o d’entrenament, que utilitza les capacitats de flux de control de granularitat fina de la GPU per ser molt més ràpid. D’altra banda, la implementació d’una petita xarxa neuronal, que és més ràpida que les rutines de multiplicació de matrius de propòsit general. Finalment, una tècnica pròpia de codificació anomenada hash grid multiresolució, que és independent i obté una millor relació velocitat i qualitat.[5]

Història i orígens[modifica]

Cap a l’any 2020 els equips creatius, d'enginyeria i d'investigació de Nvidia, que va ser fundada l'any 1993 i és un dels majors fabricants de GPUs del mercat mundial, van començar a treballar en el projecte Instant NeRF.

Van utilitzar la tecnologia de l'empresa per oferir els efectes visuals de la darrera conferència de GTC.

Des del seu debut a principis de l’any 2022, desenes de milers de desenvolupadors d'arreu del món han descarregat el codi.

La investigació que hi ha darrere d'Instant NeRF està sent homenatjada com a millor article a SIGGRAPH, que es va celebrar el 8 a l'11 d'agost a Vancouver, per la seva contribució al futur de la investigació gràfica per ordinador que cobreix temes que inclouen la representació neuronal, la simulació 3D, l'holografia i molt més.

Transcendència i avantatges[modifica]

Aquest nou invent, suposa una sèrie d’avantatges en diversos aspectes. Tal com explica l’empresa a la seva pàgina web, la tecnologia és un ‘render a la inversa’.[1] A diferència del típic model tridimensional utilitzat, per exemple, per les càmeres, que per crear una imatge bidimensional que reflecteixi la realitat llança raigs que reboten a les superfícies indirectament i directa, Instant NeRF parteix d’aquestes fotografies 2D com a base per reconstruir l’espai escènic en 3D.

Així doncs, David Luebke, el vicepresident de l'empresa, afirma que pot arribar a resultar tan rellevant per l’univers tridimensional com ho fou la compressió de fotografies digitals en format JPEG, cosa que va facilitar la seva distribució entre els usuaris en disminuir el pes de l’arxiu o fins i tot la digitalització de les càmeres, que va accelerar el procés de rèplica i revelat d’imatges fins aleshores analògiques.[1]

Fins al moment, crear una escena 3D exigia un procediment de llarga durada arribant a ocupar vàries hores i sovint els resultats mancaven d’una alta resolució i qualitat. Aquests aspectes, però, es veuen solucionats amb la incorporació d’intel·ligència artificial, ja que suposa una dinamització del procés. No obstant això, en els primers models d’aquesta tecnologia sí que s'oferien resultats acceptables i versemblants, però el procés d’entrenament encara requeria molt de temps. Per això, la companyia ha estat treballant en el projecte durant dos anys per disminuir el seu temps de funcionament i oferir un resultat més ràpid.[1]

Possibles usos[modifica]

Analitzant els usos que ofereix Instant NeRF, és evident que la seva principal aplicació es capturar una imatge per a posteriori poder canviar l’angle d’aquesta, obtenint com a resultat una fotografia idèntica a l’original però presa des d’un punt de vista totalment oposat. Aquest aspecte formal de la imatge també es pot aplicar en el focus lumínic d’aquesta; podem aconseguir una fotografia nova amb la llum completament alterada.[6]

L'Instant NeRF també pot ser usada per crear avatars o escenes per mons virtuals, capturar els participants d'una videoconferència i el seu entorn en 3D o per reconstruir escenes per mapes digitals tridimensionals.[1]

També pot utilitzar-se per escanejar imatges amb persones o entorns reals i beneficiar-s’hi en qüestions de disseny o il·lustració atenent al fet que és una nova imatge en la qual els drets d’autor de les fotografies base queden en un buit legal.

A més a més, en aspectes relacionats amb l’arquitectura i l’enginyeria, podria servir per generar representacions digitals d'entorns ja existents que els autors poguessin replantejar, alterar i redissenyar.

Quant a l’evolució en temes tecnològics, es podria incorporar per entrenar robots i cotxes autònoms perquè captin millor les proporcions i figures dels objectes en forma d’imatges 2D.[7]

Les primeres conseqüències socials que produeix aquesta innovació, són clarament el fet que fotografiar la realitat de manera objectiva i fidel, ara ja no evita que aquesta pugui ser manipulada posteriorment; a més de tot el debat moral i ètic que sorgeix arran això. Així, ha estat concebut per molts usuaris com un sistema que incrementarà la desconfiança i farà més impossible l’establiment d’uns límits clars sobre la concepció verídica del que és la realitat.

Artistes, programadors i Instant NeRF[modifica]

Cada vegada són més els artistes i creadors que utilitzen aquesta tecnologia, entre els quals la pàgina d'NVIDIA destaca: [8]

Karen X. Cheng i James Perlman, utilitzen l'Instant NeRF per crear escenes que exploren reflexos dins d'un mirall i tracten entorns amb molta gent. Afirmen que l'algoritme és revolucionari atenent al fet que és sorprenent que es pugui reproduir una escena física més fidel a la realitat del que les tècniques normals de fotogrametria ofereixen. "És increïble amb quina precisió podem reconstruir la llum, les diferències de color i altres petits detalls", diuen. "Fins i tot fa que els errors semblin art, estem segurs d'això i a vegades juguem amb entrenar poc l'escena, experimentant amb 1000, 5000 o 50000 repeticions. Molts cops preferim les menys entrenades perquè els marges són més suaus i aconseguim un efecte de pintura a l'oli", exposen.

Amb les eines anteriors, trigarien tres o quatre dies per entrenar una escena amb bona qualitat, però amb l'Instant NeRF, Cheng i Perlman poden arribar a fer-ne 20 al dia, utilitzant la NVIDIA RTX A6000 GPU per reproduir, entrenar i previsualitzar les seves escenes 3D. "La reproducció ràpida és necessària per al procés creatiu: ens trobem i fem 15 o 20 versions diferents i l'endemà valorem quines funcionen. Tot el que hem publicat s'ha fet i refet una dotzena de vegades, cosa que només és possible quan pots fer diverses escenes al dia", apunten.

Hugues Bruyère, soci i director d'innovació en un estudi creatiu de Montreal anomenat Dpt. també fa ús de la tecnologia Instant NeRF diàriament. Reprodueix escenes 3D fent servir la informació que prèviament ha capturat per la fotogrametria tradicional confiant en les càmeres digitals mirrorless, els smartphones, les càmeres 360 i els drons com a principal font i utiltiza la NVIDIA GeForce RTX 3090 GPU per reproduir les seves escenes Instant NeRF.

Creu que aquesta tecnologia pot ser una eina poderosa per ajudar a preservar i compartir elements culturals a través de llibreries i museus online, experiències de realitat virtual i projectes de conservació del patrimoni cultural. Partint de fotografies preses amb el seu telèfon mòbil, i gràcies a l'Instant NeRF, Bruyère ha creat una reproducció tridimensional d'una escultura de marbre de Zeus que es troba en una exhibició del museu reial d'Ontàiro (Toronto).

Jonathan Stephens, treballador de la companyia d'informàtica espacial EveryPoint, ha explorat l'Instant NeRF per aplicacions tant pràctiques com creatives. L'empresa reconstrueix escenes 3D de preses, vies, pedreres, per ajudar els negocis a gestionar els seus recursos. Amb la tecnologia d'NVIDIA (concretament la NVIDIA GeForce RTX 3080 GPU), Stephens pot capturar una escena més completa, permetent als clients explorar-la lliurement.

El que més valora és que amb l'Instant NeRF, es pot saber ràpidament si la reproducció està funcionant, en canvi, amb un equip de fotogrametria extens, l'usuari pot estar esperant hores o dies. Aquí, pot provar diferents conjunts de dades i saber-ho en pocs minuts, declara.

Instal·lació[modifica]

Per a la instal·lació de l'Instant NeRF, NVIDIA ha posat a la disposició dels usuaris una secció a la seva pàgina web on detalla els passos a seguir per obtenir-lo així com l'enllaç a un videotutorial per facilitar el procés.[9] En aquest vídeo es presenten les qualitats i opcions que ofereix el producte així com una guia pas per pas per aconseguir-lo.[10] A continuació es detallen alguns dels requisits més rellevants;[11]

- Tenir NVIDIA GPU; els tensor cores[12] (microprocessadors) són els que augmenten la rendibilitat del programa. Cal tenir en compte que tots els resultats mostrats provenen d'una RTX 3090 (un tipus de targeta gràfica desenvolupada per NVIDIA). Aquesta, utilitza la tecnologia RTX la qual s'encarrega de qüestions visuals de la imatge com ara la il·luminació i forma part de la gamma Ampere més potent en l'actualitat. Així mateix, és compatible amb NVIDIA DLSS (Deep Learning Super Sampling) i Ray tracing, fet que garanteix una qualitat i rendiment d'imatges potents.

- A més a més la RTX 3090,[13][14] proporciona 10.496 nuclis CUDA fet que s'adequa al demanat per la instal·lació.

- Tenir un C ++ 14 (capable compiler) a escollir entre; en el sistema Windows el Visual Studio 2019 o en Linux el GGC/G++ 7.5 o superior.

- Tenir CMake v.3.21 o superior.

Així, s'ofereixen diferents possibilitats depenent del sistema operatiu de cada ordinador des d'on es realitzi la instal·lació, a més de mencionar programes opcionals per millorar diversos aspectes.[15]

També des d'NVIDIA es detallen alguns dels procediments primordials un cop s'ha obtingut la tecnologia per facilitar la comprensió del seu funcionament, detallar els aspectes claus que l'usuari no pot perdre's i ajudar-lo, en definitiva, en el procés creatiu.[16][17]

Vegeu també[modifica]

Referències[modifica]

  1. 1,0 1,1 1,2 1,3 1,4 Salian, Isha. «NeRF Research Turns 2D Photos Into 3D Scenes» (en anglès americà), 25-03-2022. [Consulta: 4 novembre 2022].
  2. «Nvidia presenta Instant NeRF, una herramienta que convierte fotografías 2D en una escena 3D renderizada en segundos». [Consulta: 2 desembre 2022].
  3. «Instant Neural Graphics Primitives with a Multiresolution Hash Encoding». [Consulta: 10 novembre 2022].
  4. «[Mildenhall et al. 2020 NeRF. Representing Scenes as Neural Radiance Fields for View Synthesis. ECCV 2020 Oral - Best Paper Honorable Mention]». [Consulta: 10 novembre 2022].
  5. Sevilla, Diario de. «Así es la tecnología Instant NeRF: inteligencia artifical que convierte fotos 2D en escenas 3D» (en espanyol europeu), 29-03-2022. [Consulta: 8 novembre 2022].
  6. Díaz, Jesús. «La nueva tecnología que cambiará la fotografía para siempre» (en castellà), 28-03-2022. [Consulta: 4 novembre 2022].
  7. Bennet, Sharron. «Instant NeRF puede transformar imágenes 2D en una escena 3D en unos pocos milisegundos» (en castellà), 27-03-2022. [Consulta: 12 novembre 2022].
  8. Salian, Isha. «Instant NeRF Wins SIGGRAPH Best Paper, Inspires Creators» (en anglès americà), 05-08-2022. [Consulta: 2 desembre 2022].
  9. «NVIDIA Instant NeRF Sweepstakes» (en Indian English). [Consulta: 2 desembre 2022].
  10. «NVIDIA Instant NeRF Installation Tutorial & NeRF Creation Tutorial». [Consulta: 20 novembre 2022].
  11. «Instant Neural Graphics Primitives», 02-12-2022. [Consulta: 20 novembre 2022].
  12. «Tensor Cores: qué son y qué importancia tienen en NVIDIA» (en castellà), 19-12-2020. [Consulta: 20 novembre 2022].
  13. «Tarjetas gráficas 3090 y 3090 Ti» (en espanyol europeu). [Consulta: 20 novembre 2022].
  14. Nicolás, Francisco San. «La RTX 3090 es una de las tarjetas gráficas más potentes del mercado y ahora cuenta con más de 750 euros de descuento» (en castellà), 19-09-2022. [Consulta: 20 novembre 2022].
  15. «NVIDIA Instant NeRF Advanced Tips». [Consulta: 20 novembre 2022].
  16. «Getting Started with NVIDIA Instant NeRFs» (en anglès americà), 12-05-2022. [Consulta: 20 novembre 2022].
  17. «Hands on With Nvidia Instant NeRFs». [Consulta: 20 novembre 2022].