Mètode del gradient conjugat

De la Viquipèdia, l'enciclopèdia lliure
Una comparació de la convergència del descens del gradient amb la mida òptima del pas (en verd) i el vector conjugat (en vermell) per minimitzar una funció quadràtica associada a un sistema lineal donat. El gradient conjugat, assumint l'aritmètica exacta, convergeix en com a màxim n passos, on n és la mida de la matriu del sistema (aquí n = 2).

En matemàtiques, el mètode del gradient conjugat és un algorisme per a la solució numèrica de sistemes particulars d'equacions lineals, és a dir, aquells la matriu dels quals és positiva-semidefinida. El mètode del gradient conjugat sovint s'implementa com un algorisme iteratiu, aplicable a sistemes dispersos que són massa grans per ser manejats per una implementació directa o altres mètodes directes com la descomposició de Cholesky. Sovint sorgeixen grans sistemes dispersos quan es resol numèricament equacions en derivades parcials o problemes d'optimització.

El mètode del gradient conjugat també es pot utilitzar per resoldre problemes d'optimització sense restriccions com la minimització d'energia. S'atribueix comunament a Magnus Hestenes i Eduard Stiefel, [1][2] que el van programar a la Z4, [3] i el van investigar àmpliament.[4][5]

El mètode del gradient biconjugat proporciona una generalització a matrius no simètriques. Diversos mètodes de gradient conjugat no lineal busquen mínims de problemes d'optimització no lineal.

Descripció del problema abordat pels gradients conjugats[modifica]

Suposem que volem resoldre el sistema d'equacions lineals

per al vector , on el conegut matriu és simètric (és a dir, AT = A), positiu definit (és a dir, xTAx > 0 per a tots els vectors diferents de zero en Rn), i real, i també es coneix. Denotem la solució única d'aquest sistema per .

La derivació com a mètode directe[modifica]

El mètode del gradient conjugat es pot derivar des de diverses perspectives diferents, inclosa l'especialització del mètode de direcció conjugada per a l'optimització i la variació de la iteració d'Arnoldi/Lanczos per a problemes de valors propis. Malgrat les diferències en els seus enfocaments, aquestes derivacions comparteixen un tema comú: demostrar l'ortogonalitat dels residus i la conjugació de les direccions de cerca. Aquestes dues propietats són crucials per desenvolupar la coneguda formulació sucinta del mètode.

Com a mètode iteratiu[modifica]

Si triem els vectors conjugats amb cura, llavors potser no els necessitem tots per obtenir una bona aproximació a la solució . Per tant, volem considerar el mètode del gradient conjugat com un mètode iteratiu. Això també ens permet resoldre aproximadament sistemes on n és tan gran que el mètode directe trigaria massa temps.

Denotem la conjectura inicial de x per x0 (podem suposar sense pèrdua de generalitat que x0 = 0, en cas contrari considerem el sistema Az = bAx0). Començant per x 0 busquem la solució i en cada iteració necessitem una mètrica que ens indiqui si estem més a prop de la solució x (que ens és desconeguda). Aquesta mètrica prové del fet que la solució x també és l'únic minimitzador de la següent funció quadràtica

Referències[modifica]

  1. Hestenes, Magnus R.; Stiefel, Eduard Journal of Research of the National Bureau of Standards, 49, 6, December 1952, pàg. 409. DOI: 10.6028/jres.049.044 [Consulta: free].
  2. On the Extension of the Davidon–Broyden Class of Rank One, Quasi-Newton Minimization Methods to an Infinite Dimensional Hilbert Space with Applications to Optimal Control Problems (PhD thesis) (tesi) (en anglès). PhD, 1971. 
  3. Speiser, Ambros. «Konrad Zuse und die ERMETH: Ein weltweiter Architektur-Vergleich». A: Hellige. Geschichten der Informatik. Visionen, Paradigmen, Leitmotive (en alemany). Berlin: Springer, 2004, p. 185. ISBN 3-540-00217-0. 
  4. Polyak, Boris. Introduction to Optimization (en anglès), 1987. 
  5. Greenbaum, Anne. Iterative Methods for Solving Linear Systems (en anglès), 1997. DOI 10.1137/1.9781611970937. ISBN 978-0-89871-396-1.