Otimização/O problema de mínimos quadrados

Este tipo de problema é muito frequente em ciências experimentais. Para ter um exemplo em mente durante a discussão que será feita mais adiante, considere as seguintes informações:

Segundo dados disponibilizados pelo IBGE, o Produto Interno Bruto per capita na cidade de São Paulo, no período de 2002 a 2005, foi (em reais): 17734, 19669, 20943 e 24083, respectivamente.

Com base nessas informações, como poderia ser feita uma previsão do valor correspondente ao ano seguinte (2006)?

Uma escolha possível seria supor que a cada ano o PIB aumenta uma aproximadamente constante, ou seja, usar um modelo linear para obter tal estimativa (que possivelmente será bem grosseira). Intuitivamente, bastaria analisar os dados disponíveis e a partir deles deduzir qual é o aumento que ocorre a cada ano. Depois, a previsão para 2006 seria aproximadamente igual à de 2005 somada com aquele aumento anual.

Esta idéia poderia até funcionar para o caso deste exemplo, mas o que fazer se a quantidade de dados disponíveis sobre algum fenômeno (ou alguma situação) for significativamente maior?

A melhor escolha, sem dúvida, é fazer uso de um computador para obter o modelo que melhor descreve o "comportamento" dos dados experimentais.

Em geral, os problemas de mínimos quadrados consistem em identificar os valores de determinados parâmetros, de modo que se satisfaçam certas equações $h_{i} (x) = 0, i = 1, \dots, p$ . No contexto do exemplo anterior, se procura um modelo linear para os dados, ou seja, uma função $y = m x + n$ que os descreva da melhor forma possível. Assim, os parâmetros a considerar são $m$ e $n$ . Os valores ideais para essas variáveis seriam aqueles que verificassem as seguintes equações:

{\begin{matrix} 2002 m + n & = & 17734 \\ 2003 m + n & = & 19669 \\ 2004 m + n & = & 20943 \\ 2005 m + n & = & 24083 \end{matrix}

Note que a partir dessas equações poderiam ser definidas as funções $h_{i}$ como:

h_{1} (m, n) = 2002 m + n - 17734

h_{2} (m, n) = 2003 m + n - 19669

h_{3} (m, n) = 2004 m + n - 20943

h_{4} (m, n) = 2005 m + n - 24083

É de se esperar que o sistema de equações obtido a pouco não admitirá uma solução exata, pois se tem mais equações do que variáveis.

Isso geralmente acontece, pois é comum haver uma quantidade $p$ de equações bem maior que o número $n$ de parâmetros a identificar. Em particular, quando todas as equações $h_{i}$ são lineares em suas $n$ variáveis, dificilmente existirá uma solução exata para o sistema linear resultante, pois este terá mais equações do que incógnitas (como no exemplo). Em geral, não é possível encontrar parâmetros que satisfaçam exatamente todas as equações. Por isso, costuma-se tentar identificar os parâmetros que "melhor se aproximam" de uma solução exata, em algum sentido.

Uma forma de obter uma solução aproximada (uma "quase-solução") resulta da seguinte observação: o valor de cada função $h_{i}$ em uma solução exata $x$ deveria ser zero. Se tal exigência é restritiva demais, e com ela não é possível encontrar qualquer solução, uma possibilidade seria exigir um pouco menos. Por exemplo, poderia ser exigido apenas que o valor de $h_{i}$ , para $i = 1, \dots, p$ seja, em geral, pequeno. Uma das formas de capturar essa idéia em termos mais precisos é dizer que se pretende minimizar a soma dos quadrados dos valores de cada $h_{i}$ . Em símbolos, o problema passaria a ser:

\min_{x \in ℝ^{n}} \sum_{i = 1}^{p} {[h_{i} (x)]}^{2}

O caso linear

Neste caso, para cada índice $i = 1, \dots, p$ , a função $h_{i}$ é afim linear, ou seja:

h_{i} : ℝ^{n} \mapsto ℝ

h_{i} (x) = a_{i}^{⊤} x + b_{i}

onde $a_{i} \in ℝ^{n}$ e $b_{i} \in ℝ$ para cada $i = 1, \dots, p$ . Deste modo, pode-se definir uma função $H$ como

H : ℝ^{n} \mapsto ℝ^{p}

de modo que

H (x) = [\begin{matrix} h_{1} (x) \\ ⋮ \\ h_{p} (x) \end{matrix}] = [\begin{matrix} a_{1}^{⊤} x + b_{1} \\ ⋮ \\ a_{p}^{⊤} x + b_{p} \end{matrix}] = [\begin{matrix} a_{1}^{⊤} \\ ⋮ \\ a_{p}^{⊤} \end{matrix}] x + [\begin{matrix} b_{1} \\ ⋮ \\ b_{p} \end{matrix}]

Motivando a introdução da seguinte notação:

A = [\begin{matrix} a_{1}^{⊤} \\ ⋮ \\ a_{p}^{⊤} \end{matrix}], b = [\begin{matrix} b_{1} \\ ⋮ \\ b_{p} \end{matrix}]

Assim,

H (x) = A x + b

Logo, buscar uma solução exata é o mesmo que procurar uma solução para o seguinte sistema linear:

A x = - b

E uma solução aproximada poderia ser buscada a partir do seguinte problema de minimização:

\min_{x \in ℝ^{n}} \frac{1}{2} ‖ A x + b ‖^{2}

Predefinição:Exercício Predefinição:Resolução

Analisando a função objetivo do problema de minimização anterior, tem-se:

f (x) = \frac{1}{2} ‖ A x + b ‖^{2} = \frac{1}{2} ⟨ A x + b, A x + b ⟩ = \frac{1}{2} x^{⊤} A^{⊤} A x + b^{⊤} A x + \frac{1}{2} b^{⊤} b

Logo, como $B = A^{⊤} A$ é simétrica e semi-definida positiva, tem-se $f$ convexa. Isso implica que a condição necessária de primeira ordem é também suficiente. Assim, qualquer ponto $x \in ℝ^{n}$ tal que $\nabla f (x) = 0$ é solução do problema aproximado.

Calculando o gradiente da função objetivo tem-se:

0 = \nabla f (x) = A^{⊤} A x + A^{⊤} b

Deste modo, a solução do problema é obtida resolvendo o sistema

A^{⊤} A x = - A^{⊤} b

Observe também que isso implica $A^{⊤} (A x + b) = 0$ , ou seja, $A x + b \in \ker (A^{⊤})$ .

Exemplo de aplicação

Considere dado um conjunto de pontos do plano $ℝ^{2}$ , por exemplo ${(x_{i}, y_{i})}_{i = 1}^{p}$ , representando dados obtidos experimentalmente.

Perguntas:

1. Qual é a função afim linear que melhor se aproxima dos dados experimentais?

Predefinição:Resolução

2. Qual é a função quadrática que melhor se aproxima dos dados experimentais?

Predefinição:Resolução

Predefinição:Exercício Predefinição:Resolução

Observações

Conforme se aumenta o grau do polinômio que faz a aproximação dos dados, as colunas de $A$ têm elementos elevados a potências cada vez maiores, fazendo com que os autovalores de $A^{⊤} A$ sejam cada vez mais dispersos. Com isso, $A^{⊤} A$ torna-se mal condicionada.

Predefinição:Exercício Predefinição:Resolução

O caso não linear

Para esse tipo de problemas, há dois métodos:

Gauss-Newton
Levemberg-Marquardt

Ambos são métodos do tipo Newton. Então, para entender cada um deles é preciso entender o Método de Newton.

O método de Newton

Para entender a essência do método de Newton, primeiro considere que o problema a ser resolvido é

(P) {\begin{matrix} \min f (x) \\ x \in ℝ^{n} \end{matrix}

sendo $h_{j} : ℝ^{n} \to ℝ$ , e portanto $f = \frac{1}{2} \sum_{j = 1}^{p} [h_{j}]^{2}$ de classe $𝒞^{2} (ℝ^{n})$ . A idéia de Newton é usar o desenvolvimento até segunda ordem da série de Taylor da função $f$ em cada ponto iterado. Isto é, se o iterado é $\bar{x}$ , então:

Q (x) = f (\bar{x}) + \nabla f (\bar{x})^{⊤} (x - \bar{x}) + \frac{1}{2} (x - \bar{x}) \nabla^{2} f (\bar{x}) (x - \bar{x})

Então a condição de Newton é que em cada iteração a Hessiana $\nabla^{2} f$ deve ser definida positiva.

Calculando o gradiente da função $Q$ , segue:

\nabla Q (x) = \nabla f (\bar{x}) + \nabla^{2} f (\bar{x}) (x - \bar{x})

Se $x^{*}$ é o (único) minimizador de $Q$ , então

0 = \nabla Q (x^{*}) = \nabla f (\bar{x}) + \nabla^{2} f (\bar{x}) (x^{*} - \bar{x})

donde

\nabla^{2} f (\bar{x}) (x^{*} - \bar{x}) = - \nabla f (\bar{x})

Sendo $\nabla^{2} f$ definida positiva, tal matriz é também inversível. Portanto:

x^{*} = \bar{x} - {[\nabla^{2} f (\bar{x})]}^{- 1} \nabla f (\bar{x})

Assim, pode-se usar a seguinte iteração:

x_{k + 1} = x_{k} - {[\nabla^{2} f (x_{k})]}^{- 1} \nabla f (x_{k})

Algoritmo de Newton (puro)

Início: Tome  $x_{0} \in ℝ^{n}$ 
  Se  $\nabla f (x_{0}) = 0$ , pare:  $x_{0}$  é ponto crítico.
  Senão, Calcule  $d_{0}$ , solução de
     $\nabla^{2} f (x_{0}) d_{0} = - \nabla f (x_{0})$ 
    Faça  $x_{1} = x_{0} + d_{0}$  e  $k = 1$ 
Iteração: Se  $\nabla f (x_{k}) = 0$ , pare:  $x_{k}$  é ponto crítico.
  Senão, calcular  $d_{k}$ , solução de
     $\nabla^{2} f (x_{k}) d_{k} = - \nabla f (x_{k})$ 
    Faça  $x_{k + 1} = x_{k} + d_{k}$  e  $k = k + 1$

Voltando ao problema original, de mínimos quadrados, se tinha:

f (x) = \frac{1}{2} \sum_{i = 1}^{p} {[h_{i} (x)]}^{2}

Calculando o gradiente desta função, resulta:

\nabla f (x) = \sum_{i = 1}^{p} h_{i} (x) \nabla h_{i} (x)

Considera-se $H : ℝ^{n} \mapsto ℝ^{p}$ definida por

H (x) = [\begin{matrix} h_{1} (x) \\ ⋮ \\ h_{p} (x) \end{matrix}]

Deste modo, a Jacobiana de $H$ verifica:

\nabla f (x) = [J_{H} (x)] H (x)

pois o produto de uma matriz por um vetor tem como resultado um vetor que é a combinação linear das colunas da matriz, com coeficientes que são as coordenadas do vetor.

Além disso, tem-se

\nabla^{2} f (x) = \sum_{i = 1}^{p} h_{i} (x) \nabla^{2} h_{i} (x) + \sum_{i = 1}^{p} \nabla h_{i} (x) \nabla h_{i} (x)^{⊤}

Seja

B (x) = \sum_{i = 1}^{p} \nabla h_{i} (x) \nabla h_{i} (x)^{⊤} = J_{H} (x) J_{H} (x)^{⊤}

Sabe-se que uma matriz $D$ é definida positiva se $x^{t} D x > 0$ para qualquer $x = 0$ . Fazendo $D = \nabla h_{i} (x) \nabla h_{i} (x)^{⊤}$ , tem-se:

x^{⊤} \nabla h_{i} (x) \nabla h_{i} (x)^{⊤} x = {[\nabla h_{i} (x)^{⊤} x]}^{2} \geq 0

Para que $D$ seja definida positiva, é necessário que $S_{P} (\nabla h_{i} (x)) = ℝ^{n}$ ( deve gerar todo o espaço), neste caso, se diz que $J_{H} (x)$ é de posto máximo.

Algoritmo de Gauss-Newton

Início: Tome  $x_{0} \in ℝ^{n}$ 
  Se  $\nabla f (x_{0}) = 0$ , pare:  $x_{0}$  é ponto crítico.
  Senão, Calcule  $d_{0}$ , solução de
     $B (x_{0}) d_{0} = - \nabla f (x_{0})$ , onde  $B (x) = \sum_{i = 1}^{p} \nabla h_{i} (x) \nabla h_{i} (x)^{⊤}$ 
    Faça  $x_{1} = x_{0} + d_{0}$  e  $k = 1$ 
Iteração: Se  $\nabla f (x_{k}) = 0$ , pare:  $x_{k}$  é ponto crítico.
  Senão, calcular  $d_{k}$ , solução de
     $B (x_{k}) d_{k} = - \nabla f (x_{k})$ 
    Faça  $x_{k + 1} = x_{k} + d_{k}$  e  $k = k + 1$

Algoritmo de Levemberg-Marquardt

A idéia de Levemberg-Marquardt foi perturbar a matriz $B (x)$ , considerando $B (x) + ρ I$ , para algum $ρ > 0$ pequeno.

Início: Tome  $x_{0} \in ℝ^{n}$ 
  Se  $\nabla f (x_{0}) = 0$ , pare:  $x_{0}$  é ponto crítico.
  Senão, Calcule  $d_{0}$ , solução de
     $(B (x_{0}) + ρ I) d_{0} = - \nabla f (x_{0})$ , onde  $B (x) = \sum_{i = 1}^{p} \nabla h_{i} (x) \nabla h_{i} (x)^{⊤}$ 
    Faça  $x_{1} = x_{0} + d_{0}$  e  $k = 1$ 
Iteração: Se  $\nabla f (x_{k}) = 0$ , pare:  $x_{k}$  é ponto crítico.
  Senão, calcular  $d_{k}$ , solução de
     $(B (x_{0}) + ρ I) d_{k} = - \nabla f (x_{k})$ 
    Faça  $x_{k + 1} = x_{k} + d_{k}$  e  $k = k + 1$

Predefinição:Exercício Predefinição:Resolução

Predefinição:AutoCat

Otimização/O problema de mínimos quadrados

Índice

O caso linear

Exemplo de aplicação

O caso não linear

O método de Newton

Algoritmo de Newton (puro)

Algoritmo de Gauss-Newton

Algoritmo de Levemberg-Marquardt

Menu de navegação

Otimização/O problema de mínimos quadrados

O caso linear

Exemplo de aplicação

O caso não linear

O método de Newton

Algoritmo de Newton (puro)

Algoritmo de Gauss-Newton

Algoritmo de Levemberg-Marquardt

Menu de navegação

Pesquisa