Em 1886, o cientista russo, Vasily Vasili’evich Dokuchaev, postulou que:
“qualquer… solo é sempre e em qualquer lugar mera função dos seguintes fatores de formação: (1) a natureza (conteúdo e estrutura) da rocha parental; (2) o clima do terreno; (3) a massa e carácter da vegetação; (4) a idade do terreno; e, finalmente, (5) a topografia do terreno.”
Equação dos fatores de formação do solo – modelo CLORPT:
s = f(cl, o, r, p, t, …)
Resulta que (a) se os fatores mencionados são os mesmos em dois locais diferentes (por muito separados que estejam), os solos resultantes nos dois locais também devem ser similares, e vice-versa; em consequência, (b) se tivermos estudado a fundo esses fatores, podemos predizer de antemão como deveria ser o solo. (Florinsky (2012))
Existem duas fontes principais de dados do solo:
No Brasil, existem múltiplas fontes de dados legados do solo
A principal fonte de dados é o Repositório Brasileiro Livre para Dados Abertos do Solo (febr)
s = f(s, c, o, r, p, a, n)
(McBratney, Mendonça-Santos, and Minasny 2003)
O modelo SCORPAN possui dois elementos bastante diferentes do modelo CLORPT
s = f(s, c, o, r, p, a, n)
Vejamos dois exemplos!
Podemos pensar nas informações preexistentes do solo da seguinte maneira:
s’ = f(c’, o’, r’, p’, a’, n’)
s = f(c’, o’, r’, p’, a’, n’, c, o, r, p, a, n)
Temos um conjunto de n = 100 observações com coordenadas espaciais (latitude e longitude) e dados da variável do solo (argila) e das covariáveis espaciais (elevação e declividade)
observação | latitude | longitude | argila | elevacao | declividade |
---|---|---|---|---|---|
001 | -31,45 | -53,14 | 450 | 100 | 5 |
002 | -32,14 | -53,79 | 460 | 97 | 6 |
… | … | … | … | … | … |
100 | -33,78 | -52,99 | 350 | 10 | 1 |
Queremos saber o valor da variável do solo (argila) em três locais onde temos apenas dados das covariáveis espaciais (elevação e declividade)
observacao | latitude | longitude | argila | elevacao | declividade |
---|---|---|---|---|---|
101 | -31,46 | -53,24 | ? | 88 | 25 |
102 | -31,12 | -54,79 | ? | 102 | 4 |
103 | -31,88 | -54,15 | ? | 77 | 1 |
Para fazer isso, primeiro usamos os dados da tabela completa para construir (calibrar) um modelo (geo)estatístico. Com o modelo (geo)estatístico, predizemos o valor da variável do solo na tabela imcompleta.
No mapeamento digital do solo utilizamos modelos (geo)estatísticos para tratar a variação espacial do solo
\[Y(\boldsymbol{s}) = \mu(\boldsymbol{s}) + Z(\boldsymbol{s}) + \varepsilon(\boldsymbol{s})\]
Uma aspecto muito importante do MDS é sua capacidade de informar a incerteza sobre as predições
A incerteza advém do fato de estarmos “adivinhando” – predizendo – os valores das variáveis do solo sem coletar amostras do solo
O desvio padrão de uma variável é uma medida bastante conhecida
Aqui temos como exemplo uma variável com distribuição normal e representações de seu desvio padrão \(\sigma\)
Predições do conteúdo de argila na camada superficial do solo (esquerda) e o desvio padrão do erro dessas predições (direita) como medida de incerteza
O intervalo de predição é representado como uma faixa (faixa de valores mais prováveis de serem encontrados no campo) em torno do valor predito (valor mais provável de ser encontrado no campo)
Maior valor de probabilidade predita em um ponto de interesse
\[\varPi(\boldsymbol{s}) = \max\limits_{i \in k}(\hat{\pi}(y_i, \boldsymbol{s}))\]
Qual é o valor da pureza teórica?
\(Y(\boldsymbol{s})\) = \(p\)[LV] + \(p\)[NV] + \(p\)[RR] + \(p\)[GX] = 0,70 + 0,25 + 0,03 + 0,02 = 1,00
p <- c(0.70, 0.25, 0.03, 0.02) max(p)
## [1] 0.7
Maior valor de probabilidade predita em um ponto de interesse
Grau de “desordem” das predições
\[H(\boldsymbol{s}) = - \sum_{i = 1}^k \hat{\pi}(y_i, \boldsymbol{s})\log_k\hat{\pi}(y_i, \boldsymbol{s})\]
Qual é o valor da entropia de Shannon?
\(Y(\boldsymbol{s})\) = \(p\)[LV] + \(p\)[NV] + \(p\)[RR] + \(p\)[GX] = 0,70 + 0,25 + 0,03 + 0,02 = 1,00
p <- c(0.70, 0.25, 0.03, 0.02) -sum(p * log(p, base = length(p)))
## [1] 0.5624226
Grau de “desordem” das predições
Confusão entre as duas classes mais prováveis
\[CI(\boldsymbol{s}) = 1 - (\max\limits_{i \in k}(\hat{\pi}(y_i, \boldsymbol{s})) - \max\limits_{i \in k-1}(\hat{\pi}(y_i, \boldsymbol{s})))\]
Qual é o valor do índice de confusão?
\(Y(\boldsymbol{s})\) = \(p\)[LV] + \(p\)[NV] + \(p\)[RR] + \(p\)[GX] = 0,70 + 0,25 + 0,03 + 0,02 = 1,00
p <- c(0.70, 0.25, 0.03, 0.02) 1 - (max(p) - max(p[-which.max(p)]))
## [1] 0.55
Assim como a entropia, é uma medida da “desordem” das predições
perfil | latitude | longitude | argilaPred | argilaObs |
---|---|---|---|---|
101 | -31,46 | -53,24 | 542 | 530 |
102 | -31,12 | -54,79 | 345 | 360 |
103 | -31,88 | -54,15 | 652 | 648 |
Dividimos os dados em grupos. Alguns grupos são usados para calibrar o modelo. Um dos grupos é usado para validar o modelo. E assim sucessivamente, até usar todos os grupos em algum momento para validar o modelo.
A validação cruzada é usada quando temos pouca disponibilidade de recursos.
O mais apropriado é usar a validação externa: dados adicionais coletados especialmente para a validação do modelo
perfil | latitude | longitude | argilaPred | argilaObs |
---|---|---|---|---|
101 | -31,46 | -53,24 | 542 | 530 |
102 | -31,12 | -54,79 | 345 | 360 |
103 | -31,88 | -54,15 | 652 | 648 |
perfil | latitude | longitude | argilaPred | argilaObs |
---|---|---|---|---|
101 | -31,46 | -53,24 | 542 | 530 |
102 | -31,12 | -54,79 | 345 | 360 |
103 | -31,88 | -54,15 | 652 | 648 |
perfil | latitude | longitude | classPred | classeObs |
---|---|---|---|---|
101 | -31,46 | -53,24 | LV | NV |
102 | -31,12 | -54,79 | NV | LV |
103 | -31,88 | -54,15 | RR | RR |
perfil | latitude | longitude | classPred | classeObs |
---|---|---|---|---|
101 | -31,46 | -53,24 | LV | NV |
102 | -31,12 | -54,79 | NV | LV |
103 | -31,88 | -54,15 | RR | RR |
Florinsky, I. V. 2012. “The Dokuchaev Hypothesis as a Basis for Predictive Digital Soil Mapping (on the 125th Anniversary of Its Publication).” Eurasian Soil Science 45: 445–51. https://doi.org/10.1134/S1064229312040047.
Hastie, Trevor, Robert Tibshirani, and Jerome Friedman. 2009. The Elements of Statistical Learning. 2nd ed. New York: Springer.
Hengl, Tomislav, Jorge Mendes de Jesus, Robert A. MacMillan, Niels H. Batjes, Gerard B. M. Heuvelink, Eloi Ribeiro, Alessandro Samuel-Rosa, et al. 2014. “Soil Grids1km–Global Soil Information Based on Automated Mapping.” Edited by BenEditor Bond-Lamberty. PLoS ONE 9 (8): e105992. https://doi.org/10.1371/journal.pone.0105992.
Jenny, Hans. 1941. Factors of Soil Formation – a System of Quantitative Pedology. Toronto: Dover Publications.
McBratney, A. B., M. L. Mendonça-Santos, and B. Minasny. 2003. “On Digital Soil Mapping.” Geoderma 117: 3–52. https://doi.org/10.1016/S0016-7061(03)00223-4.
McKenzie, Neil J., and Philip J. Ryan. 1999. “Spatial Prediction of Soil Properties Using Environmental Correlation.” Geoderma 89: 67–94. https://doi.org/10.1016/S0016-7061(98)00137-2.
Samuel-Rosa, Alessandro. 2012. “Funções de Predição Espacial de Propriedades Do Solo.” Master’s thesis, Santa Maria: Programa de Pós-graduação em Ciência do Solo, Universidade Federal de Santa Maria; Federal University of Santa Maria. http://w3.ufsm.br/ppgcs/.
Samuel-Rosa, Alessandro, Gerard B M Heuvelink, Gustavo Mattos Vasques, and Lúcia Helena Cunha Anjos. 2015. “Do More Detailed Environmental Covariates Deliver More Accurate Soil Maps?” Geoderma 243–244 (May): 214–27. https://doi.org/10.1016/j.geoderma.2014.12.017.