Capítulo 1 Estrutura e tipo de dados

A estatística descritiva se utiliza de métodos para resumir e evidenciar as informações relevantes de um conjunto de dados. Em grande parte, a apresentação destas informações passa pela construção de gráficos e tabelas apropriados a diferentes tipos de dados, além do cálculo de descritores que resumem algumas características das variáveis envolvidas (ex. média aritmética, desvio padrão, frequência relativa, padrões de correlação). Iremos discutir cada um destes tópicos nesta seção e veremos que de modo geral, a forma de apresentação depende da natureza dos dados envolvidos e da relação que estabelecemos entre eles.

Neste capítulo iremos tratar da estrutura de um conjunto de dados e dos tipos de variáveis mais comuns. Considere a tabela abaixo, construída a partir do livro Biocenoses em Reservatórios: padrões espaciais e temporais (Rodrigues et al. 2005) que apresenta informações sobre 31 reservatórios do estado do Paraná.

Reservatorio Bacia Fechamento Area Trofia pH Condutividade Alcalinidade P.total Riqueza CPUE
Cavernoso Iguacu 1965 2.90 Oligotrófico 7.4 33.1 139.80 7.8 18 9.22
Curucaca Iguacu 1982 2.00 Oligotrófico 7.0 32.4 125.70 4.7 16 28.73
Foz do Areia Iguacu 1980 139.00 Oligotrófico 7.3 35.5 97.00 14.3 19 11.59
Irai Iguacu 2000 15.00 Eutrófico 6.9 50.2 3.30 53.4 12 30.76
JMF Iguacu 1970 0.45 Mesotrófico 7.3 40.2 3.70 41.2 18 5.95
Jordao Iguacu 1996 3.40 Oligotrófico 7.1 23.7 152.70 3.3 17 7.75
Passauna Iguacu 1978 14.00 Oligotrófico 8.8 125.6 526.00 15.2 11 7.51
Piraquara Iguacu 1979 3.30 Oligotrófico 7.1 22.8 50.67 4.5 8 4.01
Salto Caxias Iguacu 1998 124.00 Oligotrófico 7.3 39.6 106.00 12.1 21 20.83
Salto do Vau Iguacu 1959 2.90 Oligotrófico 6.5 23.2 279.00 11.0 8 2.43
Salto Osorio Iguacu 1975 51.00 Oligotrófico 8.6 38.9 233.30 3.4 24 12.55
Salto Santiago Iguacu 1979 208.00 Oligotrófico 9.2 39.5 117.60 13.1 21 11.73
Segredo Iguacu 1992 82.50 Oligotrófico 7.0 34.5 165.20 6.4 22 13.72
Mourao Ivai 1964 11.30 Oligotrófico 8.1 23.3 56.55 7.1 15 16.50
Patos Ivai NA 1.30 Mesotrófico 6.9 46.0 180.10 39.2 10 4.71
Guaricana Litoranea 1957 7.00 Oligotrófico 7.4 27.9 83.72 12.4 12 7.95
Parigot Souza Litoranea 1970 12.00 Oligotrófico 7.7 63.6 259.20 16.9 12 13.12
Salto do Meio Litoranea NA 0.10 Oligotrófico 6.9 37.4 147.10 17.1 11 16.10
Vossoroca Litoranea 1949 5.10 Mesotrófico 7.3 39.8 156.00 21.9 14 11.74
Canoas I Paranapanema 1999 30.85 Oligotrófico 7.4 63.3 234.90 9.9 35 17.95
Canoas II Paranapanema 1992 22.50 Oligotrófico 7.8 61.2 NA 9.0 40 13.86
Capivara Paranapanema 1975 419.30 Oligotrófico 7.5 58.6 196.00 5.5 34 13.04
Chavantes Paranapanema 1970 400.00 Oligotrófico 7.6 57.8 211.80 7.8 23 7.35
Rosana Paranapanema 1986 220.00 NA 7.7 58.2 202.40 NA 30 20.92
Salto Grande Paranapanema 1958 12.00 Oligotrófico 7.1 62.3 230.10 10.3 24 13.67
Taquarucu Paranapanema 1989 80.10 Oligotrófico 7.9 57.0 191.80 4.5 33 21.82
Melissa Piriqui 1962 0.10 Eutrófico 6.8 34.0 68.37 66.9 12 6.29
Santa Maria Piriqui NA 0.07 Oligotrófico 6.8 41.7 480.10 14.9 7 9.40
Alagados Tibagi 1909 7.20 Oligotrófico 7.6 41.7 172.20 19.9 7 5.60
Apucaraninha Tibagi 1958 NA NA NA NA NA NA 10 2.05
Harmonia Tibagi NA NA Oligotrófico 8.3 31.0 113.30 8.6 7 24.88

A tabela é formada por 31 linhas referentes a cada reservatório e 11 colunas em que constam informações sobre cada reservatório, sendo elas:

Reservatorio: nome do reservatório;

Bacia: bacia hidrográfica (Iguacu, Ivai, Litoranea, Paranapanema, Piriqui, Tibagi);

Fechamento: ano de formação do reservatório;

Area: área em \(km^2\);

Trofia: grau de trofia (Eutrófico, Mesotrófico, Oligotrófico);

pH: pH;

Condutividade: condutividade;

Alcalinidade: alcalinidade;

P.total: fósforo total;

Riqueza: número de espécies de peixes encontrada;

CPUE: captura (kg) por unidade de esforço;

1.1 Unidades amostrais e descritores

Esta tabela está organizada em um formato muito específico em que cada linha representa uma unidade amostral (UA) e cada coluna representa uma variável (VA) que descreve determinada característica desta observação. Ao longo desta apostila veremos diversos conjuntos de dados, todos eles organizados neste formato.

ID VA 1 VA 2 VA 3 VA 4 VA 5 VA 6 VA 7
UA 1
UA 2
UA 3
UA 4
UA 5
UA 6
UA 7
UA 8
UA 9
UA 10

Em nosso exemplo, cada unidade amostral é um reservatório que é descrito pelas variáveis dispostas nas colunas. O reservatório de Cavernoso por exemplo faz parte da bacia do rio Iguacu, foi formado no ano de 1965, tem área de 2.9 \(km^2\), pH igual a 7.4 e assim por diante.

Valores faltantes: algumas células da tabela estão preenchidas por NA. Isto significa que a informação naquela célula não foi mensurada e que temos um dado faltante. Você deve ter muito cuidado ao lidar com este tipo de situação. Se uma linha contém muitas células sem informação, é prudente excluir esta observação das análises. Se por outro lado, uma coluna apresenta muitos valores faltantes, talvez seja prudente excluir a variável das análises. Se você não deseja ou não pode excluir a linha ou a coluna existem métodos de preenchimento de dados faltantes. No entanto, ao optar por algum destes métodos, você deve ter ter claro quais serão os efeitos de inserir uma informação à tabela de dados que efetivamente não foi mensurada.

1.2 Tipos de dados

Uma tabela de dados pode ser composta por variáveis quantitativas ou qualitativas.

1.2.1 Variáveis qualitativas

São variáveis não-numéricas como categorias ou rótulos. Dentre as variáveis qualitativas temos aquelas do tipo categóricas não-ordenadas e do tipo categóricas ordenadas.

Variável categórica não-ordenada: Em nossa tabela, a variável Bacia classifica um reservatório como pertencente a uma determinada bacia hidrográfica. Os níveis da variável Bacia são: Iguacu, Ivai, Litoranea, Paranapanema, Piriqui, Tibagi. A variável é do tipo categórica não-ordenada pois estes níveis não possuem qualquer relação de ordenação natural entre si.

Variável categórica ordenada: a variável Trofia ordena os reserrvatórios como função da quantidade de nutrientes em Oligotrófico < Mesotrófico < Eutrófico. Ainda que os níveis possam ser ordenados, não é possível atribuir diferenças numéricas entre eles, fazendo desta uma variável qualotativa.

1.2.2 Variáveis quantitativas

São variáveis numéricas que também podem ser sub-divididas em dois grupos: discretas e contínuas.

Variáveis quantitativas discretas: envolvem quantias enumeráveis como a contagem de barcos que saem para pescar em um determinado dia, o número de peixes de um cardume. Em nosso exemplo, a variável Riqueza é quantitativa discreta pois expressa o número de espécies de peixes encontradas em cada reservatório. Este é um número inteiro que pode assumir valor mínimo igual a 0 (nenhuma espécie) e em teoria, não tem limite superior (ainda que neste exemplo, o número máximo encontrados seja de 40 espécies).

Variáveis quantitativas contínuas: envolvem quantias não-enumeráveis como a vazão em \(m^3/seg\) que verte de uma cachoeira, o volume de chuva em um determinado dia, altura da maré ou a velocidade do vento. O limite de precisão que utilizamos para representá-las depende basicamente da capacidade de mensuração dos aparelhos disponíveis. Em nosso exemplo, temos diversas variáveis deste tipo como pH, Condutividade, Fosforo_total.

Sempre é possível transformar variáveis quantitativas em qualitativas. Se temos a variável comprimento de peixes desembarcados dada em centímetros (variável quantitativa), é possível expressá-la de forma categórica em peixes grandes e pequenos (variável qualitativa). Por outro lado, se tivermos somente a informação de que um peixe é grande ou pequeno, não podemos recuperar as quantias numéricas originais.

1.3 Níveis de mensuração

Uma outra forma de organizar variáveis pode ser em função dos níveis de mensuração nominal, ordinal, intervalar e razão.

Nível nominal: é característico de variáveis que possuem níveis não ordenaveis. Ex. cor, grupo taxonômico, nomes de cidades, etc.

Nível ordinal: é aquele em que os níveis podem ser ordenados, embora não seja possível quantificar as diferenças entre dois níveis. Ex. i - Ordem de chegada de maratonistas em uma competição (\(1^o\), \(2^o\), \(3^o\),…). ii - Condição de saneamento das cidades (ótimo, bom, ruim, péssimo). iii - Condição de saneamento das praias da baixada santista (próprio, imprórpio). No nível ordinal podemos ordenar os elementos porém não podemos quantificar as diferenças entre eles.

Nível intervalar: é aquele em que além ser possível ordenar, é possível quantificar as diferenças entre duas observações. No entanto, não há um ponto inicial natural, ou seja, um ponto zero que indique ausência da quantia. Ex. i – Temperatura: \(0^oC\) não indica ausência de temperatura, assim como \(10^oC\) não é duas vezes mais quente que \(5^oC\). Essas características são somente uma convenção relacionada à escala de mensuração da temperatura. ii - Ano do calendário: o ano zero é uma convenção do calendário, não significa ausência de tempo.

Nível de razão: é como o intervalar, porém existe um ponto zero natural. Peso igual a 0 kg indica ausência de peso e dez quilogramas é duas vezes mais pesado que 5 kg. O mesmo vale para comprimento, distância, velocidade, número de ovos.

A depender do nível de mensuração, algumas operações matemáticas podem ou não fazer sentido. Por exemplo, se uma espécie tem \(N_A = 100\) indivíduos na região A e \(N_B = 200\) na região B, a segunda região é duas vezes mais populosa pois \(\frac{N_B}{N_A} = 2\). Por outro lado, se a temperatura na região A é de \(T_A = 10^oC\) enquanto na B é de \(T_B = 20^oC\) não faz sentido fazer \(\frac{T_B}{T_A} = 2\) e dizer que B seja duas vezes mais quente que A. Ainda que matematicamente a operação seja possível nos dois exemplos, no último sua interpretação física não tem sentido.

Tipos de dados vs níveis de mensuração: existe uma relação entre tipo de dados e nível de mensuração. Os níveis nominal e ordinal de mensuração se referem a variáveis qualitativas não-ordenadas e qualitativas ordenadas respectivamente. Já os níveis intervalar e razão se referem a variáveis quantitativos, podendo ser discretas ou contínuas.

References

Rodrigues, Liliana, Sidinei Magela Thomaz, Angelo Antonio Agostinho, and Luiz Carlos Gomes. 2005. Biocenoses Em Reservatórios: Padrões Espaciais e Temporais. Rima.