
Por Agenor Gasparetto
Média amostral (X, se lê X barra), é uma variável aleatória, função dos valores da amostra, é definida como a soma de todos os valores da amostra dividido pelo número de observações. Ela é aleatória, por que nunca podemos saber antecipadamente, que elementos populacionais serão selecionados naquela amostra; por essa razão, ela tem uma função de probabilidade que nos permite estimar as chances de nossas estimativas estarem certas. Serve para estimar a média populacional.
Proporção amostral ( p se lê p barra), é uma variável aleatória, função dos valores da amostra, é definida como o cociente resultante entre o número de casos favoráveis e o número de casos possíveis na amostra. Serve para estimar a proporção populacional.
Estimativa (ou Estimativa pontual) é o valor que a estatística toma em uma amostra determinada.
Erro de estimação é a diferença entre o verdadeiro valor do parâmetro e o valor calculado a partir do dados de uma amostra. Este depende diretamente do grau de dispersão (variabilidade) da variável em estudo e inversamente ao tamanho da amostra. Usualmente, trabalha-se em pesquisas eleitorais com erro amostral da ordem de 5%. Esse erro concilia custos e precisão.
Intervalo de confiança é um intervalo centrado na estimava pontual, cuja probabilidade de conter o verdadeiro valor do parâmetro é igual ao nível de confiança. Em pesquisas eleitorais, trabalha-se, via de regra, com um intervalo da ordem de 95%.
a é a probabilidade de erro na estimação por intervalo.
(1 – a) Nível de confiança é a probabilidade de que o Intervalo de Confiança contenha o verdadeiro valor do parâmetro.
Hipóteses. Uma hipótese é um enunciado formal das relações esperadas entre pelo menos uma variável independente e uma variável dependente. Nas pesquisas exploratórias, as hipóteses podem se tornar questões de pesquisa. Estas questões pela sua especificidade, devem dar testemunho do trabalho conceitual efetuado pelo pesquisador e, pela sua clareza, permitir uma resposta interpretável. Numa pesquisa eleitoral, espera-se que pertencer a uma classe ou outra influi no comportamento eleitoral.
Hipótese alternativa (H1). As hipóteses de uma pesquisa devem enunciar-se por propostas claras e específicas quanto possível, via de regra, é o que você quer mostrar. O trabalho dos assessores assenta-se em hipóteses, por exemplo, se o candidato fizer isso ou disser aquilo terá as essas ou aquelas conseqüências em intenções de voto. Ou ainda, o quadro de intenções de voto mudará com o programa gratuito de propaganda nas rádios e televisão.
Hipótese nula (Ho). A hipótese nula é a negação da hipótese alternativa, por isso, via de regra, você sempre torce para que ela seja rejeitada, como no caso seguinte: “a propaganda na televisão não exercerá influência sobre os eleitores”. Está é a hipótese que esta sendo testada por qualquer teste estatístico.
A se tomar uma decisão estatística, existem duas possibilidades de erro: o Erro de tipo I: rejeitar a hipótese nula (Ho), quando ela é verdadeira e, o Erro de tipo II: aceitar a hipótese nula (Ho), quando ela é falsa. Infelizmente, quando a probabilidade de um diminui, a probabilidade de cometer o outro aumenta, assim os testes estatísticos foram delineados para controlar o erro de tipo I, chamado de nível de significância.
Nível de significância (a) é definida como a probabilidade de cometer o erro de tipo I, ou seja, rejeitar a hipótese nula (Ho), quando ela é verdadeira. Por exemplo:
Ho: a propaganda na rádio e na televisão não interferem na opinião dos eleitores (rxy = 0)
H1: a propaganda na rádio e na televisão interferem na opinião dos eleitores. (rxy ¹ 0)
a = é a probabilidade de Rejeitar Ho, quando ela é verdadeira, neste caso, seria a probabilidade de afirmar que a propaganda na televisão e nas rádios interferem na opinião dos eleitores, quando na realidade não existe nenhuma relação. Ou seja, o eleitor já tinha tomado a decisão antes da propaganda e a ela ficou indiferente.
Este erro é controlado pelo pesquisador, e é ele que define a margem de erro que está disposto a correr. Existem vários fatores que influenciam a escolha do nível de significância. Em pesquisas onde os instrumentos de medida das variáveis, o controle de fatores intervenientes, etc. possibilitam um maior rigor, e portanto um nível de significância menor. Contudo, em pesquisas, nas ciências humanas, que lida com pessoas, com construtos polêmicos, instrumentos ainda não testados, etc., pode-se ser mais flexível. Via de regra, usa-se o nível de 5%.
p-valor, é a probabilidade de cometer o erro de tipo I (rejeitar Ho quando ela é verdadeira), com os dados de uma amostra específica. Este valor é dado pelo pacote estatístico, assim o comparamos com o nível de significância escolhido e tomamos a decisão. Se o p-valor for menor que o nível de significância escolhido rejeitamos Ho, caso contrário, aceitamos Ho.
Normal. Uma variável quantitativa segue uma distribuição normal, se sua distribuição de freqüências tem o formato similar ao de um sino, ou seja a maioria dos valores se concentram em torno da média, e a medida que se afasta do centro as observações são cada vez mais raras. Essa distribuição e simétrica. Muitas variáveis tem essa distribuição, tais como altura das pessoas adultas do sexo masculino, coeficiente de inteligência, etc. Para examinar visualmente, você pode fazer o histograma como a curva ajustada, o SPSS faz isso. O teste que checa a normalidade de uma variável é o teste de Lilliefors, que se encontra no comando EXPLORE do SPSS. A hipótese nula é que a variável segue uma distribuição normal, por isso você espera aceitar Ho, e espera que o p-valor seja maior do que o nível de significância especificado por você.
O pressuposto de normalidade é chave para toda a estatística paramétrica, por essa razão devemos sempre deve checar a validade do mesmo. Contudo, quando sua amostra for suficientemente grande (n > 30), dependendo do formato da distribuição, o Teorema Central do Limite garante a convergência da média amostral para a normalidade, veja a página 197 do livro de Estatística Básica de Moretin e Bussab.
O pressuposto de independência é chave para a maioria das estatísticas. Isto significa que o resultado de uma observação não interfere no resultado de outra observação. Por exemplo, a nota de um aluno, não interfere na nota de um outro aluno. Já esse pressuposto é quebrado para amostras relacionadas, como por exemplo, passar uma prova antes de uma intervenção e a mesma prova (ou outra) depois da intervenção, essas duas medidas, são correlacionadas, logo deve-se utilizar o teste para dados emparelhadas, ou ANOVA com medidas repetidas. Logo, cuidado com os estudos longitudinais, onde se acompanha os mesmos sujeitos em vários momentos.
Homocedasticidade ou igualdade de variâncias, este pressuposto exige que o nível de dispersão da variável dentro dos grupos seja similar. O SPSS automaticamente testa esta hipótese: Ho: s1 = s2 = s3 = s4, através do teste de Levene.
Matriz de covariância, é uma matriz quadrada, simétrica, cuja diagonal contém a variância da variável e em cada interseção linha (i) coluna (j) a covariância das variáveis Xi e Xj.
Matriz de correlação, é uma matriz quadrada, simétrica, cuja diagonal é formada pela unidade, pois trata-se da correlação da variável com ela mesma, e em cada interseção linha (i) coluna (j) a correlação das variáveis Xi e Xj.
Esfericidade. O teste de esfericidade checa se a matriz de correlação é igual a matriz identidade, ou seja, na diagonal formados por uns e zeros nas outras medidas.
Multicolinearidade. Este é um pressuposto importante na análise de regressão múltipla, pois se uma variável independente for uma combinação linear de outras variáveis independentes, coloca em risco toda a análise.
Graus de liberdade é um conceito ligado ao número de dados disponíveis (livres) para o cálculo da estatística. Por exemplo, ao estimarmos a média populacional, com a média amostral perdemos um grau de liberdade, assim a estatística t-student terá n-1 graus de liberdade. No caso da Tabela de ANOVA, os graus de liberdade do grupo será igual ao número de grupos menos 1, os graus de liberdade total será igual a n-1 e os graus de liberdade do resíduo, a diferença entre esses dois.
Células, quando utilizamos modelos mais complexos com duas ou mais variáveis independentes, como no caso de ANOVA com dois fatores:
Outliers, são valores que superam em uma vez e meia a amplitude interquartílica (quartil 3 menos quartil 1). Valores extremos quando superam três vezes essa amplitude.