TAMANHO DA AMOSTRA: FÓRMULAS SIMPLIFICADAS DE CÁLCULO

26/12/2010

 

Por Maurício Costa Romão

O Erro Amostral

Todas as estimativas realizadas a partir de amostras contêm erro, já que se está fazendo inferências para toda a população (universo), utilizando apenas uma parte dessa população.

Como o erro pode ser calculado, cabe aos interessados nos resultados e na qualidade da pesquisa definir qual é a magnitude tolerável desse erro para o levantamento que se quer empreender. Esse é o passo inicial básico para se chegar ao tamanho da amostra.

No caso das pesquisas eleitorais, essa determinação sobre o erro máximo admissível que a amostra deve conter é feita em comum acordo por cliente e instituto de pesquisa. Os interessados já têm uma informação importante sobre esse processo e que vai balizar suas decisões: a relação negativa entre tamanho da amostra e erro amostral.

Com efeito, como o erro amostral máximo tolerável representa, pode-se dizer, o quanto os envolvidos na pesquisa “admitem errar” na estimação do parâmetro populacional, então quanto menor “o erro que se quer cometer”, maior deverá ser o tamanho da amostra para se atender a esse requisito adicional de precisão. Maior tamanho da amostra, por seu turno, implica em mais tempo de trabalho de campo, em custos mais elevados etc.

Em resumo, se se quer mais precisão, conseqüentemente menor erro, há que se aumentar o tamanho da amostra. Se, ao contrário, o erro máximo tolerável é admitido ser maior, o tamanho da amostra necessária para fornecer estimativas aos pesquisadores é menor.

A fórmula básica de cálculo

Considere a seguinte expressão, que estabelece uma primeira relação entre erro e tamanho da amostra:

n = Z²p(1-p) / ɛ²;     [1]

Em que:

n = tamanho da amostra;

Z = nível de confiança escolhido, expresso em número de desvios- padrão;

p = proporção do evento na população (proporção conhecida previamente, em que 0 ‹ p ‹ 1);

(1-p) = complemento de p;

ɛ = erro amostral.

O nível de confiança Z expressa, estatisticamente, os desvios-padrão em relação à média. Numa curva normal, velha conhecida dos compêndios estatísticos, a média fica exatamente no centro da curva, dividindo-a em duas partes iguais. Quando, a partir da média, se calcula um desvio-padrão para a direita e um desvio-padrão para a esquerda, a área compreendida entre esses devios-padrão corresponde a aproximadamente 68%.

 Se, ao invés de um, são dois os desvios-padrão distantes da média, então a área entre eles é de aproximadamente 95% (mais precisamente, 95,45%). Este é o nível de confiança mais usado nas pesquisas eleitorais. Considerando agora três desvios-padrão, a área passa a ser de aproximadamente 99% (que, de fato, é uma área de 99,73%).

Quanto à proporção p, imagine, por exemplo, que se saiba de pesquisa anterior que a proporção de votantes que ganha acima de cinco salários mínimos é de 10%, em uma dada comunidade. Portanto, tem-se a proporção conhecida p = 0,10 e, por conseguinte, 1-p = 0,90.

Estipule-se ainda que o nível de confiança para essa proporção seja de 95% (que equivale mais precisamente a 1,96 desvios-padrão, a partir da média, na curva normal) e que a margem de erro tolerável seja de 2,5% (ɛ = 0,025). De acordo com [1], o tamanho da amostra a ser pesquisado é então:

n =  Z²p(1-p)/ ɛ²

n = (1,96)² . 0,10 (0,90) / (0,025)²

n = 553.

A fórmula simplificada

Nas pesquisas eleitorais normalmente não se trabalha com essa proporção p conhecida na população. Então, faz-se uso de uma simplificação: admite-se que a proporção de um determinado evento que produz maior variabilidade populacional é quando p = 0,5.

Por exemplo: metade da população que dirige, fuma enquanto está dirigindo, ao passo que a outra metade, não. Ou então, 50% dos eleitores são analfabetos; os outros 50%, não. Assim, atribuindo-se a p o valor de 0,5, as proporções p ou 1-p deixam de ser predominantes. Nessas circunstâncias, a variância do evento na população é a máxima possível.

Fazendo, então, p = 0,5, a fórmula [1] passa a ser a seguinte;

n = Z²p(1-p) / ɛ²

n = Z² . 0,5 (0,5) / ɛ²

n = Z² . 0,025 / ɛ²

n = Z² / 4ɛ²      [2]

Esta última é uma das fórmulas simplificadas mais utilizadas nas pesquisas de intenção de voto para a determinação do tamanho da amostra, a partir da definição de um dado erro amostral (e vice-versa). Assim como em [1], note-se que a relação entre as duas variáveis em [2] continua a depender do nível de confiança Z.  A expressão [2] pode ser mais simplificada ainda, conforme se verá mais adiante, tornando-se uma “regra de bolso”.

É importante ilustrar a aplicação da fórmula [2] através de exemplo concreto referente à campanha presidencial de 2010.

O Instituto Sensus fez quatro levantamentos nacionais de pesquisas de intenção de votos para presidente no segundo turno da eleição passada. No primeiro levantamento, cujo trabalho de campo se realizou entre 11 e 13 de outubro, o Instituto informou ter operado com uma margem de erro de 2,2% e com um nível de confiança de 95%, e fez entrevistas com 2.000 de eleitores.

 

                                            

Então: Z = 1,96; ɛ = 0,022.

n = Z² / 4ɛ²

n = (1,96)² / 4(0,022)²

n = 1.985.

O número de entrevistas realizado pelo instituto foi de 2.000, um pouco maior que o achado através da fórmula, o que se deve às simplificações realizadas. Os estatísticos dos institutos aplicam fórmulas mais elaboradas.

A Regra de Bolso

A fórmula [2] pode ser ainda mais simplificada para o cálculo do tamanho da amostra, a partir de certo erro amostral, quando se sabe que o nível de confiança atribuído foi de 95%. De fato:

n = Z² / 4ɛ² e Z = 1,96;

n = (1,96)² / 4ɛ²

Considerando que (1,96)² é aproximadamente igual a 4, então:

n = 1/ɛ²           [3]

Assim a determinação do tamanho da amostra, de forma rápida e menos rigorosa, resume-se a calcular o inverso do quadrado do erro amostral. A aproximação dada pela fórmula [3] é razoável apenas para o nível de confiança de 95%.

Observe-se, entretanto, que a mensuração correta da área sob a curva normal correspondente a dois desvios-padrão à esquerda da média e a dois desvios-padrão à direita, é de 95,45%. Neste caso, então, Z = 2,00 e, conseqüentemente, Z² = 4. Com mais razão ainda n = 1/ɛ².

4 Comentários
Gilvan

FOI A MELHOR EXPLICAÇÃO SOBRE PESQUISA QUE VI ATÉ HOJE,PARABENS GILVAN

Julio

Muito bem explicado! segue apenas uma observação na formula simplificada. n = Z²p(1-p) / ɛ² n = Z² . 0,5 (0,5) / ɛ² n = Z² . 0,25 / ɛ² n = Z² / 4ɛ² [2]

Jorge Guedes

Muito boa aplicação! Seria interessante complementar-se com os cálculos sobre as margens e os intervalos de confiança, a partir do desvio padrão, nível de importância e tamanho da amostra, para vermos os valores de cada candidato, pois pode haver limites que se conjugam e tornam o processo eleitoral fascinante!

PH

Finalmente entendi. E é simples. Não entendo porque todo professor e livro tenta fazer com que isso seja extremamente complicado. Obrigada!

Deixe seu comentário
Sobre o autor

Maurício Costa Romão é Master e Ph.D. em economia pela Universidade de Illinois, nos Estados Unidos, sendo autor de livros e de publicações em periódicos nacionais e internacionais...

continue lendo >> Maurício Romão

Copyright © 2012 Maurício Romão. Todos os direitos reservados.

Desenvolvimento: 4 Comunicação