Lista de termos estatísticos usados em pesquisas (parte 1)

O blog Journalist’s Resource (de Harvard) publicou recentemente termos de estatística usados em pesquisas, uma espécie de cartilha para jornalistas. Quem precisa escrever reportagens baseadas em estudos que apresentam números, dados e planilhas, normalmente encontra também uma avalanche de termos como “inferência estatística”, “viés de seleção” e “margem de erro”. O significado de alguns deles podem ser facilmente deduzidos, mas realmente sabemos o que eles significam? Se você não tem certeza, prossiga.
Sabemos que um curso de estatística é algo valioso, mas é algo que raramente está no topo das nossas prioridades. Contudo, é vital que tenhamos conhecimento além dos resumos dessas pesquisas. Temos que entender os métodos e conceitos que formam a base fundamental dos estudos acadêmicos para podermos julgar com o melhor de nossa capacidade os méritos daquilo que servirá de pilar para nossas reportagens. Não foi à toa que José Roberto de Toledo, um dos precursores e guru de RAC (Reportagem com Auxílio de Computador) no Brasil, sugeriu a leitura, tradução e arquivamento da cartilha. Pois bem, aqui vai uma mãozinha.
De acordo com o texto escrito por Leighton W. Klein, a maioria dos estudos tenta estabelecer uma correlação entre duas variáveis – por exemplo: Como os níveis de educação podem estar associados às taxas de criminalidade? A detecção dessa relação é, contudo, apenas o primeiro passo. O objetivo máximo é determinar a causalidade: como uma das duas variáveis (causa) é consequência da outra (efeito). Uma frase que devemos lembrar sempre é que “correlação não implica em causalidade”. Klein argumenta que a sentença pode ser utilmente remediada se dissermos: “Correlação não implica necessariamente em causalidade”. Isso porque a natureza da relação entre as variáveis precisa ser determinada.
Existem também estudos que exploram dados obtidos por meio da observação (chamados de estatística descritiva) ou que usam esses dados observados para prever a verdade em áreas que vão além dos dados (estatística inferencial). A afirmação: “Entre 2000 e 2005, 70% da área desmatada na Amazônia e registrada pelo governo brasileiro foi transformada em pasto” é uma estatística descritiva. “Conseguir um diploma universitário aumenta os ganhos na vida de uma pessoa em 50%” é uma estatística inferencial.
Segue uma tradução livre de uma parte da lista de conceitos estatísticos compilada pelo Journalist’s Resource e que jornalistas, estudantes ou profissionais, deveriam manter para consulta:

  • Uma amostra é uma porção de uma população inteira. A estatística inferencial procura fazer previsões sobre uma população baseadas em resultados observados em uma amostra dessa população.
  • Existem dois tipos básicos de amostras de população: aleatória e estratificada. Uma amostragem aleatória possui indivíduos escolhidos absolutamente por acaso, enquanto que a amostragem estratificada é construída para imitar as características da população em sentido amplo (sexo, idade ou etnia, por exemplo).
  • A tentativa de extrapolar os resultados de uma amostra para uma população é chamada de generalização. Isso pode ser feito apenas quando a amostra representa significativamente a população inteira.
  • Quando generalizamos os resultados temos que levar em consideração a flutuação amostral. Mesmo que a amostra selecionada seja completamente aleatória, existe um grau de variabilidade dentro da população. Por isso, os resultados de uma amostragem deverão incluir uma margem de erro. Por exemplo, os resultados de uma enquete de eleitores poderia apresentar a margem de erro em porcentagem: “47% dos entrevistados disse que votaria a favor da medida, com uma margem de erro de 3 pontos percentuais”. Ou seja, se a votação de verdade resultasse em 44% ou 50%, a previsão da pesquisa seria acertada dentro dos limites da margem de erro.
  • Quanto maior a amostragem, mais representativa ela tende a ser em relação à população como um todo. Assim, a margem de erro diminui e o nível de confiança aumenta.
  • Quando fazemos inferências sobre uma população, começamos com uma suposição que esperamos provar ou refutar chamada hipótese nula. A probabilidade de se obter uma amostra com resultados tão diferentes dessa hipótese quanto os observados na amostragem recebe o nome de valor p. Com ele, podemos rejeitar (ou não) a hipótese nula de acordo com os resultados da amostra obtida durante a pesquisa.

É isso. O próximo post vai completar a lista!