Você não é um gênio da matemática, então passa os dados para seu primo Fritz, que tem doutorado. Sua pergunta para o Fritz é simples: Quantos sanduíches você deve esperar vender a cada hora de um dia de semana?
Em pouco tempo, ele lhe diz algo inesperado. Os dados que você deu a ele não são vendas de sanduíches. Em vez disso, são dados falsos, derivados de um algoritmo destinado a mascarar fraudes em delicatessens. E ele pode provar isso.
Veja, se você pegar as vendas de dois dias – digamos, segunda e terça – e calcular a média dos valores, você pode criar um polinômio de sexta ordem que descreve o padrão por hora. O doutorado de Fritz permite que ele faça as contas sozinho, ele garante, mas ele passa adiante uma fórmula derivada do Excel. Aí está: a fórmula precisa para determinar quantos sanduíches (o valor y) você venderá a cada hora (o valor x). Isso é matemática, trabalho árduo, muito além da sua compreensão – mas preciso.
Mas espere! Se você pegar a mesma fórmula e compará-la com as vendas de cada dia da semana, algo alarmante acontece. A fórmula prevê muito bem o número de sanduíches que serão vendidos. Suspeitosamente Nós vamos. Se você olhar para o valor R da correlação entre as vendas a cada hora e compará-lo com a fórmula, você obtém números que são muito perto para 1, o que significa que é uma correlação perfeita. E em um sistema baseado em humanos como vendas de sanduíches, isso não deveria acontecer!
Abaixo, usamos a média para fazer o cálculo do valor R, mas você entendeu. Para cada dia, as vendas predicadas – aqui, a média – estão extremamente próximas de perfeitamente correlacionadas com as vendas reais. Ergo: isso poderia ser uma função apenas de um esforço baseado em computador para forjar dados de vendas.
Você acha isso surpreendente por vários motivos. A primeira é que você mesmo contabilizou as vendas, para saber se estão corretas. A segunda é que, mesmo se Fritz estivesse certo de que os números eram artificiais, por que ele presume que existe algum algoritmo de fraude deli por aí que é o responsável? A terceira é que, mesmo sem um PhD, você vê um problema com a análise de Fritz. Ele está comparando uma média derivada de dois dos valores com todos os cinco valores. Não parece óbvio que o resultado seria uma forte correlação?
A resposta, claro, é sim. Ficar surpreso com o fato de que as vendas de sanduíches ao longo do dia estão correlacionadas a uma média do número de sanduíches vendidos ao longo de dois dias é como ficar surpreso quando uma moeda dá cara na metade do tempo que você joga.
Ou, mais especificamente, como ficar surpreso que uma estimativa de comparecimento eleitoral com base em quatro condados em Michigan se correlaciona fortemente com a participação eleitoral em nove condados de Michigan – incluindo os quatro usados para gerar o “polinômio de sexto grau” (aquela fórmula complicada ) em primeiro lugar.
Isso, no entanto, é o que a análise de Douglas Frank, PhD, ofertas. A análise de Frank dos dados eleitorais em Michigan o levou a determinar com aparente autoridade que os resultados das eleições naquele estado foram fraudados, ajustados para corresponder à fórmula precisa que ele mesmo derivou dos resultados do estado. Alegações como a análise de Frank sobre Michigan ganharam a atenção do presidente-executivo do MyPillow, Mike Lindell, cujos esforços para provar que a fraude eleitoral ocorreu em 2020 o levou a levantar todos os tipos de alegações infundadas sobre a eleição presidencial do ano passado. A análise de Frank convenceu outros também, com a pesquisa conservadora Rasmussen Reports divulgando um relatório de suas alegações no fim de semana.
Rasmussen destacou uma parte diferente da avaliação de Frank, a ideia de que cerca de 66.000 eleitores de Michigan votaram na eleição do ano passado, mas não estavam nas listas eleitorais em outubro. Como Lenny Bronner do The Washington Post apontou rapidamente, Michigan tem registro de eleitor do mesmo dia, então esses 66.000 eleitores são quase certamente apenas pessoas que realmente não eram registrado em outubro, mas quem votou mesmo assim.
A empresa, que consistentemente mostrou dados de aprovação mais favoráveis para Donald Trump ao longo de sua presidência do que outras pesquisas, repetidamente elevado reclamações de fraude duvidosas e infundadas nos últimos meses. Isso está alinhado com uma mudança mais ampla em sua presença pública para ser mais agressivo com os críticos da mídia convencional. (No ano passado, me acusou de “republicar uma falsidade difamatória [and] cometer fraude ”por apontar que as pesquisas eleitorais gerais de 2018 mostraram que os republicanos uma vantagem de um ponto sobre os democratas em uma eleição em que os democratas ganharam mais votos nas disputas nacionais por uma margem de quase 10 pontos.) Respondendo ao tweet de Bronner, Rasmussen ofereceu o equivalente a um encolher de ombros “apenas fazendo perguntas”.
Deve saber melhor do que tomar a análise de Frank pelo valor de face. Afinal, trata-se de uma empresa de pesquisas, cujo negócio é a análise estatística. No entanto, lá estava ele, compartilhando as afirmações de Frank de forma acrítica.
Frank tem trabalhado com um advogado chamado Matthew DePerno, que compartilha gráficos da apresentação de Frank no Twitter com alguns comentários coloridos.
Então, o que esses gráficos mostram? O que nosso terceiro gráfico sanduíche mostra: que uma previsão de quantos votos seriam expressos em um condado de Michigan por idade, derivada do número de votos expressos em um condado de Michigan por idade, se correlaciona com o número de votos lançados em um condado de Michigan por idade. Frank acena muito, como aquela discrepância entre a lista de eleitores de outubro e os votos lançados e ao incluir comparações de estimativas populacionais do Census Bureau – que parecem ser médias de cinco anos da população de 2015 a 2019 – são menor do que o número de eleitores registrados em alguns lugares. (Frank aponta que isso pode ser uma função de listas de eleitores desatualizadas, mas ele não insiste nisso.)
O cerne de sua análise, porém, é a correlação do valor R entre sua participação prevista e a participação real. Como ele gerou sua previsão?
“O que eu realmente fiz foi calcular a média de quatro condados, os quatro maiores condados, e usei essa chave para prever todos os nove”, explica ele. Alguns segundos depois, ele se maravilha que “a precisão da minha previsão é ridiculamente boa. Não deveria ser tão bom. ”
Bem, deveria, porque você está prevendo dados com base nos próprios dados. Se isso não eram uma correlação muito próxima, é quando as coisas ficariam ruins.
A propósito, o fato de Frank estar usando um “polinômio de sexta ordem” não significa que ele está fazendo cálculos incrivelmente complicados. Significa apenas que ele está tentando ajustar sua previsão o mais próximo possível aos dados existentes, aumentando assim as correlações.
Ele nota que o ajuste entre sua previsão não é bastante perfeito.
“Existem alguns pequenos movimentos que não se alinham perfeitamente, mas isso não é incomum porque, afinal, estamos lidando com o comportamento humano”, diz Frank a certa altura. “Mas para que eu seja capaz de prever isso bem, você sabe que existe uma função de algoritmo.”
Há certas palavras que não posso usar ao escrever para o The Post, então vou descrever isso como “bobagem”. Em primeiro lugar, sua afirmação é que este não é comportamento humano, então ele não pode usar isso como uma racionalização. O desvio de sua previsão é uma função do uso de uma média de valores, nada mais. E, sim, você sabe que existe uma função de algoritmo: o que ele fez!
Até E se ele havia descoberto algum padrão estranho, o que, claro, não significa que tenha ocorrido fraude. Isso é conhecido como uma falácia ontológica: ele está presumindo que existe fraude e está usando essa suposta estranheza para apoiar essa suposição. Se houvesse algo estranho em seus dados, também se poderia supor que, digamos, os dados continham algum erro. Mas não foi isso que ele se propôs a provar.
Tudo isso pressupõe, é claro, que existem padrões de votação comuns por idade, da mesma forma que existem padrões comuns de ordenação em sanduíche em nosso exemplo inicial. (O que, aliás, era simplesmente aplicar uma pequena randomização a um padrão no Excel.) Mas sabemos que existem padrões comuns na forma como as pessoas votam, dependendo de sua idade. Seis anos atrás, escrevi sobre a curva de participação na Califórnia, criando um gráfico que não se parece totalmente com a “chave” de Frank. Não provei que as eleições na Califórnia foram crivadas de fraudes.
Muitas pessoas não saberão melhor do que entender as avaliações de Frank pelo que elas são. Parece que Lindell não, nem muitas outras pessoas que, como Frank, estão ansiosas para presumir que ocorreu alguma fraude. Rasmussen deveria e talvez faça, mas eles compartilharam a análise de qualquer maneira.
Ainda não há nenhuma evidência credível de que algo desfavorável tenha ocorrido nas eleições de 2020. Mesmo que a análise de Frank não fosse uma petição de princípio óbvia, não há evidências de qualquer esforço para fazer o tipo de manipulação que ele alega. É o equivalente matemático da prestidigitação, que visa mascarar um argumento vazio com complexidade.
Um bom show, mas fácil de explicar como um truque.
Copyright © The Washington Post. Todos os direitos Reservados!