Eneas De Troya
Epidemia de gripe afetou Cidade do México em abril de 2009
O uso de ferramentas sociais – redes como Twitter ou buscadores como o Google – para prever o comportamento das massas está se desenvolvendo cada vez mais nos dias de hoje. Começou como uma série de experiências no âmbito acadêmico, mas essas ferramentas já estão sendo utilizadas por várias empresas e órgãos com o objetivo de aproveitar todo o conhecimento do big data: milhões de internautas fazendo a mesma coisa ao mesmo tempo têm que significar alguma coisa. O problema é calibrar, ajustar o que verdadeiramente significa uma avalanche de tuítes ou de buscas em um sentido, em um momento, em um lugar. A última ferramenta a somar-se à festa dos dados sociais foi a Wikipedia, depois que pesquisadores da Escola de Medicina de Harvard determinaram que seu uso é capaz de prever com precisão, em tempo real, a chegada dos vírus da gripe aos EUA.
Dado que a enciclopédia online está muito presente nas nossas vidas, parece lógico pensar que determinados picos ou tendências de uso podem supor que quando o rio ecoa, água leva. Não por acaso, a Wikipedia já é a primeira fonte de informação médica entre pacientes e os próprios trabalhadores da área de saúde. Se em um determinado dia as buscas sobre uma doença contagiosa disparam consideravelmente, isso deve supor que há uma epidemia em gestação.
Leia mais: O que os cientistas fazem nas sextas à noite
Os pesquisadores David McIver e John Brownstein centraram-se nas visitas que receberam 35 entradas da Wikipedia em inglês relacionadas com a gripe: desde “resfriado comum” até “febre”, passando por todas as variedades do vírus conhecidas (H1N1, H5N1 etc.) e remédios como o Tamiflu. Recolheram informações de 294 semanas, em que, em média, foram realizadas pelo menos 30 mil consultas diárias, com picos de 334 mil visitas. Ao cruzar esses dados com as estatísticas dos Centros para o Controle e a Prevenção de Doenças dos Estados Unidos (CDC), descobriram que podiam prever com precisão o número de casos de gripe com uma diferença de apenas 0,27% em relação aos dados oficiais.
E, o mais importante, podiam oferecer esses dados quase em tempo real: duas semanas antes do que as autoridades médicas, que levam todo esse tempo para elaborar suas previsões a partir de seus próprios sistemas de informação. Isso porque a Wikipedia permite que sejam consultadas as estatísticas de uso de cada entrada, atualizando-as diariamente, o que oferece uma infinidade de dados aos pesquisadores que queiram usá-los.
“A principal vantagem dos dados da Wikipedia é que são completamente abertos e para todos, porque qualquer pessoa pode criar seus próprios modelos ou melhorar o nosso”, explica David McIver, referindo-se ao Google Flu Trends (GFT), a ferramenta que o buscador desenvolveu para prever os sintomas da grupe e que gerou um intenso debate acadêmico logo após começar a falhar. Os dados que o Google usa são conhecidos somente pelo próprio Google, e os dados usados pela Wikipedia são de livre acesso, o que permite fazer ciência com eles: reutilizá-los quantas vezes for necessário para replicar os resultados ou melhorar as avaliações de outros.
Leia mais: Nem tudo é verdade
NULL
NULL
Um dos pontos frágeis do GFT era que ele se mostrava muito sensível para a influência da mídia: as buscas relacionadas com a gripe não são unicamente pessoais, mas também influenciadas pelo tsunami informativo, como no caso de pandemias mundiais que ocupam portais de notícias e telejornais. “Nosso modelo provou que durante os momentos de grande atenção midiática, como a pandemia da gripe suína H1N1, os 35 artigos da Wikipedia que estudamos foram muito mais bem-sucedidos na hora de calcular de forma precisa as afecções da gripe nesses momentos”, assegura McIver.
Até agora, as buscas na Wikipedia serviram para muitos tipos de previsões, como por exemplo inferir os líderes de bilheteria através da medição da atividade no verbete de um determinado filme logo antes da estreia. No entanto, no caso da gripe, há um dado importante: não se pode localizar geograficamente a incidência da doença. O Google não tornava públicos seus dados, mas sabemos que a empresa usa os endereços IP dos computadores dos usuários para realizar previsões específicas por países e regiões.
Leia mais: Jornalismo robotizado
Se muitos usuários consultam o artigo em alemão na Wikipedia de um filme prestes a estrear, podemos supor que será bem-sucedido na Alemanha. Porém, quando se trata de idiomas muito mais compartilhados pelo mundo, como o inglês, ou o espanhol, as previsões se complicam. Os pesquisadores de Harvard reconhecem abertamente que esse é um fator importante, e ainda assim conseguiram que seu modelo da gripe funcionasse, apesar de 59% das consultas em inglês serem realizadas fora dos Estados Unidos (11% delas no Reino Unido).
As fragilidades da Wikipedia
Por esse motivo, já foram realizadas com relativo sucesso diferentes experiências usando o Twitter, rede social que permite geolocalizar as mensagens, para prever epidemias em tempo real em lugares concretos ao fazer o acompanhamento de expressões como “medicina”, “febre” ou “tosse”.
Por outro lado, os artigos da Wikipedia não se livram da influência da agenda informativa: em uma sexta-feira, com a notícia da morte do treinador de futebol espanhol Tito Vilanova, as consultas de “parótida” (glândula que estava afetada com câncer) multiplicaram-se por mais de cem em relação à média diária habitual. Logicamente, um pico de visitas como esse nem sempre vai ter importância epidemiológica: por isso, não se pode contar com os dados dessa ferramenta (ou de qualquer outra) de forma isolada, mas no conjunto de todas as que forem acessíveis.
“O uso de dados de redes sociais ou de outros sites para fazer estimativas ou previsões ainda é uma ciência que está na sua infância”, reconhece McIver. E acrescenta: “Acreditamos que esse tipo de dado representa uma grande promessa devido ao seu tamanho, profundidade e ubiquidade, porém ainda estamos criando modelos na medida em que desenvolvemos a disciplina.”
Segundo o epidemiologista, as previsões sobre saúde pública ou doenças utilizando esses tipos de dados devem ser usadas junto a fontes tradicionais de vigilância, como os dados dos CDCs ou da Organização Mundial de Saúde: “Não estão desenvolvidos para substituí-los. O objetivo é encontrar uma forma de unir essas diferentes fontes de dados para obter a imagem mais precisa e pontual da saúde pública que podemos conseguir”.
Tradução: Mary-Jô Zilveti
Matéria original publicada em Materia, site espanhol que publica artigos e reportagens sobre ciência e tecnologia.