Modelo computacional usa inteligência artificial para prever novos casos de Covid-19
Trabalho, premiado em congresso internacional, foi desenvolvido durante curso da UFSCar
- Data: 23/11/2020 11:11
- Alterado: 23/11/2020 11:11
- Autor: Redação
- Fonte: UFSCar
Lilian Biasi
Crédito:Divulgação/@extrae.fea.unicamp
Um trabalho desenvolvido no escopo do curso “Análise e visualização de dados do Coronavírus”, oferecido pela Universidade Federal de São Carlos (UFSCar), desenvolveu um modelo computacional capaz de prever, utilizando inteligência artificial, o número de novos casos de Covid-19 no Brasil. A ferramenta pode ser útil, por exemplo, no caso de falta de testes ou de divulgação de dados pelo governo ou pela mídia.
“Neste trabalho, eu usei os dados do Google Trends para algumas palavras correlacionadas ao novo Coronavírus. Então, treinei o computador, usando aprendizado de máquina – inteligência artificial -, para que com base no volume de pesquisa de determinadas palavras no Google, ele fosse capaz de predizer o número de novos casos de Covid-19 no Brasil”, sintetiza Lilian Caroline Kramer Biasi, que é pós-doutoranda no Laboratório de Engenharia de Sistema Complexos (Lesc) da Faculdade de Engenharia Química (FEQ) da Universidade Estadual de Campinas (Unicamp).
Segundo a pesquisadora, “existem diferentes métodos para se treinar um computador, conhecidos como algoritmos de aprendizagem de máquina, tais como o modelo de florestas aleatórias – utilizado neste trabalho -, as redes neurais artificiais etc. Em geral, o que acontece é que em uma primeira etapa o computador aprende o comportamento dos dados de entrada para gerar uma saída desejada. Nessa etapa, fornecemos tanto os dados de entrada, quanto a saída desejada; o computador então aprende como correlacionar ambos”.
Para desenvolver o modelo, a estudante analisou a tendência do número de buscas por determinados termos no Google em 2020 utilizando a ferramenta Google Trends. Dessa pesquisa ela selecionou termos pelos quais as buscas foram intensificadas durante a pandemia – como “álcool”, “máscaras”, “coronavírus” etc.
Após a identificação dos termos, a pesquisadora implementou um algoritmo de aprendizado de máquina usando o modelo de regressão de florestas aleatórias (em Inglês “Randon Forest Regression”). “Esse modelo cria, na etapa de treino, diversas árvores de decisão, correlacionando os dados de entrada com a saída desejável. No presente estudo, o dado de saída foi o número de novos casos de Covid-19 no Brasil e os dados de entrada foram o interesse ao longo do tempo por determinados termos no Google”, detalha. Os termos selecionados para a pesquisa foram: “covid”, “coronavírus”, “corona”, “álcool” (representando álcool em gel), “máscara”, “febre”, “desemprego”, “suicídio”.
“De forma simplificada, o computador é treinado para entender como as pesquisas no Google se correlacionam com o número de novos casos de Covid-19, utilizando dados disponíveis. Após o treino, fornecemos ao computador o índice de pesquisas no Google pelos termos selecionados de um determinado dia e ele retorna o número de casos de Covid-19 daquele dia”, explica Biasi. Com isso, foi possível avaliar quais tendências de busca melhoravam ou pioravam o ajuste selecionando os termos com maior correlação com o número de novos casos de Covid-19 no Brasil. “Esses termos foram utilizados como dados de entrada para o treinamento do computador. Após essa etapa, o computador é capaz de avaliar novos índices de pesquisa no Google prevendo o número de novos casos de Covid-19 no Brasil”, conclui.
Biasi afirma que a pandemia afeta o comportamento das pessoas e, nesse contexto, notou um considerável aumento na busca por palavras diretamente e indiretamente correlacionadas ao vírus e por métodos de prevenção. As palavras com menor correlação com as demais foram “desemprego” e “suicídio”, enquanto os termos “corona” e “coronavírus”, no contexto de pandemia, puderam ser consideradas sinônimos. “Essas pesquisas podem estar relacionadas à maior curiosidade da população pela busca por sintomas ou por termos decorrentes do efeito prolongado da quarentena. Essa mudança comportamental foi usada para treinar o computador para que ele fosse capaz de aprender com esses dados, identificar padrões e tomar decisões devolvendo o número de novos casos naquele dia”, diz.
Segundo a autora, o estudo também mostra, indiretamente, que o monitoramento das buscas na Internet por diferentes termos pode identificar e monitorar novas doenças infecciosas, como a Covid-19. “Essas informações podem permitir uma melhor preparação e planejamento dos sistemas de saúde. Enquanto desenvolvia esse trabalho, notei que essa ferramenta já foi utilizada anteriormente para monitorar, por exemplo, infecções pelo vírus Zika, a dengue ou influenzas (google.org/flutrends)”, conta Biasi, que participou do curso da UFSCar, oferecido na modalidade de Atividade Curricular de Integração Ensino, Pesquisa e Extensão (Aciepe).
“Eu já tinha vontade de utilizar o aprendizado de máquina na previsão de novos casos de Covid-19 no Brasil. No entanto, estava enfrentando certa dificuldade em selecionar os dados corretos para esse desenvolvimento”, conta a autora do estudo. No curso “Análise e visualização de dados do Coronavírus no R”, do qual Biasi foi aluna, foram apresentadas ferramentas para monitoramento de dados referentes ao Coronavírus na linguagem R. O Google Trends (trends.google.com.br) foi uma dessas ferramentas apresentadas pela coordenadora do curso, a professora Andreza Palma, do Departamento de Economia (DEc-So) do Campus Sorocaba da UFSCar.
Premiação
O trabalho intitulado “Estimation of New COVID-19 Cases in Brazil Using Google Search Data” recebeu o prêmio de melhor uso de dados públicos, durante apresentação no 2020 Ken Kennedy Institute Data Science Conference. A conferência é uma reunião de pesquisa, desenvolvimento e inovação, entre universidades, laboratórios de pesquisa e indústrias que buscam oportunidades e avanços em inteligência artificial (IA), análise de dados, aprendizado de máquina e aprendizado profundo.
O trabalho completo pode ser acessado na página do evento () ou diretamente no YouTube (). O projeto teve financiamento parcial da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (Capes).