Skip to content

Check-up

O que é o Check-up?

O Check-up é uma ferramenta avançada de extração automatizada de conteúdo jornalístico desenvolvida pela comunidade EH-FAKE para combater a desinformação no cenário digital brasileiro. Este projeto representa uma evolução significativa de uma solução originalmente criada pelo Aos Fatos, uma das principais organizações de fact-checking do Brasil.

🎯 Propósito e Missão

Em um mundo onde a desinformação se espalha rapidamente através das redes sociais e portais de notícias, o Check-up surge como uma resposta tecnológica para democratizar o acesso à informação jornalística de qualidade e facilitar a análise sistemática de conteúdo noticioso.

O projeto tem como missão principal:

  • Coletar automaticamente notícias de múltiplos portais brasileiros
  • Extrair e estruturar o conteúdo completo das matérias jornalísticas
  • Disponibilizar dados organizados para análise de padrões informativos
  • Facilitar a identificação de possíveis casos de desinformação
  • Apoiar pesquisadores e fact-checkers com dados estruturados e acessíveis

🔄 Evolução do Projeto

Origem: Aos Fatos

O Check-up nasceu como uma adaptação de uma ferramenta desenvolvida pela organização Aos Fatos, reconhecida nacionalmente por seu trabalho de verificação de fatos e combate às fake news.

Transformação pela EH-FAKE

A comunidade EH-FAKE reimaginou e expandiu significativamente o escopo da ferramenta:

  • Antes: Focava na análise de anúncios publicitários para identificar propagandas enganosas
  • Agora: Concentra-se na extração completa de conteúdo jornalístico para análise abrangente de desinformação

🏗️ Como Funciona

O Check-up opera através de uma arquitetura de duas camadas que trabalham em sinergia:

1. Camada de Coleta (Spiders)

Utiliza web crawlers inteligentes baseados na biblioteca Scrapy para:

  • Navegar automaticamente nas páginas iniciais dos portais de notícias
  • Identificar e coletar URLs de artigos jornalísticos
  • Filtrar conteúdo relevante, ignorando seções como entretenimento ou publicidade
  • Armazenar sistematicamente as URLs coletadas em banco de dados

2. Camada de Extração (Plays)

Emprega web scrapers sofisticados utilizando Playwright para:

  • Acessar individualmente cada URL coletada
  • Simular navegação humana para contornar proteções anti-bot
  • Extrair conteúdo estruturado de cada notícia
  • Organizar e armazenar dados em formato padronizado

📊 Dados Extraídos

Para cada notícia processada, o sistema captura:

  • 📰 Título: Manchete principal da matéria
  • 📝 Descrição: Subtítulo, linha fina ou resumo editorial
  • 📖 Corpo: Texto completo da reportagem
  • 🏷️ Tags: Categorias, assuntos e etiquetas de classificação
  • 🌐 Metadados: Portal de origem, data de coleta, URL original

🎯 Portais Monitorados

O projeto atualmente monitora 8 portais brasileiros principais:

Totalmente Funcionais:

  • Metrópoles - Portal de notícias do Distrito Federal
  • IG - Portal de notícias generalistas
  • MaisGoiás - Notícias regionais de Goiás
  • AliadosBrasil - Portal de notícias políticas
  • Veja - Revista semanal de informação
  • R7 - Portal de notícias da Record
  • UOL - Universo Online, um dos maiores portais do Brasil
  • Folha - Folha de S.Paulo, jornal de referência nacional

Em Desenvolvimento:

  • Estadão, Globo, RBS, Terra (em fase de implementação)

🛠️ Tecnologias Utilizadas

O Check-up é construído com tecnologias modernas e robustas:

  • Backend: Python com FastAPI
  • Frontend: React com Vite
  • Banco de Dados: PostgreSQL
  • Armazenamento: MinIO (S3-compatible)
  • Web Scraping: Scrapy + Playwright
  • Containerização: Docker e Docker Compose
  • Automação: Makefile para workflows

🌟 Diferenciais do Projeto

Escalabilidade

  • Arquitetura preparada para adicionar novos portais facilmente
  • Sistema de filas para processamento eficiente
  • Infraestrutura containerizada para deploy flexível

Robustez

  • Tratamento inteligente de erros e timeouts
  • Sistema de retry automático
  • Logs detalhados para monitoramento

Acessibilidade

  • Interface web intuitiva para visualização
  • API REST para integração com outras ferramentas
  • Documentação completa para desenvolvedores

🎓 Impacto Educacional e Social

O Check-up não é apenas uma ferramenta técnica, mas um instrumento de democratização da informação que:

  • Facilita pesquisas acadêmicas sobre padrões jornalísticos
  • Apoia organizações de fact-checking com dados estruturados
  • Promove transparência no ecossistema informativo brasileiro
  • Educa desenvolvedores sobre técnicas avançadas de web scraping
  • Fomenta colaboração entre comunidades tech e jornalismo

🚀 Futuro do Projeto

A comunidade EH-FAKE continua expandindo o Check-up com planos para:

  • Integração com mais portais regionais e nacionais
  • Implementação de análise de sentimentos
  • Desenvolvimento de dashboards de análise
  • Criação de APIs públicas para pesquisadores
  • Estabelecimento de parcerias com organizações de mídia

O Check-up representa um exemplo concreto de como a tecnologia pode ser utilizada para fortalecer a democracia e combater a desinformação, fornecendo ferramentas acessíveis e transparentes para quem busca compreender melhor o panorama informativo brasileiro.