Relatório Final
Resumo por Sprint¶
Sprint 0 (02/09 – 10/09)¶
- Foco total em ambientação: criação do repositório interno (PR#2, PR#4), definição de guia/código de conduta e registro dos diários.
- Dificultada persistente: vários membros ainda enfrentavam falhas de Docker/Playwright ao final da sprint.
Sprint 1 (15/09 – 24/09)¶
- Prioridades: primeiros scrapers (Globo, Terra, Brasil de Fato, Agência Pública) e fortalecimento do fluxo de GCES (Issue#22, Issue#30; PR#21, PR#24, PR#28, PR#29).
- Destaques: PR#33/PR#36 (Globo/Terra) e PR#39/PR#40 (Brasil de Fato/Agência Pública). PR#41. FrontEnd PR#25, consolidou o relatório.
- Pendente: PR#39 permaneceu em revisão por falta de disponibilidade de parte da equipe.
Sprint 2 (29/09 – 08/10)¶
- Prioridades: estabilizar scrapers existentes (PR#38, PR#49) e concluir Jornal de Brasília (Issue#50 / PR#53) enquanto novos portais (Congresso em Foco, Agora no Vale) ganhavam forma.
- Destaques: correção de build (PR#44), spider/play Cada Minuto (fe58f798/55ac5f5a), FrontEnd PR#46 e início do portal Agora no Vale (PR#55).
- Pendente: Issue#51 (Congresso em Foco) seguiu em validação, assim como a Issue#45 sobre documentação de segurança.
Sprint 3 (09/10 – 22/10)¶
- Prioridades: centralizar documentação (Issue#63/PR#62), definir framework de testes (issue interna / PR#23) e expandir portais (PR#64/PR#65/PR#88) e front-end (PR#58/PR#60).
- Destaques: merge da branch
documentation, criação do board público de PRs e finalização do portal Congresso em Foco (PR#66). - Pendente: suíte automatizada ainda não concluída; PR#39 e ajustes de plays continuaram aguardando re-reviews.
Sprint 4 (23/10 – 19/11)¶
- Prioridades: novos portais (Cidade Verde, Faxaju, Agência Brasil, Agência Gov, Carta Capital, UAI, Imirante) e robustez operacional (Issue#85/PR#86).
- Destaques: PR#80/PR#82 (Cidade Verde/Faxaju), PR#69/PR#70 (Agência Brasil/Gov), PR#39 (Brasil de Fato), PR#88/PR#90 (Carta Capital), PR#90 (Imirante/UAI no fork), PR#72/PR#74 (front-end) e correções finais do PR#53. Documentação e planejamento de testes automatizados PR#22.
Métricas individuais¶
| Integrante | Commits | PRs/MRs | Principais entregas |
|---|---|---|---|
| Alana | 30 | #33, #36, #55, #80, #82 | Scrapers dos portais Globo, Terra, Agora no Vale, Cidade Verde e Faxaju; Revisões de PR's; Relização dos relatórios das sprints |
| Ana Catarina | |||
| Carlos | 25 | #38, #49, #91 | Scraper do portal RBS; Correção da instalação do Playwright e Firefox; Desenvolvimento de testes para scrapers e monitoramento de funcionamento de scraper. |
| Daniel | 15 | #29, #24, #28, #62, #34, #36 | Templates de Issues e CI/CD para automação; Centralização da documentação; Scrapers para Cada Minuto, O Imirante e Portal UAI (multi-domínio); Correções de bugs de configuração de ambiente; Melhorias de GCES. |
| Eduardo | 10 | #53, #62 | Implementação completa do Web Scrapping para o Jornal de Brasília (Spider e Play); Centralização e organização da documentação do projeto. |
| Felipe | 20 | #16, #23, #39, #40 | Ambientação inicial, configuração do ambiente e execução dos primeiros scrapers; Implementação dos scrapers dos portais Brasil de Fato; Criação e acompanhamento de PRs do scraper; Ajustes e testes no CI/CD; Documentação completa do framework de testes; Definição de melhorias e padronização da área de testes; Implementação inicial de testes automatizados para scrapers. |
| Gabriel | 20 | #31, #43, #84, #86 | Documentação de GCES com pre-commit e templates de issues/PRs; Correção do scrapper Estadão e robustez de múltiplos scrapers; Monitoramento automatizado (PR#84) e versionamento CSS com fallback automático; Rate limiting e circuit breaker (PR#86) |
| Lua | 8 | #40, #39 | Organização e revisão da documentação interna; participação na consolidação dos relatórios das sprints; apoio na padronização de templates e boas práticas de contribuição; testes manuais e validação de scrapers em desenvolvimento; colaboração no front-end com ajustes visuais e revisão de conteúdo. |
| Luciano | |||
| Mateus Levy | 3 | #64, #65, Commit, Commit, Commit | Desenvolvimento e correção do scraper Poder360; Criação do scraper Jornal da Paraíba |
| Pedro Ferreira | |||
| Pedro Silva | 5 | PR#44, Issue#45, PR#88, PR#90 | Desenvolvimento de scrappers do Portal Polêmica Paraíba e do jornal Carta Capital e criação de issue para melhora do fluxo GCES do projeto |
| Vinicius | 10 | #25, #46, #58, #60, #72, #74 | Melhorias significativas em funcionalidades do site, como: tags das notícias populares, aba de favoritos, tempo de leitura e compartilhamento. Melhorias na UI, deixando a experiência do usuário melhor, como: mudança na disposição dos cards, melhora na leitura das notícias dentro dos cards, opção de aumentar e diminuir a fonte e adição da imagem da notícia no card. |
| Yago | 6 | #66, #69, #70, #30, #32, #33 | Desenvolvimento dos scrapers e plays para os portais Congresso em Foco, Agência Brasil e Agência Gov; Realização de testes manuais e validação dos dados coletados dos portais; Criação de issues e acompanhamento de PRs no repositório principal e fork. |
Tomadas de decisão e organização da equipe¶
- Guias de contribuição, código de conduta e novos templates (PRs #21, #24, #28 e #29) foram priorizados coletivamente para padronizar branches, mensagens e fluxos de review.
- A equipe optou por migrar toda a documentação para o repositório principal por meio da issue #63/PR #62, criando a branch
documentationpara manter histórico e CI próprios. - Foi criado um board público de PRs para coordenar revisões e garantir rastreabilidade das pendências, reduzindo duplicidades de issues e PRs.
- As decisões técnicas de qualidade (issue #22 para testes, scripts Make para execução de suites e a introdução do middleware de monitoramento/rate limiting nas issues #30/#42/#85) foram realizadas de forma colaborativa, elevando o nível de governança do projeto.
Dificuldades recorrentes¶
- Ambientação e setup consumiram boa parte da sprint 0: múltiplos diários relataram erros de permissão em Docker, dependências do Playwright e falta de clareza sobre o repositório base.
- Ajuste de seletores e scraping resiliente foram desafios constantes (Globo/Terra, Poder360, Cada Minuto, Polêmica Paraíba, Carta Capital), exigindo revisões frequentes e esforço para lidar com paywalls e layouts inconsistentes.
- A validação manual dos dados coletados e a ausência de fixtures/testes automatizados encareceram re-reviews (issue #22 e relatos de Yago, Carlos e Felipe).
- Dependências externas e monitoramento insuficiente motivaram a criação de sistemas auxiliares (Gabriel com PRs #84/#86) para lidar com rate limiting e quedas silenciosas.