Skip to content

Diário de Bordo – Eduardo de Almeida Ferreira

Disciplina: Gerência de Configuração e Evolução de Software

Equipe: WebScrapping

Comunidade/Projeto de Software Livre: Check-up

Sprint 0 – 02/09/2025 - 10/09/2025

Resumo da Sprint

Esta sprint focou na compreensão inicial dos projetos Check-up (extração de conteúdo de notícias) e EhFake (documentação do projeto). As atividades incluíram a análise da estrutura de ambos os repositórios GitHub, o mapeamento das políticas de Governança, Comunicação e Engenharia de Software e a documentação dos aprendizados sobre a configuração do ambiente de desenvolvimento. O objetivo foi estabelecer uma base de conhecimento abrangente para futuras contribuições, considerando a interconexão entre o código e a documentação.

Atividades Realizadas

Data Atividade Tipo (Código/Doc/Discussão/Outro) Link/Referência Status
03/09/2025 Primeiro contato com o projeto Código/Doc Repositório Concluído
06/09/2025 Leitura e análise do README.md (check-up) Estudo/Doc Repositório Concluído
06/09/2025 Execução do projeto em ambiente local Código - Concluído
08/09/2025 Leitura e análise do TUTORIAL_CRIACAO_DO_ZERO.md (check-up) Estudo/Doc Repositório Concluído
08/09/2025 Leitura e análise do TUTORIAL_SPIDERS_PLAYS.md (check-up) Estudo/Doc Repositório Concluído
09/09/2025 Contribuição com a documentação da Equipe Código Commit Concluído

Maiores Avanços

  • Compreensão aprofundada da arquitetura do projeto Check-up (Spiders e Plays) e sua relação com a documentação do EhFake.
  • Entendimento do fluxo de contribuição unificado, incluindo o uso de Git Flow, Conventional Commits e o Código de Conduta.
  • Identificação dos pré-requisitos e do processo de setup do ambiente via Docker e make setup para o projeto de código, e MkDocs para a documentação.

Maiores Dificuldades

  • A documentação não detalha explicitamente a organização da equipe em termos de papéis específicos ou a existência de uma gitpage dedicada, exigindo inferência a partir das práticas de contribuição e da estrutura dos repositórios.
  • A ausência de menção a canais de comunicação externos (chat, fóruns) exigiu a suposição de que a comunicação é centralizada no GitHub e através da documentação.
  • Dificuldade inicial em entender onde trabalhar as contribuições, confundi com o RAG no GitLab, mas depois esclarecido que o foco é no GitHub.

Aprendizados

  • A importância de uma documentação clara e abrangente para projetos de código aberto, especialmente para a configuração do ambiente e o fluxo de contribuição, e como ela complementa o próprio código.
  • O valor de ferramentas como Docker, Makefile e MkDocs para simplificar o setup e automatizar tarefas complexas em projetos de software e documentação.
  • A relevância de padrões de código (Git Flow, Conventional Commits) e processos de revisão (PRs obrigatórios), juntamente com um Código de Conduta, para garantir a qualidade, a colaboração e um ambiente saudável em equipes de desenvolvimento.

Plano Pessoal para a Próxima Sprint

  • [ ] Aprofundar na estrutura dos spiders e plays, talvez implementando um spider/play simples para um novo portal de notícias no repositório check-up.
  • [ ] Se necessário, contribuir com melhorias na documentação, especialmente em áreas que possam beneficiar novos colaboradores.

Sprint 1 – 15/09/2025 - 24/09/2025

Resumo da Sprint

Esta sprint foi dedicada ao início da implementação de um novo web scraping para o Jornal de Brasília. O objetivo principal foi estabelecer a estrutura inicial para a extração de notícias deste portal, seguindo os padrões do projeto Check-up. As atividades incluíram a criação de uma nova branch (feat/jornalDeBrasília) para isolar o desenvolvimento e a configuração dos componentes essenciais para a coleta de dados. O foco foi em garantir que a base para o novo spider estivesse funcional e pronta para a próxima fase de desenvolvimento.

Atividades Realizadas

Data Atividade Tipo (Código/Doc/Discussão/Outro) Link/Referência Status
17/09/2025 Início da análise do site Jornal de Brasília Estudo/Doc Jornal de Brasília Concluído
20/09/2025 Dificuldade/Tentativa de rodar os make scrape Código - Concluído
24/09/2025 Desenvolvimento da estrutura básica do spider Código Commit Concluído
24/09/2025 Desenvolvimento da estrutura do Scrapping(Plays) Código - Em Andamento

Maiores Avanços

  • Criação da branch dedicada: A branch feat/jornalDeBrasília foi criada, garantindo um ambiente de desenvolvimento isolado para a nova funcionalidade.
  • Análise inicial do portal: Foi realizada uma análise preliminar da estrutura do site do Jornal de Brasília para identificar padrões de notícias e elementos a serem extraídos.
  • Estrutura básica do spider: A base para o novo spider foi desenvolvida

Maiores Dificuldades

  • Variações na estrutura do site: O site do Jornal de Brasília apresenta algumas variações na estrutura HTML entre diferentes tipos de notícias, o que exigiu um planejamento mais detalhado para a extração robusta de dados.
  • Erros ao rodar o scrape existente: Dificuldade inicial em fazer o projeto rodar devido a erros no scrape já implementado, o que atrasou o início do desenvolvimento do novo spider.

Aprendizados

  • A importância de uma análise aprofundada da estrutura do site antes de iniciar a codificação do spider para prever e mitigar dificuldades.
  • Entendimento por completo de como funciona a pipeline de dados do Check-up, desde a coleta até o processamento das notícias.

Plano Pessoal para a Próxima Sprint

  • [ ] Concluir a implementação do spider e play para o Jornal de Brasília: Finalizar o desenvolvimento do spider, garantindo a coleta de URLs do Jornal, bem como o desenvolvimento do play para processar essas URLs.
  • [ ] Adicionar tratamento de erros e robustez: Tratar possíveis variações, por exemplo, está retornando URLs gerais que não são notícias.

Sprint 2 – 25/09/2025 - 08/10/2025

Resumo da Sprint

Esta sprint foi dedicada à conclusão do web scraping para o Jornal de Brasília e ao aprofundamento dos conhecimentos sobre a pipeline geral, permitiu a concretização do conhecimento em realação as etapas principais, sendo elas: crawling, scraping e armazenamento.. O objetivo principal foi finalizar a implementação da extração de notícias deste portal, garantindo sua funcionalidade e robustez. As atividades incluíram a depuração, otimização e validação do spider e play.

Atividades Realizadas

Data Atividade Tipo (Código/Doc/Discussão/Outro) Link/Referência Status
25/09/2025 Continuação do desenvolvimento da play Código - Concluído
30/09/2025 Debug e otimização da play do Jornal de Brasília Código - Concluído
01/10/2025 Estudo e aprofundamento da Play, seleção e escolha correta dos seletores Estudo/Doc - Concluído
07/10/2025 Conclusão do scrapping do Jornal de Brasília e Abri uma issue relacionada Código PR#53 Issue#50 Concluído

Maiores Avanços

  • Conclusão da play do Jornal de Brasília: O play para o Jornal de Brasília foi finalizado, testado e validado, garantindo a extração completa dos dados das notícias (título, URL, corpo e descrição) usando as URLs coletadas.
  • Aprofundamento técnico: Maior entendimento sobre o funcionamento e a integração das ferramentas Aplay e Spider no fluxo de trabalho.

Maiores Dificuldades

  • Dificuldade na seleção dos seletores.

Aprendizados

  • Aprofundamento no funcionamento e integração das etapas do scrapping, compreendendo melhor seus conceitos e aplicações.
  • Reforço da importância da análise prévia da estrutura do site para o desenvolvimento eficiente de spiders.

Plano Pessoal para a Próxima Sprint

  • [ ] Iniciar o desenvolvimento de um novo portal: Começar a análise e implementação do web scraping para um novo portal, aplicando os conhecimentos adquiridos.

Sprint 3 – 09/10/2025 - 22/10/2025

Resumo da Sprint

Esta sprint foi focada na organização e centralização da documentação do projeto, transferindo-a de um repositório separado para o repositório principal e alocando-a em uma branch dedicada (documentation). Esta decisão foi tomada em função de uma nova divisão de tarefas em grupo, onde optei por priorizar as atividades de documentação nesta sprint, em vez de iniciar o desenvolvimento de um novo portal como planejado anteriormente. Trabalhei em dupla com Daniel Rodrigues (GitHubl) nesta iniciativa. O objetivo principal foi melhorar a acessibilidade, manutenção e alinhamento com as diretrizes acadêmicas. As atividades incluíram a criação e formatação da descrição de um Pull Request (PR) e de uma Issue para gerenciar essa migração.

Atividades Realizadas

Data Atividade Tipo (Código/Doc/Discussão/Outro) Link/Referência Status
11/10/2025 Análise e entendimento da estrutura do repositório de documentação antigo (EH-FAKE/docs) Doc/Estudo EH-FAKE/docs Concluído
18/10/2025 Transferência e organização dos arquivos de documentação para o repositório principal Doc - Concluído
21/10/2025 Abertura do Pull Request para migração da documentação para a branch documentation Doc/Discussão PR#62 Concluído
21/10/2025 Criação e abertura da Issue para acompanhar a centralização da documentação Doc/Discussão Issue#63 Concluído
21/10/2025 Revisão, ajustes, testes e aprovação da documentação migrada em dupla, com envio do PR para o repositório principal Doc/Discussão/Teste - Concluído
22/10/2025 Remoção do uso do Chromium no Play do Jornal de Brasília conforme revisão de PR, e adição no crate_db Código #Commit, #Commit Concluído

Maiores Avanços

  • Centralização da Documentação: A documentação foi migrada com sucesso para o repositório principal, residindo agora na branch documentation, o que melhora significativamente a organização e o acesso.
  • Padronização de Processos: Criação de um PR e uma Issue detalhados, seguindo padrões de desenvolvimento, para gerenciar a migração da documentação, garantindo um processo claro e rastreável.
  • Alinhamento Acadêmico: Ação direta para atender à recomendação da professora de manter projeto e documentação no mesmo repositório.

Maiores Dificuldades

  • Ajuste dos caminhos relativos e links internos na documentação após a migração para garantir que todos os recursos estejam acessíveis na nova estrutura.
  • Adaptação do conteúdo existente aos padrões de PR e Issue, exigindo atenção aos detalhes e formatação.

Aprendizados

  • Reforço da importância da gestão de documentação como parte integrante do ciclo de vida do desenvolvimento de software.
  • Melhor compreensão sobre a criação e gerenciamento de Pull Requests e Issues para tarefas de organização e manutenção, não apenas para desenvolvimento de código.
  • Aprimoramento na utilização de branches dedicadas para documentação, visando a estabilidade da branch develop.

Plano Pessoal para a Próxima Sprint

  • [ ] Iniciar o desenvolvimento de um novo portal, aplicando os conhecimentos de web scraping adquiridos.
  • [ ] Ou, colaborar em uma atividade em dupla, focando em um novo módulo ou funcionalidade do projeto.