Skip to content

Diário de Bordo – Yago Amin Santos

Disciplina: Gerência de Configuração e Evolução de Software Equipe: Webscrapping Comunidade/Projeto de Software Livre: Check-up


Sprint 0 – 02/09/2025 – 10/09/2025

Resumo da Sprint

A sprint inicial teve como objetivo compreender o projeto, a documentação, as políticas de contribuição, assim como a preparação do ambiente local.

Atividades Realizadas

Data Atividade Tipo (Código/Doc/Discussão/Outro) Link/Referência Status
09/09 Leitura e estudo da documentação do projeto Estudo https://github.com/EH-FAKE/docs Concluído
10/09 Configuração inicial do ambiente Código - Concluído

Maiores Avanços

  • Compreendi melhor a estrutura do projeto e a organização do repositório.
  • Preparei o ambiente e rodei o projeto parcialmente.

Maiores Dificuldades

  • Falta de documentação clara e orientação referente ao projeto dificultou tanto o entendimento das necessidades quanto da estrutura do projeto, assim como para a preparação do ambiente.
  • A dissolução do grupo de agente de IA e alteração para web scrapping também impactou no andamento inicial do projeto.

Aprendizados

  • Fluxo de contribuição do projeto.
  • Estrutura do projeto.

Plano Pessoal para a Próxima Sprint

  • [ ] Melhorar o conhecimento no funcionamento dos spiders/plays.
  • [ ] Contribuir com pelo menos 1 issue.
  • [ ] Participar da revisão de código de um colega.

Sprint 1 – 15/09/2025 - 24/09/2025

Resumo da Sprint

A sprint foi focada em conseguir compreender melhor os crawlers e spider, tendo em vista a mudança para o webscrapping ao invés do grupo de IA, assim como configurar o ambiente para rodar localmente o projeto.

Atividades Realizadas

Data Atividade Tipo Link/Referência Status
20/09 Estudo sobre os spiders Estudo - Concluído
20/09 Estudo sobre os plays Estudo - Concluído
21/09 Preparação e ajustes do ambiente Código - Concluído

Maiores Avanços

  • Preparei o ambiente e rodei o projeto.
  • Verifiquei os spiders e plays já funcionais do projeto.

Maiores Dificuldades

  • Dificuldade com o início tardio na equipe de webscrapping.

Aprendizados

  • Aprendizado sobre o funcionamento do projeto.

Plano Pessoal para a Próxima Sprint

  • [ ] Iniciar o desenvolvimento de um webscrapping para um novo portal.
  • [ ] Contribuir com pelo menos 1 issue.

Sprint 2 – 29/09/2025 - 08/10/2025

Resumo da Sprint

A sprint foi focada em desenvolver o spider e play para o portal Congresso em Foco, conforme a Issue #51.

Atividades Realizadas

Data Atividade Tipo Link/Referência Status
04/10 Desenvolvimento do spider para o portal Congresso em Foco Código - Concluído
05/10 Desenvolvimento do play para o portal Congresso em Foco Código - Concluído
08/10 Criação da Issue no repositório do projeto Código Issue#51 Concluído

Maiores Avanços

  • Criação do spider e play para o portal Congresso em Foco.

Maiores Dificuldades

  • Dificuldade com a verificação dos dados coletados.

Aprendizados

  • Consegui criar o spider e play para o portal Congresso em Foco com base no modelo proposto pelo projeto.

Plano Pessoal para a Próxima Sprint

  • [ ] Testar o spider e play para o portal Congresso em Foco.
  • [ ] Fazer o Pull Request com as alterações para a Issue #51.
  • [ ] Participar da revisão de código de um colega.
  • [ ] Iniciar o desenvolvimento de um webscrapping para um novo portal.

Sprint 3 – 13/10/2025 - 22/10/2025

Resumo da Sprint

A sprint foi focada em finalizar o desenvolvimento do spider e play para o portal Congresso em Foco, além de realizar testes e ajustes necessários.

Atividades Realizadas

Data Atividade Tipo (Código/Doc/Discussão/Outro) Link/Referência Status
20/10/2025 Testes do portal Congresso em Foco Código - Concluído
21/10/2025 Ajustes e análise dos dados extráidos Código - Concluído
22/10/2025 Revisão e teste final Código - Concluído
24/10/2025 Criação do PR no fork do projeto Código PR #30 Concluído
24/10/2025 Criação do PR no repositório do projeto Código PR #66 Concluído

Maiores Avanços

  • Verificação prática dos scrapers e plays em ambiente local
  • Melhoria no conhecimento sobre o funcionamento do projeto facilitando a criação de novos scrapers e plays.

Maiores Dificuldades

  • Testes e verificações dos dados coletados dentro do banco de dados.

Aprendizados

  • Melhoria nos testes e verificações dos dados coletados.

Plano Pessoal para a Próxima Sprint

  • [ ] Manter o PR atualizado conforme merges e feedbacks.
  • [ ] Criação de play e spider para um novo portal de notícias.

Sprints 4 e 5 – 23/10/2025 - 19/11/2025

Resumo da Sprint

A sprint foi focada no desenvolvimento de spiders e plays para dois novos portais de notícias: Agência Brasil e Agência Gov.

Atividades Realizadas

Data Atividade Tipo (Código/Doc/Discussão/Outro) Link/Referência Status
01/11/2025 Análise e estudo do portal Agência Brasil Estudo - Concluído
02/11/2025 Desenvolvimento do spider para Agência Brasil Código - Concluído
02/11/2025 Desenvolvimento do play para Agência Brasil Código - Concluído
08/11/2025 Testes e validação dos dados da Agência Brasil Código - Concluído
09/11/2025 Análise e estudo do portal Agência Gov Estudo - Concluído
15/11/2025 Desenvolvimento do spider para Agência Gov Código - Concluído
15/11/2025 Desenvolvimento do play para Agência Gov Código - Concluído
16/11/2025 Testes e validação dos dados da Agência Gov Código - Concluído
18/11/2025 Criação da Issue para Agência Brasil Código Issue #67 Concluído
18/11/2025 Criação da Issue para Agência Gov Código Issue #68 Concluído
18/11/2025 Criação do PR para Agência Brasil no repositório do projeto Código PR #69 Concluído
18/11/2025 Criação do PR para Agência Gov no repositório do projeto Código PR #70 Concluído
18/11/2025 Criação do PR para Agência Brasil no fork do projeto Código PR #32 Concluído
18/11/2025 Criação do PR para Agência Gov no fork do projeto Código PR #33 Concluído

Maiores Avanços

  • Desenvolvimento completo de dois novos portais de notícias para o projeto
  • Aplicação prática dos conhecimentos adquiridos nas sprints anteriores
  • Melhoria na eficiência de desenvolvimento de novos scrapers e plays

Maiores Dificuldades

  • Adaptação às diferentes estruturas HTML dos portais Agência Brasil e Agência Gov
  • Validação dos dados coletados e garantia de qualidade dos scrapers

Aprendizados

  • Aprimoramento na criação de spiders e plays para diferentes fontes de dados
  • Melhoria no processo de testes e validação de dados coletados
  • Consolidação do conhecimento sobre a arquitetura do projeto

Plano Pessoal para a Próxima Sprint

  • [ ] Manter os PRs atualizados conforme merges e feedbacks