Diário de Bordo – Yago Amin Santos¶
Disciplina: Gerência de Configuração e Evolução de Software Equipe: Webscrapping Comunidade/Projeto de Software Livre: Check-up
Sprint 0 – 02/09/2025 – 10/09/2025¶
Resumo da Sprint¶
A sprint inicial teve como objetivo compreender o projeto, a documentação, as políticas de contribuição, assim como a preparação do ambiente local.
Atividades Realizadas¶
| Data | Atividade | Tipo (Código/Doc/Discussão/Outro) | Link/Referência | Status |
|---|---|---|---|---|
| 09/09 | Leitura e estudo da documentação do projeto | Estudo | https://github.com/EH-FAKE/docs | Concluído |
| 10/09 | Configuração inicial do ambiente | Código | - | Concluído |
Maiores Avanços¶
- Compreendi melhor a estrutura do projeto e a organização do repositório.
- Preparei o ambiente e rodei o projeto parcialmente.
Maiores Dificuldades¶
- Falta de documentação clara e orientação referente ao projeto dificultou tanto o entendimento das necessidades quanto da estrutura do projeto, assim como para a preparação do ambiente.
- A dissolução do grupo de agente de IA e alteração para web scrapping também impactou no andamento inicial do projeto.
Aprendizados¶
- Fluxo de contribuição do projeto.
- Estrutura do projeto.
Plano Pessoal para a Próxima Sprint¶
- [ ] Melhorar o conhecimento no funcionamento dos spiders/plays.
- [ ] Contribuir com pelo menos 1 issue.
- [ ] Participar da revisão de código de um colega.
Sprint 1 – 15/09/2025 - 24/09/2025¶
Resumo da Sprint¶
A sprint foi focada em conseguir compreender melhor os crawlers e spider, tendo em vista a mudança para o webscrapping ao invés do grupo de IA, assim como configurar o ambiente para rodar localmente o projeto.
Atividades Realizadas¶
| Data | Atividade | Tipo | Link/Referência | Status |
|---|---|---|---|---|
| 20/09 | Estudo sobre os spiders | Estudo | - | Concluído |
| 20/09 | Estudo sobre os plays | Estudo | - | Concluído |
| 21/09 | Preparação e ajustes do ambiente | Código | - | Concluído |
Maiores Avanços¶
- Preparei o ambiente e rodei o projeto.
- Verifiquei os spiders e plays já funcionais do projeto.
Maiores Dificuldades¶
- Dificuldade com o início tardio na equipe de webscrapping.
Aprendizados¶
- Aprendizado sobre o funcionamento do projeto.
Plano Pessoal para a Próxima Sprint¶
- [ ] Iniciar o desenvolvimento de um webscrapping para um novo portal.
- [ ] Contribuir com pelo menos 1 issue.
Sprint 2 – 29/09/2025 - 08/10/2025¶
Resumo da Sprint¶
A sprint foi focada em desenvolver o spider e play para o portal Congresso em Foco, conforme a Issue #51.
Atividades Realizadas¶
| Data | Atividade | Tipo | Link/Referência | Status |
|---|---|---|---|---|
| 04/10 | Desenvolvimento do spider para o portal Congresso em Foco | Código | - | Concluído |
| 05/10 | Desenvolvimento do play para o portal Congresso em Foco | Código | - | Concluído |
| 08/10 | Criação da Issue no repositório do projeto | Código | Issue#51 | Concluído |
Maiores Avanços¶
- Criação do spider e play para o portal Congresso em Foco.
Maiores Dificuldades¶
- Dificuldade com a verificação dos dados coletados.
Aprendizados¶
- Consegui criar o spider e play para o portal Congresso em Foco com base no modelo proposto pelo projeto.
Plano Pessoal para a Próxima Sprint¶
- [ ] Testar o spider e play para o portal Congresso em Foco.
- [ ] Fazer o Pull Request com as alterações para a Issue #51.
- [ ] Participar da revisão de código de um colega.
- [ ] Iniciar o desenvolvimento de um webscrapping para um novo portal.
Sprint 3 – 13/10/2025 - 22/10/2025¶
Resumo da Sprint¶
A sprint foi focada em finalizar o desenvolvimento do spider e play para o portal Congresso em Foco, além de realizar testes e ajustes necessários.
Atividades Realizadas¶
| Data | Atividade | Tipo (Código/Doc/Discussão/Outro) | Link/Referência | Status |
|---|---|---|---|---|
| 20/10/2025 | Testes do portal Congresso em Foco | Código | - | Concluído |
| 21/10/2025 | Ajustes e análise dos dados extráidos | Código | - | Concluído |
| 22/10/2025 | Revisão e teste final | Código | - | Concluído |
| 24/10/2025 | Criação do PR no fork do projeto | Código | PR #30 | Concluído |
| 24/10/2025 | Criação do PR no repositório do projeto | Código | PR #66 | Concluído |
Maiores Avanços¶
- Verificação prática dos scrapers e plays em ambiente local
- Melhoria no conhecimento sobre o funcionamento do projeto facilitando a criação de novos scrapers e plays.
Maiores Dificuldades¶
- Testes e verificações dos dados coletados dentro do banco de dados.
Aprendizados¶
- Melhoria nos testes e verificações dos dados coletados.
Plano Pessoal para a Próxima Sprint¶
- [ ] Manter o PR atualizado conforme merges e feedbacks.
- [ ] Criação de play e spider para um novo portal de notícias.
Sprints 4 e 5 – 23/10/2025 - 19/11/2025¶
Resumo da Sprint¶
A sprint foi focada no desenvolvimento de spiders e plays para dois novos portais de notícias: Agência Brasil e Agência Gov.
Atividades Realizadas¶
| Data | Atividade | Tipo (Código/Doc/Discussão/Outro) | Link/Referência | Status |
|---|---|---|---|---|
| 01/11/2025 | Análise e estudo do portal Agência Brasil | Estudo | - | Concluído |
| 02/11/2025 | Desenvolvimento do spider para Agência Brasil | Código | - | Concluído |
| 02/11/2025 | Desenvolvimento do play para Agência Brasil | Código | - | Concluído |
| 08/11/2025 | Testes e validação dos dados da Agência Brasil | Código | - | Concluído |
| 09/11/2025 | Análise e estudo do portal Agência Gov | Estudo | - | Concluído |
| 15/11/2025 | Desenvolvimento do spider para Agência Gov | Código | - | Concluído |
| 15/11/2025 | Desenvolvimento do play para Agência Gov | Código | - | Concluído |
| 16/11/2025 | Testes e validação dos dados da Agência Gov | Código | - | Concluído |
| 18/11/2025 | Criação da Issue para Agência Brasil | Código | Issue #67 | Concluído |
| 18/11/2025 | Criação da Issue para Agência Gov | Código | Issue #68 | Concluído |
| 18/11/2025 | Criação do PR para Agência Brasil no repositório do projeto | Código | PR #69 | Concluído |
| 18/11/2025 | Criação do PR para Agência Gov no repositório do projeto | Código | PR #70 | Concluído |
| 18/11/2025 | Criação do PR para Agência Brasil no fork do projeto | Código | PR #32 | Concluído |
| 18/11/2025 | Criação do PR para Agência Gov no fork do projeto | Código | PR #33 | Concluído |
Maiores Avanços¶
- Desenvolvimento completo de dois novos portais de notícias para o projeto
- Aplicação prática dos conhecimentos adquiridos nas sprints anteriores
- Melhoria na eficiência de desenvolvimento de novos scrapers e plays
Maiores Dificuldades¶
- Adaptação às diferentes estruturas HTML dos portais Agência Brasil e Agência Gov
- Validação dos dados coletados e garantia de qualidade dos scrapers
Aprendizados¶
- Aprimoramento na criação de spiders e plays para diferentes fontes de dados
- Melhoria no processo de testes e validação de dados coletados
- Consolidação do conhecimento sobre a arquitetura do projeto
Plano Pessoal para a Próxima Sprint¶
- [ ] Manter os PRs atualizados conforme merges e feedbacks