[JFPE] Sprint 09
- por Gabriel Medeiros
- em Diário de Atividades
- on 18 de dezembro de 2023
Período: 19/10/2023 – 14/11/2023
Sprint 09
Para a Sprint 09, a divisão do projeto em três áreas de foco permaneceu. Buscamos fazer mais testes com OCR, obtendo resultados mais robustos, de que obtivemos uma comparação mais equilibrada entre as ferramentas. Foi decidido como resultado desses que o Tika é a ferramenta mais adequada, por ser mais escalável e por manter o bom desempenho mesmo com extrações em documentos grandes; Continuamos os avanços no desenvolvimento do backend, objetivando a aplicação do SIP do TRF5, funcionando como um sistema de login pronto para todas uso em todas as sessões do tribunal. Por fim, trabalhamos também na modelagem dos novos dados recebidos através da extração OCR, para podermos criar a pipeline de aprendizado de máquina e treinar os modelos agora com uma quantidade satisfatória de dados.
S09M01 – Realizar Testes de Desempenho Tesseract vs Tika
Para realizar os testes de desempenho entre Tesseract e Tika propostos, foi necessário inicialmente criar um algoritmo de teste que pudesse avaliar as capacidades e limitações de cada uma dessas ferramentas. Após o desenvolvimento do algoritmo, ele foi executado, coletando dados relevantes como tempo de processamento, precisão na extração de texto, consumo de recursos, entre outros aspectos que fossem pertinentes à avaliação do desempenho. Com base nos resultados obtidos, foi fundamental elaborar um relatório de teste detalhado, que serviu como entregável, apresentando de forma clara e objetiva as conclusões e comparações entre o Tesseract e o Tika, auxiliando na tomada de decisão sobre qual ferramenta melhor atendia às necessidades específicas do projeto em questão.
Os resultados destes testes podem ser visualizados no seguinte gráfico. Pudemos, então chegar a conclusão que a melhor ferramenta para nossa aplicação foi o Apache Tika.
S09M02 – Continuar aprimoramento do back-end
Esta missão teve como objetivo continuar o aprimoramento do back-end, algo que já vinha sendo feito há algumas sprints. Por causa do prazo mais curto, e também por termos optado por dar prioridade mais alta a missão S09M03, ficaram pendências desta missão. Foi configurada a política de CORS do back-end. Esta configuração tem com objetivo possibilitar a conexão entre os diversos serviços e o back-end.
A imagem a seguir mostra o resultado da configuração.
S09M03 – Estudo para implementação da autenticação via SIP
Seguindo sugestão que nos foi dada durante a apresentação da sprint 08, fizemos a implementação da autenticação por SIP. O SIP é um sistema de autenticação em formato de web service (WSDL) utilizado pelo TRF5. Este serviço conta com um banco de logins de servidores de todas as seccionais. Para isso, a ajuda fornecida por Vinicius, servidor do LabiFervo, e Rodrigo, servidor do TRF5, foi indispensável. Conseguimos utilizar os dados que nos foram fornecidos para gerar testes de consumo do web service e fazer a autenticação.
S09M04 – Implantar novos modelos no MVP com a base do CRETA
Por fim, a última frente de desenvolvimento explorada foi a da solução de aprendizado de máquina. Desta vez, foram realizados testes com dados sintéticos nos mesmo modelos. Na matriz de confusão temos os melhores resultados encontrados.
Extra – Conexão com o BD CRETA da JFPE
Além das entregas previstas, também foi alcançado nesta sprint o acesso ao recorte do banco de dados do CRETA da JFPE. Este acesso se dá por meio de VDI, e já começamos a fazer os trabalhos de extração OCR lá.
S09M01 – Realizar Testes de Desempenho Tesseract vs Tika
- Criar algoritmo de teste
- Rodar o algoritmo
- Elaborar relatório de teste (entregável)
S09M02 – Continuar aprimoramento do back-end
- Tratamento de exceção para facilitar o debug e fornecer feedback ao usuário
- CORS policy para garantir acesso aos endpoints
- Validação de modelo para atender aos requisitos Rest
S09M03 – Estudo para implementação da autenticação via SIP
- Realizar reunião de alinhamento com Vinícius
- Obter dados necessários para implementação
- Estudar a implementação com Spring
S08M04 – Implantar novos modelos no MVP com a base do CRETA
- Implementar pipeline de vetorização para a base de dados completa (extração do OCR)
- Treinamento dos modelos
- Validação dos modelos
- Testes adicionais
S09M01 – Realizar Testes de Desempenho Tesseract vs Tika
- Criar algoritmo de teste ✓
- Rodar o algoritmo ✓
- Elaborar relatório de teste (entregável) ✓
S09M02 – Continuar aprimoramento do back-end
- Tratamento de exceção para facilitar o debug e fornecer feedback ao usuário
- CORS policy para garantir acesso aos endpoints ✓
- Validação de modelo para atender aos requisitos Rest
S09M03 – Estudo para implementação da autenticação via SIP
- Realizar reunião de alinhamento com Vinícius ✓
- Obter dados necessários para implementação ✓
- Estudar a implementação com Spring ✓
S08M04 – Implantar novos modelos no MVP com a base do CRETA
- Implementar pipeline de vetorização para a base de dados completa (extração do OCR) ✓
- Treinamento dos modelos ✓
- Validação dos modelos ✓
- Testes adicionais ✓
Tags: JFPE2