Sobre o Projeto
O ArquivoNC - arquivo web do jornal Notícias da Covilhã - é o resultado de um trabalho académico desenvolvido no âmbito do projeto final de curso do 1.º ciclo em Engenharia Informática da Universidade da Beira Interior (UBI). O projeto disponibiliza o acesso a dez anos de páginas web do jornal Notícias da Covilhã a partir das notícias preservadas pelo Arquivo.pt entre 2009 e 2019.
OBJETIVOS
O crescente aumento de informações publicadas na web, sob a forma de textos, imagens, vídeos e áudios, tem sido uma característica marcante da era digital.
Curiosamente, nunca como antes, se perderam tantos conteúdos impedindo que as gerações atuais e futuras tenham acesso a um registo histórico da web, tal como hoje a conhecemos.
Em Portugal, a preservação de conteúdos da web fica a cargo do Arquivo.pt.
O objetivo deste projeto passa por utilizar os recursos do Arquivo.pt para preservar a memória digital da Covilhã e o legado do jornal Notícias da Covilhã ao tornar o seu conteúdo histórico facilmente acessível a investigadores e ao público em geral.
A disponibilização desses conteúdos através de um website dedicado ao arquivo web do jornal, visa contribuir para a preservação do património local e complementar a informação disponibilizada na atual versão do website, recuperando o acesso a um conjunto de notícias, imagens e capas do jornal perdidas em 2019 com o desaparecimento da anterior versão do website e o fim da publicação (em papel) da edição semanal do jornal (retomada a 9 de março de 2023).
ARQUITETURA
A arquitetura deste projeto é composta por três módulos distintos:
(1) Extração de Informação
(2) Indexação, Pesquisa e Similaridade
(3) Desenvolvimento e Alojamento do Website
Extração de Informação
Para a concretização deste projeto recorremos ao Arquivo.pt. Em concreto, foram consideradas as 2979 versões do website do jornal Notícias da Covilhã preservadas pelo Arquivo.pt no período de tempo compreendido entre 2009 e 2019. Para obter os URLs das 2979 versões, recorremos ao pacote de software Python "PublicNewsArchive" (prémio Arquivo.pt 2022). Para automatizar a extração de informações foram aplicadas técnicas de web scraping que resultaram na obtenção de 2661 notícias, 1327 imagens e 372 capas do jornal. De forma a complementar a informação extraída e enriquecer o conteúdo das notícias coletadas recorremos ao software YAKE, para a extração de palavras-chave relevantes, e ao spaCy para identificar e extrair entidades presentes no texto. Por fim, através do pacote de Text-to-Speech da Google foi possível a conversão da informação textual para áudio, permitindo ao utilizador a locução da notícia.
Indexação, Pesquisa e Similaridade
Para a indexação e pesquisa dos dados extraídos recorremos à base de dados NoSQL redis.
Em concreto, foram construídos três índices de dados para dar resposta aos diferentes tipos de pesquisa: notícias, imagens e capas de jornal. Por exemplo, cada elemento da notícia (como título, conteúdo, data, etc.) é indexado num índice invertido e representado pela frequência dos seus termos utilizando a medida TF.IDF (Term Frequency - Inverse Document Frequency).
Essa abordagem tradicional permite aos utilizadores pesquisar por notícias que contenham um termo específico (ou conjunto de termos) num determinado período de tempo.
Além disso, cada notícia é também representada no espaço vetorial a partir de um vetor de palavras de 512 dimensões, gerado pelo modelo de linguagem natural BERTimbau. A representação semântica de cada notícia, permite a aplicação de um algoritmo de pesquisa de similaridade (Approximate Nearest Neighbors) e está na base de uma das principais funcionalidades deste projeto: a recomendação de notícias do passado.
Os outros dois índices oferecem ao utilizador a pesquisa num universo de 1327 imagens (incluindo a recomendação de imagens similares), bem como a pesquisa de elementos textuais no conjunto das 372 capas indexadas.
Desenvolvimento e Alojamento do website
Para o desenvolvimento do website recorreu-se à framework Flask e à ligação com a base de dados NoSQL Redis para a obtenção dos elementos dinâmicos. A virtualização desta arquitetura é garantida a partir de um sistema Docker.
A figura abaixo ilustra a arquitetura de suporte ao sistema desenvolvido:
Com o desenvolvimento deste projeto, foi possível recriar o website do jornal Notícias da Covilhã (2009 - 2019) e recuperar 10 anos de notícias, imagens e capas preservadas pelo Arquivo.pt. De entre os resultados obtidos com a implementação do projeto, destacam-se:
AUTORES
Este projeto foi desenvolvido por Rodrigo Silva (aluno da Universidade da Beira Interior) sob a orientação de Ricardo Campos (Professor da Universidade da Beira Interior e afiliado ao INESCTEC e Ci2@IPT) no âmbito da unidade curricular de projeto do 1.º ciclo em Engenharia Informática da Universidade da Beira Interior (UBI).
AGRADECIMENTOS
Este projeto foi financiado por fundos nacionais através da agência de financiamento portuguesa, FCT - Fundação para a Ciência e a Tecnologia no contexto do projeto StorySense (DOI 10.54499/2022.144 09312.PTDC).
Contou com a colaboração de Sérgio Nunes (Área de Sistemas e Desenvolvimento, UBI) e Paulo Crispim (Centro de Informática e Sistemas (CIS), IPTomar).