De PDF a Lista HTML - Léxico / Glossário

De PDF a Lista HTML - Léxico / Glossário

Como transformar um PDF numa lista de Léxico ou Glossário.

Como trabalhamos para vários países, os termos técnicos variam bastante, até dentro do mesmo "idioma", seja o Castelhano/Espanhol seja o Português. Assim a minha ideia é ir montando um referencial técnico que também inclua uma lista de termos técnicos.

No exemplo que ilustro, como ponto de partida tenho o glossário dos termos ferroviários do DNIT (Brasil).


Este é um documento acessível pela net em:

https://www.gov.br/dnit/pt-br/ferrovias/glossario-de-termos-ferroviarios/glossario.pdf/view


Com esta informação base, podemos selecionar tudo e copiar para um ficheiro de texto simples:


Neste ficheiro é necessário fazer algumas edições, por exemplo apagar os números de página e cabeçalhos...


Este é um ficheiro com um conteúdo complexo demais, para por exemplo no Excel separar o texto de modo a que em cada linha (ou em duas linhas) tenha numa coluna a palavra chave e na outra o seu significado. Pode-se fazer um pouco à mão... mas como gostamos de automatizar processos e colocar a programação em tudo... é possível criar um programa para que faça esse serviço, usando entre outras funções, as expressões regulares:


Este mesmo programa grava num ficheiro de texto simples a informação tratada:


Agora já temos a informação num formato que o Excel entende onde quebrar a palavra(s) chave do significado. Qual o interesse do meter o Excel nisto? É que no Excel posso usar a fórmula de concatenação e "envolver" cada uma das colunas em código que posso transportar para uma tabela da linguagem de programação.

Como resultado final, temos uma folha com uma formatação limpa, de fácil consulta:


Obrigado.



Comentários

Mensagens populares deste blogue

Python - Automatização em ISPOL

Linha do Oeste - Breve visita

AMV – Aparelhos de Mudança de Via