De PDF a Lista HTML - Léxico / Glossário
Como transformar um PDF numa lista de Léxico ou Glossário.
Como trabalhamos para vários países, os termos técnicos variam bastante, até dentro do mesmo "idioma", seja o Castelhano/Espanhol seja o Português. Assim a minha ideia é ir montando um referencial técnico que também inclua uma lista de termos técnicos.
No exemplo que ilustro, como ponto de partida tenho o glossário dos termos ferroviários do DNIT (Brasil).
Este é um documento acessível pela net em:
https://www.gov.br/dnit/pt-br/ferrovias/glossario-de-termos-ferroviarios/glossario.pdf/view
Com esta informação base, podemos selecionar tudo e copiar para um ficheiro de texto simples:
Este é um ficheiro com um conteúdo complexo demais, para por exemplo no Excel separar o texto de modo a que em cada linha (ou em duas linhas) tenha numa coluna a palavra chave e na outra o seu significado. Pode-se fazer um pouco à mão... mas como gostamos de automatizar processos e colocar a programação em tudo... é possível criar um programa para que faça esse serviço, usando entre outras funções, as expressões regulares:
Este mesmo programa grava num ficheiro de texto simples a informação tratada:
Comentários
Enviar um comentário
Obrigado pelo seu contacto.