Skip to content

Latest commit

 

History

History

preparo

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 

Preparo dos dados

A seguir os procedimentos que estabelecem a proveniência de dados dos arquivos presentes na pasta /data.

O preparo inicial e conversões se baseiam em algoritmos gerais de processamento XML baseados na LibXML2. A implementação de referência foi realizada em PHP:

  • xml_normalized.php: limpa o XML, normalizando espaços e ordem dos atributos em conformidade com o XML canônico, XML-C14N; porém apresentando o XML de forma usual, com sintaxe de elementos vazios e algum espaçamento (padrão LibXML2) destacando hierarquia.

  • csv_normalized.php: limpa o CSV, normalizando uso das aspas, espaços e quebras de linha.

  • vocLexMLRdf2csv.php: converte o XML RDF em tabela, criando os arquivos CSV de referência para o trabalho terminológico, garantido a inspeção visual humana em planilhas e a auditoria em algoritmos de banco de dados SQL, como o SQL Dataset Unifier.

  • Planilha colaborativa: é a interface colaborativa para os arquivos CSV, mais amigável para os usuários não-técnicos, está sendo mantida nesta planilha colaborativa, sem valor de registro (apenas os arquivos CSV deste git têm esse valor).

Versionamento, histórico e planejamento

Apenas os dados da pasta data são controlados por tag de versionamento deste repositíro. O planejamento inicia com as issues, depois é consolidado como relatório de preparo, na documentação de cada versão (arquivos v1.0.0.md, v1.0.1.md, etc.).

Fundamentos e motivações

Uma breve introdução sobre o preparo e seus fundamentos.

Preservação digital

Por se tratar de um repositório público com controle de versões, em particular por se tratar do uso do sistema git, o presente repositório já vem munido de checksum SHA1: o que garante a integridade física dos arquivos durante as operações cotidianas e, em parte, garante também a sua autenticidade.

Para fins de preservação de longo prazo, essa mesma garantia pode ser ampliada se acrescentamos mais uma hash, notadamente SHA3 do padrão FIPS 202 de 2015. A linha de comando abaixo pode ser utilizada em qualquer sistema Linux para a obtenção do arquivo sha3-256sum.txt das assinaturas digitais dos (demais) arquivos de uma pasta:

sha3sum -a 256 *.* | grep -v sha3-256sum > sha3-256sum.txt

Nota: por ser repositório público e audtorável, a garantia de autenticidade é reforçada pelo endosso dos commiters e o testemunho dos usuários do LexML em geral.

Proveniência

A proveniência dos dados deve ser registrada no presente documento, e ser rastreável no git.

Alguns processos de preparo levam em consideração a auditoria de commits específicos, relativos ao processamento automático de transformação dos dados sem perda do conteúdo original, garantindo a não-adulteração. Vide por exemplo o uso do algortimo xml_normalized.

Esses commits são explicitamente indicados na seção "Preparo inicial" do presente documento de descrição do preparo dos dados.