A seguir os procedimentos que estabelecem a proveniência de dados dos arquivos presentes na pasta /data
.
O preparo inicial e conversões se baseiam em algoritmos gerais de processamento XML baseados na LibXML2. A implementação de referência foi realizada em PHP:
-
xml_normalized.php: limpa o XML, normalizando espaços e ordem dos atributos em conformidade com o XML canônico, XML-C14N; porém apresentando o XML de forma usual, com sintaxe de elementos vazios e algum espaçamento (padrão LibXML2) destacando hierarquia.
-
csv_normalized.php: limpa o CSV, normalizando uso das aspas, espaços e quebras de linha.
-
vocLexMLRdf2csv.php: converte o XML RDF em tabela, criando os arquivos CSV de referência para o trabalho terminológico, garantido a inspeção visual humana em planilhas e a auditoria em algoritmos de banco de dados SQL, como o SQL Dataset Unifier.
-
Planilha colaborativa: é a interface colaborativa para os arquivos CSV, mais amigável para os usuários não-técnicos, está sendo mantida nesta planilha colaborativa, sem valor de registro (apenas os arquivos CSV deste git têm esse valor).
Apenas os dados da pasta data são controlados por tag de versionamento deste repositíro. O planejamento inicia com as issues, depois é consolidado como relatório de preparo, na documentação de cada versão (arquivos v1.0.0.md, v1.0.1.md, etc.).
Uma breve introdução sobre o preparo e seus fundamentos.
Por se tratar de um repositório público com controle de versões, em particular por se tratar do uso do sistema git, o presente repositório já vem munido de checksum SHA1: o que garante a integridade física dos arquivos durante as operações cotidianas e, em parte, garante também a sua autenticidade.
Para fins de preservação de longo prazo, essa mesma garantia pode ser ampliada se acrescentamos mais uma hash, notadamente SHA3 do padrão FIPS 202 de 2015. A linha de comando abaixo pode ser utilizada em qualquer sistema Linux para a obtenção do arquivo sha3-256sum.txt
das assinaturas digitais dos (demais) arquivos de uma pasta:
sha3sum -a 256 *.* | grep -v sha3-256sum > sha3-256sum.txt
Nota: por ser repositório público e audtorável, a garantia de autenticidade é reforçada pelo endosso dos commiters e o testemunho dos usuários do LexML em geral.
A proveniência dos dados deve ser registrada no presente documento, e ser rastreável no git.
Alguns processos de preparo levam em consideração a auditoria de commits específicos, relativos ao processamento automático de transformação dos dados sem perda do conteúdo original, garantindo a não-adulteração. Vide por exemplo o uso do algortimo xml_normalized.
Esses commits são explicitamente indicados na seção "Preparo inicial" do presente documento de descrição do preparo dos dados.