Skip to content

Latest commit

 

History

History
89 lines (49 loc) · 10.4 KB

organizacao.md

File metadata and controls

89 lines (49 loc) · 10.4 KB

Preservação de dados no Digital-guard

O Projeto Digital-guard, de curadoria e preservação digital, é mantido pelo ITGS. A curadoria seleciona dados relevantes (fontes primárias) doados para o domínio público pelos seus autores ou entidades responsáveis. Dados brutos são mantidos em discos de preservação, e seus metadados descritivos são mantigos em repositórios git.

Nos repositórios git de cada país são registrados apenas:

  • input: dados de gestão e metadados dos arquivos doados (principal ativo);
  • output: relatórios e sumarizações estatísticas dos arquivos recebidos.

Cada git é publicado em um endereço permanente, distinguido pelo código do país, na forma http://git.digital-guard.org/preserv-{isoCode}. Por exemplo o isoCode BR indica Brasil, ou seja, os metadados do Brasil estão em
  http://git.digital-guard.org/preserv-BR
  Output em '/data/_out'; input no restante da pasta '/data'.

Metadados típicos são o número de bytes (file size), a data de aceitação ou registro, o tipo de arquivo (ex. .zip ou .gz), o CNPJ da entidade doadora, o hash SHA256 do arquivo, etc.

Os arquivos de dados, por serem grandes, têm as suas cópias armazenadas em diversos locais seguros, para fins de preservação, e em núvem através de serviço de storage "frio", acessível para download em DL.digital-guard.org/{hash}, conforme a hash SHA256 do arquivo solicitado. Por exemplo

Em particular os dados de domínio público são registrados e armazenados também na Fundação Biblioteca Nacional, na forma de DVD durável, anexo a obras descritivas dos metadados, submetidas ao depósito legal.


CONCEITOS

Apresentação dos principais conceitos e diretivas adotadas no Projeto Digital-guard de preservação digital.

Fontes primárias

As fontes de dados primárias podem ter diversas origens e diferentes metodologias de coleta. De especial interesse para o Instituto ITGS, num contexto de preservação de longo prazo (décadas), são as fontes de dados relativos a endereços postais de cada município do Brasil. Cada fonte consiste de um conjunto de dados sistematizados e publicados por uma instituição (nacional ou internacional) com idoniedade reconhecida pela comunidade local.

As fontes primárias estão relacionadas aos dados brutos, quando tidos como "verdade de campo" ou "verdade oficial", e com o trabalho mobilizado pela instituição para sistematizar, consolidar ou transformar os dados brutos em dados geográficos consistentes. Dois exemplos ilustrativos:

  • Um carteiro com seu GPS, confirmando que o endereço de entrega existe e está localizado nas coordenadas de latitude e longitude indicadas pelo GPS. Diversos carteiros, entregadores e outros profissionais podem alimentar uma planilha e essa planilha por fim, publicada como arquivo CSV, será a nossa fonte primária de dados.

  • Imagens de satélite são dados brutos. Os lotes, rios e vias são desenhados sobre a imagem a partir de softwares confiáveis assistidos por pessoas habilidadas, e que terão seu trabalho publicado (na forma por exemplo de arquivos GeoJSON) por instituições que "assinam embaixo" desse trabalho, tais como o IBGE, a Fundação OpenStreetMap, o departamento de cartografia de uma grande prefeitura, e muitos outros.
    Mesmo tendo usado a mesma imagem como origem, os produtos (ex. arquivos GeoJSON resultantes) podem diferir bastante em termos de qualidade, metodologia de interpretação, modelagem dos dados e software de interpretação, de modo que cada produto de interpretação da imagem é considerado uma fonte primária distinta.

Fontes OpenStreetMap Geofabrik

O mapa OSM cobre todo o planeta, é mantido pela Openstreetmap Foundation, uma fundação inglesa registrada sob Company Registration Number 05912761.

O planeta inteiro é uma massa de dados tão grande que inviabiliza filtragem de dados específicos. Diversos recortes do mapa OSM são gerados por membros da OSMF, entre eles a empresa alemã, Geofabrik (USt-Id DE222535480). Seus recortes são considerados fiáveis e utilizados por governos e empresas por todo o mundo, portanto amplamente auditados. Por orientação do projeto OSM-Stable Brasil (docs), o Instituto ITGS também faz uso desses recortes.

Os metadados dos arquivos preservados estão descritos no git do projeto, git/OSMBrasil/stable/brazil-latest.osm.md.

Fontes IBGE

Fonte dos dados estatísticos oficiais do Brasil, bem como elementos de cartografia e localização de endereços. O IBGE - Instituto Brasileiro de Geografia e Estatística (CNPJ 33.787.094/0001-40).

Por ser uma fonte muito extensa, requer curadoria e decisões de projeto.

Fontes nas prefeituras

Por ser uma fonte muito extensa e diversificada, requer curadoria e decisões de projeto.

Normalização das fontes

Os conjuntos de dados de cada fonte apresentam formatos e características de modelagem de dados distintas. Para que possam ser comparados entre si ou processados pelas ferramentas internas do AddressForAll, precisam estar todos obedecendo a um mesmo esquema, todos modelados com uma semântica.

A transformação que se aplica a um determinado conjunto de dados da fonte primária para chegar no modelo de dados padrão AddressForAll, é denominada normalização. A descrição da metodologia, dos algorímos, bem como os códigos-fonte do software de normalização, são todos também preservados, com a mesma perspectiva de longo prazo que os dados da fonte primária.

Todos os elementos da normalização são repositórios git com licença aberta e publicamente distribuidos, atualmente em https://github.com/AddressForAll

Depósito legal e preservação digital

O Depósito legal dos metadados e da normalização das fontes é realizado em dois meios complementares, tendo em vista que no Brasil os cartórios e o sistema jurídico ainda não são 100% digitais.

A preservação do arquivo em si (muitos Gigabytes) é feita por contratos de longo prazo (décadas), ainda em estudo. Uma vez no repositório definitivo, alguns parceiros se comprometem também com réplicas. PS: sistemas como Filecoin ou LOCKSS, também em estudo, geram as réplicas de segurança automaticamente.

Contexto

A Plataforma de Projetos do Instituto ITGS foi concebida para a gestão de projetos integrados e uso de um ecosistema de padrões e metodologias interoperáveis. O presente projeto de preservação digital é um deles. Abaixo um diagrama que resume o passo-a-passo da preservação e como ele se relaciona com atividades de outros projetos.

Datasets descentralizados no git

Dados e metadados mantidos pelo Digital-guard em repositórios git podem ser centralizados ou distribuídos por diversas jurisdições.

Com argumentos análogos ao uso de distributed hash table ou RDD, o dataset descentralizado garante maior resiliência no sistema como um todo e maior autonomia nas jurisdições, que assumem a responsabilidade por seus respectivos datasets.

  • Planilhas distribuidas: por exemplo as sub-jurisdições de cada país seguem sua hierarquia &emdash; tomando BR como referência, os CSVs de primeiro nível são mantidos pelo país e os segundo nivel (ex. BR-AC ou BR-SP) distribuídos por seus responsáveis.
  • Geometrias GeoJSON distribuidas: optou-se por manter os dados filtrados em git, distribuidos de forma balanceada por quadrantes Geohash. Ver por exemplo as quadras de preservCutGeo-BR2021/tree/main/data/SP/SaoPaulo/_pk0033.01/block.