Menu
Données ouvertes - Support technique

SUPPORT TECHNIQUE

Standardisation des formats de fichier

Cette section présente les règles applicables en tout temps ainsi que les règles spécifiques à chaque format de fichier.

Standardisation générale des formats de données

La présente section concerne les différents formats de données.

Encodage des fichiers texte

Tous les jeux de données publiés en format texte (non binaire) sont encodés en format UTF-8.

L’indicateur d’ordre d’octet (IOO, ou en anglais, BOM, (Byte order Mark)) est utilisé pour les fichiers CSV, KML et XML afin d’indiquer qu’il s’agit d’un encodage unicode. L’IOO est formé par la suite des trois caractères hexadécimaux suivants : EF BB BF.  Certaines plateformes de développement et logiciels traitent implicitement ces caractères alors que d’autre les considèrent comme des caractères normaux, forçant le développeur à les prendre en charge.

Format XML (Extensible Markup Language)

Les données sont formatées selon la version 1.0 du standard XML
http://www.w3.org/TR/2008/REC-xml-20081126/.

Le namespace utilisé est le : http://donnees.ville.quebec.qc.ca/opendata

Lorsqu’un document comporte un nœud racine, celui-ci porte un nom au pluriel.
Bien que le standard supporte l’indication d’un attribut vide par l’utilisation d’une seule balise (ex. : <tag/>), les attributs vides sont systématiquement formatés <tag></tag>.

Format CSV

Les données sont en partie structurées selon le standard de l’organisme Internet Engineeiring Task Force (IETF) :
http://tools.ietf.org/html/rfc4180.

Les particularités suivantes ont été préférées au standard afin de faciliter le traitement des données :

  • Le séparateur de colonne est la barre verticale (|)
  • Elle est définie dans la codification UTF-8 par la valeur hexadécimale 007C.
  • Deux barres verticales successives indiquent un champ vide.
  • Les champs de type texte ne peuvent contenir de barre verticale.
  • La virgule (,) est utilisée pour distinguer la partie entière de la partie décimale d’un nombre réel.

Format KML (Keyhole Markup Language)

Le standard du format KML popularisé par Google  est téléchargeable  à l’adresse suivante :
http://portal.opengeospatial.org/files/?artifact_id=27810.

Format SHP (Shapefile)

Les spécifications techniques de ce format de données et peuvent être obtenues ici :
http://www.esri.com/library/whitepapers/pdfs/shapefile.pdf

Le format Shapefile, développé par la compagnie ESRI est un format binaire ouvert qui permet de décrire une géométrie (point, ligne, polygone) et de la positionner dans un système de coordonnées.  Un jeu de données est typiquement découpé en un certain nombre de fichiers:

ExtensionDescription
.shpContient les données géométriques de chaque entité.
.shxIndex spatial.
.dbfContient les données descriptives (texte, date, etc) de chaque entité.

Format JSON (JavaScript Object Notation)

Les données sont formatées selon le standard d’IETF : http://tools.ietf.org/html/rfc4627.

Standardisation des données

Cette section présente les règles applicables en tout temps ainsi que les règles propres à chaque format de données.

Nomenclature des jeux de données

Les noms de colonne respectent ces règles:

  • Aucun espace;
  • Libellés exclusivement en majuscule;
  • Utilisation des « _ » afin de séparer des mots;
  • Limitation de l’utilisation des chiffres dans les libellés de colonnes : Ex. : INFO_SUPP au lieu de INFO_1;
  • Limitation de la longueur des libellés de colonnes à 10 caractères (limite venant du format shapefile d’ESRI).

Standardisation générale

Les règles suivantes s’appliquent à tous les champs de type texte :

  • Aucune balise HTML;
  • Les retours de charriot Windows correspondant dans la table ASCII aux deux caractères consécutif 13 (Carriage return) et 10 (Line feed) sont traités en retirant la valeur 10;
  • Éliminer les caractères inférieurs ou égaux à la valeur 30 de la table ASCII.

Type de données

TypeDescription
TexteChaîne de caractères de longueur variable.
DateDate et heure.
Privilégier les formats suivants (avec tirets -) :
Date et heure : AAAA-MM-JJ HH 24:MI:SS
Date : AAAA-MM-JJ
Heure : HH24:MI:SS
EntierNombre entier
RéelNombre décimal

Données cartographiques

Afin de faciliter l’exploitation des données cartographiques par la communauté ouverte, la Ville publie l’ensemble de celles-ci dans le datum géodésique mondial WGS84 (World Geodetic System). Il s’agit d’un système de coordonnées géographiques angulaires (latitude, longitude et hauteur) non projetées, utilisé notamment par le standard KML de Google et la technologie GPS (Global Positioning System). Une définition du WGS84 se trouve ici : http://www.spatialreference.org/ref/epsg/4326/.

A titre informatif, la Ville de Québec utilise pour l’ensemble de ses besoins cartographiques la projection cartographique MTM (Mercator Transverse modifié), fuseau 7.  Toutes les données sont référencées sur le DATUM NAD83.  La définition se trouve ici :http://www.spatialreference.org/ref/epsg/32187/.

Lorsque les données cartographiques sont publiées en format texte, la géométrie de l’entité est décrite selon le format Well-Known Text.  Ce standard est supporté par l’ensemble de l’industrie des systèmes d’information géographique et des bases de données spatiales.  La définition de ce standard se trouve ici :portal.opengeospatial.org/files/?artifact_id=25355.

Glossaire

ATTRIBUT DE DONNÉES

Les attributs de données permettent de mieux connaître les caractéristiques inhérentes à chacune des informations présentes dans un jeu de données. Celles-ci permettent entre autre de définir le nom de la donnée, une description de celle-ci ainsi que son type.

DONNÉES PUBLIQUES

Données collectées, maintenues et utilisées par les organismes publics pour accomplir leur mission.

FORMATS DE DONNÉES

Désigne un ensemble structuré d’informations servant à définir ou décrire une ressource (donnée, document…) quel que soit son support (papier ou électronique). Les métadonnées sont donc "des données sur les données", qui permettent à un individu ou un ordinateur d'en comprendre le sens et l'organisation.

XML (Extensible Markup Language)
Langage informatique de balisage générique qui dérive du SGML. Cette syntaxe est dite extensible car elle permet de définir différents espaces de noms, c'est-à-dire des langages avec chacun leur vocabulaire et leur grammaire, comme XHTML, XSLT, RSS… Cette syntaxe est reconnaissable par son usage des chevrons (< >) encadrant les balises. L'objectif initial est de faciliter l'échange automatisé de contenus complexes (arbres, texte riche…) entre systèmes d'informations hétérogènes (interopérabilité).

CSV (Comma-separated values)
Format informatique ouvert représentant des données tabulaires sous forme de valeurs séparées par des virgules.

XLS
Tableur qui simule une feuille de calcul comptable du papier. Il affiche plusieurs cellules, qui forment ensemble une grille composée de lignes et de colonnes, chaque cellule contenant du texte alphanumérique, les valeurs numériques ou des formules.

KML (Keyhole Markup Language)
Langage basé sur le formalisme XML et destiné à la gestion de l'affichage de données géospatiales dans les logiciels Google Earth, Google Maps, Google Mobile et World Wind.

SHP (shapefile)
Format de fichier issu du monde des Systèmes d'Informations Géographiques (SIG). Initialement développé par ESRI pour ses logiciels commerciaux, ce format est désormais devenu un standard de facto, et largement utilisé par un grand nombre de logiciels libres ou propriétaires.Il contient toute l'information liée à la géométrie des objets décrits, qui peuvent être des points, des lignes et des polygones.

DWG (DraWinG)
Format natif de fichier binaire utilisé par des logiciels CAO et DAO comme AutoCAD pour sauvegarder les données et métadonnées 2D et 3D de dessins.

JEU DE DONNÉES

Unité de publication, peut être un fichier ou un ensemble de fichiers se rapportant au même sujet.

MÉTADONNÉE

Désigne un ensemble structuré d’informations servant à définir ou décrire une ressource (donnée, document…) quel que soit son support (papier ou électronique). Les métadonnées sont donc "des données sur les données", qui permettent à un individu ou un ordinateur d'en comprendre le sens et l'organisation.

OUVERTURE DES DONNÉES (OPEN DATA)

Principe selon lequel les données publiques (celles recueillies, maintenues et utilisées par les organismes publics) doivent être disponibles pour accès et réutilisation par les citoyens et les entreprises.

PRINCIPES (10) DE L'OUVERTURE DES DONNÉES

La Sunlight Foundation a établi, en concertation, dix grands principes des Données ouvertes que la Ville de Québec endosse également.

Les données ouvertes doivent être complètes, primaires, opportunes,accessibles, exploitables, non discriminatoires, non propriétaires, libres de droits, permanentes, à moindre coût.

Avez-vous pensé à l'accessibilité?

Lorsque vous développez une application, pensez à respecter les règles pour l'accessibilité des contenus Web (WCAG). Plus d’utilisateurs pourront ainsi en profiter!

Le regroupement des organismes de personnes handicapées de la région 03 (ROP03) peut également vous guider vers des groupes associatifs pour mieux comprendre les besoins des personnes ayant des limitations. N’hésitez pas à le consulter.

© Ville de Québec, 2017. Tous droits réservés.