Vos fichiers lisibles dans 30 ans ?

HALSubscribe

Écrit par CCSD

Vous êtes-vous déjà demandé  si les fichiers que vous déposez aujourd’hui dans HAL seront lisibles et exploitables par vos futurs collègues et chercheurs dans dix, vingt ou trente ans ?

La conservation à long terme est en effet un enjeu majeur pour tout contenu en format électronique : l’évolution soutenue des supports,  des logiciels et des matériels de lecture constituent autant de failles pour la préservation des données,  et donc, de leurs réutilisations.

On parle d’archivage pérenne du document numérique lorsque sont mises en place des procédures pour conserver le document dans le temps, le rendre accessible tout en en préservant son intelligibilité.

Pour offrir ce service, le CCSD a conclu un partenariat avec le Centre Informatique National de l’Enseignement Supérieur (CINES) en 2009.

Techniquement, le CCSD  archive le ou les fichiers pdf principaux ainsi que certaines métadonnées (du dépôt) au format XML pour tout dépôt de type texte,  et le fichier jpeg  pour les dépôts de type image. Un test  est effectué qui permet de vérifier l’éligibilité des  documents à un archivage sur la plateforme  du CINES, puis les documents conformes sont transférés par lots au CINES.

La mise en place du projet s’est déroulée en plusieurs  étapes :

  • une phase préparatoire de conversion en version 1.2 des pdf qui n’étaient pas éligibles,
  • une phase de développement de l’application,
  • une phase d’archivage massif de l’existant, soient environ 110 000 lots, qui s’est étalée sur 3 mois,
  • et enfin une phase de correction des pdf rejetés.

La procédure de versement est depuis entièrement automatisée. L’exploitation consiste actuellement en la surveillance et la mise à jour de la machine, une analyse des logs et un suivi des volumes de rejets.

En décembre 2012, les lots archivés représentaient un volume d’environ  480 Go de données répartis en  215 000 lots. Actuellement, on constate un taux de rejet global d’environ 10%, autrement dit 90% des fichiers déposés  sur HAL sont archivés au CINES. Le CCSD effectue régulièrement des campagnes correctives et conserve de toute façon les versions originales des pdf.

Le CINES de son côté rejette tous les fichiers pdf dont la version est inférieure à 1.4, et ce, depuis juin 2012. Il s’agit d’une condition nécessaire pour pouvoir être archivé, elle ne garantit pas du tout l’éligibilité du fichier à l’archivage : d’autres critères sont utilisés qui ne sont pas testés lors du dépôt. Si vous voulez tester l’éligibilité de votre fichier, vous pouvez utiliser l’interface FACILE proposée par le CINES.

C’est pourquoi lors du dépôt, HAL présente le message d’avertissement suivant pour les fichiers pdf qui à coup sûr, ne seront pas archivables du fait de leur version : Le ou les fichiers pdf suivants sont d’une version obsolète pour pouvoir être archivés au CINES. Merci d’essayer de fournir une version plus récente (1.4 au minimum) » …. . Ce message ne bloque pas du tout la procédure de dépôt.

Pour vérifier la version de votre fichier, c’est très simple : ouvrez votre fichier dans Acrobat Reader, choisissez « fichier>propriétés », la version s’affiche dans l’onglet « description ».

Si vos fichiers ne sont pas éligibles et que vous possédez les sources, alors vous pouvez essayer de recréer les pdf avec des outils récents de type adobe distiller ou pdfcreator.