Dénicher un livre disparu depuis plus d'un siècle est un jeu, qui relève parfois du miracle : les uns se débarrassent, La Libre Aire récolte !
Internet, les bouquinistes, les vide-greniers ou les boîtes à livres sont de précieuses ressources.
Mais il ne suffit pas d'avoir l'ouvrage entre les mains pour arriver au fichier PDF, au livre numérique ou l'édition en papier. Voyons le passage du vieux livre au texte compréhensible.
Première surprise : les troubles de la reconnaissance optique des caractères
L'OCR prend de temps en temps une lettre pour une autre ; par exemple le l (elle) et le t (thé) lui offrent quelques difficultés. Il confond celle, celte et cette, la voiture se transforme en voilure, et qu'il parte comme il parle.
La confusion touche aussi un m mué en rn ou un B majuscule devenu !D ou ID et autres aléas.
Une confusion fait sourire ; pour traiter celles de tout un livre... la patiente est mise à rude épreuve.
Deuxième surprise : le travail des imprimeurs
L'orthographe est un tantinet oubliée de nos jours, mais naguère la fatigue touchait les typographes. Le mot en fin de ligne répété en introduction de la ligne suivante, le terme oublié, la lettre remplacée par une similaire (un c venu faute d'un e), les exemples sont nombreux. Sans compter les mots d'une autre langue transcrits approximativement !
Troisième surprise : le temps et l'encre
Les coulures d'encre ou les effacements de mots rendent la tâche difficile à l'OCR, qui fait ce qu'elle peut : m!uunuvi ne vous coûte pas beaucoup, puisqu'il s'agit du minimum en langage aléatoire. Par chance, la version d'origine et le sens de la phrase aident à corriger ces usures du temps.
Rechercher les anciens recueils est une activité agréable, voire ludique. Les lire offre des découvertes inattendues. Les transcrire avant de les partager devient un sacerdoce, car le travail de bénédictin ne fait que commencer !