Comment fonctionne le PDF : pages, polices et sécurité
Structure interne du PDF, intégration des polices, raison pour laquelle les PDF s'affichent partout de la même façon et comment le chiffrement protège les documents.
Nous sommes tous passes par la : vous recevez un PDF, reperez une minuscule faute de frappe et pensez : "Je vais juste corriger ca vite fait." Mais des que vous essayez de cliquer dans le texte, tout se casse. Les polices changent, la mise en page saute, ou vous vous retrouvez incapable de cliquer sur quoi que ce soit. Pourquoi un format aussi universel est-il aussi incroyablement obstine ?
La principale raison pour laquelle les PDF sont difficiles a modifier, c'est qu'ils n'ont pas ete concus pour etre des "documents" au sens ou le sont Word ou Google Docs. Un document Word ressemble a un seau de texte liquide qui coule et se recompose au fur et a mesure que vous tapez. Un PDF ressemble plutot a une photographie numerique d'une page imprimee.
Quand vous enregistrez un fichier en PDF, vous le "figez" en quelque sorte. Le but d'un PDF (Portable Document Format) est d'avoir exactement le meme aspect sur tous les ecrans, toutes les imprimantes et tous les appareils du monde. Pour obtenir cette coherence parfaite, il renonce a la flexibilite d'une edition facile.
Dans un document classique, votre ordinateur sait qu'un groupe de lettres forme un mot, et que les mots forment un paragraphe. Si vous supprimez un mot, le reste du paragraphe se "recompose" pour combler le vide.
Les PDF n'ont pas de paragraphes. Ils n'ont meme pas vraiment de mots. A la place, un PDF est une liste d'instructions qui indique a l'ordinateur ou placer exactement chaque caractere individuel, avec des coordonnees X et Y.
Si vous supprimez le "H" dans un editeur PDF, le "e" ne se decale pas pour prendre sa place. Il reste exactement a sa coordonnee assignee. C'est pour cela que modifier un PDF donne souvent l'impression d'essayer de deplacer des meubles dans une piece ou tout est boulonne au sol.
Avez-vous deja ouvert un PDF et vu des symboles etranges ou des cases vides a la place des lettres ? Cela vient generalement des polices.
Pour qu'un document ait le meme aspect sur votre telephone que sur un panneau publicitaire, les PDF "embarquent" les polices qu'ils utilisent. Ils transportent une petite copie de la police dans le fichier. Mais quand vous essayez de modifier ce texte, votre editeur PDF doit disposer exactement de cette meme police sur votre ordinateur pour vous permettre de taper de nouvelles lettres.
Si vous n'avez pas la police, l'editeur essaiera de la remplacer par une police "similaire", ce qui ruine souvent la mise en page ou donne au texte un rendu legerement "bizarre".
"Modifier un PDF, c'est comme essayer de peindre une nouvelle piece dans une maison deja terminee en n'utilisant que les restes de peinture du chantier d'origine."
Tous les PDF ne se valent pas. Il existe deux grands types :
Pour modifier un PDF scanne, il faut d'abord le passer dans un logiciel OCR (reconnaissance optique de caracteres), qui "devine" quelles sont les lettres. Si le scan est flou, l'ordinateur peut se tromper, d'ou le charabia qu'on obtient parfois en copiant du texte depuis un scan.
Quand vous utilisez un editeur PDF pour changer un mot, il ne modifie generalement pas vraiment le fichier original. A la place, il utilise la technique de l'"overlay".
Imaginez une feuille de papier physique, sur laquelle vous mettez une bande de correcteur blanc par-dessus un mot, puis ecrivez un nouveau mot sur le correcteur. C'est exactement ce que font la plupart des editeurs PDF. Le texte original est souvent encore la, cache sous une boite blanche !
Si vous avez deja essaye de modifier un article universitaire ou un manuel de mathematiques, vous savez que c'est presque impossible. Les symboles mathematiques (comme √, ∑ ou π) ne sont pas des lettres standard. Ils utilisent souvent des polices speciales comme Computer Modern ou STIX.
Ces polices encodent les symboles d'une maniere que les editeurs standard ne comprennent pas. Quand vous essayez d'enregistrer une modification, les symboles mathematiques se transforment souvent en carres vides (□) - un phenomene que les developpeurs appellent "tofu". Comme l'editeur ne sait pas comment "dessiner" ce symbole dans la nouvelle version du fichier, il abandonne tout simplement.
Les PDF sont un chef-d'oeuvre de coherence, mais un cauchemar de flexibilite. Ils ont ete construits pour etre la destination finale d'un document, pas une etape intermediaire. Si vous devez faire de gros changements, votre meilleure option reste presque toujours de retrouver le fichier Word ou Google Doc d'origine plutot que de lutter contre les instructions figees d'un PDF.
Structure interne du PDF, intégration des polices, raison pour laquelle les PDF s'affichent partout de la même façon et comment le chiffrement protège les documents.
Comment le PDF intègre des images via les filtres DCT et Flate, utilise un système de coordonnées en points et reste la référence pour les documents.
Pourquoi les écrans mélangent la lumière rouge, verte et bleue, ce que code vraiment l'écriture abrégée HEX et quand HSL simplifie la vie.