pdf mascot
PDF6 min de lecture

Pourquoi les PDF sont si difficiles à modifier (et comment ils fonctionnent vraiment)

Nous sommes tous passes par la : vous recevez un PDF, reperez une minuscule faute de frappe et pensez : "Je vais juste corriger ca vite fait." Mais des que vous essayez de cliquer dans le texte, tout se casse. Les polices changent, la mise en page saute, ou vous vous retrouvez incapable de cliquer sur quoi que ce soit. Pourquoi un format aussi universel est-il aussi incroyablement obstine ?


Les PDF ressemblent a une page imprimee, pas a un document

La principale raison pour laquelle les PDF sont difficiles a modifier, c'est qu'ils n'ont pas ete concus pour etre des "documents" au sens ou le sont Word ou Google Docs. Un document Word ressemble a un seau de texte liquide qui coule et se recompose au fur et a mesure que vous tapez. Un PDF ressemble plutot a une photographie numerique d'une page imprimee.

Quand vous enregistrez un fichier en PDF, vous le "figez" en quelque sorte. Le but d'un PDF (Portable Document Format) est d'avoir exactement le meme aspect sur tous les ecrans, toutes les imprimantes et tous les appareils du monde. Pour obtenir cette coherence parfaite, il renonce a la flexibilite d'une edition facile.

Idee cle : les documents Word stockent "ce que vous avez dit". Les PDF stockent "ou chaque lettre doit se trouver sur la page".

Il n'y a pas de "zones de texte" dans lesquelles cliquer

Dans un document classique, votre ordinateur sait qu'un groupe de lettres forme un mot, et que les mots forment un paragraphe. Si vous supprimez un mot, le reste du paragraphe se "recompose" pour combler le vide.

Les PDF n'ont pas de paragraphes. Ils n'ont meme pas vraiment de mots. A la place, un PDF est une liste d'instructions qui indique a l'ordinateur ou placer exactement chaque caractere individuel, avec des coordonnees X et Y.

Schema montrant comment les PDF stockent le texte avec des coordonneesXYHx : 60, y : 80ex : 110, y : 80lx : 155, y : 80lx : 185, y : 80ox : 215, y : 80Comment un PDF stocke le mot "Hello"

Si vous supprimez le "H" dans un editeur PDF, le "e" ne se decale pas pour prendre sa place. Il reste exactement a sa coordonnee assignee. C'est pour cela que modifier un PDF donne souvent l'impression d'essayer de deplacer des meubles dans une piece ou tout est boulonne au sol.


Les polices sont cuites dans le fichier

Avez-vous deja ouvert un PDF et vu des symboles etranges ou des cases vides a la place des lettres ? Cela vient generalement des polices.

Pour qu'un document ait le meme aspect sur votre telephone que sur un panneau publicitaire, les PDF "embarquent" les polices qu'ils utilisent. Ils transportent une petite copie de la police dans le fichier. Mais quand vous essayez de modifier ce texte, votre editeur PDF doit disposer exactement de cette meme police sur votre ordinateur pour vous permettre de taper de nouvelles lettres.

Si vous n'avez pas la police, l'editeur essaiera de la remplacer par une police "similaire", ce qui ruine souvent la mise en page ou donne au texte un rendu legerement "bizarre".

"Modifier un PDF, c'est comme essayer de peindre une nouvelle piece dans une maison deja terminee en n'utilisant que les restes de peinture du chantier d'origine."

Pourquoi certains PDF ont du texte selectionnable et d'autres non

Tous les PDF ne se valent pas. Il existe deux grands types :

  • PDF numeriques : crees directement a partir d'un programme comme Word ou Excel. Ils contiennent de vraies donnees textuelles que vous pouvez surligner et copier.
  • PDF scannes : crees en photographiant une page physique. Ce ne sont que de grandes images. Votre ordinateur ne voit pas du "texte" ; il voit seulement un ensemble de pixels noirs et blancs.

Pour modifier un PDF scanne, il faut d'abord le passer dans un logiciel OCR (reconnaissance optique de caracteres), qui "devine" quelles sont les lettres. Si le scan est flou, l'ordinateur peut se tromper, d'ou le charabia qu'on obtient parfois en copiant du texte depuis un scan.


Ce qui se passe quand vous "modifiez" un PDF

Quand vous utilisez un editeur PDF pour changer un mot, il ne modifie generalement pas vraiment le fichier original. A la place, il utilise la technique de l'"overlay".

Imaginez une feuille de papier physique, sur laquelle vous mettez une bande de correcteur blanc par-dessus un mot, puis ecrivez un nouveau mot sur le correcteur. C'est exactement ce que font la plupart des editeurs PDF. Le texte original est souvent encore la, cache sous une boite blanche !

Conseil pro : c'est pour cela qu'il ne faut jamais "rediger" une information sensible en dessinant simplement une boite noire par-dessus dans un editeur PDF. Si vous n'"aplatissez" pas le fichier, quelqu'un peut souvent deplacer la boite et voir ce qu'il y a dessous.

Pourquoi les equations mathematiques sont le pire cas

Si vous avez deja essaye de modifier un article universitaire ou un manuel de mathematiques, vous savez que c'est presque impossible. Les symboles mathematiques (comme √, ∑ ou π) ne sont pas des lettres standard. Ils utilisent souvent des polices speciales comme Computer Modern ou STIX.

Ces polices encodent les symboles d'une maniere que les editeurs standard ne comprennent pas. Quand vous essayez d'enregistrer une modification, les symboles mathematiques se transforment souvent en carres vides (□) - un phenomene que les developpeurs appellent "tofu". Comme l'editeur ne sait pas comment "dessiner" ce symbole dans la nouvelle version du fichier, il abandonne tout simplement.


Resume

Les PDF sont un chef-d'oeuvre de coherence, mais un cauchemar de flexibilite. Ils ont ete construits pour etre la destination finale d'un document, pas une etape intermediaire. Si vous devez faire de gros changements, votre meilleure option reste presque toujours de retrouver le fichier Word ou Google Doc d'origine plutot que de lutter contre les instructions figees d'un PDF.

Essayez par vous-même

Mettez en pratique ce que vous avez appris avec notre PDF Editor.

Pourquoi les PDF sont si difficiles à modifier (et comment ils fonctionnent vraiment) | ToolsCanvas