Un demi de compression

Publié le 26 octobre 2017 par Gee dans Tu sais quoi ?

Inclus dans le livre Grise Bouille, Tome III

Ça faisait longtemps qu’on avait pas un peu causé de binaire, de fichiers, de tout ça… alors c’est parti, attaquons-nous à cet élément central de l’informatique moderne : la compression !

(Et au fait, si tu es du côté de Paris ce week-end, je serai en dédicace à la librairie À Livr’Ouvert samedi après-midi, passe donc me voir, ça fait toujours plaisir 🙂 )

Un demi de compression

PWIVIOUSLY*, ON GREASE BOOYAH :

✷ Voir l'article Des zéros et des uns.

Reprenons.

💡 Avec des zéros et des uns, on peut donc enregistrer n'importe quelle information (texte, son, image, etc.). Seulement, on veut stocker beaucoup de choses et les octets sont en nombre limités.

Gee précise : « Bah oui, même un disque dur de 1 Tio, soit 1 099 511 627 776 octets, ça reste limité.

▶️ Du coup, stocker chaque information de manière « brute » est rarement une solution acceptable : on va chercher à réduire la place nécessaire pour stocker une information. Ça s'appelle la compression.

Le Geek, en train de galérer pour faire tenir toutes ses affaires dans une petite valise : « Allez ! Rentre là-dedans ! » Une flèche indique : « Compression de données appliquée à la valise : un t-shirt bien plié prend moins de place. Ce sont les mêmes fringues à l'arrivée, mais selon comment on les stocke, on peut en mettre plus ou moins dedans. »

Par exemple, pour stocker des textes, on peut simplement associer à chaque caractère (chaque lettre, chiffre ou signe de ponctuation) une suite de bits de taille fixe.

C'est l'idée derrière la table ASCII :

Un dessin d'une table anthropomorphisée, sur des skis, qui dit : « Tout schuss ! » Le dessin est rayé/barré avec force.

En code ASCII, chaque caractère prend 1 octet (soit 8 bits*) :

Un extrait de table ASCII. Le caractère « . » vaut 0010 1110, le « 0 » vaut 0011 0000, le « A » vaut 0100 0001, etc.

✷ 7 bits à la base, mais on l'a étendue à 8 bits par la suite.

Un texte encadré dit : « Ceci est une phrase sans accent parce que le code ASCII est americain et que du coup, il ne contient pas les caracteres accentues. » Gee regarde le texte en expliquant : « Cette phrase composée de 131 caractères “pèse” donc 131 octets, soit 1048 bits.

Comment réduire ce poids ?

Trois fichiers sont anthropomorphisés. Un fichier ZIP s'exclame, enthousiaste : « Programme minceur pour l'été ! Perdez du poids et rentrez enfin dans votre carte micro-SD taille 36 Mio ! » Un fichier BMP est en train de pleurer et est consolé par un fichier PNG : « Encore le diktat de la minceur ! Viens, BMP, ne les écoute pas ! »

💡 Tout d'abord, remarquons que 8 bits permettent de représenter 256 valeurs (2⁸) et donc de différencier 256 caractères… oui, mais notre phrase utilise beaucoup moins de caractères !

Le même texte que dans l'image d'avant, avec une liste des caractères utilisés : « A, C, I, S, l'espace, a, c, d, e, h, i, l, m, n, o, p, q, r, s, t, u, la virgule et le point ». Gee commente : « 23 caractères, il nous faut donc 5 bits au minimum pour les différencier. 4 bits ne permettent de représenter que 16 valeurs différentes (2 puissance 4). On passe à 32 (2 puissance 5) en utilisant 5 bits.

131 caractères de 5 bits nous donneraient donc 655 bits, soit 82 octets (un gain de 38 % par rapport à la taille en ASCII sur 8 bits).

▶️ On peut aussi remarquer que les caractères ne sont pas tous autant utilisés les uns que les autres :

💡 Imaginons alors que nous utilisions l'arbre suivant à la fois pour encoder et décoder des caractères.

On part de la racine : à chaque fois que l'on tourne à gauche, on met un 0 ; à chaque fois qu'on tourne à droite, on met un 1.

Quand on atteint une feuille, on atteint un caractère et on a donc le code correspondant au caractère.

Pour le décodage, c'est simple : quand on lit le fichier, on part de la racine et les 0 et les 1 indiquent quelle direction prendre. Quand on atteint une feuille, on a lu un caractère, et on repart d'en haut.

▶️ Chaque caractère peut donc avoir un code binaire de taille différente (plus il est haut dans l'arbre, plus le code est court).

Et comme on a mis les caractères qui apparaissent souvent plutôt vers le haut de l'arbre…

PAF !

Le smiley demande, en souriant : « Ça fait des Chocapics ? »

Gee précise : « Le “e” ne prend plus que 3 bits au lieu de 5, et ses 22 apparitions ne coûtent donc plus que 66 octets au lieu de 110 ! À l'opposé, le point prend 7 bits au lieu de 5, mais comme il n'apparaît qu'une fois, ce n'est pas grave. »

Au total, notre texte n'occupe plus que 514 bits (au lieu des 655 en utilisant un codage régulier sur 5 bits, soit un gain de 22 %).

▶️ Eh bien figurez-vous qu'on peut facilement généraliser cela à tous les textes français : en effet, on sait statistiquement que le « e » apparaît beaucoup plus que le « z » ou le « w » dans notre langue.

Bien sûr, pour le Scrabble comme pour la compression, les fréquences (et donc les valeurs) varient selon la langue.

⚠️ En réalité, pour la compression, en général, on ne présuppose pas d'une langue ou d'une autre : on construit dynamiquement l'arbre le plus adapté à ce que l'on veut compresser.

💡 L'arbre que j'ai utilisé ci-dessus ne sort pas de nulle part, il vient du principe du codage de Huffman mis au point en 1952 par David A. Huffman pendant sa thèse au MIT.

On parle d'un codage encore utilisé aujourd'hui dans pratiquement tout ce qui est numérique : Huffman fait partie de ces personnes qui ont bien plus révolutionné l'informatique que des Steve Jobs ou des Bill Gates, mais qu'on connaît beaucoup moins.

Après c'est sûr, un universitaire passionné par les mathématiques des origamis, face à un milliardaire qui fait poser des filets anti-suicide dans ses usines en Chine, ça fait pas le poids.

Huffman, tranquillement installé en train de faire des origamis, dit : « Bah quoi ? C'est cool, les origamis. Quelque part, c'est une forme de compression… » Le Geek, transpirant et galérant en froissant des feuilles de papier, dit : « Surtout quand on les foire… »

Alors rendons hommage à ce grand monsieur (hommage posthume, car il nous a quittés en 1999).

Rick Deckard, de Blade Runner, regarde un origami de licorne en se remémorant les paroles : « Dommage qu'il dût mourir… mais c'est notre lot à tous. » Une flèche indique : « Référence pop forcée de ouf. » En bas, une musique en doubles-croches est dessinée, avec les paroles « Tugududu tugududu tugududu… OUAAAAAAAH OUAAH OUAAH OUAAAAAAAAHHH… » Une flèche indique : « Vangelis. »

💡 Notez que la plupart des formats de compression que vous connaissez (les ZIP, GZIP, etc.) utilisent un codage légèrement différent de celui de Huffman (codage par dictionnaire), mais qui repose sur le même principe universel dans la compression de données : identifier les informations redondantes et les encoder beaucoup plus succinctement que les informations rares.

Ainsi, on peut stocker la même information (aucune perte) en prenant moins de place en moyenne !