Tech Mult

INTRODUCTION
Multimédia?
Un média est un mode de représentation de

linformation clairement caractérisable
Il peut être
Discret (indépendant du temps)
Graphique
Image fixe
Continu (dépendant du temps)

Son
Images animées
2
INTRODUCTION
Multimédia?
Digital Content
Toute application utilisant ou servant à travailler sur
au moins un média spécifique
En informatique :
Réunion sur un même support de plusieurs média.
3
INTRODUCTION
4
INTRODUCTION
Intérêt
Des études portant sur linteractivité montrent que

lêtre humain ne retient que :
10 % de ce quil LIT
50 % de ce quil ENTEND et LIT
70 % de ce quil ENTEND, LIT et VOIT
5
INTRODUCTION
Domaines :
Production audio visuelle numérique (CD, film, vidéo)

Edition Hors ligne (CD, DVD, Blu Ray)
Edition En ligne (site web, télévision interactive,
WAP, 3G )
.
6
INTRODUCTION
Métiers
Journaliste
Graphiste
Webdesigner
Animateur 3d
Monteur vidéo
Infographiste
Art numérique
Développement
Impression
7
INTRODUCTION
Technologie matérielle
Numérisation
Son
Vidéo
Image
Accroissement des capacités de stockage et des débits

de transfert
Dispositifs de compression et de décompression
Accroissement des puissances de calcul
8
INTRODUCTION
Technologie logicielle
Représentation de données complexes (Hypertexte,

réseau sémantiques)
Programmation orientée objet
Synthèse du son et de l'image
9
INTRODUCTION
Processus de création dun objet multimédia (1)
10
INTRODUCTION
Processus de création dun objet multimédia (2)
11
INTRODUCTION
La scène
Cest une description symbolique dun univers virtuel
Interprétable par des outils de synthèse et de

visualisation
Qui se présente comme un document structuré
12
INTRODUCTION
Que faut-il représenter ?
Un référentiel spatial et temporel

Du texte
Des objets virtuels
Des textures
Des comportements dynamiques
Des indications pour les outils de synthèse et de
visualisation
Scène sonore : position dans lespace, acoustique

des pièces, transformations à appliquer 13
LES IMAGES
Domaines dapplication
Vision industrielle
Imagerie médicale
Imagerie satellite
Microscopie
Télécommunications
Animations, Images de synthèse
14
LIMAGE ET SES CARACTÉRISTIQUES
Quest-ce quune image?
Discrétisation
Réalité analogique Représentation numérique
15
LIMAGE ET SES CARACTÉRISTIQUES
Contenu de limage
31
1 Image = 1 Ensemble de pixels
1 valeur (ou plusieurs) par pixel
196
157
16
IMAGES MULTIVALUÉES
Plusieurs valeurs par pixel
Images couleurs
= + +
Images multispectrales, hyperspectrales
17
IMAGES MULTIVALUÉES
Exemple dimages
multispectrales
18
VOLUMES 3D
Empilement de coupes (images)
Epaisseur de chaque coupe 19

DES EXEMPLES DAPPLICATION
Photoshop, Paint Shop Pro, Gimp...
20
INA, Archives,
Navigation et recherche dans les documents
Identifier :
Changements de plan
Changements de scène
Mouvement de caméra
Mouvements des objets
21
Vidéo-surveillance
Lieux publics
Détection dactivités « anormales »
22
Imagerie satellite
Généralement multispectrale, hyperspectrale
23
Imagerie sonar
24
Analyse sportive
Satisfaire lentraîneur
revers : 90 %
service : 60 %
…
Satisfaire le supporter
25
Imagerie médicale
Différentes modalités :
IRM
Scanner
Radiologie
Echographie
De nombreux problèmes à résoudre
But : aide au praticien (localisation, mesure)
26
Imagerie médicale
Mesures automatiques
27
Imagerie médicale
Analyse et reconstruction
28
Titre, haut de
Analyse de documents imprimés
page
Reconnaissance de caractères Zone de texte
Documents anciens (médiévaux)
Lettrine
Note
en marge
Illustration Légende
29
© Université de Tours
Ecriture manuscrite
En ligne / Hors ligne
Applications :
Écriture
Chèques
Signature
30
Bases de données
BDD image, BDD multimédia
31
Robotique
Vision stéréoscopique
Reconnaissance de scène
32
Véhicules intelligents
Aide au conducteur
Conduite automatique
33
Chemins de fers
Aide au conducteur : surveillance de quai
34
Réalité augmentée
Analyse/Traitement + Synthèse
35
Biométrie
Différentes modalités : iris, empreinte, visage,
signature,
36
Et bien dautres encore
Vision industrielle
Aide aux handicapés
Nouveaux modes dinteraction
Représentation de données
Physique, biologie
37
CODAGE DES IMAGES
RAPPELS GÉNÉRALITÉS SUR LE CODAGE
En informatique, toute information (texte, image,
son ) est codée sous forme binaire, cest à dire
composée de 0 et de 1. Lunité dinformation la
plus petite est appelée un bit (« binary digit »),
une série de 8 bits est appelée un octet (en
anglais byte). Un octet permet de stocker un
caractère, telle quune lettre, un chiffre Ce
regroupement de nombres par série de 8 permet
une lisibilité plus grande, au même titre que
lon apprécie, en base décimale, de regrouper les
nombres par trois pour pouvoir distinguer les
milliers.
Par exemple, le nombre 1 256 245 est plus lisible que 39
1256245.
COMMENT LINFORMATION EST-ELLE
CODÉE EN BINAIRE ?
Pour ce qui est des nombres, cette opération

seffectue via une reconversion en base 2.
Un entier naturel est un entier positif ou nul. Le
nombre de bits à utiliser dépend de la fourchette
des nombres que lon désire utiliser.
Avec un bit, il est possible dobtenir 2 (= 21)
valeurs : 0 et 1
Avec 2 bits, il est possible de représenter 4 (= 2²)
valeurs différentes : 00, 01, 10 et 11
Avec un octet (8 bits), il est possible de
représenter 256 (= 28) valeurs, soit des nombres
40
entiers compris entre 0 et 255
CODÉE EN BINAIRE?
Pour un groupe de n bits, il est possible de

représenter ___ valeurs, soit des nombres entiers
compris entre 0 et ____
Jusquà combien peut-on compter avec 4 bits ?

Avec 24 bits ?
41
CODÉE EN BINAIRE?
La base-2 fonctionne exactement de la même

façon que la base-10, excepté bien entendu
pour son unité de mesure. Par exemple, en base-
10, « onze » sécrit « 11 » soit «101 + 100».
En base-2, « onze » sécrit « 1011 » soit «23 + 21+
20» (1*23 + 0*2²+ 1*21+ 1*20)
La valeur dun octet est comprise entre 0 et 255.
42
EXEMPLE
43
EXERCICE
44
CODAGE DES IMAGES
Il existe actuellement une très grande diversité
de formats dimages. Chaque logiciel ne peut
traiter quun nombre limité de ces formats. On
peut les classer en deux grandes catégories :
Les images vectorisées
Les images codées par points (codage Bitmap ou
matriciel)
45
LES IMAGES VECTORISÉES
Description géométrique de limage.
suite de formules mathématiques décrivant les formes
élémentaires constituant limage (carré, cercle,...).
Chaque forme possède un certain nombre dattributs tels que
la couleur, lépaisseur du trait,...
Stockage plus économique que celui dune image par points.

La reconstitution de limage par points au moment de
laffichage se fera sur base de ces formules.
La taille du fichier varie en fonction de la complexité de

limage.
Type de codage est particulièrement adapté pour les

dessins techniques qui sont essentiellement composés de
formes géométriques ou pour les schémas de toutes sortes. 46
LES IMAGES CODÉES PAR POINTS
Notions élémentaires
Définition : représente le nombre de points (pixels)
constituant limage. Cest-à-dire sa « dimension
informatique »
Une image possédant 640 pixels en largeur et 480 en
hauteur aura une définition de 640 pixels par 480, notée
640x480.
Les définitions courantes correspondent souvent aux
résolutions des écrans (800 * 600, 1024 * 768 )
Résolution : détermine le nombre de points par

unité de surface, exprimé en points par pouce (PPP,
en anglais DPI pour Dots per Inch)
Un pouce représentant 2.54 cm
Un résolution de 300 dpi signifie donc 300 colonnes et 300 47
rangées de pixels sur un pouce carré -> 90000 pixels sur un
pouce carré
Les images utilisées dans les présentations
multimédias sont des images destinées à être
vues sur un écran.
Limage sur écran est faite de pixels (picture

element), cest-à-dire de points auxquels
correspondent des bits de mémoire.
La finesse du tramage de limage ou résolution

(découpe de limage en points) peut varier.
48
Plus la trame est fine, plus la qualité de limage

restituée est bonne. La taille de limage et donc du
fichier qui la contient si elle est enregistrée est
évidemment directement proportionnelle à la
résolution.
Si une image que lon veut capturer occupe lentièreté
de lécran dont la résolution est de 800x 600, elle est 49
formée de 480.000 points ou pixels.
Affichage pixels
Nous parlons plutôt de dpi (dot per inch) ou
ppp (points par pouce) lorsquil sagit
dimprimer ou de capturer une image.
La qualité de limpression sera fonction de la
densité des points imprimés ou des signaux
lumineux captés.
50
Lors dune capture, il faut choisir la résolution la
plus adaptée.
Visualisation sur écran ou impression sur papier?
1er cas : résolution plus basse que le 2ème
Ne pas augmenter le nombre lumineux dun écran
au-delà de certaines limites
51
Le nombre de couleurs à coder est un facteur
déterminant quand à la qualité de limage
restituée mais également quant à la taille du
fichier.
Suivant le nombre de couleurs, le codage de
chaque pixel se fait sur
un bit (noir et blanc)
2 bits (quatre nuances de gris)
4 bits (16 couleurs)
True color :
24 bits (plus de 16 millions de couleurs)
Rajouter une information de transparence : 32 bits 52
La taille du fichier correspondant est forcément
chaque fois en proportion.
53
Taille de limage en fonction du nombre de
couleurs choisies
54
IMAGES CODÉES PAR POINTS
Exemple :
Image de dimension 640x480 codée en 256 couleurs
640 * 480 * 1 (256 couleurs correspondent à 1

octet)
= 307200 Octets <> 300 Ko
55
Formats de fichiers
56
Quelques formats de fichiers
GIF (Graphic Interchange Format) (Format
déchange graphique)
Format propriétaire (Compuserve).
GIF stocke les images comme une séquence de pixel en
valeur de couleur RGB.
Chaque image est précédée
dune signature (no de version, etc.),
une définition décran (permet lajustage à lécran de
visualisation)
et une échelle de couleur.
Les données sont compressées avec lalgorithme LZW, ce
qui engendre une perte de données lors de
lagrandissement.
Facilité demploi + largement diffusé 57
GIF
Chaque image possède une palette de 256 couleurs
maximum, chaque couleur de la palette est codée sur
3 octets (RVB), elle est donc choisie dans 16 millions
de nuances.
Chaque point de limage est ensuite codé par le n°
dordre de la couleur dans la palette (index).
58
PNG Portable Network Graphics (Graphiques
transmissibles en réseau)
Projet Norme internationale (W3C)
En plus de fonctionnalités de GIF, PGN devrait
supporter:
des images en couleur vraie de plus de 48 bits/pixel
des images en grisé de plus de 16 bits/pixel
un canal de texte (masque transparent général)
des infos sur le gamma de limage (=affichage inaltérable)
une détection de la corruption de fichier
un affichage progressif rapide
59
TIFF Tag Image File Format (format de fichier
dimage étiquetées )
Format propriétaire (Adobe).
définit une séries de description de fichiers
permettant la reconnaissance de la plupart des
formats de données en deux dimensions.
TIFF défini des types de classe selon les données
numérisées.
Des marqueurs (tags) privés peuvent être ajoutés
pour définir des types dimage particuliers.
60
JPEG Joint Photographic Expert Group
standard
Norme internationale
Format de compression variable permettant la
compression sans perte ou avec perte dinformation
Gains de place mémoire et de vitesse daffichage
(internet) pour les images fortement compressées.
61
Parmi toutes les extensions de format dimages
codées par point selon ce principe, la plus connue
est BMP.
Nécessité de recourir à la compression
62
COMPRESSION
Un exemple : Image couleur 512*512 pixels
512 * 512 * 3 * 1 octet = 768 Ko
Autre exemple : Film couleur 320*200 d1h
320 * 200 * 3600 * 25 * 3 * 1 octet = 16 Go
Intéressant pour les images

Obligatoire pour les séquences vidéo
63
Techniques Multimédia
COMPRESSION SANS PERTE
On peut récupérer entièrement les données
initiales
769 Ko 210 Ko
10101011
10011000
Adapté aux images dont les détails sont très

64
importants (imagerie médicale)
COMPRESSION AVEC PERTE
Les données originales ne peuvent être
complètement restaurées
769 Ko 3 Ko
10101011
10011000
Adapté aux autres images et aux séquences vidéo

65
STANDARDS DE COMPRESSION
Compression dimage
sans perte : TIFF, GIF
avec perte : JPEG, JPEG 2000 ...
Compression de vidéo
MPEG-1, MPEG-2, MPEG-4 (DivX)
66
TECHNIQUES DE COMPRESSION
Suppression des répétitions : RLE (Run Length
Encoding)
n caractères successifs c sont remplacés par c suivi
d'un caratère spécial et du nombre d'occurrence
NAME:xxxxxxxxxxxxx
N A M E : x R 13
Statistiques : même parties qui reviennent

souvent
on utilise un dictionnaire
on recode les ensembles en fonction de leur fréquence
d'occurrence : les plus grandes sont recodées par des 67
codes plus petits
Huffman :
généralisation pour les images des techniques
"statistiques"
On calcule les fréquences d'apparition de chaque
octet.
Même système de dictionnaire et de recodage
utilisé pour des ensembles d'images ou des images
animées
Transformations :
On passe du domaine temporel ou spatial au domaine
fréquentiel
On élimine les coefficients les moins significatifs
Fourier, Cosinus,... 68
Transformée de Fourier 2D
Image = images sinusoïdales (A,f, )
F( f x , f y ) f ( x , y ) exp( 2 j (f x x f y y )) dxdy
F = image complexe (module & phase)
fx
(Module de
F(fx , fy)
y fy 69
Transformée Cosinus Discrète
4.c(u).c(v) N 1M 1 (2i 1)u. (2 j 1)v.

C(u, v) . f (i, j).cos . cos
M.N i 0 j 0 2N 2M
c(u) 2 N pour u 0
Avec
c(u) 1 N pour u 0
70
LZW : Lempel-Ziv-Welch
Algorithme de compression des données sans perte. Il
s'agit d'une amélioration des algorithmes LZ77 (1977)
et LZ78 (1978), tous les deux écrits par Abraham
Lempel et Jacob Ziv. LZW fut créé en 1984 par Terry
Welch, d'où son nom.
Breveté par Unisys
Lalgorithme a été conçu de manière à être rapide à
implémenter, mais nest la plupart du temps pas
optimal car il effectue une analyse limitée des
données à compresser.
Utilisation dune table de traduction
71
CODAGE DES COULEURS
RGB
Sur les ordinateurs et en télévision on utilisera le
plus souvent un codage RVB (Rouge, Vert, Bleu).
Ces trois couleurs primaires permettent par synthèse
additive la recomposition de toutes les couleurs
visibles.
Laffichage sur un écran dordinateur est par principe
additif, lutilisation des 3 couleurs au maximum de
luminosité donne du blanc.
72
CODAGE DES COULEURS
CMJN
En imprimerie, la synthèse des couleurs étant
soustractive, on utilise les primaires de la peinture
(Cyan, Magenta,Jaune) auxquels on ajoute le Noir car
lutilisation des 3 primaires ne donne pas en général
un noir satisfaisant.
On travaille alors en quadrichromie. Le codage de
base est le plus souvent en 32 bits (4x8).
73
CODAGE DES COULEURS
Peu de logiciels permettent le codage des
couleurs directement en CMJN.
Corel Draw
La conversion RVB vers CMJN peut réserver des
surprises car certaines couleurs RVB ne pourront
être correctement imprimées.
Pour éviter ces désagréments, il est conseillé
dutiliser des nuanciers de type « PANTONE »
pour la création des images à imprimer.
Pour des impressions de luxe, on utilise parfois un
séparateur Hexachromatique (avec les couleurs du
nuancier Pantone). 74
CODAGE DES COULEURS
75
TRAITEMENT DIMAGES
POURQUOI TRAITE-T-ON DES IMAGES?
Moins cher
Quand il ny a pas dautres choix
Quand on veut utiliser pleinement les données
Grande-profondeur, capteurs de haute résolution,
Images multi-spectrales,
Rendering de données 3D,
Et plus encore.
77
On traite des images pour avoir des images
subjectivement plus « jolies ».
78
Quelle image est meilleure ?
Before / After
79
80
81
82
83
POURQUOI TRAITER DES IMAGES PAR
ORDINATEUR?
Humain
Identification
Reconnaissance
Voir et décrire les relations
Interprétation expérimentée
Ordinateur
Mesure des valeurs absolues
Calculs
Infatigable
Pas cher
84
Objectif
TRAITER UNE IMAGE,
EN QUOI ÇA CONSISTE ?
Coder
Améliorer
Simplifier
Analyser
Interpréter
...
85
CARACTÉRISTIQUES USUELLES
Des pixels, des valeurs, quen fait-on ?
Notions globales
ex : lhistogramme
Notions locales
ex : le voisinage
86
NOTIONS DE VOISINAGE, CONNEXITÉ ET
DISTANCE
Beaucoup de traitements font intervenir la
notion de voisinage
Un pixel possède plusieurs voisins (4 ou 8)
On parlera de connexité 4 ou 8
La région jaune forme :

UN seul objet en connexité
8
DEUX objets en connexité
4 87
Distance entre deux pixels f [i,j] et f [k,l]
Distance Euclidienne de ( f , f ' ) (i k ) 2 x 2 ( j l ) 2 y 2
Distance City-Block d c ( f , f ) i k x j l y
longueur du chemin en connexité 4
Distance de léchiquierdb ( f , f ) max( i k x , j l y)
88
HISTOGRAMME
Permet de mesurer la répartition globale des
valeurs des pixels de limage (probabilités)
89
BON OU MAUVAIS TRAITEMENT ?
Besoin de comparer des méthodes
mais pas toujours facile !
Il faut tenir compte de :
qualité
efficacité
adaptabilité
facilité
90
QUALITÉ DUNE SOLUTION
Comment quantifier la qualité ?
Mesures de qualité
rappel
précision
Comparaison avec résultat idéal
obtenu à la main
obtenu automatiquement
Corpus de test
91
EFFICACITÉ DUNE SOLUTION
Temps de calcul
Estimable a priori
Peut dépendre dun matériel spécifique
processeur embarqué (DSP )
architecture parallèle
92
ADAPTABILITÉ DUNE SOLUTION
La situation :
Méthodes spécifiques à un contexte
Lidéal :
Méthodes génériques
Lobjectif à atteindre :
Réutilisation !
93
FACILITÉ DUNE SOLUTION
Pour bien fonctionner, chaque méthode a besoin
dêtre configurée
Evaluation de la facilité :
Nombre de paramètres
Facilité de réglage
94
ETAPES DE TRAITEMENT DIMAGES
95
Eclairage Scène, objets 2D 3D...
Formation de l’image
Image 2D,3D,...
Numérisation
Image numérique Corrections

Restauration - radiométriques
Reconstruction - géométriques
Image numérique
96
BDO
Tatouage
Image numérique Indexation
Compression
Segmentation
Transmission Reconnaissance
de formes
97
Décision
ACQUISITION DUNE IMAGE
98
CAPTEUR : PRINCIPE GÉNÉRAL
Principe général (ex: photodiode)
L'énergie incidente est convertie en signal électrique
Sortie est proportionnelle à la lumière
Filtre pour augmenter la sélectivité
99
CAPTEURS MATRICE 2D
KAF-1600 - Kodak
100
CAPTEUR CCD
Caméras numériques CCD
Matrice CCD (Charged Coupled Devices)
Système d'acquisition numérique 2D le plus
utilisé
La réponse est proportionnelle à l'intégrale de
l'énergie lumineuse qui atteint chaque élément
Pour la couleur, on utilise trois capteurs par pixel
réagissant à des longueurs d'ondes différentes
(rouge, vert et bleu)
Limage dentrée ne devra pas contenir trop de
hautes fréquences ( Ne passez pas à la télé avec 101
un costume rayé ! )
RAPPEL : QUEST-CE QUUNE IMAGE
NUMÉRIQUE?
102
IMAGE NUMÉRIQUE
Les valeurs de f (x,y) sont la réponse du capteur au
phénomène observé
Les valeurs de f (x,y) sont des valeurs de « voltage»
continu
Les valeurs de f (x,y) doivent être converties vers le
domaine numérique
Conversion Analogique/Numérique (A/N)
Deux procédés sont impliqués pour numériser une

image :
Numérisation = Échantillonnage + Quantification
103
RAPPEL : QUEST-CE QUUNE IMAGE
NUMÉRIQUE ?
L'échantillonnage est le procédé de

discrétisation spatiale d'une image consistant à
associer à chaque zone rectangulaire R(x,y) d'une
image continue une unique valeur I(x,y).
On parle de sous-échantillonnage lorsque
l'image est déjà discrétisée et qu'on diminue le
nombre d'échantillons.
La quantification désigne la limitation du
nombre de valeurs différentes que peut prendre
I(x,y).
Une image digitale est une image

échantillonnée et quantifiée. 104
REPRÉSENTATION ÉCHANTILLONNÉE
Echantillonnage dune fonction f(x,y)
fe(x,y) = f(x,y). i j ( x - i x , y - j y )
x pas déchantillonnage dans la direction x
y pas déchantillonnage dans la direction y
x
y
x
i j x - i x , y - j y ) Peigne de Dirac 2D
105
THÉORÈME DE SHANNON
La fréquence d'échantillonnage d'un signal doit
être égale ou supérieure au double de la fréquence
maximale contenue dans ce signal, afin de convertir
ce signal d'une forme analogique à une
forme numérique. Ce théorème est à la base de la
conversion numérique des signaux.
La meilleure illustration de l'application de ce
théorème est la détermination de la fréquence
d'échantillonnage d'un CD audio, qui est de 44,1 kHz.
En effet, l'oreille humaine peut capter lessons jusqu'à
16 kHz, quelquefois jusqu'à 20 kHz. Il convient donc,
lors de la conversion, d'échantillonner le signal audio
à au moins 40 kHz. 44,1 kHz est la
valeur normalisée par l'industrie 106
ÉCHANTILLONNAGE ET INFORMATION
Avec un échantillonnage adapté, limage numérique fait

apparaître des structures conformes à linformation
présente dans limage
Mais en considérant seulement 1 échantillon sur 2, une

structure différente apparaît, dont lanalyse (ici des
bandes verticales, plus épaisses) ne sera pas conforme à
la réalité de lobjet.
107
ÉCHANTILLONNAGE ET QUANTIFICATION
108
Léchantillonnage est limité par la capacité du
capteur, donc le nombre de pixels disponible (ou
autre limite imposée)
La quantification est limitée par la quantité de
tons
(de gris) définie dans lintervalle
109
Avec un capteur à matrice
110
111
REPRÉSENTATION DES IMAGES
Matrice de dimension M X N
Chaque élément a une valeur entière dans
l'intervalle [Lmin , Lmax]
Le nombre de « bits » requis pour représenter les
niveaux de gris dans lintervalle « L » est « K »
La relation entre « K » et « L » est :
L=2K
Le nombre de bit pour entreposer un image est
donc :
b=MXNXK
112
RÉSOLUTION DES IMAGES
Résolution spatiale
Le plus petit détail discernable
Résolution tonale (de tons de gris)

Le plus petit changement discernable
Une image a donc une résolution spatiale de M X

N pixel et une résolution de tons de gris de K bits
ou de L niveaux ou tons
113
RÉSOLUTION DES IMAGES
114
Effets de l'échantillonnage : pixelisation
256 x 256 pixels 64 x 64 pixels 16 x 16 pixels
• Contours en marche d’escalier

• Perte de netteté
• Détails moins visibles/ moins précis
• Perte de résolution 115
Effets de la quantification à l'acquisition
Codage de la valeur de chaque pixel sur N bits (En
général 8 bits)
8 bits (256 niv.) 4 bits (16 niv.) 2 bits (4 niv.)
• Apparition de faux contours

• Bruit de quantification
• Effet visible à l’œil en dessous de 6/7 bits 116
Bruits liés à l'acquisition
Les images sont souvent entachées de bruit, parfois non visible
à lil, et qui perturberont les traitements
Diaphragme F/8 F/16

F/4
Optimiser les conditions déclairage

Attention à léclairage ambiant
Mais... diaphragme ouvert = faible profondeur de
champ
117
Mais... éclairage important = dégagement de
chaleur
Eclairage non uniforme !
Correction de l'éclairage
118
• Flou de bougé/filé dû à un temps de pose/intégration trop long
Cet effet est limité par lusage

dobturateur rapide et/ou déclairage flash
• Effet de lignage dû au balayage entrelacé des caméras vidéo
Cet effet disparaît avec les caméras à

balayage progressif non entrelacé
Une bonne acquisition Des traitements facilités

119
FILTRAGE : RÉDUCTION DE BRUIT
Image originale rarement parfaite
Dans certains cas, on ne connaît même pas le

type de bruit 120
120
FILTRAGE : REHAUSSEMENT DE CONTRASTE
Améliorer la lisibilité de limage
121
121
SEGMENTATION
Simplification qui permet de mieux
comprendre le contenu de limage
Image en entrée Carte en sortie
Segmentation = Partition de limage 122

122
LES VIDÉOS
LES DIFFÉRENTES ÉTAPES DE LA PRISE
DE DONNÉES À LANALYSE
Préparation du dispositif denregistrement Audio-vidéo :
1- Choix du matériel denregistrement / vérification de son
fonctionnement / Préparation des accessoires et consommables
Séance denregistrement = prise de vue + prise de son

2- Recueil de données complémentaires : documents / notes
Numérisation ou acquisition des données vidéo / audio

3- sur lordinateur opérations de montage - compression
4- Analyse des données avec logiciels

124
et compression
ACQUISITION
Source numérique Montage

ou analogique
USB Acquisition /
Numérisation
Cordons
analogiques
(et carte dacquisition)
Compression
Support externe (CD, Fichiers

DVD, disque dur, compressés
cassette DV )
LACQUISITION
Également nommée transfert, capture ou
numérisation
Consiste à transférer des contenus stockés sur un
support audiovisuel vers un ordinateur
La source de lenregistrement peut être :
analogique (magnétoscope VHS, caméscope hi8 )
numérique (camescopes mini-DV, DVD, à disque dur )
Intérêts de la numérisation :
permettre des traitements informatiques (montage,
retouche, incrustation, synchronisation )
faciliter la diffusion et léchange des données (internet,
supports informatiques )
conservation des données, copie ultérieure sans
dégradation du signal
126
LES LOGICIELS NÉCESSAIRES À LACQUISITION
Lacquisition sur ordinateur nécessite un logiciel intégrant
une fonction de capture. La plupart des logiciels de
montage vidéo proposent ce type de fonction :
Les logiciels de montage « grand public »
Caractéristiques : simple à utiliser et généralement gratuit.
Fonctions limitées pour le montage et lenregistrement des
données
» Imovie (Mac) ; Windows Movie Maker (Windows XP et Vista) ;
» Les logiciels livrés avec les caméscopes
Les logiciels de montage semi-professionnels :
Caractéristiques : relativement complets et ergonomiques ; coût
abordable
Ex : Premiere Elements, FinalCut Express, Pinnacle Studio
Les logiciels de montage professionnels :
Caractéristiques : très complets, complexes à utiliser ; onéreux ;
lourds 127
Ex : Adobe Premiere Pro, FinalCut Pro, Avid Xpress,

SonyVegas
iMovie
128
Adobe Premiere Elements
129
Adobe Premiere Pro
130
COMPOSITION ET LECTURE DES FICHIERS
VIDÉOS
Un fichier vidéo se compose généralement de 2 éléments :
Le conteneur. Il correspond généralement au format du fichier. Son rôle
est de rassembler et dorganiser dans un fichier, différents types de
données (flux audio, vidéos, sous-titres, meta-données ). Exemple de
conteneurs :
LAudio Video Interleave (.AVI), Quicktime (.MOV), Real Media (.RM),
MP4
FLV (Flash Vidéo), MKV (Matroska), le WMV (Windows Media Video),
Chaque conteneur possède ses spécificités en termes de nombre de
pistes acceptées pour la vidéo et laudio, de codecs reconnus
Le(s) contenu(s) : Ils se composent essentiellement de flux audios et/ou
vidéos.
Ceux-ci sont généralement compressés à laide dun codec (algorithme de
compression/decompression) comme le Divx, le H264, le mp3
Ex : un flux vidéo au format Divx peut être « encapsulé » dans un
conteneur AVI ou Quicktime.
Un fichier vidéo nécessite un « lecteur multimedia» (« player » en anglais) pour
le lire
ex: Windows Media Player pour les fichiers AVI, Quicktime pour les MOV, Real
Player pour les RM, VLC, MediaPlayer Classic 131
Remarque : les lecteurs ne savent lire quun nombre restreint de conteneurs (ainsi
on ne pourra pas lire les fichiers Quicktime avec Windows Media Player )
INTÉRÊT DE LA COMPRESSION
Constat : une fois capturées les vidéos sont très
volumineuses :
- 1 heure de vidéo non compressée occupe environ 85 Go
(dimension 720/576 ; 24 img/s ; couleurs 24 bits)
- 1 heure au format DV occupe environ 13 Go sur le disque dur
Solution : compresser les données à laide dun

CoDec
Définition : ensemble dalgorithmes mathématiques implémentés
dans un environnement logiciel et/ou matériel qui permettent de
réduire lencombrement dun fichier.
132
LES DIFFÉRENTS TYPES DE
COMPRESSIONS
Compression non destructives (lossless):
Des algorithmes mathématiques compressent les données
sans aucune perte dinformation
La décompression restitue intégralement les données
initiales
Le gain de taille par rapport à loriginal est moindre
Exemple de compression non destructive : le format ZIP
Compression destructives (lossy) :
Supprime définitivement les informations peu
représentatives (détails ) ou non perceptibles (fréquences
non audibles, nuances de couleurs )
Le gain de taille est très important. Le ratio de compression
peut être très important (ex. 10 : 1 voire beaucoup plus)
Exemples de compressions destructives : le JPEG, le MPEG
133
LES TECHNIQUES DE COMPRESSION
Compression spatiale
Dans une image fixe non compressée, les pixels sont codés
individuellement
La compression spatiale recherche sur

limage les éléments redondants : par
un exemple un ciel de couleur uni.
On code ensuite la description du bloc
correspondant au ciel, plutôt que
chaque élément individuellement.
Compression temporelle
Dans une suite dimages (vidéo), seuls sont codés les éléments qui
varient dune image à lautre.
Ex. : personnage qui bouge dans un plan fixe 134
LES CODECS
(COMPRESSEUR / DECOMPRESSEUR)
Il existe différents algorithmes de compression plus
ou moins performants. Chaque codec possède ses
spécificités et ses domaines de prédilection.
Les plus anciens : Le MPEG 1, Cinepak, Sorenson
Video
Les plus récents, ils sont tous dérivés de la norme
MPEG 4 :
Le DIVX : format très populaire sur Internet
XVID : similaire au DIVX en termes de performances mais
gratuit (format « open source »)
WMV : le format propriétaire de Microsoft
H264 - MPEG4-AVC : résulte du travail du groupe MPEG et
IUT-T 135
TEMPS DE COMPRESSION ET NOTION DE
DÉBIT
Le temps de compression dépend de plusieurs facteurs :
facteurs matériels : caractéristiques du micro-processeur équipant
lordinateur, quantité de mémoire installée
facteurs logiciels : codec et logiciel utilisés, options choisies
qualité du rendu final : nombre dimages par seconde, dimension
de limage (résolution), débit (bitrate), nombre dimages clés
Notion de débit (bitrate en anglais) :
Le débit désigne la quantité dinformations transférée en lespace dune
seconde. Lunité de mesure est le bit par seconde (bit/s) et ses
différents multiples (Kilo-bits par seconde, Mega-bits par seconde..).
Le choix du débit aura un impact direct sur la taille et la qualité du
fichier final
- le poids du fichier est directement proportionnel au débit utilisé
- à partir dun certain débit, lamélioration de la qualité nest plus
perceptible
- on estime quun débit de 1 500 Kbit/s (~150 Ko/s) représente un bon
compromis pour obtenir une vidéo de qualité à partir dun codec136
dérivé du MPEG 4 (DIVX, WMV, XVID, H264 ). Attention, la
notation anglaise du Ko est KByte (ne pas confondre avec le Kilobit)
TABLEAU COMPARATIF (CODECS)
Format 1 seconde 15s 1mn Mo 1 heure Sur 1 CD Evaluation Points faibles

(Ko) * en (Mo) 700 (en mn) Qualité/Poid de 1 à 5
Mo
Son 44Khz, 16bits, Stereo (qualité 150 2,2 8,8 527 80 5
CD audio non compressé)
Son 44Khz, Stereo (qualité CD audio 16 0,9 56 747 4,5
compressé MP3, 128 kbits)
Format DV (Video et Son) 3600 54,3 217,2 13032 3 5 Encombrement
Format MPEG (Pal : 352*288 + 170 2,5 10,0 600 70
Audio 224 Kbits)
XVID debit 900 Kbits - 720 * 576 - 100 1,5 6,0 360 117 4,5 aucun
(Son MP3 128 Kbits)
DIVX debit 900 Kbits - 720 * 576 - 100 1,5 6,0 360 117 4,5 codec sous licence (apparition
(Son MP3 128 Kbits) d'un logo en bas à droite durant
les premières secondes)
Quicktime (DSL/Cable "élevé"; 100 1,5 6,0 360 117 2,5 taille (320*240)
320*240), 25ips
Quicktime (Mpeg 4, 25ips, 720*576, 165 2,3 9,2 552 76 3,5 encombrement, rendu durant des
1image clef pour 100 images, debit séquences de mouvement
150Ko, qualité optimale son Mpeg4)
Windows Media Video (video pour 125 1,8 7,2 432 97 4,5 Format propriétaire (Microsoft)
réseau local 1Mbits)
137
LES CODECS EN RÉSUMÉ
Si lon désire travailler avec un format « universel » :
MPEG 1 ou 4, le DIVX (du fait de son intégration
progressive dans les équipements multimédias)
Pour sa simplicité dutilisation : Le Windows Media Video (intégré à
Windows Movie Maker ou téléchargeable sur le site de Microsoft)
Si la qualité est prépondérante : le DIVX, le XVID ou le H264 ;
Pour le montage : le format DV
Pour larchivage pérenne : le format DV ou le MPEG 2
Les logiciels danalyse et dannotation de vidéo nacceptent que certains

types de fichiers (MPEG 1, MOV, AVI ).
138
LES VIDÉOS SUR INTERNET
EVOLUTION : LEXEMPLE US
Le nombre de foyers équipés du Haut débit
a augmenté de 227 % pour atteindre 71
millions de foyers (2008)
78,5 % de laudience US sur Internet
regardent les vidéos en ligne régulièrement
La moyenne dun spectateur de vidéo en
ligne est de plus de 5 heures (309 mn)par
mois
Les spectateurs Internet ont regardé un
record de 14,3 milliard de vidéos en ligne en
140
Décembre 2008
Source: comScore. Chiffres de 2009, non encore actualisés
EVOLUTION
Over 60% Internet Traffic is Video
Over 90% In 2012
141
EXPLOSION DE LA VIDÉO SUR INTERNET
DANS TOUS LES SECTEURS
142
142
143
LES INTERNAUTES CONSOMMENT ET
PRODUISENT DE PLUS EN PLUS DE CONTENU
VIDÉO
Sources : http://www.pewinternet.org/PPF/r/219/report_display.asp
144
Journal du Net
QUEL LECTEUR UTILISENT LES
INTERNAUTES ?
145
CONTRAINTES TECHNIQUES
Palier à l incompatibilité des lecteurs.
Permettre une lecture instantanée et multi
plate forme.
Associer la vidéo à une interface intuitive.
Naviguer par chapitre à l intérieur d une
vidéo.
Automatiser le renseignement et la
manipulation de méta données.
146
FORMATS DE VIDÉO PC ET MOBILES
Parmi les formats vidéo les plus utilisés

aujourd hui sur ordinateurs:
QuickTime, AVI, Mpeg, Real Video et Windows
Media.
H264 (nouvelle génération de codec vidéo)
amélioration du taux de compression meilleure
qualité d affichage
Vidéo pour mobiles
3GPP, MP4.
147
MÉTHODES DE DIFFUSION DE FLUX VIDÉO
1. Les fichiers vidéo inclus

Clips vidéos de petite taille
Lecture différée. (téléchargement complet)
2. Téléchargement progressif
Début de la lecture avant la fin du téléchargement
Lecture de haute qualité quelle que soit la vitesse de
connexion des utilisateurs.
3. Diffusion de flux vidéo (video streaming)

Diffusion en tant réel depuis un serveur spécialisé
Flux de données joué en continu
Flux non stocké chez le client
148
SOLUTIONS DE GESTION DE VIDÉO
Choix : téléchargement progressif ou

video streaming
Intégration d un serveur dédié à la vidéo

Serveur performant (encodage)
Bande passante assez élevée (flux simultanés, qualité)
Capacité de stockage importante (serveurs spécialisés)
Encodage durant lupload
149
Intégration d un serveur dédié à la vidéo
Serveur de
stockage
Fichiers
Serveur
numériques vidéo
Fichiers
VIDEO
Autres
fichiers
Appli Web
PHP
150
Macromedia FLASH
Format FLV (Flash video)
Ne Supporte pas les fichiers vidéos de
téléphones
Serveur d application « Flash Media Server »
FLASH 10 11 Video Encoder
Plugin Flash (98,3 %)
Techniques Multimédia 151

VIDEOLAN
Solution open source
Streaming vidéo
Support des formats vidéos
(PC et mobiles)
Gestion des contrôles via javascript
Inconvénients : plugin VLC disponible
uniquement sous Firefox (12%)

Outils open source :

Encodeur et serveur de streaming : FFMPEG
Encodeur FLV : Riva Video Encoder
Solutions commerciales :
gestion de contenu vidéo, diffusion et
stockage
VitalStream (Flash et Windows Media)
MediaBox (Flash video)

LA VIDÉO NUMÉRIQUE
Sur limage numérique, lorsquun rayon lumineux frappe notre rétine, des
terminaisons nerveuses spécialisées (ou bâtonnets) réagissent à la quantité
de lumière alors que dautres cellules (ou cônes) réagissent sélectivement au
rouge, au vert et au bleu, permettant ainsi la perception des couleurs grâce à
lanalyse colorimétrique de la lumière blanche.
Nos yeux décomposent donc la lumière en intensité et en couleurs, ce qui

signifie la décomposition en informations de luminance et de chrominance :
155
SIGNAL VIDÉO
Sur un récepteur de télévision, une image est obtenue par
balayage électronique successif des lignes de luminophores
constituant lécran.
Un écran au standard PAL ou SECAM comprend 625 lignes, alors
quun écran au standard NTSC nen possède que 525.
On sait que, pour donner à lil humain une impression
déclairement continu à laide dune source lumineuse émettant de
façon discontinue (vidéo projecteur, projecteur de cinéma, écran
TV, ), il faut au moins 40 éclats par seconde :
Une fréquence de 20 à 40 éclats provoque une impression de
scintillement
Une fréquence au-dessous de 20 éclats, léclairement paraît saccadé
Pour obtenir une impression de continuité parfaite avec 25 images/s,
on divise chaque image en 2 demi-images projetées successivement,
provoquant ainsi 50 sensations différentes par seconde.
156
NTSC :
standard de diffusion TV du continent nord-américain et du Japon, la
fréquence du courant électrique est 60Hz, la fréquence daffichage est de 30
images/s (exactement 29,97 im/s) sur 525 lignes.
PAL :
standard de diffusion TV couleur, qui a été mis point en Allemagne vers
1960. Son principal avantage relativement au standard américain dont il est
très proche, est de remédier aux erreurs de phase dont souffre ce dernier.
SECAM :
standard français, il comporte 625 lignes et 25 images/s. la fréquence du
courant électrique distribué en Europe est en effet de 50Hz.
Standard CCIR 601 :
comité international des radiocommunications. Cet organisme a été remplacé
par le secteur de radiocommunication de lunion internationale des
télécommunications (UIT) : standard concernant la vidéo numérique.
157
Image en continuité parfaite :
Les demi-images ou trames sont obtenues par balayage des seules
lignes paires dans un 1er temps, puis des lignes impaires dans un
2e temps.
limage complète est obtenue par entrelacement des 2 trames.
Exemple :
le signal vidéo analogique est donc découpé en 25 ou 29,97 images/s (en. frames),
elles-mêmes divisées en 25 x 2 = 50 ou en 29,97 x 2 = 59,94 trames (en. fields) ,
celles-ci étant à leur tour analysées en 312,5 ou 262,5 lignes.
+ =
158
Trame paire Trame impaire image
Ce découpage est essentiel car il constitue un

échantillonnage préalable du signal en lignes et
trames.
Cela signifie que, pour numériser le signal vidéo, il
suffira d échantillonner la ligne qui constitue la 3e
dimension du signal.
t (trames)
x (points par lignes)
159
y (lignes)
ÉCHANTILLONNAGE VIDÉO
Échantillonner la ligne :
en vidéo analogique, lunité minimale est la ligne, car le signal est
conçu pour piloter en continu les déplacements du triple faisceau
délectrons (RVB) et NON pour exprimer la couleur spécifique de
chaque point de limage.
Résolution verticale :
le nombre de lignes sur un écran (résolution verticale) est
exactement déterminé par chaque standard :
S
PAL et SECAM distinguent 625 lignes dont 576
seulement sont destinées au balayage réel de
limage, le reste étant affecté à divers « services » I
de synchronisation et de positionnement des
faisceaux (changement de ligne et de trame)
NTSC naffecte quant à lui que 480 lignes sur 525 S
à laffichage de limage Résolution verticale
160
Résolution horizontale :
la résolution horizontale quant à elle nest pas un paramètre fixe du
signal vidéo analogique: elle dépend de la bande passante allouée à la
vidéo et à la qualité du moniteur sur laquelle elle viendra safficher.
Limage télévisée standard obéit à un ratio de 4:3 (ie. largeur de
limage est 1,33 fois plus grande que sa hauteur), on peut estimer le
nombre de points par ligne (ie. estimer la largeur de limage en nombre
de points) :
PAL, SECAM :
Limage ayant une hauteur de 575 lignes, sa largeur sera :
575 x 1,33 = 768 points
NTSC :
Limage ayant une hauteur de 480 lignes, sa largeur sera de 640 points.
La résolution théorique du standard NTSC est à lorigine du célèbre
affichage VGA de 640 x 480 sur les moniteurs informatiques.
161
Au cours des années 1970, les industriels commencent à prendre
conscience de lavenir de la vidéo en passant par le numérique.
En conséquence, ils commencent à sintéresser aux techniques de
numérisation applicables au secteur des télécommunications,
télédiffusions, télédétections, etc.
Pour éviter lanarchie dans les formats propriétaires, en 1982, le
standard CCIR 601 a été adapté par lUIT pour la télévision
numérique :
Le nombre de points actifs par ligne est de 720 (pour tous les autres
standards)
Le nombre total des points par ligne (ppl) est de :
858 ppl en NTSC (525 lignes / 59,94 trames par seconde)
864 ppl en PAL et SECAM (575 lignes / 50 trames par seconde).
162
EXEMPLES :
Dans le standard PAL, à raison de 625 lignes par image, de 864 points par ligne et
de 25 images/seconde, on obtient :
625 lignes/image x 864 points/ligne x 25 images/s
= 13 500 000 points/s
Dans le standard NTSC, on obtient exactement le même nombre de points par
seconde :
858 points/ligne x 525 lignes/s x 30 images/s x 1000/1001
= 13 500 000 points/s
si 1 seconde de vidéo correspond à 13 500 000 points et
si lon veut conserver toute linformation concernant ces points
alors il est nécessaire de les décrire individuellement.
pour 1 seconde vidéo, on doit définir 13 500 000 échantillons : la fréquence déchantillonnage
requise dans ces conditions est donc de 13,5 MHz
163
LE STANDARD MPEG
LE MPEG
(MOVING PICTURES EXPERTS GROUP)
Dans de nombreuses séquences vidéos, de

nombreuses scènes sont fixes ou bien changent très
peu, c'est ce que l'on nomme la redondance
temporelle.
Lorsque seules les lèvres de l'acteur bougent, presque
seuls les pixels de la bouche vont être modifiés d'une
image à l'autre, il suffit donc de ne décrire seulement
le changement d'une image à l'autre. C'est là la
différence majeure entre le MPEG (Moving Pictures
Experts Group) et le M-JPEG. Cependant cette
méthode aura beaucoup moins d'impact sur une scène
d'action.
165
LE STANDARD MPEG
Schéma de traitement - (transmission)
Image en Codage prédictif

mouvement avant/arrière
Chaque image divisée Similitudes entre les

en bloc de 8 x 8 images successives
Image Codeur de
encodée Quantificateur
Huffman
166
LE STANDARD MPEG
Redondance spatiale et temporelle:
DCT 167
LE STANDARD MPEG
Codage des pixels avec les DCT:
168
STANDARDS ET NORMES VIDÉOS
le MPEG-1, développé en 1988, est un standard pour la compression des données
vidéos et des canaux audio associés (jusqu'à 2 canaux pour une écoute stéréo). Il
permet le stockage de vidéos à un débit de 1.5Mbps dans une qualité proche des
cassettes VHS sur un support CD appelé VCD (Vidéo CD).
le MPEG-2, un standard dédié originalement à la télévision numérique (HDTV) offrant

une qualité élevé à un débit pouvant aller jusqu'à 40 Mbps, et 5 canaux audio
surround. Le MPEG-2 permet de plus une identification et une protection contre le
piratage. Il s'agit du format utilisé par les DVD vidéos.
le MPEG-4, un standard destiné à permettre le codage de données multimédia sous

formes d'objets numériques, afin d'obtenir une plus grande interactivité, ce qui rend
son usage particulièrement adapté au Web et aux périphériques mobiles.
le MPEG-7, un standard visant à fournir une représentation standard des données

audio et visuelles afin de rendre possible la recherche d'information dans de tels flux
de données. Ce standard est ainsi également intitulé Multimedia Content Description
Interface.
le MPEG-21, en cours d'élaboration, dont le but est de fournir un cadre de travail (en
anglais framework) pour l'ensemble des acteurs du numériques (producteurs,
consommateurs, ...) afin de standardiser la gestion de ces contenus, les droits d'accès,
les droits d'auteurs, ... 169
LE STANDARD MPEG
Estimation du mouvement:
170
LE STANDARD MPEG
Les trames I, P et B:
171
FRAMES I :
Ces images sont codées uniquement en utilisant le codage

JPEG, sans se soucier des images qui l'entourent.
De telles images sont nécessaires dans une vidéo MPEG car ce
sont elles qui assurent la cohésion de l'image (puisque les
autres sont décrites par rapport aux images qui les
entourent), elles sont utiles notamment pour les flux vidéo
qui peuvent être pris en cours de route (télévision), et sont
indispensables en cas d'erreur dans la réception.
Il y en a donc une ou deux par seconde dans une vidéo MPEG.
172
FRAMES P :
Ces images sont définies par différence par rapport à
l'image précédente. L'encodeur recherche les différences de
l'image par rapport à la précédente et définit des blocs,
appelés macroblocs (16x16 pixels) qui se superposeront à
l'image précédente.
L'algorithme compare les deux images bloc par bloc et à
partir d'un certain seuil de différence, il considère le bloc de
l'image précédente différent de celui de l'image en cours et
lui applique une compression JPEG.
C'est la recherche des macroblocs qui déterminera la vitesse
de l'encodage, car plus l'algorithme cherche des "bons"
blocs, plus il perd de temps...
Par rapport aux frames-I (compressant directement), les
frames-P demandent d'avoir toujours en mémoire l'image
précédente.
173
FRAMES B :
De la même façon que les frames P, les frames B sont
travaillées par différences par rapport à une image de
référence, sauf que dans le cas des frames B cette
différence peut s'effectuer soit sur la précédente
(comme dans les cas des frames P) soit sur la
suivante, ce qui donne une meilleure compression,
mais induit un retard (puisqu'il faut connaître l'image
suivante) et oblige à garder en mémoire trois images
(la précédente, l'actuelle et la suivante).
174
FRAMES D :
Ces images donnent une résolution de très basse
qualité mais permettent une décompression très
rapide, cela sert notamment lors de la visualisation en
avance rapide car le décodage "normal" demanderait
trop de ressources processeur.
Dans la pratique :
Afin d'optimiser le codage MPEG, les séquences d'images
sont dans la pratique codées suivant une suite d'images
I, B, et P (D étant réservé à l'avance rapide) dont l'ordre
a été déterminé expérimentalement. La séquence type
appelée GOP (Group Of Pictures ou en français groupes
d'images) est la suivante: IBBPBBPBBPBBI
Une image I est donc insérée toutes les 12 frames.
175
LE SON
REPRÉSENTATION NUMÉRIQUE DU SIGNAL
(ENCODAGE CD)
Ts
Définitions
- Fréquence d'échantillonnage ( ) : Fs=1/Ts.
= nombre d'échantillons prélevés pour une seconde du signal.
- Résolution = nombre de bits utilisés pour coder un échantillon,
-Débit ( ) = nombre de bits utilisés pour coder 1 seconde de son.
Qualité CD :
- Fs = 44100 Hz (44100 éch/s de son)
- Résolution 16 bits
- Stéréo } 44100*16*2 = 1.41Mbits/sec
La compression audio 177/

28
LA COMPRESSION AUDIO
Stockage
(CD, DAT, Restitution
disque dur...) du son original,
Son original altéré ou non
Compression Décompression
(Encodage) (Décodage)
Streaming
(transmission
via un réseau)
Son compressé (mp3) = 1 Mo Son décompressé

Son CD = 10 Mo = 10 Mo
(compression 1:10)
Taille des données

pour une minute de son

28
DEUX MODES DE COMPRESSION AUDIO
1) Compression non destructive (sans perte) :

= le signal reconstruit est exactement identique au signal original
2) Compression destructive (avec perte) :

= le signal reconstruit est différent du signal original mais cette différence est
imperceptible/peu perceptible par l'oreille humaine.
= permet une meilleure réduction de la taille des données
= au détriment de la qualité
=> compromis taille du fichier/qualité audio

28
LA COMPRESSION AUDIO
But : réduire la taille des données représentant un son original, sans
dégrader la perception de ce son.
Encodage des composantes fréquentielles (analyse par bancs de filtres)
La compression se base sur des modèles psychoacoustiques

(psychoacoustique = analyse de la perception auditive humaine).
La compression s'effectue en supprimant de l'information :

- Suppression de l'information redondante
- Suppression de l'information “secondaire” du point de vue perceptif
(“perceptually irrelevant”) 180

28
MODÈLES PSYCHOACOUSTIQUES
Les sons que l'on retrouve dans la nature sont complexes (constitués de
nombreuses composantes fréquentielles).
L'oreille humaine ne perçoit pas chacune de ces composantes de la même

façon, certaines sont prépondérantes pour la perception globale d'un son
alors que d'autres ne sont quasiment pas entendues.
L'encodeur va ainsi supprimer les composantes les moins déterminantes

pour la perception par l'oreille humaine.

28
LE SEUIL D'AUDITION
Seuil d'audition = niveau sonore à partir duquel un son est détecté
=> dépend de la fréquence et de la durée du son
L'encodeur supprime les composantes fréquentielles :

- dont le niveau est inférieur au seuil d'audition
correspondant.
- dont la durée est trop courte pour être perçues.
28
LE MASQUAGE FRÉQUENTIEL
Masquage fréquentiel: baisse d'audibilité d'un son causée par la présence

simultanée d'un autre son de fréquence proche.
=> compression audio : suppression des fréquences masquées

28
LE MASQUAGE TEMPOREL
Masquage temporel (non simultané): baisse d'audibilité d'un son causée

par la présence antérieure ou postérieure d'un autre son.
=> compression audio : suppression des fréquences masquées

28
EVALUATION DE LA COMPRESSION AUDIO
Indices de performance d'un algorithme de compression :

- Taux de compression/bitrate
- Qualité du son restitué (indice perceptif)
- Délai algorithmique (streaming, applications temps réel)
T a u x de T a ille p our 1
Bit r a t e Qu a lit é
com pr e ssion m in u t e de son
1 ,4 Mbit s/s CD Au dio Au cu ne 10 Mo

19 2 k bit s/s CD Au dio conservée T= 1:7 1 ,3 7 Mo
12 8 k bit s/s Qu alit é lim it e T= 1:11 9 15 Ko
9 6 k b it s/s Moyenn e T= 1:15 7 03 Ko

6 4 k b it s/s Mau vaise T= 1 :2 2 46 9 Ko
Mp3 “classique”
La compression audio 185/2

8
LES DIFFÉRENTS FORMATS DE COMPRESSION AUDIO
MPEG1- Layer 3 (mp3)

- 1er format de compression (1992) => plus de 19 ans !!
- Aujourd'hui dépassé en terme de performances
- Avantage : le plus utilisé (Internet, Hifi, baladeurs...)
- Mp3 pro (2001): version améliorée du mp3 (préservation des HF)
WMA (format Microsoft, 1994)

- Meilleure qualité audio que mp3 à bitrate équivalent
- Encodage plus rapide
- Protection contre le piratage (DRM)
AAC (Format audio du MPEG-2 et MPEG-4, 1997)

Le plus performant de tous (qualité CD à un débit de 96 kbits/s)
Spatialisation (encodage possible sur 48 canaux)
OGG Vorbis (Format ouvert, “Linux” de la compression audio)

Proche de AAC en terme de performance
8
LE FORMAT MIDI
Musical Instrument Digital Interface (MIDI) : format d'échange destiné aux

instruments numériques (synthétiseurs, contrôleurs...).
Encode une description des actions du musicien, pas le son en lui-meme

=>MIDI n'est pas un format de compression audio !!
Représentation note par note d'un extrait musical. Chaque note est
décrite par un chiffre qui donne sa hauteur, sa durée et son intensité.
=> MIDI format très léger (quelques Ko pour plusieurs minutes de

musique)
=> Représentation paramétrique du son (cf. MPEG-4 Audio)

8
MPEG-4 AUDIO
DE L'ENCODAGE
À LA COMPOSITION DE SCÈNES SONORES
MPEG-4 Audio Overview 188/2

8
HISTORIQUE MPEG-AUDIO
1992 : MPEG-1 Audio => 3 qualités disponibles :

- Layer 1 : taux de compression 1:4 (384 kb/s en stéréo)
- Layer 2 : taux de compression 1:8 (192 kb/s en stéréo)
- Layer 3 : taux de compression 1:10 (128 kbps en stéréo)
=> MP3 = MPEG-1 Layer-3
1994 : MPEG-2 Audio : extension de MPEG-1 Audio, compression

multicanal avec des débits plus faibles.
1997 : MPEG-2 Audio Advanced Coding (AAC), encodeur complètement

nouveau, compression deux fois plus efficace.
1999 : MPEG-4 Audio version 2 => extension de AAC +ajout de nouvelles

fonctionnalités pour la composition de scènes sonores.
8
INTRODUCTION MPEG-4 AUDIO
MPEG-4 Audio = description d'une scène audio :
- Décomposition de la scène en objets sonores
- Intégration dans la scène d'objets “naturels” ou

synthétiques
- Adaptation de la méthode de codage selon la nature

du son (parole, musique...)
- Fonctions de traitements des objets sonores (effets)
- Présentation spatialisée de la scène audio
- Reproduction des effets de salles (réverbération) et

190
de la directivité des sources
MPEG-4 AUDIO TOOLS
Generic Audio
Natural
Speech
Audio Coding
Structured Audio
Synthetic
Text to Speech Interface
Mixing
Composition
Effects processing
Audio Scene
Description
Playback
Presentation
Spatial presentation

8
NATURAL CODING
Version optimisée de Advanced Audio Coding (AAC, MPEG-2)
Utilisation de méthodes de codage spécifiques adaptées à la nature

du son à encoder (parole, son musical...)
Compression plus efficace (jusqu'à 4kbits/s), meilleure qualité audio
Scalability : possibilité d'adapter le bitrate, utiliser différents bitrates

au cours de la transmission

8
SYNTHETIC CODING
Démarche totalement différente du codage “naturel” :
Natural Coding :
signal original restitution d'un signal
Encodage Décodage
proche de l'original
Synthetic coding
algorithme
de synthèse
synthèse
Encodage Décodage
d'un son original
paramètres
de synthèse
=> représentation paramétrique du son

8
SYNTHETIC CODING
Structured Audio (SA)

= synthèse de son en temps réel
= représentation paramétrique du son
Text to Speech (TTS)

= génération de parole (voix parlée) à
partir de données textuelles

8
Structured Audio (SA)
Un son est généré à partir d'un algorithme à qui sont fournis des
paramètres pour la synthèse.
Extension de CSound (langage de synthèse et traitements sonores)
Distinction Orchestre / Partition :
- Structured Audio Orchestra Language (SAOL)

= algorithmes de synthèse (ex : filtrages...)
- Structured Audio Score Language (SASL)

= paramètres de la synthèse (ex : fréquences de coupure
des filtres...) 195

8
TEXT TO SPEECH INTERFACE (TTSI)
Génération de la parole à partir de données textuelles
Utilisation à très bas débit : 200 bits/s à 1.2 kbits/s
Spécification de paramètres additionnels pour la synthèse :
- informations sur le locuteur (genre, age, vitesse d'allocution)

- paramètres prosodiques (“ligne mélodique” de la voix parlée)
- paramètres liés à l'animation faciale (mouvement des lèvres...)
=> amélioration du rendu sonore (meilleure intelligibilité)

8
AUDIO SCENE DESCRIPTION
Composition
= mixage des objets sonores
dans la scène (multicanal)
= traitements sonores
(postprocessing) AudioBIFS
& AdvancedAudioBIFS
Présentation
= Reproduction spatialisée de la
scène (enceintes, headphones)

8
AUDIO BIFS
Traitements : filtrage, effets (delay, chorus, flanger...)
Spatialisation 2D et 3D (position des objets sonores dans la scène,

position de l'auditeur, distance source/auditeur)
Reproduction de la réverbération naturelle

8
ADVANCED AUDIO BIFS
Specification de paramètres additionnels pour améliorer le réalisme du

rendu de la sonore:
Propriétés acoustiques du matériau (reflectivité et transmission sur les

surfaces)
Propagation du son (directivité des sources, absorption de l'air, effet

Doppler...)
Attributs perceptifs (chaleur, brillance...)

8
CONCLUSION MPEG-4 AUDIO
Haut niveau de performance de compression (grande qualité audio à très bas

débits)
Fonctionnalités de synthèse et traitement sonores
Description de scènes sonores (décomposition en objets sonores, reproduction

de l'espace sonore)
Nombreuses applications : réalité vituelle, jeux vidéos, web, ...
Avenir : MPEG-7, MPEG-21...

8
MP3
QUELLE TECHNIQUE DE COMPRESSION?
- Ensemble de techniques
- Utilise les défauts de loreille humaine

- Compression destructive : supprime les sons
que nous nentendons pas
- Compression non destructive

- Huffman
201
MP3
LEFFET DE MASQUE
- Suppression des sons faibles

« cachés » par des sons plus forts
- Exemple :
Le pépiement des oiseaux couvert par le
passage dun avion dans le ciel
On entend plus les oiseaux
Son des oiseaux inutile
Son des oiseaux supprimé
202
MP3
LE RESERVOIR DOCTETS
- Permet dencoder certains passage

complexes sans altérer la qualité (ou
de façon moindre)
- Utilisation de passages qui peuvent

être encodé à un taux inférieur au
autres
203
MP3
LE JOINT STÉRÉO
- Défaillance de loreille :
Ne peut localiser lorigine du son en

dessous dune certaine fréquence
Son codé en mono (au lieu de stéréo)
204
MP3
CODE HUFFMAN
- Algorithme de codage qui agit à la

fin de la compression
- Code les fréquence selon leur nombre

dapparition
- Codes de longueur variable
- Permet un gain de ~ 20%
- Efficacité accrue sur les sons « purs » ou
205
sons digitalisés
MP3
RÉSULTAT & ALTERNATIVES
- Une minute d'un CD-audio (à une fréquence de

44.1 kHz, 16 bits, stéréo) ne prendra qu'un seul
Mo
- Limite quantitative et qualitative du MP3
Apparition de nouveau formats
- MP3 Pro
- AAC (Advanced Audio Coding)
- Ogg Vorbis
- Windows Media Audio
- Vqf
206
Ogg Vorbis
Comparable à MP3
Compression avec perte
Débit entre 30 et 500 kbits/s
Format libre : www.vorbis.com
Compression à débit variable
Taux de compression > MP3
Mais nécessite un traitement plus complexe
207
FLAC
Compression sans perte

Format libre
Encodage et décodage rapide
Compression denviron 60%
208

Tech Mult

Transféré par

Droits d'auteur :

Formats disponibles

Tech Mult

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Tech Mult

Transféré par

Droits d'auteur :

Formats disponibles

INTRODUCTION

Un média est un mode de représentation de

Continu (dépendant du temps)

Des études portant sur linteractivité montrent que

Production audio visuelle numérique (CD, film, vidéo)

Accroissement des capacités de stockage et des débits

Représentation de données complexes (Hypertexte,

Cest une description symbolique dun univers virtuel

Interprétable par des outils de synthèse et de

Qui se présente comme un document structuré

Un référentiel spatial et temporel

Scène sonore : position dans lespace, acoustique

Réalité analogique Représentation numérique

Images multispectrales, hyperspectrales

Epaisseur de chaque coupe 19

Pour ce qui est des nombres, cette opération

Pour un groupe de n bits, il est possible de

Jusquà combien peut-on compter avec 4 bits ?

La base-2 fonctionne exactement de la même

Stockage plus économique que celui dune image par points.

La taille du fichier varie en fonction de la complexité de

Type de codage est particulièrement adapté pour les

Résolution : détermine le nombre de points par

Limage sur écran est faite de pixels (picture

La finesse du tramage de limage ou résolution

Plus la trame est fine, plus la qualité de limage

640 * 480 * 1 (256 couleurs correspondent à 1

Nécessité de recourir à la compression

Intéressant pour les images

Adapté aux images dont les détails sont très

Adapté aux autres images et aux séquences vidéo

Statistiques : même parties qui reviennent

 F = image complexe (module & phase)

4.c(u).c(v) N 1M 1 (2i 1)u. (2 j 1)v.

La région jaune forme :

Distance Euclidienne de ( f , f ' ) (i k ) 2 x 2 ( j l ) 2 y 2

Distance de léchiquierdb ( f , f ) max( i k x , j l y)

Image numérique Corrections

Image numérique Indexation

Deux procédés sont impliqués pour numériser une

L'échantillonnage est le procédé de

Une image digitale est une image

Avec un échantillonnage adapté, limage numérique fait

Mais en considérant seulement 1 échantillon sur 2, une

Résolution tonale (de tons de gris)

Une image a donc une résolution spatiale de M X

256 x 256 pixels 64 x 64 pixels 16 x 16 pixels

• Contours en marche d’escalier

8 bits (256 niv.) 4 bits (16 niv.) 2 bits (4 niv.)

• Apparition de faux contours

Diaphragme F/8 F/16

 Optimiser les conditions déclairage

Cet effet est limité par lusage

• Effet de lignage dû au balayage entrelacé des caméras vidéo

Cet effet disparaît avec les caméras à

Une bonne acquisition Des traitements facilités

Dans certains cas, on ne connaît même pas le

Image en entrée Carte en sortie

Segmentation = Partition de limage 122

Des études portant sur linteractivité montrent que

Cest une description symbolique dun univers virtuel

Scène sonore : position dans lespace, acoustique

Jusquà combien peut-on compter avec 4 bits ?

Stockage plus économique que celui dune image par points.

Limage sur écran est faite de pixels (picture

La finesse du tramage de limage ou résolution

Plus la trame est fine, plus la qualité de limage

F = image complexe (module & phase)

Distance de léchiquierdb ( f , f ) max( i k x , j l y)

Avec un échantillonnage adapté, limage numérique fait

Optimiser les conditions déclairage

Cet effet est limité par lusage

Segmentation = Partition de limage 122

Séance denregistrement = prise de vue + prise de son

Ex : Adobe Premiere Pro, FinalCut Pro, Avid Xpress,

Solution : compresser les données à laide dun

La compression spatiale recherche sur

Pour larchivage pérenne : le format DV ou le MPEG 2

Les logiciels danalyse et dannotation de vidéo nacceptent que certains