Detecció de tall

Es coneix com a detecció de tall a la detecció automàtica de talls a vídeo digital.

Propòsit

En un tall suau per encadenat les escenes s'uneixen mitjançant un efecte de transparència.

La detecció de tall és un recurs emprat en la postproducció de vídeo mitjançant ordinador que li estalvia a l'operari la lenta tasca de buscar els talls a mà. La detecció automàtica de talls també és un dels pilars fonamentals del camp del arxivat automàtic de vídeo, l'objectiu consisteix a produir índexs per a grans fitxers de material de vídeo. La detecció de tall pot ajudar tant en la tasca de classificar els vídeos com a l'hora de triar imatges per una vista prèvia.

Talls sobtats i suaus

Es poden diferenciar dos tipus de tall, els sobtats (coneguts en anglès com hard cut ) o suau (en anglès soft cut ). Els talls sobtats donen fi a l'escena sobtada i abruptament, donant pas al següent fotograma a la propera escena. En canvi, en un tall suau la primera escena s'esvaeix gradualment donant pas a l'escena següent.

Mentre que amb els algorismes moderns es poden detectar els talls sobtats amb molt bons resultats, els talls suaus segueixen suposant un repte per al processament d'imatge. El canvi brusc del contingut complet de la imatge en un tall sobtat pot detectar amb facilitat amb tècniques simples com la diferència de histograma s. El canvi gradual del contingut en un canvi suau dona lloc a errors freqüents dels algorismes de detecció actuals, ja que confonen amb facilitat escenes amb moviment dels objectes filmats i els talls suaus.

Procés

El procés de detecció de talls consta de dues fases:

Quantització . Tots els fotogrames del vídeo digital es comparen amb els seus successors. D'aquesta manera s'assigna un valor a cada parell de fotogrames successius, que ha de prendre valors alts en presència de talls i petits en la seva absència.
Filtratge . A continuació els valors assignats a cada parell es comparen amb un valor llindar, i es rebutgen els parells el valor està per sota del llindar. En els pares que han quedat per sobre del llindar se suposa que hi ha un tall.

Aquesta aproximació és vulnerable a errors. Com qualsevol sobrepassant del llindar serà interpretat com a tall, aquest ha d'escollir amb cura. En general es determina el seu valor òptim per mètodes estadístics i confirmat per tests posteriors.

Un procés de detecció de tall es compon de dues parts, que es poden optimitzar independentment. La quantització s'ha d'optimitzar de manera que els valors quedin molt distribuïts, i també que les diferències dels valors entre els talls i els no-talls siguin tan grans com sigui possible. El filtratge pot ser dissenyat per a ser permissiu, de manera que els talls suaus no siguin erròniament detectats com molts talls successius.

Quantització

L'optimització del filtratge no és una tasca senzilla. S'han dissenyat molts algorismes per a escometre, amb més o menys avantatges.

La Suma de diferències absolutes és probablement l'aproximació més evident d'avaluar les diferències entre dos fotogrames: Els valors de color d'una imatge es comparen pixel a pixel amb els de la següent i se sumen els valors absoluts de les diferències. El resultat és un nombre positiu que representa el grans que són les diferències punt a punt entre dues imatges. L'algorisme és molt sensible a petits canvis i dona lloc a valors alts de vegades en què no hi ha cap tall, especialment en moviments ràpids de càmera, explosions o encendre una llum en una escena que prèviament era fosca. D'altra banda no reacciona a la majoria de talls suaus, en què els canvis es produeixen massa lentament i per tant el valor de les diferències entre píxels de fotogrames successius no creix substancialment. No obstant això, aquest procés s'aplica amb freqüència, gràcies a que els talls durs es poden detectar amb seguretat i és molt ràpid, tant d'implementar com en la seva execució.

El mètode de diferència d'histogrames és una variació menor de la suma de diferències absolutes. En lloc de comparar les imatges píxel a píxel, es comparen els histogrames. Un histograma emmagatzema per a cada color primari (vermell, verd, blau) o la seva luminància el nombre de píxels d'una imatge que tenen cada valor. La diferència de histogrames proporciona una mesura de com el contingut total de la imatge es diferencia del d'una altra. Aquest mètode presenta el desavantatge que és possible que dues imatges completament diferents tinguin histogrames molt similars i fins i tot idèntics-per exemple, un fotograma que mostra el mar i la sorra de la platja, i un altre que representa el cel i un camp de blat. No hi ha cap garantia que es puguin detectar els canvis sobtats amb seguretat. D'altra banda, el mètode de la diferència d'histogrames és menys sensible a errors deguts a petites diferències en la imatge degudes a moviments de càmera o dels objectes capturats.

El mètode ECR (Edge Change Ratio: terme anglès per a «taxa de canvi de vores") aporta informació sobre les diferències de contingut entre dues imatges. Primer es busquen els contorns de tots els objectes de la imatge. Llavors es comparen les vores dels objectes de les dues imatges i es determina la proporció de vores d'objectes del primer fotograma que desapareixen i la quantitat d'objectes nous que apareixen en el següent fotograma. S'ha de calcular també com de grans són les diferències entre els objectes representats. El mètode ECR, és un dels millors indicadors de la presència de talls. És molt susceptible als talls sobtats i algunes formes de canvis suaus es poden detectar també amb seguretat. No obstant això té el desavantatge de fallar en algunes transicions, com per exemple quan van apareixent franges que formen part de la nova escena, fins que omplen la imatge i es completa el tall.^[1]

Una altra possibilitat és combinar els diferents mètodes i ponderar els seus resultats.

Filtratge

El filtratge simple per llindar pot estendre's, de manera que es combinin diversos valors que excedeixen el llindar en un sol punt que identifiqui el tall. Per això es tria una distància mínima que poden tenir dos valors que superin el llindar perquè el sistema els interpreti com dos talls diferents i en aquests casos es tria dins l'interval de frames un sol punt (normalment el que té el valor més gran dins l'interval).

Mesura de qualitat

Hi ha tres avaluadors de la qualitat d'un sistema automàtic de detecció de talls. Trucant C a la quantitat de talls correctament detectats, M al nombre de talls que no es van detectar i F a la suma de talls falsament detectats-talls detectats que en realitat no es produeixen-es poden emprar aquests tres avaluadors:

Precision . La quantitat de talls correctament detectats d'entre els que l'algorisme va trobar.

$P={C \over C+F}$

Recall . La quantitat de talls detectats d'entre els que hi havia.

$V={C \over C+M}$

F1 . Una combinació dels mètodes anteriors que té en compte tant la Precision com el Recall .

$F1={2\cdot P\cdot V \over P+V}$

Aquestes mesures de qualitat donen com a resultat un nombre entre 0 i 1. Com més gran és el resultat, millor és el detector.

Referències

↑ Vegeu per exemple l'inici d'aquest vídeo

Bibliografia

R. Steinmetz: Multimedia-Technologie. Springer, Berlín, Julio 2000. ISBN 3-540-67332-6.

[1] Vegeu per exemple l'inici d'aquest vídeo

[1]