Síntesis Audiovisual Realista Personalizable

Melenchón Maldonado, Javier

Síntesis Audiovisual Realista Personalizable

dc.contributor

Universitat Ramon Llull. La Salle

dc.contributor.author

Melenchón Maldonado, Javier

dc.date.accessioned

2011-04-12T18:36:43Z

dc.date.available

2007-07-16

dc.date.issued

2007-07-13

dc.date.submitted

2007-07-16

dc.identifier.uri

http://www.tdx.cat/TDX-0716107-135318

dc.identifier.uri

http://hdl.handle.net/10803/9133

dc.description.abstract

Es presenta un esquema únic per a la síntesi i anàlisi audiovisual personalitzable realista de seqüències audiovisuals de cares parlants i seqüències visuals de llengua de signes en àmbit domèstic. En el primer cas, amb animació totalment sincronitzada a través d'una font de text o veu; en el segon, utilitzant la tècnica de lletrejar paraules mitjançant la ma. Les seves possibilitats de personalització faciliten la creació de seqüències audiovisuals per part d'usuaris no experts. Les aplicacions possibles d'aquest esquema de síntesis comprenen des de la creació de personatges virtuals realistes per interacció natural o vídeo jocs fins vídeo conferència des de molt baix ample de banda i telefonia visual per a les persones amb problemes d'oïda, passant per oferir ajuda a la pronunciació i la comunicació a aquest mateix col·lectiu. El sistema permet processar seqüències llargues amb un consum de recursos molt reduït, sobre tot, en el referent a l'emmagatzematge, gràcies al desenvolupament d'un nou procediment de càlcul incremental per a la descomposició en valors singulars amb actualització de la informació mitja. Aquest procediment es complementa amb altres tres: el decremental, el de partició i el de composició.

cat

dc.description.abstract

Se presenta un esquema único para la síntesis y análisis audiovisual personalizable realista de secuencias audiovisuales de caras parlantes y secuencias visuales de lengua de signos en entorno doméstico. En el primer caso, con animación totalmente sincronizada a través de una fuente de texto o voz; en el segundo, utilizando la técnica de deletreo de palabras mediante la mano. Sus posibilidades de personalización facilitan la creación de secuencias audiovisuales por parte de usuarios no expertos. Las aplicaciones posibles de este esquema de síntesis comprenden desde la creación de personajes virtuales realistas para interacción natural o vídeo juegos hasta vídeo conferencia de muy bajo ancho de banda y telefonía visual para las personas con problemas de oído, pasando por ofrecer ayuda en la pronunciación y la comunicación a este mismo colectivo. El sistema permite procesar secuencias largas con un consumo de recursos muy reducido gracias al desarrollo de un nuevo procedimiento de cálculo incremental para la descomposición en valores singulares con actualización de la información media.

spa

dc.description.abstract

A shared framework for realistic and personalizable audiovisual synthesis and analysis of audiovisual sequences of talking heads and visual sequences of sign language is presented in a domestic environment. The former has full synchronized animation using a text or auditory source of information; the latter consists in finger spelling. Their personalization capabilities ease the creation of audiovisual sequences by non expert users. The applications range from realistic virtual avatars for natural interaction or videogames to low bandwidth videoconference and visual telephony for the hard of hearing, including help to speech therapists. Long sequences can be processed with reduced resources, specially storing ones. This is allowed thanks to the proposed scheme for the incremental singular value decomposition with mean preservation. This scheme is complemented with another three: the decremental, the split and the composed ones.

eng

dc.format.mimetype

application/pdf

dc.language.iso

spa

dc.publisher

Universitat Ramon Llull

dc.rights.license

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

dc.source

TDX (Tesis Doctorals en Xarxa)

dc.subject

Dactilología

dc.subject

Talking heads

dc.subject

Visión por Ordenador

dc.subject

Lip Synch

dc.subject

Aprendizaje Incremental

dc.subject

Síntesis Multimodal

dc.subject

Incertidumbre Audiovisual

dc.subject

Descomposición en Valores Singulares

dc.subject

Énfasis

dc.subject

Visemas

dc.subject

Sincronización labial

dc.subject

Visió per Ordinador

dc.subject

Cabezas parlantes

dc.subject

Síntesi Multimodal

dc.subject

Aprenentatge Incremental

dc.subject

Dactilologia

dc.subject

Incertesa Audiovisual

dc.subject

Èmfasi

dc.subject

Descomposició en Valors Singulars

dc.subject

Visemes

dc.subject

Caps parlants

dc.subject

Sincronització labial

dc.subject

Visemes

dc.subject

Emphasis

dc.subject

Singular Value Decomposition

dc.subject

Audiovisual Uncertainty

dc.subject

Multimodal Synthesis

dc.subject

Incremental Learning

dc.subject

Fingerspelling

dc.subject

Computer Vision

dc.subject.other

Tecnologies de la Informació i les Comunicacions i la seva Gestió

dc.title

Síntesis Audiovisual Realista Personalizable

dc.type

info:eu-repo/semantics/doctoralThesis

dc.type

info:eu-repo/semantics/publishedVersion

dc.subject.udc

004

cat

dc.subject.udc

512

cat

dc.subject.udc

cat

dc.contributor.authoremail

jmelen@salle.url.edu

dc.contributor.director

Martínez Marroquín, Elisa

dc.rights.accessLevel

info:eu-repo/semantics/openAccess

cat

dc.identifier.dl

B.39417-2007

Documents

JMMTesi.pdf

4.253Mb PDF

This item appears in the following Collection(s)

Departament de Comunicacions i Teoria del Senyal [29]