Síntesis Audiovisual Realista Personalizable

dc.contributor
Universitat Ramon Llull. La Salle
dc.contributor.author
Melenchón Maldonado, Javier
dc.date.accessioned
2011-04-12T18:36:43Z
dc.date.available
2007-07-16
dc.date.issued
2007-07-13
dc.date.submitted
2007-07-16
dc.identifier.uri
http://www.tdx.cat/TDX-0716107-135318
dc.identifier.uri
http://hdl.handle.net/10803/9133
dc.description.abstract
Es presenta un esquema únic per a la síntesi i anàlisi audiovisual personalitzable realista de seqüències audiovisuals de cares parlants i seqüències visuals de llengua de signes en àmbit domèstic. En el primer cas, amb animació totalment sincronitzada a través d'una font de text o veu; en el segon, utilitzant la tècnica de lletrejar paraules mitjançant la ma. Les seves possibilitats de personalització faciliten la creació de seqüències audiovisuals per part d'usuaris no experts. Les aplicacions possibles d'aquest esquema de síntesis comprenen des de la creació de personatges virtuals realistes per interacció natural o vídeo jocs fins vídeo conferència des de molt baix ample de banda i telefonia visual per a les persones amb problemes d'oïda, passant per oferir ajuda a la pronunciació i la comunicació a aquest mateix col·lectiu. El sistema permet processar seqüències llargues amb un consum de recursos molt reduït, sobre tot, en el referent a l'emmagatzematge, gràcies al desenvolupament d'un nou procediment de càlcul incremental per a la descomposició en valors singulars amb actualització de la informació mitja. Aquest procediment es complementa amb altres tres: el decremental, el de partició i el de composició.
cat
dc.description.abstract
Se presenta un esquema único para la síntesis y análisis audiovisual personalizable realista de secuencias audiovisuales de caras parlantes y secuencias visuales de lengua de signos en entorno doméstico. En el primer caso, con animación totalmente sincronizada a través de una fuente de texto o voz; en el segundo, utilizando la técnica de deletreo de palabras mediante la mano. Sus posibilidades de personalización facilitan la creación de secuencias audiovisuales por parte de usuarios no expertos. Las aplicaciones posibles de este esquema de síntesis comprenden desde la creación de personajes virtuales realistas para interacción natural o vídeo juegos hasta vídeo conferencia de muy bajo ancho de banda y telefonía visual para las personas con problemas de oído, pasando por ofrecer ayuda en la pronunciación y la comunicación a este mismo colectivo. El sistema permite procesar secuencias largas con un consumo de recursos muy reducido gracias al desarrollo de un nuevo procedimiento de cálculo incremental para la descomposición en valores singulares con actualización de la información media.
spa
dc.description.abstract
A shared framework for realistic and personalizable audiovisual synthesis and analysis of audiovisual sequences of talking heads and visual sequences of sign language is presented in a domestic environment. The former has full synchronized animation using a text or auditory source of information; the latter consists in finger spelling. Their personalization capabilities ease the creation of audiovisual sequences by non expert users. The applications range from realistic virtual avatars for natural interaction or videogames to low bandwidth videoconference and visual telephony for the hard of hearing, including help to speech therapists. Long sequences can be processed with reduced resources, specially storing ones. This is allowed thanks to the proposed scheme for the incremental singular value decomposition with mean preservation. This scheme is complemented with another three: the decremental, the split and the composed ones.
eng
dc.format.mimetype
application/pdf
dc.language.iso
spa
dc.publisher
Universitat Ramon Llull
dc.rights.license
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Dactilología
dc.subject
Talking heads
dc.subject
Visión por Ordenador
dc.subject
Lip Synch
dc.subject
Aprendizaje Incremental
dc.subject
Síntesis Multimodal
dc.subject
Incertidumbre Audiovisual
dc.subject
Descomposición en Valores Singulares
dc.subject
Énfasis
dc.subject
Visemas
dc.subject
Sincronización labial
dc.subject
Visió per Ordinador
dc.subject
Cabezas parlantes
dc.subject
Síntesi Multimodal
dc.subject
Aprenentatge Incremental
dc.subject
Dactilologia
dc.subject
Incertesa Audiovisual
dc.subject
Èmfasi
dc.subject
Descomposició en Valors Singulars
dc.subject
Visemes
dc.subject
Caps parlants
dc.subject
Sincronització labial
dc.subject
Visemes
dc.subject
Emphasis
dc.subject
Singular Value Decomposition
dc.subject
Audiovisual Uncertainty
dc.subject
Multimodal Synthesis
dc.subject
Incremental Learning
dc.subject
Fingerspelling
dc.subject
Computer Vision
dc.subject.other
Tecnologies de la Informació i les Comunicacions i la seva Gestió
dc.title
Síntesis Audiovisual Realista Personalizable
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
004
cat
dc.subject.udc
512
cat
dc.subject.udc
81
cat
dc.contributor.authoremail
jmelen@salle.url.edu
dc.contributor.director
Martínez Marroquín, Elisa
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
cat
dc.identifier.dl
B.39417-2007


Documents

JMMTesi.pdf

4.253Mb PDF

This item appears in the following Collection(s)