Lógica difusa aplicada a conjuntos imbalanceados: aplicación a la detección del Síndrome de Down

dc.contributor
Universitat Autònoma de Barcelona. Departament de Microelectrònica i Sistemes Electrònics
dc.contributor.author
Soler Ruiz, Vicenç
dc.date.accessioned
2011-04-12T14:54:17Z
dc.date.available
2007-04-12
dc.date.issued
2007-01-23
dc.date.submitted
2007-04-12
dc.identifier.isbn
9788469047378
dc.identifier.uri
http://www.tdx.cat/TDX-0412107-160104
dc.identifier.uri
http://hdl.handle.net/10803/5777
dc.description.abstract
El problema a resolver en esta Tesis Doctoral consiste en hallar una solución que mejore la clasificación que se consigue actualmente para el problema de la detección precoz del síndrome de Down en fetos, durante el segundo trimestre de embarazo, con técnicas no invasivas.<br/>El conjunto de datos usado para la detección del síndrome de Down es de dos clases y de tipo imbalanceado, es decir, que hay una gran diferencia entre el número de casos correspondientes a fetos que no son afectados por el síndrome de Down y los que sí lo son.<br/>Para tratar de mejorar la clasificación que se logra en la actualidad, se ha desarrollado un nuevo método de Soft Computing basado en Lógica Difusa diseñado para trabajar con conjuntos de datos imbalanceados. Este método permite, no sólo hallar una buena solución, sino también extraer el conocimiento adquirido.<br/>El método desarrollado se denomina FLAGID (Fuzzy Logic And Genetic algorithms for Imbalanced Datasets) y se basa en la idea de que la solución generalice lo máximo posible, para evitar el efecto de sobreaprendizaje ("overfitting") que se produce en la mayoría de métodos al tratar de trabajar con un conjunto de datos imbalanceado. Para proporcionar las herramientas necesarias al método para que generalice, se ha desarrollado un algoritmo llamado ReRecBF, que forma parte del método FLAGID. Este algoritmo transforma las funciones de pertenencia obtenidas a partir de los datos por otro algoritmo ya existente llamado DDA/RecBF. Esta transformación consiste en convertir las funciones de pertenencia generadas a partir de los casos de la clase-menor en funciones triangulares, dejar como funciones trapezoidales las funciones de pertenencia de la clase-mayor y dividir las funciones de pertenencia que se solapen. Finalmente, debido a que se generan nuevas funciones de pertenencia, un algoritmo genético es usado simplemente para hallar las reglas que más se ajusten a las nuevas funciones.<br/>Los resultados obtenidos han mejorado la tasa de falsos positivos en el conjunto de datos del síndrome de Down hasta el 4%, con una tasa de verdaderos positivos del 60%. Esta es la primera vez que un método consigue bajar del 5% de falsos positivos con esa tasa de aciertos en los verdaderos positivos. Además, se ha extraído el conocimiento del resultado, y éste ha coincidido, en su mayoría, con el conocimiento existente en el campo de la medicina. Otro hecho remarcable es que se ha comprobado que el método también es útil para trabajar con conjuntos de datos imbalanceados.<br/>Finalmente, los resultados de este trabajo realizan aportaciones nuevas en el campo de la medicina, como son la importancia de la edad gestacional del feto en la detección de los casos positivos y que el peso de la madre tiene más importancia que simplemente el calibrar los dos indicadores hormonales AFP y hCG.
cat
dc.description.abstract
The problem to solve in this PhD Thesis consists of finding a solution that improves the classification that is obtained at the moment for the problem of the detection of the Down syndrome in fetuses, during the second trimester of pregnancy, with non-invasive techniques.<br/>The dataset used for the detection of the Down syndrome is imbalanced and two classes type, that is, that there are a great difference between the number of cases corresponding to fetuses that are not affected by the Down syndrome and those that are affected.<br/>In order to try to improve the classification that is obtained at the present time, a new method of Soft Computing has been developed based on Fuzzy Logic and designed to work with imbalanced datasets. This method allows, not only to find a good solution, but also to extract the acquired knowledge. The developed method is called FLAGID (Fuzzy Logic And Genetic algorithms for Imbalanced Datasets) and it is based on the idea that the solution tries to generalize at maximum, avoiding the overfitting effect that takes place in most of methods when trying to work with an imbalanced dataset. In order to provide the necessary tools to the method that allows it to generalize, an algorithm called ReRecBF has been developed, which is a part of method FLAGID. This algorithm transforms the membership functions obtained from the data by another existing algorithm, called DDA/RecBF. This transformation consists of turning the membership functions generated from the cases of the minor-class in triangular functions, leaving like trapezoidal functions the membership functions of the major-class, dividing the membership functions that are overlapped. Finally, because new membership functions are generated, a genetic algorithm is used simply to find the rules that adjust more to the new functions.<br/>The results obtained have improved the rate of false positives in the data set of the Down syndrome until 4%, with a rate of true positives of 60%. This is the first time that a method is able to achieve a lower rate of 5% of false positives with that rate of successes in the true positives. In addition, the knowledge of the result has been extracted, and this one has agreed, in its majority, with the existing knowledge in the field of the medicine. Another remarkable fact is that it has been verified that the method also is useful to work with imbalanced datasets. <br/>Finally, the results of this work make new contributions in the field of the medicine, like the importance of the gestational age of the fetus in the detection of the positive cases and that the weight of the mother has more indicating importance than simply calibrating both hormonal AFP and hCG.
cat
dc.format.mimetype
application/pdf
dc.language.iso
spa
dc.publisher
Universitat Autònoma de Barcelona
dc.rights.license
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Síndrome de Down
dc.subject
Imbalanced datasets
dc.subject
Lógica difusa
dc.subject.other
Tecnologies
dc.title
Lógica difusa aplicada a conjuntos imbalanceados: aplicación a la detección del Síndrome de Down
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.subject.udc
68
cat
dc.contributor.authoremail
vicenc.soler@uab.cat
dc.contributor.director
Prim Sabrià, Marta
dc.contributor.director
Roig, Jordi (Roig Zárate)
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.identifier.dl
B-14704-2007


Documents

vsr1de1.pdf

9.499Mb PDF

Aquest element apareix en la col·lecció o col·leccions següent(s)