L'us de la informació simbòlica en l'automatització del tractament estadístic de dominis poc estructurats

Author

Gibert, Karina, 1967-

Director

Cortés, Ulises, 1960-

Date of defense

1995-01-30

ISBN

8468905798

Legal Deposit

B-6817-2005



Department/Institute

Universitat Politècnica de Catalunya. Departament d'Estadística i Investigació Operativa

Abstract

Per les seves característiques intrínseques (coexistència de variables quantitatives i qualitatives amb gran nombre de modalitats , coneixement addicional sobre l'estructura del domini per part d'un expert), els dominis poc estructurats constitueixen problemes difícils de tractar amb les tècniques actuals en Estadística i Intel·ligència Artificial. A grans trets, l'estructura complexa d'aquests dominis fa que la construcció d'una base de coneixement complet sobre el domini, per a un sistema de diagnòstic, esdevingui pràcticament inabordable i que el clustering (basat en distàncies, que se situen en un pla sintàctic) tingui un comportament pobre; d'altra banda, la gestió simultània de variables numèriques i quantitats ingents d'informació qualitativa no respon exactament a les situacions per a les que les tècniques de clustering pures han estat pensades.<br/>KLASS és una eina de classificació parametritzable (quant als criteris d'agregació i les mètriques) capaç d'emprar informació semàntica per a dirigir el procés de classificació. Una de les seves característiques més destacables és l'ús conjunt d'informació qualitativa i quantitativa en la descripció dels objectes.<br/>L'objectiu principal d'aquest treball ha estat superar les limitacions de les tècniques de l'Estadística i de la Intel·ligència Artificial en la classificació de dominis poc estructurats.<br/>Entre d'altres resultats cal destacar una estratègia mixta de classificació que:<br/>- incorpora al procés de classificació coneixement parcial (ja no serà necessari que sigui complet) i/o no homogeni que tingui l'expert sobre el domini. Aquest coneixement es formalitza en CP1 (càlcul de predicats de primer ordre), permetent màxima potència expressiva i flexibilitat, i s'utilitza per construir una partició inicial sobre el domini induïda per les regles que equival a empaquetar "trossos" de coneixement en unitats funcionals, introduint informació semàntica al sistema a partir de la qual procedir amb una classificació per veïns recíprocs encadenats (de complexitat quadràtica). Aquesta seria la contribució principal de la present tesi i, entre altres coses, ofereix l'oportunitat de fer intervenir, en les regles, variables derivades de les observades. En aquest punt, el mecanisme és especialment potent i dona la possibilitat d'estudiar les dades simultàniament en diferents sistemes de coordenades.<br/>- permet treballar simultàniament amb variables qualitatives i quantitatives, tot mantenint la representació simbòlica d'aquestes darreres i evitant la categorització de les primeres. Això ha suscitat la definició d'un representat de classe per a les variables qualitatives, que constitueix una segona aportació d'aquest treball, i permet un tractament homogeni de:<br/>- variables quantitatives i qualitatives<br/>- classes i individus ( en conseqüència, fa possible la integració de les classes induïdes per les regles en una única jerarquia final).<br/>Treballar amb aquest tipus de matrius requereix detenir-se en la definició d'una funció que avaluació la distància entre individus. S'ha definit la família de distàncies mixtes d2 (_r,_r)(i, i0), estudiant-ne algunes propietats teòriques i aportant una proposta pels valors dels paràmetres (_r, _r). No es té notícia que una formulació d'aquest estil hagi estat abans utilitzada.<br/>I una metodologia de treball iterativa que, partint de les dades observacionals i el coneixement de l'expert, integra el proc´es anterior amb eines d'ajuda a la interpretació de les classes, de tal forma que s'obtingui finalment una classificació "satisfactòria", d'acord amb els objectius de l'expert.<br/>Aquesta metodologia resol la dificultat que per ell suposa formalitzar el seu coneixement de forma completa i precisa en dominis poc estructurats, ocasionada per l'existència de regles que aplica inconscientment i que, havent adquirit amb l'experiència, inicialment no és capaç de formalitzar.<br/>En el camp d'ajudes a la interpretació de les classes (actualment poc automatitzada en Estadística) es fan bàsicament dues contribucions · s'aporta una forma ràpida de mesurar _¸(P1,P2) la diferència entre dues classificacions, orientada a fer comparacions i, eventualment, avaluar la qualitat d'una classificació. <br/>El càlcul d'aquest coeficient es basa en la construcció de la taula de contingència de la partició producte i · un sistema de caracterització de la classificació que detecta les variables identificadores d'algunes classes (basant-se en un proc´es de condicionament progressiu). Aquesta tècnica descansa també sobre el concepte de representant de classe definit anteriorment i, a més de dotar al classificador de certa capacitat explicativa, dóna lloc a un procediment de generació automàtica de regles, que podran formar part de la base de coneixement d'un sistema de diagnòstic basat en el coneixement per dominis més complexos que els tractables actualment, la qual cosa suposa una contribució a l'apertura d'un canal d'apropament de l'Estadística i la Intel·ligència Artificial.


Por sus características intrínsecas (coexistencia de variables cuantitativas y cualitativas de gran número de modalidades , conocimiento adicional del experto acerca de la estructura del dominio), los dominios poco estructurados constituyen problemas difíciles de tratar con las técnicas actuales en Estadística e Inteligencia Artificial. A grandes rasgos, la estructura compleja de estos dominios hace que la construcción de una base de conocimiento completo sobre ellos, para un sistema de diagnostico, se vuelva prácticamente inabordable y que el clustering (basado en distancias, que se sitúan en el plano sintáctico) tenga un comportamiento pobre; por otro lado, la gestión simultánea de variables numéricas y cantidades ingentes de información cualitativa no responde exactamente a las situaciones para las que las técnicas de clustering puras fueron pensadas.<br/>KLASS es una herramienta de clasificación parametrizable (en cuanto a los criterios de agregación y las métricas) capaz de emplear información semántica para dirigir el proceso de clasificación. Una de sus características más destacables es el uso conjunto de información cuantitativa y cualitativa en la descripción de los objetos.<br/>El objetivo principal de este trabajo ha sido superar las limitaciones de las técnicas de la Estadística y de la Inteligencia Artificial para la clasificación de dominios poco estructurados. <br/>Entre otros resultados, cabe destacar:<br/>Una estrategia mixta de clasificación que: <br/>- incorpora al proceso de clasificación conocimiento parcial (ya no será necesario que sea completo) y/o no homogéneo que tenga el experto sobre el dominio.<br/>Este conocimiento se formaliza en CP1, permitiendo máxima potencia expresiva y flexibilidad, y se utiliza para construir una partición inicial inducida por las reglas equivalente a empaquetar trozos de conocimiento en unidades funcionales y que supone introducir información semántica al sistema a partir de la cual proceder a una clasificación por vecinos recíprocos encadenados (de complejidad cuadrática). Esta seria la contribución principal de la presente tesis y, entre otras cosas, ofrece la oportunidad de hacer intervenir, en las reglas, variables derivadas de las observadas. En este punto, el mecanismo es especialmente potente y da la posibilidad de estudiar los datos bajo distintos sistemas de coordenadas simultáneamente.<br/>- permite trabajar conjuntamente con variables cualitativas y cuantitativas, manteniendo la representación simbólica de estas últimas y evitando la categorización de las primeras. Ello ha suscitado la definición de un representante de clase para las variables cualitativas, que constituye una segunda aportación de este trabajo<br/>y permite un tratamiento homogéneo de:<br/>- variables cualitativas y cuantitativas.<br/>- clases e individuos (en consecuencia, hace posible la integración de las clases inducidas por las reglas en una jerarquía final).<br/>Trabajar con este tipo de matrices requiere detener-se en la definición de una función que evalué la distancia entre individuos. Se ha definido la familia de distancias mixtas d2(_r,_r)(i, i0), estudiando algunas de sus propiedades teóricas y aportando una propuesta para los valores de los parámetros (_r, _r). No se tiene noticia de que una formulación de este estilo se haya utilizado con anterioridad.<br/>Y una metodología de trabajo iterativa que, partiendo de datos observacionales y del conocimiento del experto, integra el proceso anterior con herramientas de ayuda a la interpretación de las clases, de tal forma que se obtenga finalmente una clasificación satisfactoria, de acuerdo a los objetivos del experto. Esta metodología resuelve la dificultad que para él supone formalizar su conocimiento de forma completa y precisa en dominios poco estructurados, debida a la existencia de reglas que aplica inconscientemente y que, habiendo adquirido con la experiencia, inicialmente no fue capaz de formalizar.<br/>En el campo de ayudas a la interpretación de las clases (actualmente poco automatizada en Estadística) se hacen básicamente dos contribuciones<br/>· se aporta una forma rápida de medir _¸(P1,P2) la diferencia entre dos clasificaciones, orientada a hacer comparaciones y, eventualmente, evaluar la calidad de una clasificación. El calculo de este coeficiente se basa en la construcción de la tabla de contingencia de la partición producto y<br/>· un sistema de caracterización de la clasificación que detecta las variables identificadoras de algunas clases (basándose en un proceso de condicionamiento progresivo). Esta técnica descansa también sobre el concepto de representante de clase definido anteriormente y, además de dotar al clasificador de cierta capacidad explicativa, da lugar a un procedimiento de generación automática de reglas, que podrán formar parte de la base de conocimiento de un sistema de diagnostico basado en el conocimiento para dominios más complejos que los manejables actualmente, lo cual supone una contribución a la apertura de un canal de acercamiento entre Estadística e Inteligencia Artificial.


Because of their intrinsic characteristics (coexistence of quantitative and qualitative variables the last ones with great number of modalities , additional expert knowledge on the domain structure), ill-structured domains are difficult problems for the actual statistical and artificial intelligence techniques. Briefly, construction of complete knowledge bases of the domain, to be used in diagnostic oriented systems, is almost unreachable due to the complexity of these kinds of domains. The clustering (based on distances, which are, in fact, syntactic criteria) has also a poor behaviour; actually, standard statistical techniques where not specifically designed for simultaneous treatment of numerical variables and great quantity of qualitative information.<br/>KLASS is a clustering tool that can use semantic information to guide the classification process. It is parameterized on the aggregation criteria and the metrics. One of its most important features is the use of both qualitative and quantitative information in the object descriptions.<br/>The main goal of this work is to overcome the limitations of Statistics and Artificial Intelligence techniques referred to this particular context. Among other results, one may highlight:<br/>A mixt classification strategy that:<br/>- incorporates parcial (complete knowledge is not necessary anymore) and/or no homogeneous knowledge that the expert has on the domain. This knowledge is formalized in CP1, allowing maximum expressivity and flexibility, and it is used to built an initial induced partition on the domain this is equivalent to pack knowledge pieces in functional units, introducing semantics into the system <br/> from witch a chained reciprocal neighbours classification (of quadratic cost) is performed. This is the main contribution of the thesis and, among others, it offers the opportunity of using, in the rules, variables defined as transformations of the observed ones. In this point, the mechanism is especially powerful, providing the possibility to study the data simultaneously in different coordinate systems.<br/>- manages data matrices composed of both quantitative and qualitative variables, maintaining the symbolic representation of the last ones and evoying the codification of the firsts. This suggests the definition of a class representative for qualitative variables. It constitutes a second contribution of this work, allowing an homogeneous treatement of<br/>_ quantitative and qualitative variables<br/>_ classes and individuals (as a consequence, enables the integration of the classes induced by the rules in an only final hierarchy).<br/>And an iterative working methodology that, starting with observational data and expert knowledge, integrates the previous process with some tools oriented to the interpretation of the classes in such a way that, at the end, a satisfactory classification can be obtained, according to the expert goals. This methodology solves the expert difficulties in formalizing its knowledge in a complete and precise way for ill-structured domains. Those difficulties are due to the existence of rules, acquired by experience, that the expert applies unconsciously and, initially, he was not able to formalize.<br/>Referring to the class interpretation oriented tools (nowadays, at low level of automation in Statistics) two basic contributions are made:<br/>· a quick way of measuring _¸(P1,P2) the difference between two classifications is provided. This measure is oriented to comparisons and, occasionally, to an evaluation of a classification quality. The coefficient is calculated using the product partition contingency table and<br/>· a class characterization system to detect identifier variables for some classes (based on a progressive conditioning process). This technique is also founded on the class representative defined before. It gives some explicative capacity to the classifier and it also constitutes a starting point for an automatic rules generation process. The rules generated by this process could be introduced in the knowledge base of a diagnostic oriented system for a domain of greater complexity than those that are manageable at present. This supposes a contribution on the Statistics and Artificial Intelligence approach.

Keywords

classificació basada en regles; mètrica mixta; sistemes basats en coneixement; intel·ligència artificial i estadística; mètodes híbrids; dades heterogènies; clustering

Subjects

004 - Computer science and technology. Computing. Data processing; 311 - Statistics as a science. Statistical theory; 51 - Mathematics; 62 - Engineering. Technology in general

Knowledge Area

1209. Estadística

Documents

01Kgo01de01.pdf

1.122Mb

 

Rights

ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)