Four essays on data visualization and anomaly detection of data envelopment analysis problems

Author

Ashkiani, Shahin

Director

Giménez García, Víctor

Date of defense

2019-10-25

ISBN

9788449091445

Pages

207 p.



Department/Institute

Universitat Autònoma de Barcelona. Departament d'Economia de l'Empresa

Abstract

La visualización de datos es un tema relativamente descuidado en el campo del Análisis Envolvente de Datos(DEA). En los manuales completos de DEA casi no hay ningún capítulo o sección dedicada a los métodos de visualización de datos, y en las aplicaciones de DEA, generalmente se asigna un papel muy limitado y nada principal en la visualización de datos. Sin embargo, la representación gráfica de los datos puede tener beneficios definitivos para los profesionales e investigadores del campo, hasta tal punto que la interpretación resultante de los problemas de la DEA a través de la visualización no se puede obtener utilizando métodos analíticos. La visualización de datos, cuando se aplica correctamente, puede revelar regularidades e irregularidades en los datos. Las regularidades pueden ser tendencias o agrupaciones, y las irregularidades son discordantes, como los valores atípicos. En algunos casos, la visualización de datos ayuda a entender-los mucho más rápidamente, ya que el cerebro humano está conectado para absorber la información visual de manera más eficiente que los dígitos, y la visualización de datos puede resumir cargas de dígitos en un gráfico. Además, algunos patrones se hacen visibles cuando el método de investigación retiene todas las variables y sus relaciones, algo que los métodos analíticos no pretenden hacer. Por el contrario, la visualización de datos de alta dimensión se compone de métodos que tienden a retener toda la información y, por lo tanto, están en el centro de esta tesis, para encontrar regularidades e irregularidades en los diversos conjuntos de datos DEA. A pesar del olvido que tiene la visualación de datos DEA, ya hay cosas hechas y ya existen metodos, es más tienen varias herramientas muy útiles. El primer ensayo de esta tesis es una encuesta visual de las herramientas disponibles. Como no existe tal encuesta en la literatura de la DEA, es importante reunir todas las herramientas de visualización en un mismo grupo, e identificar e ilustrar las importantes para ayudar a los profesionales a elegir las herramientas adecuadas así como ayudar a los investigadores a crear nuevas herramientas. El segundo ensayo de esta tesis sugiere una nueva herramienta para esta caja de herramientas. Esta nueva herramienta es un método de visualización para la metodología de “Cross-Evaluation” de la DEA y se puede utilizar para diversos fines, incluida la detección de valores atípicos o unidades de toma de decisiones (DMU) poco comunes. Un tipo de estas DMU poco comunes se denominan "unidades rebeldes", y el tercer ensayo de esta tesis se centra en este tipo de DMU. Las unidades Maverick son el tema del segundo ensayo, y se sugiere un nuevo método visual, basado en el ensayo anterior, para detectar tales DMU, ​​y se crea un nuevo índice para identificarlas numéricamente. En esta tesis se prueba que el nuevo índice inconformista de maverick esta en teoria y en la práctica más justificado y es más robusto que los conocidos índices inconformistas de maverick de la literatura de la DEA. El cuarto y último ensayo es una introducción a DEA-Viz, un nuevo software de visualización desarrollado por el autor de esta tesis. DEA-Viz incluye la implementación del método sugerido de visualización de evaluación cruzada del segundo ensayo, así como una selección de métodos de visualización DEA sugeridos previamente. La importancia de DEA-Viz radica en el hecho de que no hay ningún software DEA con la misma funcionalidad que DEA-Viz, ni ningún software DEA con características similares de DEA-Viz. Por lo tanto, DEA-Viz puede tener un papel incomparable en el análisis de problemas de DEA y en la promoción de la visualización de DEA.


Data visualization is a relatively neglected topic in the field of data envelopment analysis (DEA). In the comprehensive handbooks of DEA, there is hardly any chapter or section dedicated to data visualization methods, and in the applications of DEA, a very limited and peripheral role is usually assigned to data visualization. However, graphical representation of data can have definite benefits for the practitioners and researchers of the field, to such extent that the resulted insight to the DEA problems through visualization may not be gained using analytical methods. Data visualization, when applied correctly, is able to reveal regularities and irregularities in the data. Regularities can be trends, or clusters, and irregularities are anything discordant, such as outliers. In some cases, data visualization helps to grasp the data much more quickly, as human brain is wired to absorb visual information more efficiently than digits, and data visualization can summarize loads of digits into one chart. On the other hand, some patterns become visible when all the variables and their relations are retained by the investigation method, something that analytical methods do not intend to do. In contrast, High-dimensional data visualization is composed of methods which tend to retain all information, and thus they are in the center of this thesis, in order to find regularities and irregularities in the various DEA datasets. Despite the relative neglect, DEA data visualization toolbox is not empty, and in fact it has several useful tools. The first essay of this thesis is a visual survey of these available tools. Since there is no such survey in DEA literature, it is important to gather all the visualization tools in a toolbox, and identify and illustrate the important ones in order to help practitioners to pick the proper tools, and to help researchers to craft novel tools. The second essay of this thesis suggests a new tool for this toolbox. This new tool is a visualization method for DEA cross-evaluation methodology, and can be used for various purposes including detection of outliers or uncommon decision making units (DMU). One type of these uncommon DMUs is called “maverick units”, and the third essay of this thesis is focused on this sort of DMUs. Maverick units are the subject of the second essay, and a new visual method, based on the preceding essay, is suggested to detect such DMUs, and a new index is devised to numerically identify them. It is shown that the new maverick index is theoretically and practically more justified and robust than the well-known maverick indexes of DEA literature. The forth and last essay is an introduction to DEA-Viz, a new visualization software developed by the author of this thesis. DEA-Viz includes the implementation of the suggested cross-evaluation visualization method of the second essay, as well as a selection of previously suggested DEA visualization methods. Moreover, the DEA-Viz has novel visualization features in order to investigate maverick units in further details, following the third essay. The importance of DEA-Viz lies in the facts that there is not any DEA software with the same functionality as DEA-Viz, or any DEA software with similar features of DEA-Viz. Thus, DEA-Viz can have an unparalleled role in analysis of DEA problems, and promotion DEA visualization. Following the enhancement of this thesis, an R package including all the DEA-Viz tools, as well as some new methods is developed by the author. The package, could be found in author’s online code repository, makes the code available to every interested user, and expands the current DEA visualization tools from static data, to panel data.

Keywords

Anàlisi envoltant de dades; Análisis envolvente de datos; Data envelopment analysis; Visualització de dades; Visualización de datos; Data visualization; Detecció anòmala; Detección anómala

Subjects

3 - Social Sciences

Knowledge Area

Ciències Socials

Documents

shas1de1.pdf

11.71Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

This item appears in the following Collection(s)