Universitat Politècnica de Catalunya. Departament de Ciències de la Computació
Crowdsourcing, the art of involving several individuals in the decentralized execution of business activities, is being positioned as the replacement of outsourcing, as it allows organization to reach a capable workforce whenever it is necessary for the business. Nevertheless, adoption among industry is still low, as the technology is yet not mature and, in particular, it is difficult to monitor the execution of the business activities in a crowdsourcing platform. In this thesis, we advance towards creating better monitoring tools for crowdsourcing processes and a mechanism for modelling the worker's behavior. Formalizing the work to be done in a process is the first step for improving the overall efficiency and quality of problem resolution. Still, there is a lack of mechanisms for defining business processes capable of adapting to the needs of the crowd. Therefore, we start this thesis by introducing a graphical modelling language for describing decentralized collaborative processes. The focus of this work is to allow the definition of complex worker requirements, as well as provide a quick overview and assessment of the implemented quality assurance mechanisms. In a longer-term vision, having well-defined processes will help in making more predictable the performance of any crowdsourcing project. For those cases in which there is no formal process and the crowd can self-organize how they execute the business activities, we have also made the first steps for designing a method capable of discovering processes by analyzing the factual work done in the platform. Assuming that all steps recorded by the platform have some textual description of the work done, we propose to use novel natural language processing tools for generating groups of similar activities and, hence, enabling later analytics and insights, such as a process discovery for understanding, monitoring, or simply formalize the underlying crowd-process. As for modelling the worker's behavior, we started by studying a particular crowdsourced process pattern that enables the platform to rank users based on their performance. The novelty of such prototype relies on the role of the reviewer, played by skilled individuals on the platform, that acts as reviewers of the translations done by in-training translators. The feedback provided by the reviewers is later reused for deciding if an in-training translator should be promoted to the reviewer role. Unfortunately, there is no clear way of extrapolating the previous user evaluation to other processes. In this thesis, we propose to let the platform monitor the actions performed by individuals in order to create a profile of their behavior. We assume that those actions can be thougth as events that can be later processed by a discovery method, summarizing such actions in the form of a process model. Apart from the fitness of the resulting process models, precision is a key quality metric of these behavioral profiles. Low-precision models are more likely to describe the behavior of several users, reducing the insights obtained by analyzing or comparing process models. In particular, repetition of activities -- very often due to the human nature -- is one of the key trace characteristic that reduces precision of models discovered with most process mining techniques as we highlight, and palliate, during this chapter. We also propose a new similarity metric between process models, enabling platforms to compare users based on the similarity of the user profiles. In particular, we have applied this similarity metric with an industrial dataset compromising several workers with access to a source code repository, and it turns out that their role in the organization is partially seen in how they access such source code repository.
Crowdsourcing, el arte de involucrar diferentes individuos en la ejecución descentralizada de tareas tradicionalmente ejecutadas en empresas, se está posicionando como un sustituto del outsourcing, ya que acerca toda una fuerza de trabajado solo cuando sea necesario para la empresa. Sin embargo, la adopción entre la industria es todavía muy bajo, debido a que las tecnologías que soportan el Crowdsourcing son todavía poco maduras y, especialmente, debido a los pobres mecanismos existentes para monitorización de la ejecución de tareas en una plataforma de Crowdsourcing. En esta tesis, planteamos una serie de avances para crear mecanismos de control más eficientes basados parcialmente en el modelaje de comportamiento humano. Formalizar las tareas que se deben realizar para la resolución de un problema es un paso esencial para monitorizar la calidad del trabajo y para el estudio de posibles mejoras. Sin embargo, la literatura no ha encontrado un mecanismo eficaz para definir procesos empresariales capaces de adaptarse a las necesidades del Crowdsourcing. Por lo tanto, esta tesis empieza introduciendo un lenguaje capaz de definir procesos donde se tienen en cuenta requerimientos complejos sobre los trabajadores remotos, al mismo tiempo que permite evaluar los mecanismos de control de calidad implementados con un simple vistazo. En aquellos casos en los que no se define procesos formales, pero se deja que los trabajadores remotos se organicen para la resolución del problema, hemos dado los primeros pasos para el descubrimiento de procesos analizando el trabajo que se realiza en la plataforma de Crowdsourcing. Asumiendo que todos los pasos ejecutados en la plataforma tienen algún tipo de descripción textual del trabajo hecho, proponemos el uso de técnicas actuales de procesamiento de lenguaje natural para generar grupos de actividades similar que nos permite realizar analíticas sobre los procesos ocultos y, por lo tanto, un mejor monitorizaje del trabajo hecho por los trabajadores remotos. Para modelar el comportamiento humano en la plataforma de crowdsourcing, empezamos estudiando un patrón común que extendemos para permitir medir la eficiencia relativa de los trabajadores remotos. La pieza clave de este patrón extendido es el rol del revisor, ejecutado por individuos que han demostrado sus aptitudes en la plataforma y actúa como revisor del trabajo hecho por otros trabajadores remotos que compiten para obtener el rol de revisor. Aparte, el feedback aportado por los revisores permite a los ejecutores de la tarea a mejorar su rendimiento. Desafortunadamente, no parece haber una manera clara de extrapolar este patrón extendido a otros procesos de crowdsourcing. Basándonos en trabajo previo a esta tesis que demuestran que el comportamiento de la gente con bajo rendimiento es diferente al resto, en esta tesis proponemos la creación de un perfil del usuario basado en las acciones ejecutadas en la plataforma. La novedad que aporta esta tesis es el uso de técnicas automáticas de descubrimiento de procesos para la generación de este perfil de usuario. Uno de los retos descubiertos durante la ejecución de esta tesis es que la precisión de los modelos descubierto suele ser muy baja debido a limitaciones actual que impiden descubrir modelos que repitan actividades, a pesar de que es algo muy común en el comportamiento humano. En esta tesis atacamos este problema proponiendo una técnica que desambigua procesos iterativos para mejor la precisión de los procesos debidos a este factor humano. También hemos adaptado una métrica de similitud usada en el área de la bioinformática para poder ser aplicada en la comparación de modelos de comportamiento humano. Hemos aplicado esta métrica en conjuntos de datos reales explicando como un conjunto de programadores accede a un repositorio de código fuente. Los resultados muestran que nuestra métrica es capaz de descubrir grupos de programadores que coinciden con roles diferentes en el proyecto.
004 - Informática
Àrees temàtiques de la UPC::Informàtica
ADVERTIMENT. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.