dc.contributor
Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
dc.contributor.author
Liaghat, Zeinab
dc.date.accessioned
2017-04-28T12:02:24Z
dc.date.available
2017-04-28T12:02:24Z
dc.date.issued
2017-03-09
dc.identifier.uri
http://hdl.handle.net/10803/402575
dc.description.abstract
Nowadays, the amount of available digital documents is rapidly growing, expanding at a
considerable rate and coming from a variety of sources. Sources of unstructured and
semi-structured information include the World Wide Web, news articles, biological
databases, electronic mail, digital libraries, governmental digital repositories, chat
rooms, online forums, blogs, and social media such as Facebook, Instagram, LinkedIn,
Pinterest, Twitter, YouTube, Instagram, Pinterest, plus many others.
Extracting information from these resources and finding useful information from such
collections has become a challenge, which makes organizing massive amounts of data
a necessity. Data mining, machine learning, and natural language processing are
powerful techniques that can be used together to deal with this big challenge.
Depending on the task or problem at hand, there are many different approaches that
can be used. The methods that are being implemented are continuously being
optimized, but not all these methods have been tested and compared for quality after
training on large size corpora for supervised machine learning algorithms. The question
is what happens to the quality of methods if we increase the data size from, say, 100
MB to over 1 GB? Moreover, are quality gains worth it when the rate of data processing
diminishes? Can we trade quality for time efficiency and recover the quality loss by just
being able to process more data?
This thesis is first attempt to answer these questions in a general way for text
processing tasks, as not enough research has been done to compare those methods
considering the trade-offs of data size, quality, and processing time. Hence, we propose
a trade-off analysis framework and apply it to three important text processing problems:
Named Entity Recognition, Sentiment Analysis, and Document Classification. These
problems were also chosen because they have different levels of object granularity:
words, passages, and documents. For each problem, we select several machine
learning algorithms and we evaluate the trade-offs of these different methods on large
publicly available datasets (news, reviews, patents). We use different data subsets of
increasing size ranging from 50 MB to a few GB, to explore these trade-offs. We
conclude, as hypothesized, that just because the method has good performance in
small data, it does not necessarily have the same performance for big data. For the two
last problems, we consider similar algorithms and also consider two different data sets
and two different evaluation techniques, to study the impact of the data and the
evaluation technique on the resulting trade-offs. We find that the results do not change
significantly.
en_US
dc.description.abstract
Avui en dia, la quantitat de documents digitals disponibles està creixent ràpidament,
expandint- se a un ritme considerable i procedint de diverses fonts. Les fonts
d’informació no estructurada i semiestructurada inclouen la World Wide Web, articles
de notícies, bases de dades biològiques, correus electrònics, biblioteques digitals,
repositoris electrònics governamentals, , sales de xat, forums en línia, blogs i mitjans
socials com Facebook, Instagram, LinkedIn, Pinterest, Twitter, YouTube i molts d’altres.
Extreure’n informació d’aquests recursos i trobar informació útil d’aquestes col.leccions
s’ha convertit en un desafiament que fa que l’organització d’aquesta enorme quantitat
de dades esdevingui una necessitat. La mineria de dades, l’aprenentatge automàtic i el
processament del llenguatge natural són tècniques poderoses que poden utilitzar-se
conjuntament per fer front a aquest gran desafiament. Segons la tasca o el problema en
qüestió existeixen molts emfo- caments diferents que es poden utilitzar. Els mètodes
que s’estan implementant s’optimitzen continuament, però aquests mètodes
d’aprenentatge automàtic supervisats han estat provats i comparats amb grans dades
d’entrenament. La pregunta és : Què passa amb la qualitat dels mètodes si
incrementem les dades de 100 MB a 1 GB? Més encara: Les millores en la qualitat
valen la pena quan la taxa de processament de les dades minva? Podem canviar
qualitat per eficiència, tot recuperant la perdua de qualitat quan processem més dades?
Aquesta tesi és una primera aproximació per resoldre aquestes preguntes de forma
gene- ral per a tasques de processament de text, ja que no hi ha hagut suficient
investigació per a comparar aquests mètodes considerant el balanç entre el tamany de
les dades, la qualitat dels resultats i el temps de processament. Per tant, proposem un
marc per analitzar aquest balanç i l’apliquem a tres problemes importants de
processament de text: Reconeixement d’Entitats Anomenades, Anàlisi de Sentiments i
Classificació de Documents. Aquests problemes tam- bé han estat seleccionats perquè
tenen nivells diferents de granularitat: paraules, opinions i documents complerts. Per a
cada problema seleccionem diferents algoritmes d’aprenentatge automàtic i avaluem el
balanç entre aquestes variables per als diferents algoritmes en grans conjunts de dades
públiques ( notícies, opinions, patents). Utilitzem subconjunts de diferents tamanys
entre 50 MB i alguns GB per a explorar aquests balanç. Per acabar, com havíem
suposat, no perquè un algoritme és eficient en poques dades serà eficient en grans
quantitats de dades. Per als dos últims problemes considerem algoritmes similars i
també dos conjunts diferents de dades i tècniques d’avaluació per a estudiar l’impacte
d’aquests dos paràmetres en els resultats. Mostrem que els resultats no canvien
significativament amb aquests canvis.
en_US
dc.description.abstract
Hoy en día, la cantidad de documentos digitales disponibles está creciendo
rápidamente, ex- pandiéndose a un ritmo considerable y procediendo de una variedad
de fuentes. Estas fuentes de información no estructurada y semi estructurada incluyen
la World Wide Web, artículos de noticias, bases de datos biológicos, correos
electrónicos, bibliotecas digitales, repositorios electrónicos gubernamentales, salas de
chat, foros en línea, blogs y medios sociales como Fa- cebook, Instagram, LinkedIn,
Pinterest, Twitter, YouTube, además de muchos otros.
Extraer información de estos recursos y encontrar información útil de tales colecciones
se ha convertido en un desafío que hace que la organización de esa enorme cantidad
de datos sea una necesidad. La minería de datos, el aprendizaje automático y el
procesamiento del lenguaje natural son técnicas poderosas que pueden utilizarse
conjuntamente para hacer frente a este gran desafío. Dependiendo de la tarea o el
problema en cuestión, hay muchos enfoques dife- rentes que se pueden utilizar. Los
métodos que se están implementando se están optimizando continuamente, pero estos
métodos de aprendizaje automático supervisados han sido probados y comparados con
datos de entrenamiento grandes. La pregunta es ¿Qué pasa con la calidad de los
métodos si incrementamos los datos de 100 MB a 1GB? Más aún, ¿las mejoras en la
cali- dad valen la pena cuando la tasa de procesamiento de los datos disminuye?
¿Podemos cambiar calidad por eficiencia, recuperando la perdida de calidad cuando
procesamos más datos?
Esta tesis es una primera aproximación para resolver estas preguntas de forma general
para tareas de procesamiento de texto, ya que no ha habido investigación suficiente
para comparar estos métodos considerando el balance entre el tamaño de los datos, la
calidad de los resultados y el tiempo de procesamiento. Por lo tanto, proponemos un
marco para analizar este balance y lo aplicamos a tres importantes problemas de
procesamiento de texto: Reconocimiento de En- tidades Nombradas, Análisis de
Sentimientos y Clasificación de Documentos. Estos problemas fueron seleccionados
también porque tienen distintos niveles de granularidad: palabras, opinio- nes y
documentos completos. Para cada problema seleccionamos distintos algoritmos de
apren- dizaje automático y evaluamos el balance entre estas variables para los distintos
algoritmos en grandes conjuntos de datos públicos (noticias, opiniones, patentes).
Usamos subconjuntos de distinto tamaño entre 50 MB y varios GB para explorar este
balance. Para concluir, como ha- bíamos supuesto, no porque un algoritmo es eficiente
en pocos datos será eficiente en grandes cantidades de datos. Para los dos últimos
problemas consideramos algoritmos similares y tam- bién dos conjuntos distintos de
datos y técnicas de evaluación, para estudiar el impacto de estos dos parámetros en
los resultados. Mostramos que los resultados no cambian significativamente con estos
cambios.
en_US
dc.format.extent
110 p.
en_US
dc.format.mimetype
application/pdf
dc.language.iso
eng
en_US
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/
dc.rights.uri
http://creativecommons.org/licenses/by-nc-sa/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Trade-off analysis
en_US
dc.subject
Text processing
en_US
dc.subject
Machine learning
en_US
dc.subject
Named entity recognition
en_US
dc.subject
Sentiment analysis
en_US
dc.subject
Document classification
en_US
dc.subject
Análisis de compensación
en_US
dc.subject
Procesamiento de texto
en_US
dc.subject
Aprendizaje automático
en_US
dc.title
Quality-efficiency trade-offs in machine learning applied to text processing
en_US
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.contributor.authoremail
zliaghat2010@gmail.com
en_US
dc.contributor.director
Baeza-Yates, Ricardo
dc.embargo.terms
cap
en_US
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Programa de doctorat en Tecnologies de la Informació i les Comunicacions