Typ: Master Thesis
Sprache: deutsch
download (Berechnung semantischer Ähnlichkeit kleiner Textfragmente mittels Wikipedia)
Abstract (deutsch):
In der vorliegenden Arbeit wird ein Verfahren entwickelt, das die Berechnung semantischer Ähnlichkeit von kurzen Textfragmenten verbessert. Die Länge der Textfragmente ergibt sich aus dem zugrunde liegenden eLearning Szenario. Bei diesem Szenario unterstützt das Tool ELWMS.KOM den Benutzer bei der Recherche und erlaubt es ihm Ausschnitte einzelner Webseiten als Snippets in einem Wissensnetz zu speichern. Durch den semantischen Vergleich der von vielen Benutzern zusammengetragenen Snippets können einzelne Nutzer bei ihrer Recherche unterstützt werden, indem ihnen zu einem bestimmten, von ihnen hinzugefügten Snippet, semantisch ähnliche Snippets anderer Anwender angezeigt werden.
Um ein geeignetes Verfahren zu finden, wie dieser semantische Vergleich durchführbar ist, untersucht die Arbeit verschiedene Methoden aus dem Forschungsfeld des Information Retrieval. Unter anderem werden Themen-basierte und Taxonomie-basierte Verfahren betrachtet. Von den analysierten Verfahren wird schließlich die Explicit Semantic Analysisals Basis für Verbesserungen gewählt. Die Explicit Semantic Analysis wurde ursprünglich von Gabrilovich und Markovitch entwickelt und beruht auf benutzergenerierten Inhalten, die der Wikipedia entnommen sind.
Im Fokus dieser Arbeit werden verschiedene Erweiterungen dieses Verfahrens, die mehr der implizit vorhandenen semantischen Informationen der Wikipedia nutzen, unter dem Namen eXtended Explicit Semantic Analysis konzipiert, implementiert und evaluiert. Diese Erweiterungen verwenden zusätzlich zu den Artikeln der Wikipedia deren Kategoriesystem sowie den Artikelgraphen. Das Kategoriesystem besteht aus einer multihierarchischen Struktur, der die Artikel zugeordnet werden können. Der Artikelgraph ergibt sich aus den Links eines Artikels auf andere Artikel der Wikipedia.
Da es zur Evaluation der Erweiterungen des Verfahrens eines bisher nicht existierenden Korpus bestehend aus kurzen Textfragmenten bedarf, wird ein solcher zusammengestellt. Die Ergebnisse der anschließenden Evaluation sind vielversprechend und einige Ausprägungen der verschiedenen Erweiterungen können den durch die Explicit Semantic Analysis vorgegebenen Basiswert übertreffen.
Abstract (english):
The objective of this thesis is the development of an enhanced method to compute semantic similarity of short text fragments called snippets. The structure and length of those fragments are based on the findings of an evaluation of an eLearning scenario. In this scenario, a tool called ELWMS.KOM supports the user by allowing him to save excerpts from various websites in a semantic network. By comparing the collected snippets based on their semantic content, a user of this tool may get recommendations containing related snippets saved by other users.
This thesis examines various methods from the research fields of information retrieval in order to find a suitable technique to compute semantic similarity. Among others, theme-based and taxonomy-based techniques are reviewed. Based on this review, the explicit semantic analysis developed by Gabrilovich and Markovitch is selected as a basis for the development of an enhanced method. This explicit semantic analysis uses user-generated content that is contained in the free, community-authored online encyclopedia Wikipedia.
Thus, this thesis is focusing the conception, implementation and evaluation of extensions to (the above-mentioned) explicit semantic analysis. These extensions are subsumed aseXtended Explicit Semantic Analysis and use, in addition to the article content, wikipedia’s articlegraph and category-system. The articlegraph is derived from the links of an article to other wikipedia-articles and the category-system consists of a multi-hierarchical structure, that applies none or multiple categories to an article.
The evaluation of the implemented extensions is analogue to the evaluation of search-engines by computing the break-even point. This evaluation method requires a corpus containing snippets as produced by the users of ELWMS.KOM. As no such corpus exists, a new one is composed. The evaluation-results bases on this corpus are very promising in terms that some of the extensions exceed the results achieved by an implementation based on the original explicit semantic analysis.