Aktuelle Themen für Bachelor- und Masterarbeiten sowie Praktika

Text Mining für Patente – Themen für Bachelor- und Masterarbeiten

Patente stellen eine besondere Textsorte dar: Im Allgemeinen sind sie wesentlich länger und syntaktisch komplexer als zum Beispiel wissenschaftliche Artikel. FIZ Karlsruhe, einer der weltweit führenden Anbieter von Patentinformation, benutzt seit Jahren Text Mining, um seinen Kunden zusätzliche Funktionalität anzubieten, die es ihnen erlaubt, die benötigte Information schneller und mit höherer Genauigkeit und Vollständigkeit zu erhalten. In diesem Kontext haben wir die folgenden Themen aus den Gebieten Text Mining und Natural Language Processing (NLP) identifiziert, die sowohl für Bachelor- als auch für Masterarbeiten geeignet sein können.


Syntaktische Normalisierung automatisch extrahierter Phrasen

Die automatische Extrahierung von Phrasen zur Verwendung als Schlüsselbegriffe resultiert häufig in mehreren ähnlichen Phrasen mit unterschiedlicher morphologischer und syntaktischer Struktur. Um sie für das Information Retrieval oder für einen inhaltlichen Überblick zu verwenden, müssen diese Varianten normalisiert und auf eine kanonische Form abgebildet werden. Einfache Beispiele sind:

  • Information retrieval, retrieval of information => information retrieval
  • method for combating spam => spam combating method
  • circular or rectangular patterns => circular pattern,  rectangular pattern

Das Ziel der Arbeit ist es, die unterschiedlichen Typen der Varianten zu identifizieren und eine regelbasierte Methode für die Phrasennormalisierung zu entwerfen und zu evaluieren. Abhängig vom Umfang, mit dem die Varianten erkannt werden und der angestrebten Qualität der Normalisierungsmethode ist dieses Thema für eine Bachelor- oder Masterarbeit geeignet.


Erkennung von Aufzählungen in Patenttexten

Patente enthalten häufig viele und lange Aufzählungen, etwa von Substanzen, chemischen Entitäten, Methoden usw. Beispiele sind:

  • fuel system components such as sensors, actuators, pumps, level controls, throttles and valves …
  • locomotive systems like cars, including vans, SUVs and roadsters; bikes, including motor bikes, bicycles and pedelecs, or trains like underground, motor coaches or freightliners …

Zunächst sollen die häufigsten Arten von Aufzählungen identifiziert werden. Für diese soll dann eine automatische Erkennungsmethode implementiert und evaluiert werden. Das Thema kann zu einer Master-Arbeit erweitert werden, indem auch komplexe und weniger häufige Arten von Aufzählungen betrachtet und Werkzeuge entwickelt werden, mit denen automatisch festgestellt werden kann, ob aus der Aufzählung eine taxonomische Relation wie z.B. Synonymie oder Hyponymie abgeleitet werden kann.


Named Entity Recognition in Patenten

Patente enthalten Entitäten aus einem sehr breiten Wissensgebiet. Welche genau, wurde bis jetzt nur teilweise untersucht. Es soll daher analysiert werden, welche Arten von Entitäten in Patenten vorkommen und es sollen Methoden entwickelt werden, diese zu erkennen. Die Domänen Chemie, Biologie und Pharmazie sollen dabei wegen des hier erforderlichen sehr speziellen Fachwissens ausgeklammert bleiben. Je nach Umfang der Untersuchungen kann dies für eine Bachelor- oder Masterarbeit geeignet sein.


Praktika

FIZ Karlsruhe bietet Praktikumsstellen für eine Dauer ab einem Monat an. Mögliche Themen hierbei wären:

  • Die Funktion Significant Terms Aggregation von Elasticsearch soll mittels eines Goldstandards untersucht werden. Elasticsearch ist ein auf Lucene basierender Search-Server, der in seiner neuen Version die experimentelle Significant Terms Aggregation enthält, die zur Extraktion von Schlüsselbegriffen entworfen wurde.
  • PoS-Tagger sollen an Patenttexten evaluiert und, sofern angezeigt, optimiert werden. PoS-Tagger sind zwar lange gebräuchliche Instrumente für NLP, aber sie wurden hauptsächlich für Alltagstexte oder wissenschaftliche Artikel entwickelt. Ihre Anwendung auf Patenttexte läßt mitunter zu wünschen übrig.
  • Ähnliche Untersuchungen können mit sog. Chunkern (Shallow parser) durchgeführt werden.
  • Patente sollen strukturell segmentiert, d.h. in Absätze, Überschriften, Abbildungen, Tabellen usw. zerlegt werden.

Für weitere Informationen wenden Sie sich bitte an Herrn Dr. Michael Schwantner.
Tel.: +49 (7247) 808-260