Von unstrukturierten Daten zu Produkteigenschaften

Motivation

Der Schwerpunkt des DLR-Instituts für Datenwissenschaften liegt darin, Lösungen für die neuen Herausforderungen der Digitalisierungsära zu finden. Der Fokus liegt dabei auf den Bereichen Datenmanagement, IT-Sicherheit, Smart Systems und Bürgerwissenschaften. Auch Planungsprozesse in der Raumfahrt gehören dazu. Die Planung von Satelliten ist an technische Produkte von Zulieferern gebunden. Am Markt verfügbare Produkte werden häufig über technische Beschreibungen in Form von PDF-Dateien dargestellt. Diese unstrukturierte Datenquelle ist nicht nach Produkteigenschaften durchsuchbar, und der Produkttyp ist nicht für eine Suche ableitbar.

Zielstellung

  • Entwicklung einer Methode, um Textdokumente (technische Komponentenbeschreibungen) in strukturierte Daten zu überführen
  • Ableitung eines Recherchewerkzeugs, das mit konkreten Merkmalen statt mit Textbestandteilen arbeitet

Ergebnisse

  • Semantische Recherche in Bauteilbeschreibungen auf Grundlage von PDF-Sammlungen
  • Mehrwert: Vereinfachte Einbettung von Dokumenten in Planungsprozesse
 

DLR-Institut für Datenwissenschaften

Ort: Jena

Größe: 65 Mitarbeitende

Branche: Datenmanagement, IT-Sicherheit

Kontakt

Dr. Andreas Niekler

Universtität Leipzig

aniekler@informatik.uni-leipzig.de