Evolution für Datenbanken Informatiker züchten extrem schnelle Datenbanken

Anbieter zum Thema Parasoft® Deutschland GmbH

Der Saarbrücker Informatik-Professor Jens Dittrich entwickelt mit seinem Team einen neuen Ansatz zur Optimierung von Datenbanken, der bisherige Herangehensweisen völlig auf den Kopf stellen soll.

Professor Jens Dittrich (rechts) und Doktorand Joris Nix wollen hocheffiziente Indexstrukturen „züchten“, die dann für extrem schnelle Datenbanken sorgen sollen. Wie das geht, erklären die Experten hier. (Bild: Universität des Saarlandes)

Das Team um Jens Dittrich, Professor für „Big Data Analytics“ der Universität des Saarlandes, denkt althergebrachte Weisheiten der Datenwissenschaft völlig neu, wie es heißt. Dabei gehe es um zwei der wichtigsten Ressourcen unserer Zeit – Daten und Datenbanken. Ob bei einfachen Suchanfragen im Internet, der Erforschung weltbewegender Ereignisse oder beim Einsatz und der Entwicklung von Zukunftstechnologien wie KI-Chatbots: Daten gelten als Treibstoff dafür und Datenbanken sind die Werkzeuge, die dabei helfen, diese Daten zu organisieren, zu speichern und zu analysieren.

Alles basiert auf sogenannten Indexstrukturen

Der Teil der Datenverarbeitung, mit dem sich die Saarbrücker Informatiker befassen, sind sogenannte Indexstrukturen, die bestimmen die Art und Weise, wie auf eine Datenbank zugegriffen wird, wie die Experten erklären. Indexstrukturen seien für die Arbeit mit Datenbanken unerlässlich, denn damit ließen sich gespeicherte Daten schnell und effizient auffinden. Und Indizes beschleunigten die Suche enorm, weil nicht mehr die gesamte Datenbank durchsucht werden müsse. Jeder weiß zwar, wie etwa Bibliothekskataloge sortiert sind, doch in der Informatik sind die Daten oft sehr komplex und in gigantischen Mengen vorhanden, so dass man ausgeklügeltere Methoden für das Indexieren benötigt, betont Dittrich. Indexstrukturen seien in der Informatik deshalb gut erforscht.

Eine spezielle Art der Optimierungsalgorithmen

Über Jahrzehnte hinweg wurden quasi von Hand Organisationsmethoden entwickelt, die zwar bei einer breiten Palette von Anwendungsfällen vergleichsweise gut funktionierten, aber für keinen wirklich optimiert sind. Dittrich und sein Team stellen nun einen Ansatz vor, mit dem sich für jede Datenbank und jeden Anwendungsfall passgenaue Indexstrukturen automatisch erzeugen lassen.

Die Methode nennen sie „Genetische Generische Generierung von Indexstrukturen“ (GENE). Sie basiere auf sogenannten „evolutionären Algorithmen“, einer speziellen Art der Optimierungsalgorithmen. Damit wird der natürliche Prozess der Evolution emuliert, heißt es weiter. Der Startpunkt ist ein „normaler“, nicht optimierter Index. Von diesem werden, ähnlich wie in der natürlichen Evolution auch, zufällige Mutationen erzeugt. Diese werden gemäß ihrer Leistungsfähigkeit sortiert und nur die besten werden in der nächsten Generation weitergeführt, beschreiben die Experten. „Diese Schritte werden dann so lange wiederholt, bis sich keine nennenswerten Verbesserungen mehr zwischen den Generationen einstellen“, so Dittrich.

Auf der Suche nach dem gemeinsamen „Vorfahren“

Doch bisher wurden Indexstrukturen wie abgeschlossene Systeme behandelt. Man sagte zum Beispiel, dass für manche Probleme am besten Baumstrukturen als Organisationsmethode passen, während man bei anderen besser Hash-Tabellen bevorzugte. Die Saarbrückener betrachten nun aber alle bisherigen Indexstrukturen so, als hätten sie einen gemeinsamen „Vorfahren“. Das erlaube es den Forschern, diese „Meta-Indexstruktur“ mutieren zu lassen, und die besten Eigenschaften heute geläufiger Indexstrukturen miteinander zu kombinieren, was für jede Datenbank und jeden Anwendungsfall individuell optimierbar sei. „So wollen wir für jede Datenbank eine perfekt passende und effiziente Indexstruktur ‚züchten‘, die die bisherige in der Performanz übertrifft“, erläutert der Professor.

In Vorarbeiten konnte das Team das große Potenzial dieses Ansatzes bereits zeigen: Gängige Indexstrukturen, die zuvor über Jahrzehnte hinweg händisch entwickelt wurden, können damit „wiederentdeckt“, also automatisch erzeugt oder repliziert werden.Eine Anwendung gebe es aber noch nicht, weil es sich noch um reine Grundlagenforschung handle.

(ID:49315267)