Suchen

VNect 3D-Modelle aus Handyvideos erstellen

| Redakteur: Beate Christmann

Bisher ließen sich Bewegungen von Personen zur Erzeugung eines digitalen 3D-Modells in Echtzeit nur mit teuren Kamerasystemen erfassen. Am Max-Planck-Institut für Informatik wurde nun ein Verfahren namens VNect entwickelt, das nur noch eine einfache Kamera, z.B. die eines Smartphones, voraussetzt.

Firma zum Thema

Srinath Sridhar führt vor, wie V-Nect funktioniert: Das System ermittelt aus Aufnahmen einer preiswerten Webcam in Echtzeit ein dreidimensionales Modell der Körperhaltung des Doktoranden am Max-Planck-Institut für Informatik.
Srinath Sridhar führt vor, wie V-Nect funktioniert: Das System ermittelt aus Aufnahmen einer preiswerten Webcam in Echtzeit ein dreidimensionales Modell der Körperhaltung des Doktoranden am Max-Planck-Institut für Informatik.
(Bild: Oliver Dietze/Max-Planck-Gesellschaft)

Forscher des Max-Planck-Instituts für Informatik in Saarbrücken gehen in Sachen 3D-Animation neue Wege. Sie haben ein Verfahren entwickelt, mit dem es einfacher und günstiger werden soll, Personen und ihre Bewegungen als digitales 3D-Modell in Echtzeit zu erfassen. Durch VNect sollen dafür keine teuren Kamerasysteme mehr nötig sein, sondern lediglich ein Smartphone oder eine einfache Webcam.

Ein neuronales Netzwerk als Basis

„Mit unserem System können Sie sogar in den Alpen ein 3D-Bewegungsmodell erstellen, sogar in Echtzeit und mit der Kamera ihres Smartphones“, sagt Dushyant Mehta, Doktorand am Max-Planck-Institut für Informatik. „Bisher war das nur mit mehreren Kameras oder einer so genannten Tiefenkamera möglich, die beispielsweise auch in die Kinect von Microsoft eingebaut ist“, ergänzt Srinath Sridhar, der ebenfalls am Saarbrücker Max-Planck-Institut forscht.

Den Fortschritt ermöglicht eine spezielle Art von neuronalem Netzwerk, das Forscher als gefaltetes neuronales Netzwerk bezeichnen und das in Wirtschaft und Wissenschaft als Basis für das sogenannte Deep Learning, einer besonders leistungsfähigen Form des maschinellen Lernens, für Furore sorgt.

Bevor das System die 3D-Pose der Person ermittelt, bestimmt es deren Position im zweidimensionalen Bild und lässt alle anderen Objekte im Bildausschnitt unberücksichtigt. Dadurch verschwendet es keine Rechenkraft für Bildregionen, die nichts von der Person zeigen. Um die aktuelle dreidimensionale Haltung in Form entsprechender Winkel in den Gelenken zu spezifizieren, trainierten die Forscher das neuronale Netzwerk beim maschinellen Lernen mit über zehntausend Bildern unterschiedlicher Körperhaltungen. Die Beugungen in den Gelenken, die mit dem derart geschulten Programm bestimmt werden, lassen sich leicht in virtuelle Figuren überführen.

Die Zukunft der Mensch-Maschine-Interaktion?

VNect ist nach Aussage seiner Entwickler das erste System, das lediglich ein Video benötigt, um daraus das 3D-Bewegungsmodell einer Person zu erstellen. „Die Bandbreite der möglichen Anwendungen reicht von der Mensch-Maschine-Interaktion über die Mensch-Roboter-Interaktion bis hin zu Industrie 4.0, wo Mensch und Roboter Seite an Seite arbeiten. Oder denken Sie an autonomes Fahren. In Zukunft könnte das Auto mit Hilfe der Kamera die Bewegungen von Personen erfassen, um so auf deren Verhalten zu schließen“, erklärt Christian Theobalt, der die Gruppe Graphics, Vision and Video am Max-Planck-Institut für Informatik leitet.

Noch stößt das System jedoch auch an Grenzen. Die Genauigkeit ist etwas geringer als die Genauigkeit von Systemen, die auf mehreren Kameras oder Markern basieren. Es gerät auch in Schwierigkeiten, wenn das Gesicht der Person verdeckt ist und wenn die Bewegungen zu schnell sind oder zu wenig den gelernten Vorbildern entsprechen. Mehrere Personen vor der Kamera bereiten ebenfalls Probleme.

Dieser Beitrag ist ursprünglich auf unserem Partnerportal MaschinenMarkt erschienen.

(ID:44845091)