Bildorientierung in verschiedenen Disziplinen
Image Orientation in Different Disciplines
Wissenschaftsdisziplinen
Informatik (20%); Mathematik (20%); Umweltingenieurwesen, Angewandte Geowissenschaften (60%)
Keywords
-
PHOTOGRAMMETRY,
COMPUTER VISION,
IMAGE ORIENTATION,
FUNDAMENTAL MATRIX,
TRIFOCAL TENSOR,
QUADRIFOCAL TENSOR
Die Photogrammetrie arbeitet mit zentralperspektiven Aufnahmen räumlicher Objekte. Die herkömmliche mathematische Darstellung der Zentralprojektion in den neun Elementen der inneren und äußeren Orientierung ist nicht linear. Die beobachteten Bildkoordinaten sind mit zufälligen Fehlern behaftet. Um deren störenden Einfluß auf die Ergebnisse möglichst klein zu halten, werden deutlich mehr Beobachtungen durchgeführt als Unbekannte vorhanden sind. Rechentechnisch wird diese Fehler-Minimierung mit Hilfe einer sogenannten Kleinste-Quadrate- Ausgleichung erreicht. Allerdings benötigt man für eine solche Ausgleichung lineare Gleichungen. Da die Gleichungen der Zentralprojektion nicht linear sind, müssen sie zu diesem Zweck linearisiert werden, wobei Näherungswerte für die genannten Elemente notwendig sind. Die Bestimmung dieser Näherungswerte ist aber in vielen Fällen sehr mühsam. In der relativ jungen Disziplin der Computer-Vision, die ebenfalls mit zentralperspektiven Bildern arbeitet, wird aus diesem Grund eine lineare Darstellung der Zentralprojektion angestrebt. Diese lineare Darstellung wird unter Verwendung von projektiver Geometrie erreicht - allerdings um den Preis, daß die Beschreibung nun mit mehr Parametern erfolgt, die im Gegensatz zu der oben erwähnten inneren und äußeren Orientierung vorstellungsmäßig kaum faßbar sind. Die lineare Darstellung der Zentralprojektion erfolgt mittels einer 3x4 `Projection-matrix`. Weiters kennt man in der Computer-Vision noch Zahlenschemata (Tensore), die die relative Orientierung von 2, 3 und 4 Bildern auf lineare Weise beschreiben: Fundamental-Matrix, trifokaler Tensor und quadrifokaler Tensor. Die Frage ist nun, inwieweit diese alternativen Methoden aus der Computer-Vision für die Photogrammetrie von Interesse sein können. Zur Klärung dieser Frage sind konkret folgende Themengebiete zu untersuchen: a) Form der durch die Überparametrisierung induzierten Bedingungsgleichungen b) Genauigkeitsverlust wegen Überparametrisierung und Ignorierung der Bedingungen in a) c) Form der gefährlichen Flächen; d.h. jener Konfigurationen, die keine eindeutige Lösung erlauben d) Berücksichtigung der radialen Verzeichnung im Formelwerk e) Grob-Fehlersuche mittels RANSAC oder eines evolutionärem Algorithmus f) Optimierung der Aufnahmekonfiguration mit Hilfe eines evolutionären Algorithmus, speziell im Hinblick auf die Kalibrierung einer Kamera Teile dieser Problembereiche sind bereits bekannt, die Klärung der restlichen Fragen ist Ziel dieses Projektes.
Im Zuge des Projektes "Bildorientierung in verschiedenen Disziplinen" wurde die mathematische Darstellung der Bildorientierung in den Fachgebieten der Photogrammetrie und Computer Vision untersucht. Die Orientierung eines Bildes beschreibt die Beziehung zwischen einem räumlichen Objekt und seiner Projektion in ein zweidimensionales Bild. Sie wird bestimmt, indem korrespondierende Punkte am Objekt und im Bild identifiziert und gemessen werden. Die Orientierung der Bilder wird dann im Zuge einer Ausgleichung berechnet, bei der die zufälligen Fehler in diesen Beobachtungen minimiert werden (die sogenannten Bildresiduen). In der Photogrammetrie wird die Orientierung eines Bildes durch die sogenannten physikalischen Parameter beschrieben. Diese teilen sich in zwei Gruppen auf: die äußere Orientierung, welche angibt, wo die Kamera sich während der Aufnahme befand und in welche Richtung sie blickte, und die innere Orientierung, die die Lage der Kameralinse in Bezug zur Bildebene beschreibt. Diese physikalische Beschreibung ist leicht verständlich, da sie auf der Euklidischen Geometrie beruht. Jedoch hat sie den gravierenden Nachteil, dass die zugehörigen mathematischen Beziehungen nicht linear und daher eher schwierig handhabbar sind. Um dieses Problem der Nichtlinearität zu beseitigen, wurde in der Computer Vision eine lineare Beschreibung der Bildorientierung gesucht und mit Hilfe projektiver Geometrie gefunden. Jedoch wird diese Linearität unter Verwendung von zu vielen Parametern erreicht (die sogenannte Überparametrisierung) und in der entsprechenden Ausgleichung werden nicht die Bildresiduen minimiert sondern die sogenannten algebraischen Fehler. In diesem Projekt wird eine dieser linearen Darstellungen gründlich untersucht: der sogenannte Trifokal-Tensor (TFT), der die relative Orientierung von drei Bildern beschreibt. Relative Orientierung bedeutet, dass zu ihrer Bestimmung keine Information des räumlichen Objektes notwendig ist, sondern ausschließlich der Inhalt der Bilder ausreicht. Aufgrund der Überparametrisierung müssen die Elemente des Tensors gewisse Bedingungen erfüllen, um einen gültigen TFT zu repräsentieren. Zwei neue Gruppen dieser Bedingungen zusammen mit einer einfachen geometrischen Interpretation, sowie eine alternative Beschreibung für den TFT selbst, wurden in diesem Projekt gefunden. Die Vor- und Nachteile dieser und bereits existierender Bedingungen und alternativer Beschreibungen wurden untersucht. Es zeigte sich dabei, dass die Berechnung eines gültigen TFT am einfachsten mit einer von R. Hartley bereits 1994 vorgeschlagenen Darstellung erfolgen kann. Da diese linearen Darstellungen die projektive Geometrie ausnutzen, können sie nicht verwendet werden, wenn alle Objektpunkte in einer gemeinsamen Ebene liegen. Aus diesem Grund ist es wichtig herauszufinden, wie weit die Objektpunkte von einer gemeinsamen Ebene abweichen müssen, sodass der TFT gerade noch korrekt bestimmt werden kann. Diese Untersuchung wurde in einer C++ Umgebung durchgeführt und die erhaltenen Ergebnisse sind recht vielversprechend. Es stellte sich heraus, dass bereits ein Abweichung von nur 1% der Aufnahmeentfernung von einer gemeinsamen Ebene ausreicht um den TFT korrekt bestimmen zu können. Diese Erkenntnis legt es nahe, dass der TFT auch für Anwendungen geeignet ist, bei denen man im Allgemeinen mit ebenen Objekten zu tun hat; z.B. im Falle von Aufnahmen einer Gebäudefassade.
- Günther R. Raidl, Technische Universität Wien , assoziierte:r Forschungspartner:in