Direct Estimation of Structure and Motion from Multiple Frames


Book Description

This paper presents a method for the estimation of scene structure and camera motion from a sequence of images. This approach achieves fundamental improvements over existing methods in the following respects: (1) No computation of optical flow or feature correspondence is required. Structure and motion are obtained directly from gradients of image brightness; (2) The method processes image sequences of arbitrary length and exploits the inherent redundancy for a significant reduction in error over time; and (3) No restrictions or assumptions are made about the camera motion or the the surface structure. Both quantities are fully recovered using this method. Our method combines the direct motion vision approach of Horn, Weldon and Negahdaripour with the theory of recursive estimation. Most importantly: it really works and we show results on a variety of real image sequences. Keywords: Structure estimation; Kalman filters; Artificial intelligence. (kr).







Structure from Motion using the Extended Kalman Filter


Book Description

The fully automated estimation of the 6 degrees of freedom camera motion and the imaged 3D scenario using as the only input the pictures taken by the camera has been a long term aim in the computer vision community. The associated line of research has been known as Structure from Motion (SfM). An intense research effort during the latest decades has produced spectacular advances; the topic has reached a consistent state of maturity and most of its aspects are well known nowadays. 3D vision has immediate applications in many and diverse fields like robotics, videogames and augmented reality; and technological transfer is starting to be a reality. This book describes one of the first systems for sparse point-based 3D reconstruction and egomotion estimation from an image sequence; able to run in real-time at video frame rate and assuming quite weak prior knowledge about camera calibration, motion or scene. Its chapters unify the current perspectives of the robotics and computer vision communities on the 3D vision topic: As usual in robotics sensing, the explicit estimation and propagation of the uncertainty hold a central role in the sequential video processing and is shown to boost the efficiency and performance of the 3D estimation. On the other hand, some of the most relevant topics discussed in SfM by the computer vision scientists are addressed under this probabilistic filtering scheme; namely projective models, spurious rejection, model selection and self-calibration.







Tracking of Moving Objects in Video Sequences


Book Description

Object tracking could be a terribly difficult task within the presence of variability illumination condition, background motion, complicated object form, partial and full object occlusions. The main intention of an object trailer is to make the path of an object over time by characteristic its position in all frames of the video. This book is intended to educate the researchers in the field of tracking of moving object(s) in a video sequence. This book provides a path for the researchers to identify the works done by others in the same field and thereby to figure out the gap in the current knowledge. This book is organized into three Modules. Module 1 talks about the introduction of object detection and tracking. Module 2 discusses about the various studies of object tracking and motion detection. The views of the various authors about this hot research topic are discussed in this Module and Module 3 gives the conclusion of the entire research review.Object tracking could be a terribly difficult task within the presence of variability illumination condition, background motion, complicated object form, partial and full object occlusions. The main intention of an object trailer is to make the path of an object over time by characteristic its position in all frames of the video. This book is intended to educate the researchers in the field of tracking of moving object(s) in a video sequence. This book provides a path for the researchers to identify the works done by others in the same field and thereby to figure out the gap in the current knowledge. This book is organized into three Modules. Module 1 talks about the introduction of object detection and tracking. Module 2 discusses about the various studies of object tracking and motion detection. The views of the various authors about this hot research topic are discussed in this Module and Module 3 gives the conclusion of the entire research review.







Continuous Models for Cameras and Inertial Sensors


Book Description

Using images to reconstruct the world in three dimensions is a classical computer vision task. Some examples of applications where this is useful are autonomous mapping and navigation, urban planning, and special effects in movies. One common approach to 3D reconstruction is ”structure from motion” where a scene is imaged multiple times from different positions, e.g. by moving the camera. However, in a twist of irony, many structure from motion methods work best when the camera is stationary while the image is captured. This is because the motion of the camera can cause distortions in the image that lead to worse image measurements, and thus a worse reconstruction. One such distortion common to all cameras is motion blur, while another is connected to the use of an electronic rolling shutter. Instead of capturing all pixels of the image at once, a camera with a rolling shutter captures the image row by row. If the camera is moving while the image is captured the rolling shutter causes non-rigid distortions in the image that, unless handled, can severely impact the reconstruction quality. This thesis studies methods to robustly perform 3D reconstruction in the case of a moving camera. To do so, the proposed methods make use of an inertial measurement unit (IMU). The IMU measures the angular velocities and linear accelerations of the camera, and these can be used to estimate the trajectory of the camera over time. Knowledge of the camera motion can then be used to correct for the distortions caused by the rolling shutter. Another benefit of an IMU is that it can provide measurements also in situations when a camera can not, e.g. because of excessive motion blur, or absence of scene structure. To use a camera together with an IMU, the camera-IMU system must be jointly calibrated. The relationship between their respective coordinate frames need to be established, and their timings need to be synchronized. This thesis shows how to automatically perform this calibration and synchronization, without requiring e.g. calibration objects or special motion patterns. In standard structure from motion, the camera trajectory is modeled as discrete poses, with one pose per image. Switching instead to a formulation with a continuous-time camera trajectory provides a natural way to handle rolling shutter distortions, and also to incorporate inertial measurements. To model the continuous-time trajectory, many authors have used splines. The ability for a spline-based trajectory to model the real motion depends on the density of its spline knots. Choosing a too smooth spline results in approximation errors. This thesis proposes a method to estimate the spline approximation error, and use it to better balance camera and IMU measurements, when used in a sensor fusion framework. Also proposed is a way to automatically decide how dense the spline needs to be to achieve a good reconstruction. Another approach to reconstruct a 3D scene is to use a camera that directly measures depth. Some depth cameras, like the well-known Microsoft Kinect, are susceptible to the same rolling shutter effects as normal cameras. This thesis quantifies the effect of the rolling shutter distortion on 3D reconstruction, depending on the amount of motion. It is also shown that a better 3D model is obtained if the depth images are corrected using inertial measurements. Att använda bilder för att återskapa världen omkring oss i tre dimensioner är ett klassiskt problem inom datorseende. Några exempel på användningsområden är inom navigering och kartering för autonoma system, stadsplanering och specialeffekter för film och spel. En vanlig metod för 3D-rekonstruktion är det som kallas ”struktur från rörelse”. Namnet kommer sig av att man avbildar (fotograferar) en miljö från flera olika platser, till exempel genom att flytta kameran. Det är därför något ironiskt att många struktur-från-rörelse-algoritmer får problem om kameran inte är stilla när bilderna tas, exempelvis genom att använda sig av ett stativ. Anledningen är att en kamera i rörelse ger upphov till störningar i bilden vilket ger sämre bildmätningar, och därmed en sämre 3D-rekonstruktion. Ett välkänt exempel är rörelseoskärpa, medan ett annat är kopplat till användandet av en elektronisk rullande slutare. I en kamera med rullande slutare avbildas inte alla pixlar i bilden samtidigt, utan istället rad för rad. Om kameran rör på sig medan bilden tas uppstår därför störningar i bilden som måste tas om hand om för att få en bra rekonstruktion. Den här avhandlingen berör robusta metoder för 3D-rekonstruktion med rörliga kameror. En röd tråd inom arbetet är användandet av en tröghetssensor (IMU). En IMU mäter vinkelhastigheter och accelerationer, och dessa mätningar kan användas för att bestämma hur kameran har rört sig över tid. Kunskap om kamerans rörelse ger möjlighet att korrigera för störningar på grund av den rullande slutaren. Ytterligare en fördel med en IMU är att den ger mätningar även i de fall då en kamera inte kan göra det. Exempel på sådana fall är vid extrem rörelseoskärpa, starkt motljus, eller om det saknas struktur i bilden. Om man vill använda en kamera tillsammans med en IMU så måste dessa kalibreras och synkroniseras: relationen mellan deras respektive koordinatsystem måste bestämmas, och de måste vara överens om vad klockan är. I den här avhandlingen presenteras en metod för att automatiskt kalibrera och synkronisera ett kamera-IMU-system utan krav på exempelvis kalibreringsobjekt eller speciella rörelsemönster. I klassisk struktur från rörelse representeras kamerans rörelse av att varje bild beskrivs med en kamera-pose. Om man istället representerar kamerarörelsen som en tidskontinuerlig trajektoria kan man på ett naturligt sätt hantera problematiken kring rullande slutare. Det gör det också enkelt att införa tröghetsmätningar från en IMU. En tidskontinuerlig kameratrajektoria kan skapas på flera sätt, men en vanlig metod är att använda sig av så kallade splines. Förmågan hos en spline att representera den faktiska kamerarörelsen beror på hur tätt dess knutar placeras. Den här avhandlingen presenterar en metod för att uppskatta det approximationsfel som uppkommer vid valet av en för gles spline. Det uppskattade approximationsfelet kan sedan användas för att balansera mätningar från kameran och IMU:n när dessa används för sensorfusion. Avhandlingen innehåller också en metod för att bestämma hur tät en spline behöver vara för att ge ett gott resultat. En annan metod för 3D-rekonstruktion är att använda en kamera som också mäter djup, eller avstånd. Vissa djupkameror, till exempel Microsoft Kinect, har samma problematik med rullande slutare som vanliga kameror. I den här avhandlingen visas hur den rullande slutaren i kombination med olika typer och storlekar av rörelser påverkar den återskapade 3D-modellen. Genom att använda tröghetsmätningar från en IMU kan djupbilderna korrigeras, vilket visar sig ge en bättre 3D-modell.