Information extraction from large point cloud data : a deep learning approach
Doctoral thesis
Permanent lenke
https://hdl.handle.net/11250/2686456Utgivelsesdato
2020Metadata
Vis full innførselSamlinger
Sammendrag
Recent advances in Light Detection and Ranging (LiDAR) sensors have led to an increasing amount of large scale point cloud data collections. The LiDAR sensors can capture the fine spatial details of a remote environment in a full three-dimensional perspective, thus providing huge potentials for better machine understanding of a 3D scene.
This thesis explores these potentials by providing robust and effective ways to extract information from large scale point cloud data. The study focuses on the utilization of deep learning techniques for the 3D scene understanding tasks, i.e semantic segmentation and object detection. It should be noted that the deep learning techniques were chosen mainly because the techniques simplify the generation of representative and robust features taking into account the spatial autocorrelation of input data, while often resulting in the highest prediction accuracies.
As the backbone of this thesis, the deep learning approach has shown remarkable progress in generating the highest classification accuracy for several benchmark datasets, including our in-house dataset. Our contributions to improve the quality of point cloud annotation is closely related to the improvement of the deep learning models, i.e improving the deep learning preprocessing step by using a better density sampling approach, restructuring the deep learning modules by developing our Stochastic Atrous Network (SA-NET) architecture, and refining the post-processing step of deep learning prediction by invoking spatial and spectral similarities of point cloud data, using our Atrous X Conditional Random Field (A-XCRF) algorithm.
The present PhD-work started by addressing some challenging problems regarding the modelling of the 3D point cloud data, and it was completed by providing a deliverable prototype capable of generating fast and accurate point cloud annotation labels. During the research process, we have managed to develop a better solution for extracting information in the form of semantic labelling from 2D projected point cloud data. We also developed a post-processing module refining point-level classifications directly generated from raw point cloud data.
Finally, we developed an open-source and robust semi-automatic point cloud annotation tool, called Smart Annotation and Evaluation (SAnE). The SAnE speeds up the point cloud annotation process while also offering significantly better annotation accuracy than the baseline annotation approaches. Utviklingen innen Light Detection and Ranging (LiDAR) sensorer har de siste årene ført til en økende innsamling av data i form av storskala punktskyer. Med LiDAR-sensorene kan man få høyoppløselige beskrivelser av objekter og miljøer i 3D. De utgjør dermed et enormt potensiale for bedre maskin forståelse av et 3D-bilde.
Denne avhandlingen utforsker dette potensialet gjennom å utvikle robuste og effektive metoder for å hente ut informasjon fra slike punktskyer. Hovedvekten er lagt på dype kunstige nevrale nettverk for tolking av 3D-bilder. Dette omfatter blant annet semantisk segmentering og objektdeteksjon. Denne typen dyp læring er en sentral metode innenfor maskinlæring. Teknikken ble hovedsakelig valgt fordi den forenkler etableringen av representative og robuste beregningsfunksjoner samtidig som det er mulig å ta hensyn til romlig autokorrelasjon i bildene som analyseres. Metodene viser seg også ofte å gi den høyeste prediksjonsnøyaktigheten.
Metodene innenfor dyp læring som utgjør kjernen i denne oppgaven, har i gjentatte sammenlignende tester gitt svært gode resultater i form av den høyeste klassifiseringsnøyaktigheten for flere referansedatasett, inkludert vårt interne datasett. Våre bidrag til å forbedre kvaliteten i tolkningen av punktskyer er nært knyttet til forbedringen av modellene for dyp læring. Det innebærer for det første en videreutvikling av dyp læring metoder for preprosessering av data gjennom sampling med bedre tetthet. Videre har vi bidratt til restrukturering av modulene for dyp læring ved å utvikle vår SA-NET-arkitektur. For det tredje har vi forbedret etterbehandlingstrinnet i dyp læringsprediksjon ved å ta hensyn til romlige og spektrale likhetstrekk innenfor punktskyen ved å bruke vår A-XCRF-algoritme.
Dette doktorgradsarbeidet startet med å ta fatt i kjente utfordringer innen modellering av punktskyer som avbilder fenomener i 3D. Gjennom arbeidet er nye utfordringer identifisert og det er etablert en prototype for rask og nøyaktige klassifisering av elementer i punktskyer. I løpet av forskningsprosessen har vi klart å utvikle en bedre løsning for å trekke ut informasjon i form av semantisk merking fra 2D projiserte punktskydata.
Vi har også utviklet en etterbehandlingsmodul som forbedrer klassifisering av elementer direkte fra punktskyer. Til slutt utviklet vi (i form av åpen kildekode) en robust, halvautomatisk verktøy for annotering av punktskyer, kalt SAnE. Med dette verktøyet kan annotasjon av punktskyer gjøres mer effektivt, samtidig som det gis betydelig bedre kommentarnøyaktighet enn ved manuelle tilnærmingsmetoder. Berbagai teroboson terbaru dalam teknologi Light Detection and Ranging (LiDAR) menyebabkan penggunanan dan pengumpulan data berbasis point cloud dalam skala besar meningkat. Sensor berbasis LiDAR dapat memberikan tampilan tiga dimensi dari sebuah objek secara utuh, sehingga berpotensi untuk meningkatkan kualitas sistem pengolahan citra secara otomatis dalam lingkungan tiga dimensi.
Disertasi ini mengeksplorasi potensi-potensi di atas dengan menyediakan berbagai terobosan yang aplikatif dan efektif dalam proses ekstrasi informasi dari data berbasis point cloud. Penelitian ini berfokus pada implementasi teknologi deep learning dalam bidang pengolahan citra digital untuk lingkungan tiga dimensi, seperti segmentasi semantik and pendeteksian objek. Pendekatan semacam ini dipilih karena teknologi deep learning memudahkan dan menyederhanakan penyaringan dan pemilihan fitur-fitur terbaik dari sebuah data masukan dengan memperhatikan korelasi dan kedekataan spasial dari data-data tersebut, sehingga seringkali menghasilkan prediksi dengan tingkat akurasi terbaik.
Sebagai bagian utama dari penelitian ini, teknologi deep learning telah memperlihatkan berbagai capaian yang signifikan dengan memberikan prediksi dengan tingkat akurasi tertinggi dari berbagai percobaan yang dilakukan, termasuk percobaan menggunakan data-data patokan yang ada. Kontribusi-kontribusi dari disertasi ini dalam rangka meningkatkan kualitas proses penyediaan anotasi terhadap data berbasis point cloud sangat terkait dengan terobosan yang diberikan terhadap pengembangan model deep learning, antara lain: (1) perbaikan terhadap tahapan pemrosesan data sebelum dimasukkan dalam proses pembelajaran mesin menggunakan pendekatan density-sampling dan pemahaman data masukan, (2) penyusunan ulang bagian-bagian dari arsitektur deep learning untuk menghasilkan arsitektur terbaik berdasarkan kondisi data yang dimodelkan (arsitektur yang ditawarkan diberi nama SA-NET) dan (3) perbaikan hasil prediksi dengan menghaluskan tingkat kekasaran hasil prediksi dengan menekankan pentingnya kedekatan spasial dan kesamaan spektral dari data berbasis point cloud (teknik ini diberi nama A-XCRF).
Dalam kerangka kerja (dan penelitian) yang utuh, penelitian doktoral ini dimulai dengan menjawab berbagai tantangan yang ada dalam memodelkan data tiga dimensi berbasis point cloud, kemudian diakhiri dengan menawarkan produk berbasis software kode terbuka yang mampu menghasilkan anotasi data berbasis point cloud secara cepat dan akurat. Pertama-tama, sebuah proses penelitian dilakukan yang kemudian menghasilkan solusi terbaik dalam proses ekstrasi informasi dibidang segmentasi semantik dari data berbasis point cloud. Sebagai catatan, data berbasis point cloud yang digunakan diproyeksikan terlebih dahulu dalam bidang dua dimensi. Pada tahapan berikutnya, sebuah algorithm penghalusan hasil prediksi diusulkan untuk memperbaiki hasil prediksi segmentasi semantik yang dihasilkan langsung dari data input yang berasal dari data mentah berbasis point cloud. Pada tahap akhir, sebuah software berbasis kode terbuka ditawarkan. Software ini berfungsi untuk menganotasi data berbasis point cloud secara cepat dengan akurasi yang jauh lebih tinggi dibanding dengan proses anotasi secara manual.