Estado de arte y aplicación de técnicas de Aprendizaje Profundo desde imágenes reconstruidas a partir de nubes de puntos de sensores de Radar y Lidar

Autores/as

  • Eduardo Avendaño Fernández Universidad Pedagógica y Tecnológica de Colombia https://orcid.org/0000-0003-0910-8539
  • Nancy Carolina Roa Martín Universidad Pedagógica y Tecnológica de Colombia
  • Óscar Javier Montañez Sogamoso Universidad Pedagógica y Tecnológica de Colombia

DOI:

https://doi.org/10.26507/paper.3038

Palabras clave:

VoxNet 3D, Redes Neuronales Convolucionales Multivista, PointNet, RangeNet, U-Net, ResNet, Mask R-CNN, Transferencia de aprendizaje, Segmentación Semántica

Resumen

Este artículo presenta una revisión de estado de arte de las técnicas del aprendizaje de máquina para el reconocimiento de patrones, la definición de los algoritmos para la clasificación de objetos (personas) a partir de imágenes construidas desde nubes de puntos adquiridas por sensores de Radar y Lidar, y resultados preliminares de aplicación en escenas reconstruidas a partir de nubes de puntos. En el primer hito del proyecto CLARIFIER (frequenCy-agiLe rAdar-lidaR chIp For surveIllancE moving platfoRms), se ha estudiado e implementado un filtro de Kalman Extendido para fusión de datos de sensores de Radar y LiDAR, cuyo aporte fue la inclusión de la velocidad angular en el modelo cinemático de un drone. En el segundo hito, se ha revisado estado de arte para identificar enfoque (segmentación semántica) y algoritmos que permitan detectar personas en imágenes reconstruidas de escenarios o zonas con requerimientos de supervisión y monitoreo. Como resultado de aplicación preliminar, se ha construido un conjunto de datos de escenas que incluye la clase “personas” y se evaluaron los algoritmos U-Net y Mask R-CNN que aplicas técnicas de segmentación semántica. Dado que la resolución del sensor en particular de Lidar, es mayor a la del radar, así como la diferencia en rangos que cada uno alcanza, se genera un compromiso que requiere múltiples barridos de la escena desde diferentes ángulos y distancias y se requiere aumentar el conjunto de datos, para entrenar los algoritmos y mejorar el porcentaje de detecciones correctas. De acuerdo a las métricas que se han evaluado (pérdidas, exactitud, precisión, exhaustividad y F1 Score), la clasificación de la clase personas en el contexto de segmentación semántica alcanza un 89.91 % para Mask R-CNN, y del 90.53% para U-Net; y con la curva de operación característica del receptor (ROC) y el área bajo la curva (AUC) se obtiene un 90% y 92% en la detección de la clase personas, respectivamente. Este resultado valida la efectividad de estos modelos de redes neuronales convolucionales aplicada a imágenes obtenidas a partir de nubes de puntos.

Descargas

Los datos de descargas todavía no están disponibles.

Citas

Y. Lecun, L. Bottou, Y. Bengio and P. Haffner, (1998) "Gradient-based learning applied to document recognition," in Proceedings of the IEEE, vol. 86, no. 11, pp. 2278-2324. https://doi.org/10.1109/5.726791

Pan, S. J., & Yang, (2010) Q. A Survey on Transfer Learning. https://doi.org/10.1109/TKDE.2009.191

Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet classification with deep convolutional neural networks. NIPS, 1097-1105.

Maturana, D., & Scherer, S. (2015). VoxNet: A 3D Convolutional Neural Network for Real-Time Object Recognition. In IEEE/RSJ (IROS) (pp. 922-928). https://doi.org/10.1109/IROS.2015.7353481

Su, H., Maji, S., Kalogerakis, E., & Learned-Miller, E. (2015). Multi-view convolutional neural networks for 3D shape recognition. Proceedings of the IEEE ICCV, 945-953. https://doi.org/10.1109/ICCV.2015.114

Su, H., Maji, S., Kalogerakis, E., & Learned-Miller, E. Multi-view Convolutional Neural Networks for 3D Shape Recognition. ICCV 2015. https://doi.org/10.1109/ICCV.2015.114

Zhou, B., Lapedriza, A., Khosla, A., Oliva, A., & Torralba, A. (2017) Places: A 10 Million Image Database for Scene Recognition. IEEE Trans. on Pattern Analysis and Machine Intelligence. https://doi.org/10.1167/17.10.296

Chen, L. C., et al. (2018). DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs. IEEE pp. 834-848. https://doi.org/10.1109/TPAMI.2017.2699184

Li, Y., Qi, H., Dai, A., Ji, X., & Wei, Y. (2016). Fully convolutional instance-aware semantic segmentation. In Proceedings of the IEEE CVPR pp. 2359-2367. https://doi.org/10.1109/CVPR.2017.472

Long, J., Shelhamer, E., & Darrell, T. (2015). Fully convolutional networks for semantic segmentation. Proceedings of the IEEE CVPR, pp. 3431-3440. https://doi.org/10.1109/CVPR.2015.7298965

Zou, X., & Chen, S. (2018). An overview of point cloud semantic segmentation. IEEE pp. 3200-3214.

Ronneberger, O., Fischer, P., & Brox, T. (2015). U-net: Convolutional networks for biomedical image segmentation. MICCAI, pp. 234-241. https://doi.org/10.1007/978-3-319-24574-4_28

Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. NIPS, pp. 91-99.

He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep Residual Learning for Image Recognition. Proceedings of the IEEE CVPR, pp. 770-778. https://doi.org/10.1109/CVPR.2016.90

He, K., Gkioxari, G., Dollar, P., & Girshick, R. (2017). Mask R-CNN. Proceedings of the IEEE International Conference on Computer Vision (ICCV), pp. 2980-2988. https://doi.org/10.1109/ICCV.2017.322

Shin, H. C., et al. (2016) Deep convolutional neural networks for computer-aided detection: CNN architectures, dataset characteristics, and transfer learning. https://doi.org/10.1109/TMI.2016.2528162

Qi, C. R., Su, H., Mo, K., & Guibas, L. J. (2017). PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation. Proceedings of the IEEE CVPR, pp. 1-11.

Zhang, Y., & Jiao, J. (2020). 3D point cloud object detection on deep learning: A survey. Pp. 106-107.

Yan, M., Mao, W., Li, B., & Li, H. (2018). VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection. Proceedings of the IEEE CVPR, pp. 4490-4499.

Chen, X., Kundu, K., Zhang, Z., Ma, H., Fidler, S., & Urtasun, R. (2016). Monocular 3D object detection for autonomous driving. In Proceedings of the IEEE CVPR pp. 2147-2156. https://doi.org/10.1109/CVPR.2016.236

Milioto, A., Stachniss, C., & Behnke, S. (2019). RangeNet++: Fast and accurate LiDAR semantic segmentation. IEEE Robotics and Automation Letters, 4(2), 903-910. https://doi.org/10.1109/IROS40897.2019.8967762

Yi, S. et al. (2020) SegVoxelNet: Exploring semantic context and depth-aware features for 3D vehicle detection from point cloud. Proceedings ICRA. pp. 2274-2280. https://doi.org/10.1109/ICRA40945.2020.9196556

Kreuzberger, D., Kühl, N., & Hirschl, S. (2022). Machine Learning Operations (MLOps): Overview, Definition, and Architecture. ArXiv. /abs/2205.02302 https://doi.org/10.1109/ACCESS.2023.3262138

He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep Residual Learning for Image Recognition. Proceedings of the IEEE CVPR, pp. 770-778. https://doi.org/10.1109/CVPR.2016.90

Descargas

Publicado

11-09-2023

Cómo citar

[1]
E. Avendaño Fernández, N. C. Roa Martín, y Óscar J. Montañez Sogamoso, «Estado de arte y aplicación de técnicas de Aprendizaje Profundo desde imágenes reconstruidas a partir de nubes de puntos de sensores de Radar y Lidar», EIEI ACOFI, sep. 2023.
Estadísticas de artículo
Vistas de resúmenes
Vistas de PDF
Descargas de PDF
Vistas de HTML
Otras vistas
QR Code
Crossref Cited-by logo