Estado de arte y aplicación de técnicas de Aprendizaje Profundo desde imágenes reconstruidas a partir de nubes de puntos de sensores de Radar y Lidar
DOI:
https://doi.org/10.26507/paper.3038Palabras clave:
VoxNet 3D, Redes Neuronales Convolucionales Multivista, PointNet, RangeNet, U-Net, ResNet, Mask R-CNN, Transferencia de aprendizaje, Segmentación SemánticaResumen
Este artículo presenta una revisión de estado de arte de las técnicas del aprendizaje de máquina para el reconocimiento de patrones, la definición de los algoritmos para la clasificación de objetos (personas) a partir de imágenes construidas desde nubes de puntos adquiridas por sensores de Radar y Lidar, y resultados preliminares de aplicación en escenas reconstruidas a partir de nubes de puntos. En el primer hito del proyecto CLARIFIER (frequenCy-agiLe rAdar-lidaR chIp For surveIllancE moving platfoRms), se ha estudiado e implementado un filtro de Kalman Extendido para fusión de datos de sensores de Radar y LiDAR, cuyo aporte fue la inclusión de la velocidad angular en el modelo cinemático de un drone. En el segundo hito, se ha revisado estado de arte para identificar enfoque (segmentación semántica) y algoritmos que permitan detectar personas en imágenes reconstruidas de escenarios o zonas con requerimientos de supervisión y monitoreo. Como resultado de aplicación preliminar, se ha construido un conjunto de datos de escenas que incluye la clase “personas” y se evaluaron los algoritmos U-Net y Mask R-CNN que aplicas técnicas de segmentación semántica. Dado que la resolución del sensor en particular de Lidar, es mayor a la del radar, así como la diferencia en rangos que cada uno alcanza, se genera un compromiso que requiere múltiples barridos de la escena desde diferentes ángulos y distancias y se requiere aumentar el conjunto de datos, para entrenar los algoritmos y mejorar el porcentaje de detecciones correctas. De acuerdo a las métricas que se han evaluado (pérdidas, exactitud, precisión, exhaustividad y F1 Score), la clasificación de la clase personas en el contexto de segmentación semántica alcanza un 89.91 % para Mask R-CNN, y del 90.53% para U-Net; y con la curva de operación característica del receptor (ROC) y el área bajo la curva (AUC) se obtiene un 90% y 92% en la detección de la clase personas, respectivamente. Este resultado valida la efectividad de estos modelos de redes neuronales convolucionales aplicada a imágenes obtenidas a partir de nubes de puntos.
Descargas
Citas
Y. Lecun, L. Bottou, Y. Bengio and P. Haffner, (1998) "Gradient-based learning applied to document recognition," in Proceedings of the IEEE, vol. 86, no. 11, pp. 2278-2324. https://doi.org/10.1109/5.726791
Pan, S. J., & Yang, (2010) Q. A Survey on Transfer Learning. https://doi.org/10.1109/TKDE.2009.191
Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet classification with deep convolutional neural networks. NIPS, 1097-1105.
Maturana, D., & Scherer, S. (2015). VoxNet: A 3D Convolutional Neural Network for Real-Time Object Recognition. In IEEE/RSJ (IROS) (pp. 922-928). https://doi.org/10.1109/IROS.2015.7353481
Su, H., Maji, S., Kalogerakis, E., & Learned-Miller, E. (2015). Multi-view convolutional neural networks for 3D shape recognition. Proceedings of the IEEE ICCV, 945-953. https://doi.org/10.1109/ICCV.2015.114
Su, H., Maji, S., Kalogerakis, E., & Learned-Miller, E. Multi-view Convolutional Neural Networks for 3D Shape Recognition. ICCV 2015. https://doi.org/10.1109/ICCV.2015.114
Zhou, B., Lapedriza, A., Khosla, A., Oliva, A., & Torralba, A. (2017) Places: A 10 Million Image Database for Scene Recognition. IEEE Trans. on Pattern Analysis and Machine Intelligence. https://doi.org/10.1167/17.10.296
Chen, L. C., et al. (2018). DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs. IEEE pp. 834-848. https://doi.org/10.1109/TPAMI.2017.2699184
Li, Y., Qi, H., Dai, A., Ji, X., & Wei, Y. (2016). Fully convolutional instance-aware semantic segmentation. In Proceedings of the IEEE CVPR pp. 2359-2367. https://doi.org/10.1109/CVPR.2017.472
Long, J., Shelhamer, E., & Darrell, T. (2015). Fully convolutional networks for semantic segmentation. Proceedings of the IEEE CVPR, pp. 3431-3440. https://doi.org/10.1109/CVPR.2015.7298965
Zou, X., & Chen, S. (2018). An overview of point cloud semantic segmentation. IEEE pp. 3200-3214.
Ronneberger, O., Fischer, P., & Brox, T. (2015). U-net: Convolutional networks for biomedical image segmentation. MICCAI, pp. 234-241. https://doi.org/10.1007/978-3-319-24574-4_28
Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. NIPS, pp. 91-99.
He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep Residual Learning for Image Recognition. Proceedings of the IEEE CVPR, pp. 770-778. https://doi.org/10.1109/CVPR.2016.90
He, K., Gkioxari, G., Dollar, P., & Girshick, R. (2017). Mask R-CNN. Proceedings of the IEEE International Conference on Computer Vision (ICCV), pp. 2980-2988. https://doi.org/10.1109/ICCV.2017.322
Shin, H. C., et al. (2016) Deep convolutional neural networks for computer-aided detection: CNN architectures, dataset characteristics, and transfer learning. https://doi.org/10.1109/TMI.2016.2528162
Qi, C. R., Su, H., Mo, K., & Guibas, L. J. (2017). PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation. Proceedings of the IEEE CVPR, pp. 1-11.
Zhang, Y., & Jiao, J. (2020). 3D point cloud object detection on deep learning: A survey. Pp. 106-107.
Yan, M., Mao, W., Li, B., & Li, H. (2018). VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection. Proceedings of the IEEE CVPR, pp. 4490-4499.
Chen, X., Kundu, K., Zhang, Z., Ma, H., Fidler, S., & Urtasun, R. (2016). Monocular 3D object detection for autonomous driving. In Proceedings of the IEEE CVPR pp. 2147-2156. https://doi.org/10.1109/CVPR.2016.236
Milioto, A., Stachniss, C., & Behnke, S. (2019). RangeNet++: Fast and accurate LiDAR semantic segmentation. IEEE Robotics and Automation Letters, 4(2), 903-910. https://doi.org/10.1109/IROS40897.2019.8967762
Yi, S. et al. (2020) SegVoxelNet: Exploring semantic context and depth-aware features for 3D vehicle detection from point cloud. Proceedings ICRA. pp. 2274-2280. https://doi.org/10.1109/ICRA40945.2020.9196556
Kreuzberger, D., Kühl, N., & Hirschl, S. (2022). Machine Learning Operations (MLOps): Overview, Definition, and Architecture. ArXiv. /abs/2205.02302 https://doi.org/10.1109/ACCESS.2023.3262138
He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep Residual Learning for Image Recognition. Proceedings of the IEEE CVPR, pp. 770-778. https://doi.org/10.1109/CVPR.2016.90
Descargas
Publicado
Cómo citar
Evento
Sección
Licencia
Derechos de autor 2023 Asociación Colombiana de Facultades de Ingeniería - ACOFI
Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-SinDerivadas 4.0.
Estadísticas de artículo | |
---|---|
Vistas de resúmenes | |
Vistas de PDF | |
Descargas de PDF | |
Vistas de HTML | |
Otras vistas |