Aprendizagem profunda com imagens RGB-D: classificação de objetos e estimativa de pose
DOI:
https://doi.org/10.33414/rtyc.37.146-156.2020Palavras-chave:
Aprendizagem profunda, visão robótica, RGB-DResumo
No âmbito da tese de doutoramento, o objetivo é desenvolver uma Interface Homem-Máquina para controlar um braço de assistência robótica com mais de 6 graus de liberdade. É apresentado o uso de técnicas de aprendizado profundo para reconhecimento de objetos e estimativa de pose para interagir com eles. 3 modelos de redes neurais convolucionais multimodais foram implementados para imagens RGB-D do banco de dados BigBIRD, com três saídas de classificação: 22 objetos - 5 câmeras - 8 rótulos de rotação. Para o melhor dos modelos, foram alcançados valores de precisão de 96% para objetos, 98% para câmera e 56% para rotação.