HIMANSHU TYAGI, et al. TAPER-WE: Transformer-Based Model Attention with Relative Position Encoding and Word Embedding for Video Captioning and Summarization in Dense Environment. International Journal on Recent and Innovation Trends in Computing and Communication, [S. l.], v. 11, n. 9, p. 4851–4857, 2023. DOI: 10.17762/ijritcc.v11i9.10081. Disponível em: https://ijritcc.org/index.php/ijritcc/article/view/10081. Acesso em: 30 jul. 2026.