Himanshu Tyagi et al. TAPER-WE: Transformer-Based Model Attention with Relative Position Encoding and Word Embedding for Video Captioning and Summarization in Dense Environment. IJRITCC [Internet]. 2023Nov.30 [cited 2026Jul.29];11(9):4851-7. Available from: https://ijritcc.org/index.php/ijritcc/article/view/10081