(1)

Himanshu Tyagi, et al. TAPER-WE: Transformer-Based Model Attention With Relative Position Encoding and Word Embedding for Video Captioning and Summarization in Dense Environment. IJRITCC 2023, 11, 4851-4857.