[1]Ngo Dinh, L. et al. 2023. Ohyeah at VLSP2022-EVJVQA challenge: a jointly language-image model for multilingual visual question answering. Journal of Computer Science and Cybernetics. 39, 4 (Dec. 2023), 381–391. DOI:https://doi.org/10.15625/1813-9663/18122.