Ngo Dinh, L., Le Ngoc, H., & Quoc Phan, L. (2023). Ohyeah at VLSP2022-EVJVQA challenge: a jointly language-image model for multilingual visual question answering. Journal of Computer Science and Cybernetics, 39(4), 381–391. https://doi.org/10.15625/1813-9663/18122