Classification of vietnamese web document
Author affiliations
DOI:
https://doi.org/10.15625/2525-2518/51/6/11629Abstract
Bài báo trình bày một số kết quả nghiên cứu, ứng dụng thuật toán Latent Dirichlet Allocation (LDA) phân tích chủ đề ẩn, để tìm tập đặc trưng cho các chủ đề áp dụng cho bài toán phân loại nội dung tài liệu web. Trong bài báo này các cụm danh từ được sử dụng để làm đặc trưng văn bản trong mô hình vector. Các bước thực hiện bao gồm thuật toán tách từ, gán nhãn từ loại để rút trích ra các cụm danh từ. Sử dụng phương pháp đếm tần suất từ và độ đo sự tương đồng cosine để tiến hành phân loại. Thuật toán Latent Dirichlet Allocation được sử dụng để tìm tập đặc trưng cho các chủ đề mà không cần quan tâm đến tần số xuất hiện, độ quan trọng của từ mà vẫn đưa ra bộ dữ liệu đầy đủ và chính xác. Kết quả đã cài đặt thử nghiệm vào bài toán phân lớp các tin tức phổ biến trên các trang báo tiếng Việt với độ chính xác khoảng 90% đáp ứng được mục tiêu phân loại đề ra.
Downloads
Downloads
Published
How to Cite
Issue
Section
License
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.
Vietnam Journal of Sciences and Technology (VJST) is an open access and peer-reviewed journal. All academic publications could be made free to read and downloaded for everyone. In addition, articles are published under term of the Creative Commons Attribution-ShareAlike 4.0 International (CC BY-SA) Licence which permits use, distribution and reproduction in any medium, provided the original work is properly cited & ShareAlike terms followed.
Copyright on any research article published in VJST is retained by the respective author(s), without restrictions. Authors grant VAST Journals System a license to publish the article and identify itself as the original publisher. Upon author(s) by giving permission to VJST either via VJST journal portal or other channel to publish their research work in VJST agrees to all the terms and conditions of https://creativecommons.org/licenses/by-sa/4.0/ License and terms & condition set by VJST.
Authors have the responsibility of to secure all necessary copyright permissions for the use of 3rd-party materials in their manuscript.