Classification of vietnamese web document

Tran Ngoc Phuc, Pham Tran Vu, Pham Cong Xuyen, Nguyen Vu Duy Quang
Author affiliations

Authors

  • Tran Ngoc Phuc Department of Information Technology, Lac Hong University, Viet Nam
  • Pham Tran Vu Faculty of Computer Science and Engineering, Ho Chi Minh City University of Technology, Viet Nam
  • Pham Cong Xuyen Department of Information Technology, Lac Hong University, Viet Nam
  • Nguyen Vu Duy Quang Department of Information Technology, Lac Hong University, Viet Nam

DOI:

https://doi.org/10.15625/2525-2518/51/6/11629

Abstract

Bài báo trình bày một số kết quả nghiên cứu, ứng dụng thuật toán Latent Dirichlet Allocation (LDA) phân tích chủ đề ẩn, để tìm tập đặc trưng cho các chủ đề áp dụng cho bài toán phân loại nội dung tài liệu web. Trong bài báo này các cụm danh từ được sử dụng để làm đặc trưng văn bản trong mô hình vector. Các bước thực hiện bao gồm thuật toán tách từ, gán nhãn từ loại để rút trích ra các cụm danh từ. Sử dụng phương pháp đếm tần suất từ và độ đo sự tương đồng cosine để tiến hành phân loại. Thuật toán Latent Dirichlet Allocation được sử dụng để tìm tập đặc trưng cho các chủ đề mà không cần quan tâm đến tần số xuất hiện, độ quan trọng của từ mà vẫn đưa ra bộ dữ liệu đầy đủ và chính xác. Kết quả đã cài đặt thử nghiệm vào bài toán phân lớp các tin tức phổ biến trên các trang báo tiếng Việt với độ chính xác khoảng 90% đáp ứng được mục tiêu phân loại đề ra.


Downloads

Download data is not yet available.

Downloads

Published

06-03-2018

How to Cite

[1]
T. N. Phuc, Pham Tran Vu, Pham Cong Xuyen, and Nguyen Vu Duy Quang, “Classification of vietnamese web document”, Vietnam J. Sci. Technol., vol. 51, no. 6, pp. 669–680, Mar. 2018.

Issue

Section

Articles