Customer Segment
📉

Customer Segment

Project
Expertise
Machine Learning
Python Programming
Clustering
Date
Jan 13, 2026
For more information, please follow the Github Link: ml_cus_seg

Introduction

  • Objective: Thực hiện nghiên cứu toàn diện về các đối tượng khách hàng lý tưởng để hiểu rõ nhu cầu, hành vi và mối quan tâm của họ. Từ đó, doanh nghiệp có thể tinh chỉnh sản phẩm và tập trung nỗ lực tiếp thị vào các nhóm có khả năng mua hàng cao nhất thay vì tiếp thị đại trà.
  • Focus Areas:
    • Thông tin cá nhân (Tuổi, Học vấn, Thu nhập, Tình trạng hôn nhân, Trẻ nhỏ).
    • Chi tiết giao dịch theo sản phẩm (Rượu, Hoa quả, Thịt, Cá, Bánh kẹo, Vàng).
    • Hành vi tương tác qua các kênh (Website, Cửa hàng, Catalogue) và phản hồi với các chiến dịch quảng cáo.
  • Key Recommendations:
    • Nhóm VIP (Cluster 2): Duy trì sự trung thành bằng các đặc quyền cao cấp và cá nhân hóa sâu.
    • Nhóm Thu nhập cao (Cluster 3): Tập trung vào chất lượng dịch vụ tại cửa hàng và các sản phẩm tiện lợi, đẳng cấp.
    • Nhóm Gia đình trung lưu (Cluster 1): Đẩy mạnh quảng cáo qua email/web và các sản phẩm dành cho gia đình.
    • Nhóm Tiết kiệm (Cluster 0): Sử dụng mã giảm giá và "Flash Sale" để kích thích mua sắm.

Methodology

Data Preparation

  • Dữ liệu ban đầu gồm 2.240 bản ghi với 29 cột thuộc tính.
  • Loại bỏ 24 giá trị khuyết thiếu trong cột "Income".
  • Chuyển đổi định dạng ngày tháng cho cột Dt_Customer.
  • Feature Engineering: Tạo mới các biến như Total_Spent (tổng chi tiêu), Age (tuổi tính đến năm 2026), Total_Children(tổng số con), và Is_Parent.
  • Xử lý Outliers: Sử dụng kỹ thuật chặt trên/dưới dựa trên IQR cho biến Age và kỹ thuật Log Transformation cho cột Income để ổn định phương sai.
  • Chuẩn hóa: Sử dụng StandardScaler cho các biến định lượng và mã hóa (Mapping) cho các biến định danh như trình độ học vấn và tình trạng sống.
  • Giảm số chiều: Áp dụng PCA, giữ lại 3 thành phần chính (PCs) để đại diện cho các đặc trưng quan trọng.
notion image

Analysis workflow

  • Sử dụng phương pháp K-means Clustering để phân khúc khách hàng.
  • Xác định số cụm tối ưu bằng kỹ thuật Elbow Method (Đường cong khuỷu tay), kết quả chọn k=5 cụm.
  • Đánh giá mối tương quan giữa các biến (Correlation Heatmap) và thói quen mua sắm theo kênh của từng cụm.
notion image

Findings and Insights

  • Demographic & Revenue Trends: Khách hàng có trình độ học vấn "Undergraduate" chiếm đa số ở tất cả các cụm. Thu nhập cao có xu hướng tỷ lệ thuận với tổng mức chi tiêu.
  • Behavioral Correlation: Nhóm khách hàng VIP (Cluster 2) có tỷ lệ phản hồi chiến dịch quảng cáo cao nhất (lên tới 80.6% ở chiến dịch cuối). Ngược lại, nhóm trẻ có thu nhập thấp (Cluster 4) ghé thăm web nhiều nhất nhưng tỷ lệ mua hàng thực tế lại thấp nhất.
notion image
notion image
notion image

Phân cụm khách hàng (K-means)

  • Cluster 2 (Khách hàng Tinh hoa - VIPs): Thu nhập cao nhất (~80k), không con cái, chi tiêu mạnh nhất (~1.600$), thích mua qua Catalog và Cửa hàng.
  • Cluster 3 (Thu nhập cao & Độc thân): Thu nhập ~74.6k, chi tiêu lớn (~1.219$), chủ yếu mua tại cửa hàng và ít lướt web nhất.
  • Cluster 1 (Gia đình Trung lưu ổn định): Lớn tuổi nhất (~62 tuổi), có con, thu nhập khá (~62.6k), ưa chuộng mua sắm qua Web.
  • Cluster 0 (Gia đình Tiết kiệm): Thu nhập trung bình thấp (~41.7k), đông con nhất (1.76 trẻ), nhạy cảm về giá, ghé web nhiều nhưng mua ít.
  • Cluster 4 (Nhóm Trẻ & Thu nhập thấp): Trẻ nhất (~48 tuổi), thu nhập thấp (~28k), chi tiêu ít nhất, chủ yếu là khách hàng vãng lai "tham khảo".

Recommendations

Marketing & Sales team

  • Targeted Promotions: Triển khai mã giảm giá và Flash Sale cho Cluster 0 để kích thích tâm lý săn tin khuyến mãi. Đối với Cluster 4, tập trung vào các nội dung tương tác thú vị trên web để giữ chân thay vì chi tiêu nhiều cho marketing trực tiếp.

Product team

  • Segment-Specific Bundles: Thiết kế các gói sản phẩm dành riêng cho gia đình (như rượu và thực phẩm) cho Cluster 1. Phát triển các sản phẩm mang tính tiện lợi và đẳng cấp cho Cluster 3.

Business Development team

  • Service Optimization: Thiết lập các đặc quyền cao cấp cho Cluster 2 (VIP) để duy trì lòng trung thành. Cải thiện chất lượng phục vụ và trải nghiệm mua sắm trực tiếp tại cửa hàng cho các nhóm có thu nhập cao.

Data Analytics & IT team

  • Model Improvement: Tiếp tục theo dõi dữ liệu hành vi thực tế để tinh chỉnh lại 5 phân khúc khách hàng theo thời gian thực.
  • Tech Integration: Tối ưu hóa giao diện web cho nhóm Cluster 4 và Cluster 0 vì đây là những nhóm dành nhiều thời gian lướt web nhất.