Giter VIP home page Giter VIP logo

fashion-campus-dataset-analysis's Introduction

PROGRAMMING FOR DATA SCIENCE - CSC17104_21KHDL1 - FITHCMUS

Final Project nhóm SEHocData

I. Thông tin nhóm:

  • Lớp: 21KHDL1
  • Tên nhóm: SEHocData
  • Thành viên:
MSSV Họ tên Email
21127003 Phan Thanh An [email protected]
21127014 Phạm Hồng Gia Bảo [email protected]

II. Thông tin đề tài:

01. Dataset:

Bộ dữ liệu Fashion Campus E-commerce Transactional Dataset chứa thông tin của 100.000 khách hàng, 44.446 sản phẩm bán ra và 10.254.585 giao dịch được thu thập từ tháng 7 năm 2018 tới tháng 12 năm 2019 trên sàn thương mại điện tử Fashion Campus tại Indonesia.

02. Meaningful questions:

02.1. Question number 1: By demographics, what is Customer Segment contributed the most on Avarage Spending Money and their most Favourite Item?
  • Nội dung: Phân bố khách hàng theo độ tuổi và giới tính, số tiền mua trung bình theo nhóm tuổi hoặc giới tính và các loại sản phẩm phổ biến nhất ở các nhóm tuổi hoặc giới tính khác nhau.
  • Mục đích: Chúng ta sẽ hiểu hơn về khách hàng, một số yếu tố như độ tuổi, giới tính và loại sản phẩm có thể tác động mạnh tới doanh thu công ty Fashion Campus.
02.2. Question number 2: Which products are more inclined to be bought together?
  • Nội dung: Phân tích những sản phẩm hoặc nhóm sản phẩm thường xuyên mua cùng nhau bằng thuật toán Apriori từ đó đề xuất các sản phẩm bổ sung dựa trên lịch sử mua hàng của khách hàng.
  • Mục đích: Tối ưu hóa chiến dịch tiếp thị, doanh nghiệp có thể xác định những chiến dịch tiếp thị hiệu quả nhất bằng cách tìm ra những quy luật kết hợp giữa các sản phẩm hoặc dịch vụ mà khách hàng thường mua. Điều này giúp tối ưu hóa ngân sách tiếp thị và tạo ra chiến dịch hiệu quả hơn.
02.3. Question number 3: What is the customer segment that contributed the most to our company?
  • Nội dung: Phân khúc khách hàng dựa trên hành vi mua hàng, thông tin nhân khẩu học, xác định các phân khúc có giá trị cao đóng góp nhiều nhất vào doanh thu.
  • Mục đích: Phát triển các chiến lược tiếp thị để giữ chân các khách hàng với từng phân khúc cụ thể.
02.4. Question number 4: How do monthly or weekly sales trends manifest in the total sales figures? Are there forecasts for future sales?
  • Nội dung: Chúng ta sẽ xác định xu hướng hàng tháng hoặc hàng tuần trong tổng doanh số bán hàng, từ đó dự đoán ra doanh số bán hàng qua mô hình Arima. Ngoài ra chúng ta sẽ xem xét ngành hàng nào được bán chạy nhất theo thời gian.
  • Mục đích: Dự đoán được doanh thu của công ty từ đó có thể đưa ra các chiến lược bán hàng hợp lý => ta nhận thấy lượng toltal sales tăng dần theo năm, tuy nhiên đến giữa khoảng 2022 có dấu hiệu đi xuống, vì thế chúng tôi tập trung đẩy mạnh vào marketing nhằm nâng cao doanh thu mua hàng

03. Questions analysis:

03.1. Question number 1: By demographics, what is Customer Segment contributed the most on Avarage Spending Money and their most Favourite Item?
  • Phân tích:

    • Phân tích phân bố của khách hàng theo độ tuổi và giới tính, từ đó chúng ta so sánh độ lệch trong biểu đồ histogram và chênh lệch giữa các giới tính
    • Xác định số tiền mua trung bình theo nhóm tuổi hoặc giới tính, tại trong dữ liệu của chúng ta sẽ có nhiều lứa tuổi, vì vậy việc phân tích thành các cụm là rất cần thiết.
    • Xác định những sản phẩm nào được mua phổ biến theo từng nhóm tuổi
  • Kết quả:

    • Theo nhóm tuổi, chúng ta có thể thấy rằng ở nhóm tuổi [20 -> 30] tuổi có xu hướng mua đồ trên sàn thương mại điện tử hơn so với những lứa tuổi khác. Và Apparel là dòng sản phẩm được ưa chuộng mua nhiều nhất. Q1
    • Theo giới tính, chúng ta có thể thấy rằng ở nhóm giới tính Female có xu hướng mua đồ trên sàn thương mại điện tử nhiều hơn so với nhóm giới tính Male. Và Apparel là dòng sản phẩm được ưa chuộng mua nhiều nhất. Q1
03.2. Question number 2: Which products are more inclined to be bought together?
  • Phân tích:

    • Đầu tiên chúng ta cần hiểu một số thông tin về thuật toán Apriori.
    • Kiểm tra các sản phẩm được mua với số lượng như thế nào.
    • Sử dụng thuật toán Apriori cùng với các chỉ số như min_suport, min_threshold để phân tích tính liên kết các sản phẩm trong Fashion Campus
    • Trực quan hóa các liên kết từ đó đánh giá được mối quan hệ giữa các sản phẩm.
  • Kết quả:

    • Dựa vào các luật kết hợp trên chúng ta có thể thấy một số trường hợp như sau:
      • Khi khách hàng mua Personal CareApparel thì khi đó khách hàng cũng sẽ mua FootwearAccessories
      • Hoặc với bộ itemset chứa 3 hạng mục thì, khách hàng mua Footwear, Apparel, Accessories khi đó khách hàng sẽ mua thêm Personal Care
      • Hầu hết các bộ itemset chứa 1 hạng mục là phần nhiều Q2
03.3. Question number 3: What is the customer segment that contributed the most to our company?
  • Phân tích:

    • Phân khúc khách hàng dựa vào tổng số tiền mua, có thể chia thành ba phân khúc như: Giá trị thấp (Low-Value) , Giá trị trung bình (Mid-Value) và Giá trị cao (High-Value) dựa trên tổng số tiền mua hàng của họ.
    • Phân tích Recency, Frequency, và Monetary để mô tả đặc điểm của khách hàng bằng tần suất họ tương tác với sàn thương mại điện tử Fashion Campus và mức độ đầu tư của họ vào đó.
    • Sử dụng mô hình Kmeans phân khúc khách hàng
  • Kết quả:

    • Chúng ta có thể thấy rằng với khách hàng có rank diamond sẽ có tổng tiền sử dụng vào sàn thương mại điện tử lớn nhất Total PurchasesAverage Purchase Amount. Bên cạch đó còn có một số thông tin như số lượng trung bình mua là 1.4, số tuổi là 31.5 hoặc thời gian tham gia vào sàn thương mại điện tử cũng khá lớn: 66.51 Q3 Q3
03.4. Question number 4: How do monthly or weekly sales trends manifest in the total sales figures? Are there forecasts for future sales?
  • Phân tích:

    • Xử lý những giao dịch thành công hoặc thất bại trong payment_status
    • Xác định khoảng thời gian nào khách hàng mua hàng nhiều nhất
    • Phân tích doanh thu theo khoảng thời gian như ngày, tuần, tháng.
    • Sử dụng mô hình Arima để dự đoán doanh số
    • Phân tích xu hướng lợi nhuận theo thời gian của từng ngành hàng
  • Kết quả:

    • Chúng ta có thể thấy rằng mô hình đã dự đoán được doanh thu của sàn thương mại điện tử Fashion Campus. Mặc dù ở giai đoạn cuối năm 2022 doanh thu của công ty có sụt giảm, nhưng nhìn chung từ mô hình Arima chúng ta có thể dự đoán được một phần nào đó doanh thu của công ty.

    • Mô hình Arima dụ đoán kết quả chưa thể hiện được sự biến đổi mạnh của doanh thu, như đã thể hiện trong hình so sánh doanh thu theo mùa, thì chúng ta thấy dữ liệu biến động mạnh là do mùa xuân lượng người mua rất ít. Q4

    • Chúng ta có thể thấy rằng ngành hàng Apparel (Trang phục) luôn đạt lợi nhuận cao nhất theo thời gian.

    • Tiếp theo đó là ngành hàng Accessories (Phụ kiện) đi theo. Chúng ta cũng dễ hiểu rằng đây là hai mặt hàng có quan hệ mật thiết với nhau. Q4

04. Planning:

Planning

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.