Thumbnail
Category: Khai Khoáng Dữ Liệu

Khai khoáng dữ liệu - đại học

Date: April 14, 2020
563 views

Chương 1: Tổng quan về Data Mining

Chương 2:

2.1 Slide bài giảng

2.2 Bài tập

Đề bài

Cho dữ liệu gồm các giá trị: 5, 7, 9,15, 24, 31, 35, 35, 37, 42,42,42,48,48,50

  • Số giỏ: 4
  • Chia giỏ theo độ rộng
  • Chia giỏ theo độ sâu

Giải

Lưu ý:

   + nếu dãy số chưa sắp xếp phải sắp xếp dãy số tăng dần.

   + ghi chữ nhỏ, màu đỏ ở dưới là giải thích vì sao được như vậy

  • Chia giỏ theo độ rộng:

(Max – Min) / 4 = (50 – 5) / 4 = 11,25 ~ 11

-Các giỏ: 

 + [5, 165+11) : 5, 7, 9, 15 

 + [16, 2716+11) : 24

 + [27, 3827+11) : 31, 35, 35, 37

 + [38, 50] : 42, 42, 42, 48, 48, 50

-Làm trơn theo trung vị:

 + Giỏ (1): 8, 8, 8, 8 ( (7 + 9) / 2 )

 + Giỏ (2): 24

 + Giỏ (3): 35, 35, 35, 35

 + Giỏ (4): 45, 45, 45, 45, 45, 45

-Làm trơn theo biên giỏ:

 + Giỏ (1): 5, 5, 5, 15 ( gần với biên nào thì giá trị biên lấy )

 + Giỏ (2): 24

 + Giỏ (3): 31, 37, 37, 37

 + Giỏ (4): 42, 42, 42, 42, 42, 50

  • Chia giỏ theo độ sâu: (N=4)

-Các giỏ: 

 + Giỏ (1): 5, 7, 9, 15 ( Chia đều số lượng ra các giỏ bằng nhau )

 + Giỏ (2): 24

 + Giỏ (3): 24, 31, 35, 35

 + Giỏ (4): 48, 48, 50

-Làm trơn theo trung vị:

 + Giỏ (1): 8, 8, 8, 8 ( (7 + 9) / 2 )

 + Giỏ (2): 33, 33, 33, 33

 + Giỏ (3): 42, 42, 42, 42

 + Giỏ (4): 48, 48, 48

-Làm trơn theo biên giỏ:

 + Giỏ (1): 5, 5, 5, 15 ( gần với biên nào thì giá trị biên lấy )

 + Giỏ (2): 24, 35, 35, 35

 + Giỏ (3): 37, 42, 42, 42

 + Giỏ (4): 48, 48, 50

3. Các thuật toán

3.1 Thuật toán Apriori

3.2 Thuật toán FP-Growth

3.3 Thuật toán Agnes và Diana

Các định nghĩa Single LinkComplete LinkAverage Link được mô tả trong slide sau:

3.4 Thuật toán K-Mean

3.5 Thuật toán KNN

3.6 Thuật toán Naive Bayes

Mình có viết một bài về thuật toán này. Các bạn xem thêm tại đây: https://blogcongnghe.tronghao.site/hieu-thuat-toan-naive-bayes-nhu-the-nao/

4. Phần mềm Orange

4.1 Import dữ liệu từ excel vào sql server

Bước 1: Click phải chuột vào cơ sở dữ liệu => Tasks => Import Data…

Bước 2: Chọn Next và chọn Microsoft Excel tại Data source. Sau đó nhấn Browse để chọn file và nhấn next (3 lần), ở lần next thứ 3 check các sheet cần importnhấn next thêm 2 lần và nhấn Finish để import dữ liệu.

5. Các câu hỏi trắc nghiệm

Link drive: https://drive.google.com/drive


Copyright © 2025 All Right Reserved