Khai khoáng dữ liệu – đại học
Contents
Chương 1: Tổng quan về Data Mining
Chương 2:
2.1 Slide bài giảng
2.2 Bài tập
Đề bài
Cho dữ liệu gồm các giá trị: 5, 7, 9,15, 24, 31, 35, 35, 37, 42,42,42,48,48,50
- Số giỏ: 4
- Chia giỏ theo độ rộng
- Chia giỏ theo độ sâu
Giải
Lưu ý:
+ nếu dãy số chưa sắp xếp phải sắp xếp dãy số tăng dần.
+ ghi chữ nhỏ, màu đỏ ở dưới là giải thích vì sao được như vậy
- Chia giỏ theo độ rộng:
(Max – Min) / 4 = (50 – 5) / 4 = 11,25 ~ 11
-Các giỏ:
+ [5, 165+11) : 5, 7, 9, 15
+ [16, 2716+11) : 24
+ [27, 3827+11) : 31, 35, 35, 37
+ [38, 50] : 42, 42, 42, 48, 48, 50
-Làm trơn theo trung vị:
+ Giỏ (1): 8, 8, 8, 8 ( (7 + 9) / 2 )
+ Giỏ (2): 24
+ Giỏ (3): 35, 35, 35, 35
+ Giỏ (4): 45, 45, 45, 45, 45, 45
-Làm trơn theo biên giỏ:
+ Giỏ (1): 5, 5, 5, 15 ( gần với biên nào thì giá trị biên lấy )
+ Giỏ (2): 24
+ Giỏ (3): 31, 37, 37, 37
+ Giỏ (4): 42, 42, 42, 42, 42, 50
- Chia giỏ theo độ sâu: (N=4)
-Các giỏ:
+ Giỏ (1): 5, 7, 9, 15 ( Chia đều số lượng ra các giỏ bằng nhau )
+ Giỏ (2): 24
+ Giỏ (3): 24, 31, 35, 35
+ Giỏ (4): 48, 48, 50
-Làm trơn theo trung vị:
+ Giỏ (1): 8, 8, 8, 8 ( (7 + 9) / 2 )
+ Giỏ (2): 33, 33, 33, 33
+ Giỏ (3): 42, 42, 42, 42
+ Giỏ (4): 48, 48, 48
-Làm trơn theo biên giỏ:
+ Giỏ (1): 5, 5, 5, 15 ( gần với biên nào thì giá trị biên lấy )
+ Giỏ (2): 24, 35, 35, 35
+ Giỏ (3): 37, 42, 42, 42
+ Giỏ (4): 48, 48, 50
3. Các thuật toán
3.1 Thuật toán Apriori
3.2 Thuật toán FP-Growth
3.3 Thuật toán Agnes và Diana
Các định nghĩa Single Link, Complete Link, Average Link được mô tả trong slide sau:
3.4 Thuật toán K-Mean
3.5 Thuật toán KNN
3.6 Thuật toán Naive Bayes
Mình có viết một bài về thuật toán này. Các bạn xem thêm tại đây: https://blogcongnghe.tronghao.site/hieu-thuat-toan-naive-bayes-nhu-the-nao/
4. Phần mềm Orange
4.1 Import dữ liệu từ excel vào sql server
Bước 1: Click phải chuột vào cơ sở dữ liệu => Tasks => Import Data…
Bước 2: Chọn Next và chọn Microsoft Excel tại Data source. Sau đó nhấn Browse để chọn file và nhấn next (3 lần), ở lần next thứ 3 check các sheet cần import, nhấn next thêm 2 lần và nhấn Finish để import dữ liệu.
5. Các câu hỏi trắc nghiệm
Link drive: https://drive.google.com/drive