-
Notifications
You must be signed in to change notification settings - Fork 0
Expand file tree
/
Copy pathProject1_DA1.sql
More file actions
100 lines (82 loc) · 3.26 KB
/
Copy pathProject1_DA1.sql
File metadata and controls
100 lines (82 loc) · 3.26 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
--1. Chuyển đổi kiểu dữ liệu phù hợp cho các trường (sử dụng câu lệnh ALTER)
ALTER TABLE SALES_DATASET_RFM_PRJ
ALTER COLUMN ORDERNUMBER TYPE INTEGER USING ORDERNUMBER::INTEGER;
ALTER TABLE SALES_DATASET_RFM_PRJ
ALTER COLUMN QUANTITYORDERED TYPE INTEGER USING QUANTITYORDERED::INTEGER;
ALTER TABLE SALES_DATASET_RFM_PRJ
ALTER COLUMN PRICEEACH TYPE DECIMAL USING ROUND(CAST(PRICEEACH AS DECIMAL), 2);
ALTER TABLE SALES_DATASET_RFM_PRJ
ALTER COLUMN ORDERLINENUMBER TYPE INTEGER USING ORDERLINENUMBER::INTEGER;
ALTER TABLE SALES_DATASET_RFM_PRJ
ALTER COLUMN SALES TYPE DECIMAL USING ROUND(CAST(SALES AS DECIMAL), 2);
ALTER TABLE SALES_DATASET_RFM_PRJ
ALTER COLUMN ORDERDATE TYPE TIMESTAMP USING TO_TIMESTAMP(ORDERDATE, 'MM/DD/YYYY HH24:MI');
ALTER TABLE SALES_DATASET_RFM_PRJ
ALTER COLUMN MSRP TYPE NUMERIC(10, 2) USING MSRP::NUMERIC;
--2.Check NULL/BLANK (‘’) ở các trường: ORDERNUMBER, QUANTITYORDERED, PRICEEACH, ORDERLINENUMBER, SALES, ORDERDATE.
SELECT *
FROM SALES_DATASET_RFM_PRJ
WHERE ORDERNUMBER IS NULL
OR QUANTITYORDERED IS NULL
OR ORDERLINENUMBER IS NULL;
SELECT *
FROM SALES_DATASET_RFM_PRJ
WHERE PRICEEACH IS NULL
OR SALES IS NULL
OR MSRP IS NULL;
SELECT *
FROM SALES_DATASET_RFM_PRJ
WHERE ORDERDATE IS NULL;
--3. Thêm cột CONTACTLASTNAME, CONTACTFIRSTNAME được tách ra từ CONTACTFULLNAME .
Chuẩn hóa CONTACTLASTNAME, CONTACTFIRSTNAME theo định dạng chữ cái đầu tiên viết hoa, chữ cái tiếp theo viết thường.
ALTER TABLE SALES_DATASET_RFM_PRJ
ADD COLUMN CONTACTLASTNAME VARCHAR,
ADD COLUMN CONTACTFIRSTNAME VARCHAR;
UPDATE SALES_DATASET_RFM_PRJ
SET
CONTACTFIRSTNAME = INITCAP(SUBSTRING(CONTACTFULLNAME, POSITION('-' IN CONTACTFULLNAME) + 1)),
CONTACTLASTNAME = INITCAP(SUBSTRING(CONTACTFULLNAME, 1, POSITION('-' IN CONTACTFULLNAME) - 1))
WHERE CONTACTFULLNAME LIKE '%-%';
--4. Thêm cột QTR_ID, MONTH_ID, YEAR_ID lần lượt là Qúy, tháng, năm được lấy ra từ ORDERDATE
ALTER TABLE SALES_DATASET_RFM_PRJ
ADD COLUMN QTR_ID INTEGER,
ADD COLUMN MONTH_ID INTEGER,
ADD COLUMN YEAR_ID INTEGER;
UPDATE SALES_DATASET_RFM_PRJ
SET
QTR_ID = EXTRACT(QUARTER FROM ORDERDATE),
MONTH_ID = EXTRACT(MONTH FROM ORDERDATE),
YEAR_ID = EXTRACT(YEAR FROM ORDERDATE);
--5. Tìm và xử lý outlier
---sử dụng z-score tìm outlier
WITH Stats AS (
SELECT
AVG(QUANTITYORDERED) AS mean_quantity,
STDDEV(QUANTITYORDERED) AS stddev_quantity
FROM SALES_DATASET_RFM_PRJ
)
SELECT *
FROM SALES_DATASET_RFM_PRJ s
CROSS JOIN Stats
WHERE ABS(s.QUANTITYORDERED - Stats.mean_quantity) / Stats.stddev_quantity > 3;
---xử lý 1: xóa outlier
DELETE FROM SALES_DATASET_RFM_PRJ s
USING (
SELECT
AVG(QUANTITYORDERED) AS mean_quantity,
STDDEV(QUANTITYORDERED) AS stddev_quantity
FROM SALES_DATASET_RFM_PRJ
) AS Stats
WHERE ABS(s.QUANTITYORDERED - Stats.mean_quantity) / Stats.stddev_quantity > 3;
---xử lý 2: cập nhật lại ngưỡng outlier
WITH Stats AS (
SELECT
AVG(QUANTITYORDERED) AS mean_quantity,
STDDEV(QUANTITYORDERED) AS stddev_quantity
FROM SALES_DATASET_RFM_PRJ
)
UPDATE SALES_DATASET_RFM_PRJ
SET QUANTITYORDERED = Stats.mean_quantity + 3 * Stats.stddev_quantity
FROM Stats
WHERE ABS(s.QUANTITYORDERED - Stats.mean_quantity) / Stats.stddev_quantity > 3;
--6. (chờ bài đc review)