1. Lớp Phương pháp NCKH – Chương trình CUD UPNT03
Baøi 2 (STATA)
SỬ DỤNG STATA 10.0 ĐỂ PHÂN TÍCH THỐNG KÊ
TRONG NGHIÊN CỨU KHOA HỌC
ĐẠI CƯƠNG VỀ PHÂN TÍCH SỐ LIỆU
TS. BS Tăng Kim Hồng
Nhìn chung, tiến trình phân tích số liệu bao gồm 3 bước: quản lý số liệu, phân tích số liệu
mang tính chất thăm dò, và phân tích thống kê
1. Quản lý số liệu: bao gồm tất cả các công đoạn từ thu thập số liệu, nhập số liệu, kiểm
tra và làm sạch số liệu
2. Phân tích số liệu mang tính chất thăm dò (exploratory data analysis): là công đoạn
xem xét số liệu với các phép thống kê mô tả và các kỹ thuật vẽ đồ thị (graphs)
2.1 Kiểm tra số liệu
Một số sai sót của số liệu có thể được phát hiện bằng việc kiểm tra nhanh với lệnh
tabulate (đối với biến số phân loại) và summarize (đồi với biến số liên tục)
2.2 Xử lý “Các giá trị nằm ngoài” (Outliers)
Các “outliers” có thể là do:
- Sai số trong đo lường
- Sai số trong mã hóa dữ liệu
- Sai số trong quá trình nghiên cứu (ví dụ là phần thu thập thêm ngoài đề cương
nghiên cứu)
- Giá trị thực
Khi xử lý “outliers”, ta cần phải kiểm tra lại số liệu hết sức cẩn thận trước khi thay đổi và
xử lý “outliers” như một giá trị “missing”
2.3 Xem xét phân phối của các biến số
- Đối với biến số liên tục, mục đích là để xem biến số có phân phối bình thường hay
không. Nếu biến số phân phối bình thường thì số liệu sẽ được trình bày bằng trung bình
và độ lệch chuẩn, nếu biến số phân phối không bình thường thì số liệu sẽ được trình bày
với trung vị và [25%, 75%] (interquartile ranges). Một số biến số có phân phối không
bình thường có thể được chuyển sang dạng khác (transform)
- Đối với biến số phân loại, chúng ta có thể thấy được phân phối tần suất của các biến số,
dựa trên sự phân phối này, có thể chúng ta sẽ quyết định có gộp/nhóm lại 1 số phân loại
với nhau hay không. Biến số phân loại sẽ được trình bày dưới dạng các tỉ lệ phần trăm
+ Mở file “PULSE” để phân tích.
1
2. Lớp Phương pháp NCKH – Chương trình CUD UPNT03
Xem xét biến số liên tục có phân phối bình thường hay không?
Có một số thủ thuật để kiểm tra xem biến số liên tục có phân phối bình thường hay
không:
1) So sánh trung bình và trung vị
Nếu trung bình và trung vị xấp xỉ bằng nhau thì có nghĩa là phân phối đó phân bố một
cách đối xứng – hay nói cách khác phân phối bình thường. Để có được trung bình và
trung vị, ta cần phải chạy lệnh như sau:
+ Statistics -> Summaries, tables and tests -> Summary and descriptive statistics ->
Summary statistics -> Chọn biến số trong ô “Variables”, ví dụ chọn biến số Pulse1
Thông thường nếu chọn “standard display” thì kết quả chỉ có số trung bình, độ lệch
chuẩn, min và max
. summarize pulse1
Variable | Obs Mean Std. Dev. Min Max
-------------+--------------------------------------------------------
pulse1 | 92 72.86957 11.00871 48 100
Tuy nhiên nếu chọn “display additional statistics” thì kết quả thể hiện sẽ nhiều hơn, có cả
trung bình, trung vị, độ lệch chuẩn, 25%, 75%.
2
3. Lớp Phương pháp NCKH – Chương trình CUD UPNT03
. summarize pulse1, detail
pulse1
-------------------------------------------------------------
Percentiles Smallest
1% 48 48
5% 58 54
10% 60 54 Obs 92
25% 64 58 Sum of Wgt. 92
50% 71 Mean 72.86957
Largest Std. Dev. 11.00871
75% 80 94
90% 90 96 Variance 121.1916
95% 92 96 Skewness .3908803
99% 100 100 Kurtosis 2.516723
Lưu ý: Nếu chọn lệnh “means” ta cũng có thể có được trung bình và độ lệch chuẩn kèm
theo KTC 95%
+ Statistics -> Summaries, tables and tests -> Summary and descriptive statistics ->
Means -> Chọn biến số trong ô “Variables”, ví dụ chọn biến số Pulse1
. mean pulse1
Mean estimation Number of obs = 92
--------------------------------------------------------------
| Mean Std. Err. [95% Conf. Interval]
-------------+------------------------------------------------
pulse1 | 72.86957 1.147737 70.58973 75.1494
--------------------------------------------------------------
3
4. Lớp Phương pháp NCKH – Chương trình CUD UPNT03
2) Vẽ histogram với đường cong thể hiện phân phối bình thường
+ Graphics -> Histogram -> Chọn biến số trong ô “Variables” (ví dụ chọn biến số
Pulse1) -> Chọn số cột (bin)ta muốn có trong đồ thị (ví dụ chọn bin = 10) -> Nếu muốn
có đường cong thể hiện phân phối bình thường thì phảichọn “Desity plots) và đánh dấu
vào ô “Add normal density plot”
4
5. Lớp Phương pháp NCKH – Chương trình CUD UPNT03
3) Vẽ đường phân phối bình thường (Normal probability plot)
+ Graphics -> Distributional graphs -> Normal probability plot -> Chọn biến số trong ô
“Variables” (ví dụ chọn biến số Pulse1)
5
6. Lớp Phương pháp NCKH – Chương trình CUD UPNT03
Tập hợp các điểm tạo thành 1 đường. Đường biểu diễn càng nằm thẳng càng chứng tỏ
biến số này phân phối bình thường
4) Vẽ đồ thị box plot
+ Graphics -> Box plot -> Chọn biến số trong ô “Variables” (ví dụ chọn biến số
Pulse1) -> Chọn đồ thị theo dạng đứng hay nằm ngang (ví dụ chọn Orientation là
“Horizontal”)
6
7. Lớp Phương pháp NCKH – Chương trình CUD UPNT03
25% 50% 75%
Nhận xét: Kết quả cho thấy giá trị trung vị (71) hơi thấp hơn trung bình (72,9) chứng tỏ
số liệu hơi lệch về bên phải. Đồ thị histogram, normal probability plot và box plot cũng
7
8. Lớp Phương pháp NCKH – Chương trình CUD UPNT03
cho thấy số liệu hơi lệch về bên phải. Tuy nhiên, phân phối có dạng hình chuông úp
ngược, tương đối đối xứng và không quá cao hay quá dẹt, chứng tỏ số liệu phân phối gần
như bình thường.
Lưu ý: Tính phân phối bình thường của số liệu có thể được kiểm định bằng phép kiểm
Skewness and kurtosis normality test (hoặc Shapiro Wilk normality test)
+ Statistics -> Summaries, tables and tests -> Distributional plots and tests -> Skewness
and kurtosis normality test (hoặc Shapiro Wilk normality test) -> Chọn biến số trong ô
“Variables”, ví dụ chọn biến số Pulse1
Nếu giá trị p của test > 0,05 => không loại bỏ giả thiết H0 (Số liệu phân phối bình
thường).
Tuy nhiên, không nên dựa hoàn toàn vào phép kiểm này để kết luận về tính phân phối
bình thường của số liệu mà nên dựa vào nhiều cách khác, nhất là các đồ thị để kết luận về
tính phân phối bình thường của số liệu
2.4 Xử lý số liệu phân phối không bình thường
Trong hấu hết các phép kiểm thống kê mà chúng ta sử dụng, giả định (assumption) của
các phép kiểm luôn là “số liệu phân phối bình thường”. Vậy nếu số liệu phân phối không
bình thường thì sao? Cách đầu tiên là chúng ta sẽ sử dụng những phép kiểm phi tham số
(non-parametric tests). Và cách thứ hai là chúng ta “chuyển dạng” (transform) số liệu để
biến từ phân phối không bình thường thành phân phối gần như bình thường.
+ Statistics -> Summaries, tables and tests -> Distributional plots and tests -> Ladder of
powers -> Chọn biến số trong ô “Variables”, ví dụ chọn biến số Pulse1
Từ kết quả của bảng này, chúng ta có thể chọn ra 1 dạng để chuyển đổi số liệu.
Đặc điểm của các dạng chuyển đổi số liệu được trình bày ở bảng dưới đây:
2.5 Khảo sát mối liên quan giữa các biến số (sẽ được trình bày ở những bài sau)
3. Phân tích thống kê (sẽ được trình bày ở những bài sau)
8