SlideShare ist ein Scribd-Unternehmen logo
1 von 8
Downloaden Sie, um offline zu lesen
Lớp Phương pháp NCKH – Chương trình CUD UPNT03



Baøi 2 (STATA)

 SỬ DỤNG STATA 10.0 ĐỂ PHÂN TÍCH THỐNG KÊ
       TRONG NGHIÊN CỨU KHOA HỌC

            ĐẠI CƯƠNG VỀ PHÂN TÍCH SỐ LIỆU
                                                                   TS. BS Tăng Kim Hồng

Nhìn chung, tiến trình phân tích số liệu bao gồm 3 bước: quản lý số liệu, phân tích số liệu
mang tính chất thăm dò, và phân tích thống kê
1. Quản lý số liệu: bao gồm tất cả các công đoạn từ thu thập số liệu, nhập số liệu, kiểm
tra và làm sạch số liệu
2. Phân tích số liệu mang tính chất thăm dò (exploratory data analysis): là công đoạn
xem xét số liệu với các phép thống kê mô tả và các kỹ thuật vẽ đồ thị (graphs)
        2.1 Kiểm tra số liệu
Một số sai sót của số liệu có thể được phát hiện bằng việc kiểm tra nhanh với lệnh
tabulate (đối với biến số phân loại) và summarize (đồi với biến số liên tục)
        2.2 Xử lý “Các giá trị nằm ngoài” (Outliers)
Các “outliers” có thể là do:
    - Sai số trong đo lường
    - Sai số trong mã hóa dữ liệu
    - Sai số trong quá trình nghiên cứu (ví dụ là phần thu thập thêm ngoài đề cương
        nghiên cứu)
    - Giá trị thực
Khi xử lý “outliers”, ta cần phải kiểm tra lại số liệu hết sức cẩn thận trước khi thay đổi và
xử lý “outliers” như một giá trị “missing”
        2.3 Xem xét phân phối của các biến số
- Đối với biến số liên tục, mục đích là để xem biến số có phân phối bình thường hay
không. Nếu biến số phân phối bình thường thì số liệu sẽ được trình bày bằng trung bình
và độ lệch chuẩn, nếu biến số phân phối không bình thường thì số liệu sẽ được trình bày
với trung vị và [25%, 75%] (interquartile ranges). Một số biến số có phân phối không
bình thường có thể được chuyển sang dạng khác (transform)
- Đối với biến số phân loại, chúng ta có thể thấy được phân phối tần suất của các biến số,
dựa trên sự phân phối này, có thể chúng ta sẽ quyết định có gộp/nhóm lại 1 số phân loại
với nhau hay không. Biến số phân loại sẽ được trình bày dưới dạng các tỉ lệ phần trăm
+ Mở file “PULSE” để phân tích.




                                                                                           1
Lớp Phương pháp NCKH – Chương trình CUD UPNT03


Xem xét biến số liên tục có phân phối bình thường hay không?
Có một số thủ thuật để kiểm tra xem biến số liên tục có phân phối bình thường hay
không:
1) So sánh trung bình và trung vị
Nếu trung bình và trung vị xấp xỉ bằng nhau thì có nghĩa là phân phối đó phân bố một
cách đối xứng – hay nói cách khác phân phối bình thường. Để có được trung bình và
trung vị, ta cần phải chạy lệnh như sau:
+ Statistics -> Summaries, tables and tests -> Summary and descriptive statistics ->
Summary statistics -> Chọn biến số trong ô “Variables”, ví dụ chọn biến số Pulse1




Thông thường nếu chọn “standard display” thì kết quả chỉ có số trung bình, độ lệch
chuẩn, min và max
. summarize pulse1

    Variable |       Obs        Mean    Std. Dev.       Min        Max
-------------+--------------------------------------------------------
      pulse1 |        92    72.86957    11.00871         48        100

Tuy nhiên nếu chọn “display additional statistics” thì kết quả thể hiện sẽ nhiều hơn, có cả
trung bình, trung vị, độ lệch chuẩn, 25%, 75%.




                                                                                         2
Lớp Phương pháp NCKH – Chương trình CUD UPNT03




. summarize pulse1, detail
                           pulse1
-------------------------------------------------------------
      Percentiles      Smallest
 1%           48             48
 5%           58             54
10%           60             54       Obs                  92
25%           64             58       Sum of Wgt.          92

50%             71                           Mean            72.86957
                            Largest          Std. Dev.       11.00871
75%             80               94
90%             90               96          Variance        121.1916
95%             92               96          Skewness        .3908803
99%            100              100          Kurtosis        2.516723

Lưu ý: Nếu chọn lệnh “means” ta cũng có thể có được trung bình và độ lệch chuẩn kèm
theo KTC 95%
+ Statistics -> Summaries, tables and tests -> Summary and descriptive statistics ->
Means -> Chọn biến số trong ô “Variables”, ví dụ chọn biến số Pulse1

. mean pulse1
Mean estimation                            Number of obs     =       92
--------------------------------------------------------------
             |       Mean   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
      pulse1 |   72.86957   1.147737      70.58973     75.1494
--------------------------------------------------------------




                                                                                   3
Lớp Phương pháp NCKH – Chương trình CUD UPNT03


2) Vẽ histogram với đường cong thể hiện phân phối bình thường
+ Graphics -> Histogram -> Chọn biến số trong ô “Variables” (ví dụ chọn biến số
Pulse1) -> Chọn số cột (bin)ta muốn có trong đồ thị (ví dụ chọn bin = 10) -> Nếu muốn
có đường cong thể hiện phân phối bình thường thì phảichọn “Desity plots) và đánh dấu
vào ô “Add normal density plot”




                                                                                        4
Lớp Phương pháp NCKH – Chương trình CUD UPNT03




3) Vẽ đường phân phối bình thường (Normal probability plot)
+ Graphics -> Distributional graphs -> Normal probability plot -> Chọn biến số trong ô
“Variables” (ví dụ chọn biến số Pulse1)




                                                                                    5
Lớp Phương pháp NCKH – Chương trình CUD UPNT03




Tập hợp các điểm tạo thành 1 đường. Đường biểu diễn càng nằm thẳng càng chứng tỏ
biến số này phân phối bình thường
4) Vẽ đồ thị box plot
+ Graphics -> Box plot -> Chọn biến số trong ô “Variables” (ví dụ chọn biến số
Pulse1) -> Chọn đồ thị theo dạng đứng hay nằm ngang (ví dụ chọn Orientation là
“Horizontal”)



                                                                               6
Lớp Phương pháp NCKH – Chương trình CUD UPNT03




                    25% 50%          75%
Nhận xét: Kết quả cho thấy giá trị trung vị (71) hơi thấp hơn trung bình (72,9) chứng tỏ
số liệu hơi lệch về bên phải. Đồ thị histogram, normal probability plot và box plot cũng


                                                                                      7
Lớp Phương pháp NCKH – Chương trình CUD UPNT03


cho thấy số liệu hơi lệch về bên phải. Tuy nhiên, phân phối có dạng hình chuông úp
ngược, tương đối đối xứng và không quá cao hay quá dẹt, chứng tỏ số liệu phân phối gần
như bình thường.
Lưu ý: Tính phân phối bình thường của số liệu có thể được kiểm định bằng phép kiểm
Skewness and kurtosis normality test (hoặc Shapiro Wilk normality test)
+ Statistics -> Summaries, tables and tests -> Distributional plots and tests -> Skewness
and kurtosis normality test (hoặc Shapiro Wilk normality test) -> Chọn biến số trong ô
“Variables”, ví dụ chọn biến số Pulse1
Nếu giá trị p của test > 0,05 => không loại bỏ giả thiết H0 (Số liệu phân phối bình
thường).
Tuy nhiên, không nên dựa hoàn toàn vào phép kiểm này để kết luận về tính phân phối
bình thường của số liệu mà nên dựa vào nhiều cách khác, nhất là các đồ thị để kết luận về
tính phân phối bình thường của số liệu
        2.4 Xử lý số liệu phân phối không bình thường
Trong hấu hết các phép kiểm thống kê mà chúng ta sử dụng, giả định (assumption) của
các phép kiểm luôn là “số liệu phân phối bình thường”. Vậy nếu số liệu phân phối không
bình thường thì sao? Cách đầu tiên là chúng ta sẽ sử dụng những phép kiểm phi tham số
(non-parametric tests). Và cách thứ hai là chúng ta “chuyển dạng” (transform) số liệu để
biến từ phân phối không bình thường thành phân phối gần như bình thường.
+ Statistics -> Summaries, tables and tests -> Distributional plots and tests -> Ladder of
powers -> Chọn biến số trong ô “Variables”, ví dụ chọn biến số Pulse1
Từ kết quả của bảng này, chúng ta có thể chọn ra 1 dạng để chuyển đổi số liệu.
Đặc điểm của các dạng chuyển đổi số liệu được trình bày ở bảng dưới đây:




       2.5 Khảo sát mối liên quan giữa các biến số (sẽ được trình bày ở những bài sau)

3. Phân tích thống kê (sẽ được trình bày ở những bài sau)




                                                                                         8

Weitere ähnliche Inhalte

Was ist angesagt?

bảng tra phân phối chuẩn
bảng tra phân phối chuẩnbảng tra phân phối chuẩn
bảng tra phân phối chuẩnRuc Trương
 
Phát hiện và khắc phục phương sai thay đổi (heteroskedasticity) trên Eview, S...
Phát hiện và khắc phục phương sai thay đổi (heteroskedasticity) trên Eview, S...Phát hiện và khắc phục phương sai thay đổi (heteroskedasticity) trên Eview, S...
Phát hiện và khắc phục phương sai thay đổi (heteroskedasticity) trên Eview, S...vietlod.com
 
các phân phối xác xuất thường gặp
các phân phối xác xuất thường gặpcác phân phối xác xuất thường gặp
các phân phối xác xuất thường gặpKhoa Nguyễn
 
đề Thi xác suất thống kê và đáp án
đề Thi xác suất thống kê và đáp ánđề Thi xác suất thống kê và đáp án
đề Thi xác suất thống kê và đáp ánHọc Huỳnh Bá
 
quan tri kinh doạnh marketing
quan tri kinh doạnh marketingquan tri kinh doạnh marketing
quan tri kinh doạnh marketingCông Anh Bồ
 
Chuong5 KIỂM ĐỊNH PHI THAM SỐ
Chuong5 KIỂM ĐỊNH PHI THAM SỐChuong5 KIỂM ĐỊNH PHI THAM SỐ
Chuong5 KIỂM ĐỊNH PHI THAM SỐThắng Nguyễn
 
Bai 02 thong ke mo ta
Bai 02 thong ke mo taBai 02 thong ke mo ta
Bai 02 thong ke mo tatqphi
 
Bài giảng thống kê (chương ii)
Bài giảng thống kê (chương ii)Bài giảng thống kê (chương ii)
Bài giảng thống kê (chương ii)Học Huỳnh Bá
 
tổng cầu và chính sách tài khóa
tổng cầu và chính sách tài khóatổng cầu và chính sách tài khóa
tổng cầu và chính sách tài khóaLyLy Tran
 
Mô hình hồi qui đa biến
Mô hình hồi qui đa biếnMô hình hồi qui đa biến
Mô hình hồi qui đa biếnCẩm Thu Ninh
 
Bài giảng Kinh tế vi mô (Chương 1) (download tai tailieutuoi.com).ppt
Bài giảng Kinh tế vi mô (Chương 1) (download tai tailieutuoi.com).pptBài giảng Kinh tế vi mô (Chương 1) (download tai tailieutuoi.com).ppt
Bài giảng Kinh tế vi mô (Chương 1) (download tai tailieutuoi.com).pptQuoc Dung Nguyen
 
Hướng dẫn giải bài tập chuỗi - Toán cao cấp
Hướng dẫn giải bài tập chuỗi - Toán cao cấpHướng dẫn giải bài tập chuỗi - Toán cao cấp
Hướng dẫn giải bài tập chuỗi - Toán cao cấpVan-Duyet Le
 
Bài 3 lựa chọn của người tiêu dùng và cầu thị trường
Bài 3  lựa chọn của người tiêu dùng và cầu thị trườngBài 3  lựa chọn của người tiêu dùng và cầu thị trường
Bài 3 lựa chọn của người tiêu dùng và cầu thị trườngQuyen Le
 
[123doc.vn] quan tri kinh doanh dich vu fast food tai ha noi
[123doc.vn]   quan tri kinh doanh dich vu fast food tai ha noi[123doc.vn]   quan tri kinh doanh dich vu fast food tai ha noi
[123doc.vn] quan tri kinh doanh dich vu fast food tai ha noiThanh Luan
 
Mô hình keynes
Mô hình keynesMô hình keynes
Mô hình keynesvxphuc
 
sự vi phạm giả thiết của mô hình
sự vi phạm giả thiết của mô hìnhsự vi phạm giả thiết của mô hình
sự vi phạm giả thiết của mô hìnhCẩm Thu Ninh
 
Bai tap quan tri chat luong
Bai tap quan tri chat luongBai tap quan tri chat luong
Bai tap quan tri chat luongxuanduong92
 

Was ist angesagt? (20)

Su dung stata 4
Su dung stata 4Su dung stata 4
Su dung stata 4
 
bảng tra phân phối chuẩn
bảng tra phân phối chuẩnbảng tra phân phối chuẩn
bảng tra phân phối chuẩn
 
Phát hiện và khắc phục phương sai thay đổi (heteroskedasticity) trên Eview, S...
Phát hiện và khắc phục phương sai thay đổi (heteroskedasticity) trên Eview, S...Phát hiện và khắc phục phương sai thay đổi (heteroskedasticity) trên Eview, S...
Phát hiện và khắc phục phương sai thay đổi (heteroskedasticity) trên Eview, S...
 
các phân phối xác xuất thường gặp
các phân phối xác xuất thường gặpcác phân phối xác xuất thường gặp
các phân phối xác xuất thường gặp
 
đề Thi xác suất thống kê và đáp án
đề Thi xác suất thống kê và đáp ánđề Thi xác suất thống kê và đáp án
đề Thi xác suất thống kê và đáp án
 
Mô hình dự báo ARIMA
Mô hình dự báo ARIMAMô hình dự báo ARIMA
Mô hình dự báo ARIMA
 
quan tri kinh doạnh marketing
quan tri kinh doạnh marketingquan tri kinh doạnh marketing
quan tri kinh doạnh marketing
 
Chuong5 KIỂM ĐỊNH PHI THAM SỐ
Chuong5 KIỂM ĐỊNH PHI THAM SỐChuong5 KIỂM ĐỊNH PHI THAM SỐ
Chuong5 KIỂM ĐỊNH PHI THAM SỐ
 
Bai 02 thong ke mo ta
Bai 02 thong ke mo taBai 02 thong ke mo ta
Bai 02 thong ke mo ta
 
Bài giảng thống kê (chương ii)
Bài giảng thống kê (chương ii)Bài giảng thống kê (chương ii)
Bài giảng thống kê (chương ii)
 
tổng cầu và chính sách tài khóa
tổng cầu và chính sách tài khóatổng cầu và chính sách tài khóa
tổng cầu và chính sách tài khóa
 
Mô hình hồi qui đa biến
Mô hình hồi qui đa biếnMô hình hồi qui đa biến
Mô hình hồi qui đa biến
 
Bài giảng Kinh tế vi mô (Chương 1) (download tai tailieutuoi.com).ppt
Bài giảng Kinh tế vi mô (Chương 1) (download tai tailieutuoi.com).pptBài giảng Kinh tế vi mô (Chương 1) (download tai tailieutuoi.com).ppt
Bài giảng Kinh tế vi mô (Chương 1) (download tai tailieutuoi.com).ppt
 
Hướng dẫn giải bài tập chuỗi - Toán cao cấp
Hướng dẫn giải bài tập chuỗi - Toán cao cấpHướng dẫn giải bài tập chuỗi - Toán cao cấp
Hướng dẫn giải bài tập chuỗi - Toán cao cấp
 
Bài 3 lựa chọn của người tiêu dùng và cầu thị trường
Bài 3  lựa chọn của người tiêu dùng và cầu thị trườngBài 3  lựa chọn của người tiêu dùng và cầu thị trường
Bài 3 lựa chọn của người tiêu dùng và cầu thị trường
 
[123doc.vn] quan tri kinh doanh dich vu fast food tai ha noi
[123doc.vn]   quan tri kinh doanh dich vu fast food tai ha noi[123doc.vn]   quan tri kinh doanh dich vu fast food tai ha noi
[123doc.vn] quan tri kinh doanh dich vu fast food tai ha noi
 
Mô hình keynes
Mô hình keynesMô hình keynes
Mô hình keynes
 
Chương 5 Cạnh tranh và độc quyền
Chương 5 Cạnh tranh và độc quyềnChương 5 Cạnh tranh và độc quyền
Chương 5 Cạnh tranh và độc quyền
 
sự vi phạm giả thiết của mô hình
sự vi phạm giả thiết của mô hìnhsự vi phạm giả thiết của mô hình
sự vi phạm giả thiết của mô hình
 
Bai tap quan tri chat luong
Bai tap quan tri chat luongBai tap quan tri chat luong
Bai tap quan tri chat luong
 

Ähnlich wie Su dung stata 2

SPC training.pptx
SPC training.pptxSPC training.pptx
SPC training.pptxTHihi5
 
Phương pháp xử lý số liệu
Phương pháp xử lý số liệuPhương pháp xử lý số liệu
Phương pháp xử lý số liệunguoitinhmenyeu
 
Chương 2: Kiểm Soát Chất Lượng Quá Trình Bằng Thống Kê
Chương 2: Kiểm Soát Chất Lượng Quá Trình Bằng Thống KêChương 2: Kiểm Soát Chất Lượng Quá Trình Bằng Thống Kê
Chương 2: Kiểm Soát Chất Lượng Quá Trình Bằng Thống KêLe Nguyen Truong Giang
 
DSKTD - C9 - Xu ly ket qua do.pptx
DSKTD - C9 - Xu ly ket qua do.pptxDSKTD - C9 - Xu ly ket qua do.pptx
DSKTD - C9 - Xu ly ket qua do.pptxssuserc841ef
 
Các chỉ số năng lực để kiểm soát qui trình
Các chỉ số năng lực để kiểm soát qui trìnhCác chỉ số năng lực để kiểm soát qui trình
Các chỉ số năng lực để kiểm soát qui trìnhLe Nguyen Truong Giang
 
Chuong 1 tin hoc cn minitab
Chuong 1 tin hoc cn minitabChuong 1 tin hoc cn minitab
Chuong 1 tin hoc cn minitabSanSan171
 
quản trị chất lượng
quản trị chất lượngquản trị chất lượng
quản trị chất lượngTỵ Rắn
 
2_Phuong phap du bao toi uu (2).pdf
2_Phuong phap du bao  toi uu (2).pdf2_Phuong phap du bao  toi uu (2).pdf
2_Phuong phap du bao toi uu (2).pdfJane213811
 
Toán ứng dụng - QLCN Chapter 2 - P2.pptx
Toán ứng dụng - QLCN Chapter 2 - P2.pptxToán ứng dụng - QLCN Chapter 2 - P2.pptx
Toán ứng dụng - QLCN Chapter 2 - P2.pptxtub2203924
 
Suy diễn thống kê và ngôn ngữ R (4): Phân tích phương sai (ANOVA)
Suy diễn thống kê và ngôn ngữ R (4): Phân tích phương sai (ANOVA)Suy diễn thống kê và ngôn ngữ R (4): Phân tích phương sai (ANOVA)
Suy diễn thống kê và ngôn ngữ R (4): Phân tích phương sai (ANOVA)Tài Tài
 
Thống kê mô tả & Ước lượng thống kê
Thống kê mô tả & Ước lượng thống kêThống kê mô tả & Ước lượng thống kê
Thống kê mô tả & Ước lượng thống kêYen Luong-Thanh
 
Huong dan thuc_hanh_spss
Huong dan thuc_hanh_spssHuong dan thuc_hanh_spss
Huong dan thuc_hanh_spssTri Minh
 
Ung dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quanUng dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quandungln_dhbkhn
 
Ung dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quanUng dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quanNghịch Ngợm Rồng Con
 
Chương 6: Một Số Kỹ Thuật Kiểm Soát Quá Trình Khác (Spc Techniques)
Chương 6: Một Số Kỹ Thuật Kiểm Soát Quá Trình  Khác (Spc Techniques)Chương 6: Một Số Kỹ Thuật Kiểm Soát Quá Trình  Khác (Spc Techniques)
Chương 6: Một Số Kỹ Thuật Kiểm Soát Quá Trình Khác (Spc Techniques)Le Nguyen Truong Giang
 
Excel_SV2022_Ngan.pdf
Excel_SV2022_Ngan.pdfExcel_SV2022_Ngan.pdf
Excel_SV2022_Ngan.pdfTiepDinh3
 
Một số ứng dụng thống kê trong SPSS
Một số ứng dụng thống kê trong SPSSMột số ứng dụng thống kê trong SPSS
Một số ứng dụng thống kê trong SPSSBeriDang
 
Chương 4: Kiểm Đồ Thuộc Tính (Control Charts for Attributes)
Chương 4: Kiểm Đồ Thuộc Tính (Control Charts for Attributes) Chương 4: Kiểm Đồ Thuộc Tính (Control Charts for Attributes)
Chương 4: Kiểm Đồ Thuộc Tính (Control Charts for Attributes) Le Nguyen Truong Giang
 

Ähnlich wie Su dung stata 2 (20)

Su dung stata 3
Su dung stata 3Su dung stata 3
Su dung stata 3
 
SPC training.pptx
SPC training.pptxSPC training.pptx
SPC training.pptx
 
Phương pháp xử lý số liệu
Phương pháp xử lý số liệuPhương pháp xử lý số liệu
Phương pháp xử lý số liệu
 
Chương 2: Kiểm Soát Chất Lượng Quá Trình Bằng Thống Kê
Chương 2: Kiểm Soát Chất Lượng Quá Trình Bằng Thống KêChương 2: Kiểm Soát Chất Lượng Quá Trình Bằng Thống Kê
Chương 2: Kiểm Soát Chất Lượng Quá Trình Bằng Thống Kê
 
DSKTD - C9 - Xu ly ket qua do.pptx
DSKTD - C9 - Xu ly ket qua do.pptxDSKTD - C9 - Xu ly ket qua do.pptx
DSKTD - C9 - Xu ly ket qua do.pptx
 
Các chỉ số năng lực để kiểm soát qui trình
Các chỉ số năng lực để kiểm soát qui trìnhCác chỉ số năng lực để kiểm soát qui trình
Các chỉ số năng lực để kiểm soát qui trình
 
Chuong 1 tin hoc cn minitab
Chuong 1 tin hoc cn minitabChuong 1 tin hoc cn minitab
Chuong 1 tin hoc cn minitab
 
quản trị chất lượng
quản trị chất lượngquản trị chất lượng
quản trị chất lượng
 
2_Phuong phap du bao toi uu (2).pdf
2_Phuong phap du bao  toi uu (2).pdf2_Phuong phap du bao  toi uu (2).pdf
2_Phuong phap du bao toi uu (2).pdf
 
Toán ứng dụng - QLCN Chapter 2 - P2.pptx
Toán ứng dụng - QLCN Chapter 2 - P2.pptxToán ứng dụng - QLCN Chapter 2 - P2.pptx
Toán ứng dụng - QLCN Chapter 2 - P2.pptx
 
Suy diễn thống kê và ngôn ngữ R (4): Phân tích phương sai (ANOVA)
Suy diễn thống kê và ngôn ngữ R (4): Phân tích phương sai (ANOVA)Suy diễn thống kê và ngôn ngữ R (4): Phân tích phương sai (ANOVA)
Suy diễn thống kê và ngôn ngữ R (4): Phân tích phương sai (ANOVA)
 
Thống kê mô tả & Ước lượng thống kê
Thống kê mô tả & Ước lượng thống kêThống kê mô tả & Ước lượng thống kê
Thống kê mô tả & Ước lượng thống kê
 
Huong dan thuc_hanh_spss
Huong dan thuc_hanh_spssHuong dan thuc_hanh_spss
Huong dan thuc_hanh_spss
 
Ung dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quanUng dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quan
 
Ung dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quanUng dung excel trong phan tich hoi quy va tuong quan
Ung dung excel trong phan tich hoi quy va tuong quan
 
Chương 6: Một Số Kỹ Thuật Kiểm Soát Quá Trình Khác (Spc Techniques)
Chương 6: Một Số Kỹ Thuật Kiểm Soát Quá Trình  Khác (Spc Techniques)Chương 6: Một Số Kỹ Thuật Kiểm Soát Quá Trình  Khác (Spc Techniques)
Chương 6: Một Số Kỹ Thuật Kiểm Soát Quá Trình Khác (Spc Techniques)
 
Excel_SV2022_Ngan.pdf
Excel_SV2022_Ngan.pdfExcel_SV2022_Ngan.pdf
Excel_SV2022_Ngan.pdf
 
Chapter 9
Chapter 9Chapter 9
Chapter 9
 
Một số ứng dụng thống kê trong SPSS
Một số ứng dụng thống kê trong SPSSMột số ứng dụng thống kê trong SPSS
Một số ứng dụng thống kê trong SPSS
 
Chương 4: Kiểm Đồ Thuộc Tính (Control Charts for Attributes)
Chương 4: Kiểm Đồ Thuộc Tính (Control Charts for Attributes) Chương 4: Kiểm Đồ Thuộc Tính (Control Charts for Attributes)
Chương 4: Kiểm Đồ Thuộc Tính (Control Charts for Attributes)
 

Mehr von Lớp CKII ĐH Phạm Ngọc Thạch (14)

Su dung stata 1
Su dung stata 1Su dung stata 1
Su dung stata 1
 
Diem thck2 1213
Diem thck2 1213Diem thck2 1213
Diem thck2 1213
 
Trach nhiem ncv
Trach nhiem ncvTrach nhiem ncv
Trach nhiem ncv
 
Tong quan ve ncls
Tong quan ve ncls Tong quan ve ncls
Tong quan ve ncls
 
Tai lieu thiet yeu
Tai lieu thiet yeuTai lieu thiet yeu
Tai lieu thiet yeu
 
Tai lieu nguon
Tai lieu nguonTai lieu nguon
Tai lieu nguon
 
Lịch sử đạo đức học trong nc ysh
Lịch sử đạo đức học trong nc yshLịch sử đạo đức học trong nc ysh
Lịch sử đạo đức học trong nc ysh
 
Hoi dong dao duc
Hoi dong dao ducHoi dong dao duc
Hoi dong dao duc
 
Bang dong y tham gia nghien cuu
Bang dong y tham gia nghien cuuBang dong y tham gia nghien cuu
Bang dong y tham gia nghien cuu
 
Trách nhiệm của nhà tài trợ (2012)
Trách nhiệm của nhà tài trợ (2012)Trách nhiệm của nhà tài trợ (2012)
Trách nhiệm của nhà tài trợ (2012)
 
Sỏi đường mật chính_Phạm Văn Viễn
Sỏi đường mật chính_Phạm Văn ViễnSỏi đường mật chính_Phạm Văn Viễn
Sỏi đường mật chính_Phạm Văn Viễn
 
Lịch giảng lớp NCKH (CKII)
Lịch giảng lớp NCKH (CKII)Lịch giảng lớp NCKH (CKII)
Lịch giảng lớp NCKH (CKII)
 
Giáo trình Phương pháp Nghiên cứu Khoa học 1
Giáo trình Phương pháp Nghiên cứu Khoa học 1Giáo trình Phương pháp Nghiên cứu Khoa học 1
Giáo trình Phương pháp Nghiên cứu Khoa học 1
 
Giáo trình Phương pháp Nghiên cứu Khoa học 2
Giáo trình Phương pháp Nghiên cứu Khoa học 2Giáo trình Phương pháp Nghiên cứu Khoa học 2
Giáo trình Phương pháp Nghiên cứu Khoa học 2
 

Su dung stata 2

  • 1. Lớp Phương pháp NCKH – Chương trình CUD UPNT03 Baøi 2 (STATA) SỬ DỤNG STATA 10.0 ĐỂ PHÂN TÍCH THỐNG KÊ TRONG NGHIÊN CỨU KHOA HỌC ĐẠI CƯƠNG VỀ PHÂN TÍCH SỐ LIỆU TS. BS Tăng Kim Hồng Nhìn chung, tiến trình phân tích số liệu bao gồm 3 bước: quản lý số liệu, phân tích số liệu mang tính chất thăm dò, và phân tích thống kê 1. Quản lý số liệu: bao gồm tất cả các công đoạn từ thu thập số liệu, nhập số liệu, kiểm tra và làm sạch số liệu 2. Phân tích số liệu mang tính chất thăm dò (exploratory data analysis): là công đoạn xem xét số liệu với các phép thống kê mô tả và các kỹ thuật vẽ đồ thị (graphs) 2.1 Kiểm tra số liệu Một số sai sót của số liệu có thể được phát hiện bằng việc kiểm tra nhanh với lệnh tabulate (đối với biến số phân loại) và summarize (đồi với biến số liên tục) 2.2 Xử lý “Các giá trị nằm ngoài” (Outliers) Các “outliers” có thể là do: - Sai số trong đo lường - Sai số trong mã hóa dữ liệu - Sai số trong quá trình nghiên cứu (ví dụ là phần thu thập thêm ngoài đề cương nghiên cứu) - Giá trị thực Khi xử lý “outliers”, ta cần phải kiểm tra lại số liệu hết sức cẩn thận trước khi thay đổi và xử lý “outliers” như một giá trị “missing” 2.3 Xem xét phân phối của các biến số - Đối với biến số liên tục, mục đích là để xem biến số có phân phối bình thường hay không. Nếu biến số phân phối bình thường thì số liệu sẽ được trình bày bằng trung bình và độ lệch chuẩn, nếu biến số phân phối không bình thường thì số liệu sẽ được trình bày với trung vị và [25%, 75%] (interquartile ranges). Một số biến số có phân phối không bình thường có thể được chuyển sang dạng khác (transform) - Đối với biến số phân loại, chúng ta có thể thấy được phân phối tần suất của các biến số, dựa trên sự phân phối này, có thể chúng ta sẽ quyết định có gộp/nhóm lại 1 số phân loại với nhau hay không. Biến số phân loại sẽ được trình bày dưới dạng các tỉ lệ phần trăm + Mở file “PULSE” để phân tích. 1
  • 2. Lớp Phương pháp NCKH – Chương trình CUD UPNT03 Xem xét biến số liên tục có phân phối bình thường hay không? Có một số thủ thuật để kiểm tra xem biến số liên tục có phân phối bình thường hay không: 1) So sánh trung bình và trung vị Nếu trung bình và trung vị xấp xỉ bằng nhau thì có nghĩa là phân phối đó phân bố một cách đối xứng – hay nói cách khác phân phối bình thường. Để có được trung bình và trung vị, ta cần phải chạy lệnh như sau: + Statistics -> Summaries, tables and tests -> Summary and descriptive statistics -> Summary statistics -> Chọn biến số trong ô “Variables”, ví dụ chọn biến số Pulse1 Thông thường nếu chọn “standard display” thì kết quả chỉ có số trung bình, độ lệch chuẩn, min và max . summarize pulse1 Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- pulse1 | 92 72.86957 11.00871 48 100 Tuy nhiên nếu chọn “display additional statistics” thì kết quả thể hiện sẽ nhiều hơn, có cả trung bình, trung vị, độ lệch chuẩn, 25%, 75%. 2
  • 3. Lớp Phương pháp NCKH – Chương trình CUD UPNT03 . summarize pulse1, detail pulse1 ------------------------------------------------------------- Percentiles Smallest 1% 48 48 5% 58 54 10% 60 54 Obs 92 25% 64 58 Sum of Wgt. 92 50% 71 Mean 72.86957 Largest Std. Dev. 11.00871 75% 80 94 90% 90 96 Variance 121.1916 95% 92 96 Skewness .3908803 99% 100 100 Kurtosis 2.516723 Lưu ý: Nếu chọn lệnh “means” ta cũng có thể có được trung bình và độ lệch chuẩn kèm theo KTC 95% + Statistics -> Summaries, tables and tests -> Summary and descriptive statistics -> Means -> Chọn biến số trong ô “Variables”, ví dụ chọn biến số Pulse1 . mean pulse1 Mean estimation Number of obs = 92 -------------------------------------------------------------- | Mean Std. Err. [95% Conf. Interval] -------------+------------------------------------------------ pulse1 | 72.86957 1.147737 70.58973 75.1494 -------------------------------------------------------------- 3
  • 4. Lớp Phương pháp NCKH – Chương trình CUD UPNT03 2) Vẽ histogram với đường cong thể hiện phân phối bình thường + Graphics -> Histogram -> Chọn biến số trong ô “Variables” (ví dụ chọn biến số Pulse1) -> Chọn số cột (bin)ta muốn có trong đồ thị (ví dụ chọn bin = 10) -> Nếu muốn có đường cong thể hiện phân phối bình thường thì phảichọn “Desity plots) và đánh dấu vào ô “Add normal density plot” 4
  • 5. Lớp Phương pháp NCKH – Chương trình CUD UPNT03 3) Vẽ đường phân phối bình thường (Normal probability plot) + Graphics -> Distributional graphs -> Normal probability plot -> Chọn biến số trong ô “Variables” (ví dụ chọn biến số Pulse1) 5
  • 6. Lớp Phương pháp NCKH – Chương trình CUD UPNT03 Tập hợp các điểm tạo thành 1 đường. Đường biểu diễn càng nằm thẳng càng chứng tỏ biến số này phân phối bình thường 4) Vẽ đồ thị box plot + Graphics -> Box plot -> Chọn biến số trong ô “Variables” (ví dụ chọn biến số Pulse1) -> Chọn đồ thị theo dạng đứng hay nằm ngang (ví dụ chọn Orientation là “Horizontal”) 6
  • 7. Lớp Phương pháp NCKH – Chương trình CUD UPNT03 25% 50% 75% Nhận xét: Kết quả cho thấy giá trị trung vị (71) hơi thấp hơn trung bình (72,9) chứng tỏ số liệu hơi lệch về bên phải. Đồ thị histogram, normal probability plot và box plot cũng 7
  • 8. Lớp Phương pháp NCKH – Chương trình CUD UPNT03 cho thấy số liệu hơi lệch về bên phải. Tuy nhiên, phân phối có dạng hình chuông úp ngược, tương đối đối xứng và không quá cao hay quá dẹt, chứng tỏ số liệu phân phối gần như bình thường. Lưu ý: Tính phân phối bình thường của số liệu có thể được kiểm định bằng phép kiểm Skewness and kurtosis normality test (hoặc Shapiro Wilk normality test) + Statistics -> Summaries, tables and tests -> Distributional plots and tests -> Skewness and kurtosis normality test (hoặc Shapiro Wilk normality test) -> Chọn biến số trong ô “Variables”, ví dụ chọn biến số Pulse1 Nếu giá trị p của test > 0,05 => không loại bỏ giả thiết H0 (Số liệu phân phối bình thường). Tuy nhiên, không nên dựa hoàn toàn vào phép kiểm này để kết luận về tính phân phối bình thường của số liệu mà nên dựa vào nhiều cách khác, nhất là các đồ thị để kết luận về tính phân phối bình thường của số liệu 2.4 Xử lý số liệu phân phối không bình thường Trong hấu hết các phép kiểm thống kê mà chúng ta sử dụng, giả định (assumption) của các phép kiểm luôn là “số liệu phân phối bình thường”. Vậy nếu số liệu phân phối không bình thường thì sao? Cách đầu tiên là chúng ta sẽ sử dụng những phép kiểm phi tham số (non-parametric tests). Và cách thứ hai là chúng ta “chuyển dạng” (transform) số liệu để biến từ phân phối không bình thường thành phân phối gần như bình thường. + Statistics -> Summaries, tables and tests -> Distributional plots and tests -> Ladder of powers -> Chọn biến số trong ô “Variables”, ví dụ chọn biến số Pulse1 Từ kết quả của bảng này, chúng ta có thể chọn ra 1 dạng để chuyển đổi số liệu. Đặc điểm của các dạng chuyển đổi số liệu được trình bày ở bảng dưới đây: 2.5 Khảo sát mối liên quan giữa các biến số (sẽ được trình bày ở những bài sau) 3. Phân tích thống kê (sẽ được trình bày ở những bài sau) 8