SlideShare ist ein Scribd-Unternehmen logo
1 von 13
Downloaden Sie, um offline zu lesen
Lớp Phương pháp NCKH – Chương trình CUD UPNT03



Baøi 4 (STATA)

 SỬ DỤNG STATA 10.0 ĐỂ PHÂN TÍCH THỐNG KÊ
       TRONG NGHIÊN CỨU KHOA HỌC

   PHÂN TÍCH PHƯƠNG SAI (ONE-WAY ANOVA),
     TƯƠNG QUAN VÀ HỒI QUI TUYẾN TÍNH
                                                              TS. BS Tăng Kim Hồng

1. Phân tích phương sai




- Mở file “PULSE” để phân tích.
- Lệnh sử dụng trong STATA như sau:
+ Statistics -> Linear models and related -> ANOVA/MANOVA -> One-way ANOVA ->
Chọn biến số cần kiểm định (response variable) và biến số phân nhóm (factor variable)
-> Chọn loại test so sánh giữa các nhóm (Multiple-comparison tests) -> Submit
(Giả sử giả định về phân phối bình thường của biến số đã được thỏa)




                                                                                    1
Lớp Phương pháp NCKH – Chương trình CUD UPNT03




. oneway weight activity, bonferroni scheffe tab
            |          Summary of weight
   activity |        Mean   Std. Dev.       Freq.
------------+------------------------------------
          0 |          66           0           1
          1 |   65.888889   12.830086           9
          2 |   63.360656   10.773475          61
          3 |   65.047619   9.2977212          21
------------+------------------------------------
      Total |   64.021739    10.53198          92

                        Analysis of Variance
    Source              SS         df      MS            F     Prob > F
------------------------------------------------------------------------
Between groups      84.0496781      3   28.0165594      0.25     0.8638
 Within groups      10009.9068     88   113.748941
------------------------------------------------------------------------
    Total           10093.9565     91   110.922599
Bartlett's test for equal variances:         chi2(2) =   1.2830   Prob>chi2 =
0.527
note: Bartlett's test performed on cells with positive variance:
      1 single-observation cells not used




                                                                                2
Lớp Phương pháp NCKH – Chương trình CUD UPNT03


                          Comparison of weight by activity
                                     (Bonferroni)
Row Mean-|
Col Mean |          0          1          2
---------+---------------------------------
       1 |   -.111111
         |      1.000
         |
       2 |   -2.63934   -2.52823
         |      1.000      1.000
         |
       3 |   -.952381    -.84127    1.68696
           |        1.000          1.000         1.000


                          Comparison of weight by activity
                                       (Scheffe)
Row Mean-|
Col Mean |          0          1          2
---------+---------------------------------
       1 |   -.111111
         |      1.000
         |
       2 |   -2.63934   -2.52823
         |      0.996      0.931
         |
       3 |   -.952381    -.84127    1.68696
         |      1.000      0.998      0.942

Giá trị p của Bartlett’s test (test chứng minh phương sai bằng nhau) = 0.527 tức là lớn
hơn giá trị 0.05 rất nhiều, cho thấy rằng phương sai của các nhóm vận động thể lực là
tương tự nhau. Giá trị p của F test = 0.8638, chứng tỏ rằng trung bình cân nặng của các
nhóm vận động thể lực là không khác nhau.
Kết quả của test so sánh các nhóm với nhau Bonferroni hay Scheffe đều cho kết quả
tương tự. Điều này gợi ý rằng không có sự khác biệt một cách có ý nghĩa của trung bình
cân nặng giữa các nhóm có hoạt động thể lực khác nhau.
2. Tương quan
- Mở file “PULSE” để phân tích.
- Trước khi tính hệ số tương quan, chúng ta nên vẽ 1 đồ thị scatterplot để khảo sát bằng
mắt sự liên quan giũa 2 biến số
- Lệnh sử dụng trong STATA: scatter y x, trong đó biến số y tạo thành trục tung và biến
số x tạo thành trục hoành. Giả sử ta khảo sát sự liên quan giữa 2 biến số pulse1 và pulse2.
. twoway (scatter pulse2 pulse1)




                                                                                         3
Lớp Phương pháp NCKH – Chương trình CUD UPNT03




      120
      100
   pulse2
     80
      60
      40




            50           60            70            80           90           100
                                            pulse1

Đồ thị scatter plots cho thấy có sự liên quan tuyến tính giữa 2 biến số pulse1 và pulse2.




                                                                                            4
Lớp Phương pháp NCKH – Chương trình CUD UPNT03


Như trong phần lý thuyết chúng ta đã biết: nếu biến số x và y phân phối bình thường thì
tương quan giữa 2 biến số sẽ được tính bằng hệ số tương quan r – hay còn gọi hệ số
tương quan Pearson, hay còn gọi product moment correlation coeficient.
Nếu 2 biến số x và y phân phối không bình thường thì tương quan sẽ được tính bằng hệ
số tương quan Spearman
- Để tính hệ số tương quan Pearson, lệnh trong STATA như sau:
+ Statistics -> Summaries, tables, and tests -> Summary and descriptive statistics ->
Correlations and covariances -> Chọn biến số cần tính tương quan -> Submit




                                                                                     5
Lớp Phương pháp NCKH – Chương trình CUD UPNT03




- Kết quả có được như sau:
. correlate pulse1 pulse2
(obs=90)
             |   pulse1   pulse2
-------------+------------------
      pulse1 |   1.0000
      pulse2 |   0.5999   1.0000

Không giống như nhiều phần mềm khác, STATA không cho biết giá trị p của phép kiểm
chứng minh hệ số tương quan này khác không, do đó ta phải dùng cách khác để tính giá
trị p này. Trong trường hợp này p <0.001, do đó ta có thể kết luận rằng 2 biến số này thật
sự tương quan với nhau với hệ số tương quan = 0.60.
- Để tính hệ số tương quan Spearman, lệnh trong STATA như sau:
+ Statistics -> Summaries, tables, and tests -> Non-parametric tests of hypotheses ->
Spearman’s rank correlation -> Chọn biến số cần tính tương quan -> Submit




                                                                                        6
Lớp Phương pháp NCKH – Chương trình CUD UPNT03




                                                 7
Lớp Phương pháp NCKH – Chương trình CUD UPNT03


- Kết quả có được như sau:
. spearman pulse1 pulse2, stats(rho)
 Number of obs =             90
Spearman's rho =              0.6393
Test of Ho: pulse1 and pulse2 are independent
    Prob > |t| =       0.0000

Trong trường hợp này, STATA cho biết giá trị p của phép kiểm chứng minh hệ số tương
quan này khác không, do đó ta phải dùng cách khác để tính giá trị p này. Trong trường
hợp này p <0.001, do đó ta có thể kết luận rằng 2 biến số này thật sự tương quan với nhau
với hệ số tương quan = 0.64
3. Hồi qui tuyến tính đơn giản
        3.1 Phương trình hối qui tuyến tính
- Trước khi báo cáo kết quả của hồi qui tuyến tính, chúng ta phải đảm bảo rằng dữ liệu đã
thỏa các giả định (xem phần lý thuyết)
- Mở file “PULSE” để phân tích.
- Cũng giống như khi tính hệ số tương quan, trước tiên chúng ta nên vẽ 1 đồ thị
scatterplot của Y (trục tung) theo X (trục hoành).
- Giả sử ta khảo sát phương trình hồi qui của biến số chiều cao trên biến số cân nặng (cân
nặng là biến số kết quả còn chiều cao là biến số giải thích)
. twoway (scatter weight height)
            100
            80
   weight
            60
            40




                  150    160               170              180              190
                                          height

- Để thực hiện regression, lệnh trong STATA như sau:



                                                                                        8
Lớp Phương pháp NCKH – Chương trình CUD UPNT03


+ Statistics -> Linear model and related -> Linear regression -> Chọn biến số cần làm
regression -> Submit




                                                                                        9
Lớp Phương pháp NCKH – Chương trình CUD UPNT03




- Kết quả có được như sau:
. regress weight height

      Source |       SS       df       MS                    Number of obs   =       92
-------------+------------------------------                 F( 1,     90)   =   142.15
       Model | 6180.73703      1 6180.73703                  Prob > F        =   0.0000
    Residual | 3913.21949     90 43.4802166                  R-squared       =   0.6123
-------------+------------------------------                 Adj R-squared   =   0.6080
       Total | 10093.9565     91 110.922599                  Root MSE        =    6.594

------------------------------------------------------------------------------
      weight |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
      height |   .9015106    .075613    11.92   0.000     .7512921    1.051729
       _cons | -90.59713    12.98666    -6.98   0.000    -116.3974   -64.79685
------------------------------------------------------------------------------

Phần trên của bảng cho ta kết quả của sum of square (thường là không sử dụng). Chúng
ta biết được số đối tượng khảo sát là 92. Kết quả của R-squared = 0.6123, cho chúng ta
biết 61% cân nặng được giải thích bằng mối liên quan tuyến tính với chiều cao.
Phần dưới của bảng kết quả cho ta con số ước lượng của Y intercept - (a) (trong bảng kết
quả, nó được hiểu là “_cons”) và độ dốc - β. Phương trình hồi qui như sau:
 cân nặng = -90.6 + 0.9 × chiều cao.
Với phép kiểm H0: β = 0, số thống kê tính được t = 11.9, có p < 0.001, do đó ta loại bỏ
giả thiết H0 cho rằng độ dốc bằng 0, và kết luận rằng thật sự có mối liên quan tuyến tính
một cách có ý nghĩa giữa chiều cao và cân nặng.
        3.2 Tiên đoán kết quả sau khi chạy lệnh regression
Sau khi chúng ta chạy lệnh regress, STATA sẽ lưu trữ các hệ số được ước lượng và các
sai số chuẩn trong các biến số gọi là “biến số hệ thống”. Các biến số hệ thống này sẽ


                                                                                          10
Lớp Phương pháp NCKH – Chương trình CUD UPNT03


được lưu lại trong bộ nhớ cho đến khi chúng ta chạy lệnh regression khác. Các “biến số
hệ thống” này sẽ được sử dụng bởi các lệnh “predict” để tính:
• giá trị tiên đoán (predicted values),
• số dư (residuals),
• sai số chuẩn của giá trị trung bình được ước lượng của Y,
• sai số chuẩn của giá trị được ước lượng của Y.
Ví dụ để tạo ra một biến số mới được gọi là “pweigh” có chứa các giá trị tiên đoán cân
nặng dựa trên chiều cao trong bộ số liệu, ta dùng lệnh sau:
predict pweight
* Lưu ý: Lệnh predict không tạo ra kết quả nào hết, để thấy được kết quả của việc tạo ra
pweight ta dùng lệnh sum
sum weight pweight
. sum   weight pweight
    Variable |       Obs        Mean    Std. Dev.       Min        Max
-------------+--------------------------------------------------------
      weight |        92    64.02174    10.53198         42         95
     pweight |        92    64.02174     8.24137   46.43248   77.98535

4. Hồi qui tuyến tính đa biến
Bài tập: Giả sử chúng ta muốn khảo sát cân nặng ở trẻ em suy dinh dưỡng thay đổi theo
chiều cao và tuổi như thế nào. Biến số kết quả (outcome) là y = wgt và biến số giải thích
là x1 = hgt và x2 = age. Một mẫu ngẫu nhiên 12 trẻ được rút ra từ số trẻ bệnh của trại A.
Cân nặng (wgt), chiều cao (hgt) và tuổi (age) như sau:
Cân nặng (wgt) Chiều cao (hgt) Tuổi (age)
64                     57              8
71                     59              10
53                     49              6
67                     62              11
55                     51              8
58                     50              7
77                     55              10
57                     48              9
56                     42              10
51                     42              6
76                     61              12
68                     57              9
- Lệnh sử dụng trong STATA:
+ Statistics -> Multivariate analysis -> MANOVA, multivariate regression and related
-> Multivariate regression -> Nhập biến số cần chạy regression -> Submit

regress wgt hgt age




                                                                                        11
Lớp Phương pháp NCKH – Chương trình CUD UPNT03




- Kết quả có được như sau:
. regress wgt hgt age

      Source |       SS       df       MS              Number of obs =        12
-------------+------------------------------           F( 2,       9) =    15.95
       Model | 692.822607      2 346.411303            Prob > F       = 0.0011
    Residual | 195.427393      9 21.7141548            R-squared      = 0.7800
-------------+------------------------------           Adj R-squared = 0.7311
       Total |      888.25    11       80.75           Root MSE       = 4.6598
------------------------------------------------------------------------------
         wgt |      Coef.   Std. Err.       t   P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         hgt |    .722038   .2608051      2.77  0.022     .1320559       1.31202
         age |   2.050126   .9372256      2.19  0.056    -.0700253      4.170278
       _cons |   6.553048   10.94483      0.60  0.564    -18.20587      31.31197
------------------------------------------------------------------------------
Kết quả cho thấy F = 346.41/21.71 = 15.96 với (2,9) độ tự do. Giá trị p của F-test =
0.0011 gợi ý rằng chúng ta nên loại bỏ H0 và kết luận là có 1 tỉ lệ đáng kể thay đổi của
cân nặng được giải thích bởi chiều cao và tuổi.
R-squared = 0.78, cho chúng ta biết chiều cao và tuổi giải thích được 78% sự thay đổi
của cân nặng được giải thích bằng mối liên quan tuyến tính với chiều cao.
Adjusted R-square là tỉ lệ thay đổi của y được giải thích bằng phương trình hồi qui. Ở
đây, adjusted R-square = 0.73, cho thấy sau khi hiệu chỉnh R cho 2 biến số được đưa vào
mô hình, chúng ta có thể giải thích được khoảng 73% sự thay đổi của y.
Phương trình hồi qui sẽ có a= 6.55, b1 = 0.72, b2 = 2.05
Điều này có nghĩa là nếu chiều cao = 0, tuổi = 0 thì cân nặng là 6.55 pounds. Hoặc cứ
chiều cao tăng 1cm thì cân nặng tăng 0.72 pounds (nếu tuổi giữ nguyên), hoặc nếu tuổi
tăng 1 năm thì cân nặng tăng 2.95 pounds (nếu chiều cao giữ nguyên).




                                                                                     12
Lớp Phương pháp NCKH – Chương trình CUD UPNT03



                           BÀI TẬP THỰC HÀNH
Bài tập 1
Sử dụng file “lowbwt” để trả lời những câu hỏi sau đây:
a) Tạo ra đồ thị two-way scatter plot của biến số sbp (HA tâm thu) và gestage (tuổi
thai).
b) Đồ thị có đưa ra gợi ý gì về mối liên quan những biến số này không?
c) Giả sử sbp là biến số kết quả, hãy viết phương trình hồi qui thể hiện mối liên quan
giữa sbp và tuổi thai. Diễn giải the slope and the y-intercept of the line.
d) Ở mức ý nghĩa 0.05, hãy kiểm định giả thiết H0: β = 0.
e) Hãy tiên đoán HA tâm thu của thai phụ có tuổi thai là 31 tuần
Bài tập 2
1) Hãy dùng STATA để nhập số liệu sau, trong đó:
Y = Trung bình huyết áp động mạch (mm Hg)
X1 = Tuổi (năm)
X2 = Cân nặng (kg)
X3 = Diện tích bề mặt cơ thể (m2)
X4 = Thời gian bị CHA (năm)
X5 = Mạch (lần/phút)
X6 = Số đo mức độ tress




2) Những biến số nào liên quan một cách có ý nghĩa với trung bình huyết áp động mạch




                                                                                         13

Weitere ähnliche Inhalte

Was ist angesagt?

Chuong2: ƯỚC LƯỢNG THAM SỐ, môn thống kê ứng dụng
Chuong2: ƯỚC LƯỢNG THAM SỐ, môn thống kê ứng dụngChuong2: ƯỚC LƯỢNG THAM SỐ, môn thống kê ứng dụng
Chuong2: ƯỚC LƯỢNG THAM SỐ, môn thống kê ứng dụngThắng Nguyễn
 
8.phuong phap chon mau, co mau
8.phuong phap chon mau, co mau8.phuong phap chon mau, co mau
8.phuong phap chon mau, co mauthao thu
 
Khái niệm biến số và yếu tố nhiễu
Khái niệm biến số và yếu tố nhiễuKhái niệm biến số và yếu tố nhiễu
Khái niệm biến số và yếu tố nhiễuSoM
 
Bài giảng THIẾT KẾ NGHIÊN CỨU Y HỌC
Bài giảng THIẾT KẾ NGHIÊN CỨU Y HỌCBài giảng THIẾT KẾ NGHIÊN CỨU Y HỌC
Bài giảng THIẾT KẾ NGHIÊN CỨU Y HỌCTRAN Bach
 
Chapter 1 Forecasting
Chapter 1 ForecastingChapter 1 Forecasting
Chapter 1 ForecastingPhongBMT
 
Bai 02 thong ke mo ta
Bai 02 thong ke mo taBai 02 thong ke mo ta
Bai 02 thong ke mo tatqphi
 
Kiểm định giả thuyết thống kê
Kiểm định giả thuyết thống kêKiểm định giả thuyết thống kê
Kiểm định giả thuyết thống kêLe Nguyen Truong Giang
 
Kiểm định giả thuyết thống kê - Ths. Huỳnh Tú Uyên
Kiểm định giả thuyết thống kê - Ths. Huỳnh Tú UyênKiểm định giả thuyết thống kê - Ths. Huỳnh Tú Uyên
Kiểm định giả thuyết thống kê - Ths. Huỳnh Tú UyênTài liệu sinh học
 
NGHIÊN CỨU TỶ LỆ HỘI CHỨNG CHUYỂN HÓA THEO CÁC TIÊU CHUẨN IDF, ATPIII Ở NHÓM ...
NGHIÊN CỨU TỶ LỆ HỘI CHỨNG CHUYỂN HÓA THEO CÁC TIÊU CHUẨN IDF, ATPIII Ở NHÓM ...NGHIÊN CỨU TỶ LỆ HỘI CHỨNG CHUYỂN HÓA THEO CÁC TIÊU CHUẨN IDF, ATPIII Ở NHÓM ...
NGHIÊN CỨU TỶ LỆ HỘI CHỨNG CHUYỂN HÓA THEO CÁC TIÊU CHUẨN IDF, ATPIII Ở NHÓM ...Luanvanyhoc.com-Zalo 0927.007.596
 
Chuong5 KIỂM ĐỊNH PHI THAM SỐ
Chuong5 KIỂM ĐỊNH PHI THAM SỐChuong5 KIỂM ĐỊNH PHI THAM SỐ
Chuong5 KIỂM ĐỊNH PHI THAM SỐThắng Nguyễn
 
Mô hình hồi qui đa biến
Mô hình hồi qui đa biếnMô hình hồi qui đa biến
Mô hình hồi qui đa biếnCẩm Thu Ninh
 
Bài tập Xác suất thống kê
Bài tập Xác suất thống kêBài tập Xác suất thống kê
Bài tập Xác suất thống kêHọc Huỳnh Bá
 
Thống kê ứng dụng Chương 1
Thống kê ứng dụng Chương 1Thống kê ứng dụng Chương 1
Thống kê ứng dụng Chương 1Thắng Nguyễn
 
Phân tích hồi quy và ngôn ngữ R (1): Phân tích hồi quy tuyến tính
Phân tích hồi quy và ngôn ngữ R (1): Phân tích hồi quy tuyến tínhPhân tích hồi quy và ngôn ngữ R (1): Phân tích hồi quy tuyến tính
Phân tích hồi quy và ngôn ngữ R (1): Phân tích hồi quy tuyến tínhTài Tài
 
Tong hop ly thuyet thong ke
Tong hop ly thuyet thong keTong hop ly thuyet thong ke
Tong hop ly thuyet thong kelimsea33
 
Sai số ngẫu nhiên - sai số hệ thống
Sai số ngẫu nhiên - sai số hệ thốngSai số ngẫu nhiên - sai số hệ thống
Sai số ngẫu nhiên - sai số hệ thốngThanh Liem Vo
 
Các viết báo cáo một báo cáo khoa học
Các viết báo cáo một báo cáo khoa họcCác viết báo cáo một báo cáo khoa học
Các viết báo cáo một báo cáo khoa họcSoM
 

Was ist angesagt? (20)

Chuong2: ƯỚC LƯỢNG THAM SỐ, môn thống kê ứng dụng
Chuong2: ƯỚC LƯỢNG THAM SỐ, môn thống kê ứng dụngChuong2: ƯỚC LƯỢNG THAM SỐ, môn thống kê ứng dụng
Chuong2: ƯỚC LƯỢNG THAM SỐ, môn thống kê ứng dụng
 
8.phuong phap chon mau, co mau
8.phuong phap chon mau, co mau8.phuong phap chon mau, co mau
8.phuong phap chon mau, co mau
 
Khái niệm biến số và yếu tố nhiễu
Khái niệm biến số và yếu tố nhiễuKhái niệm biến số và yếu tố nhiễu
Khái niệm biến số và yếu tố nhiễu
 
Bài giảng THIẾT KẾ NGHIÊN CỨU Y HỌC
Bài giảng THIẾT KẾ NGHIÊN CỨU Y HỌCBài giảng THIẾT KẾ NGHIÊN CỨU Y HỌC
Bài giảng THIẾT KẾ NGHIÊN CỨU Y HỌC
 
Chapter 1 Forecasting
Chapter 1 ForecastingChapter 1 Forecasting
Chapter 1 Forecasting
 
Bai 02 thong ke mo ta
Bai 02 thong ke mo taBai 02 thong ke mo ta
Bai 02 thong ke mo ta
 
Kiểm định giả thuyết thống kê
Kiểm định giả thuyết thống kêKiểm định giả thuyết thống kê
Kiểm định giả thuyết thống kê
 
Kiểm định giả thuyết thống kê - Ths. Huỳnh Tú Uyên
Kiểm định giả thuyết thống kê - Ths. Huỳnh Tú UyênKiểm định giả thuyết thống kê - Ths. Huỳnh Tú Uyên
Kiểm định giả thuyết thống kê - Ths. Huỳnh Tú Uyên
 
NGHIÊN CỨU TỶ LỆ HỘI CHỨNG CHUYỂN HÓA THEO CÁC TIÊU CHUẨN IDF, ATPIII Ở NHÓM ...
NGHIÊN CỨU TỶ LỆ HỘI CHỨNG CHUYỂN HÓA THEO CÁC TIÊU CHUẨN IDF, ATPIII Ở NHÓM ...NGHIÊN CỨU TỶ LỆ HỘI CHỨNG CHUYỂN HÓA THEO CÁC TIÊU CHUẨN IDF, ATPIII Ở NHÓM ...
NGHIÊN CỨU TỶ LỆ HỘI CHỨNG CHUYỂN HÓA THEO CÁC TIÊU CHUẨN IDF, ATPIII Ở NHÓM ...
 
Chuong5 KIỂM ĐỊNH PHI THAM SỐ
Chuong5 KIỂM ĐỊNH PHI THAM SỐChuong5 KIỂM ĐỊNH PHI THAM SỐ
Chuong5 KIỂM ĐỊNH PHI THAM SỐ
 
Mô hình hồi qui đa biến
Mô hình hồi qui đa biếnMô hình hồi qui đa biến
Mô hình hồi qui đa biến
 
113 test chan doan
113 test chan doan113 test chan doan
113 test chan doan
 
Bài tập Xác suất thống kê
Bài tập Xác suất thống kêBài tập Xác suất thống kê
Bài tập Xác suất thống kê
 
Thống kê ứng dụng Chương 1
Thống kê ứng dụng Chương 1Thống kê ứng dụng Chương 1
Thống kê ứng dụng Chương 1
 
Phân tích hồi quy và ngôn ngữ R (1): Phân tích hồi quy tuyến tính
Phân tích hồi quy và ngôn ngữ R (1): Phân tích hồi quy tuyến tínhPhân tích hồi quy và ngôn ngữ R (1): Phân tích hồi quy tuyến tính
Phân tích hồi quy và ngôn ngữ R (1): Phân tích hồi quy tuyến tính
 
Tong hop ly thuyet thong ke
Tong hop ly thuyet thong keTong hop ly thuyet thong ke
Tong hop ly thuyet thong ke
 
Sai số ngẫu nhiên - sai số hệ thống
Sai số ngẫu nhiên - sai số hệ thốngSai số ngẫu nhiên - sai số hệ thống
Sai số ngẫu nhiên - sai số hệ thống
 
Các viết báo cáo một báo cáo khoa học
Các viết báo cáo một báo cáo khoa họcCác viết báo cáo một báo cáo khoa học
Các viết báo cáo một báo cáo khoa học
 
Xu ly so lieu thong ke
Xu ly so lieu thong keXu ly so lieu thong ke
Xu ly so lieu thong ke
 
bai tap co loi giai xac suat thong ke
bai tap co loi giai xac suat thong kebai tap co loi giai xac suat thong ke
bai tap co loi giai xac suat thong ke
 

Ähnlich wie Su dung stata 4

Bài tập nhóm kinh tế lượng-nhóm 5.docx
Bài tập nhóm kinh tế lượng-nhóm 5.docxBài tập nhóm kinh tế lượng-nhóm 5.docx
Bài tập nhóm kinh tế lượng-nhóm 5.docxQucBoTrn11
 
DSKTD - C9 - Xu ly ket qua do.pptx
DSKTD - C9 - Xu ly ket qua do.pptxDSKTD - C9 - Xu ly ket qua do.pptx
DSKTD - C9 - Xu ly ket qua do.pptxssuserc841ef
 
Suy diễn thống kê và ngôn ngữ R (4): Phân tích phương sai (ANOVA)
Suy diễn thống kê và ngôn ngữ R (4): Phân tích phương sai (ANOVA)Suy diễn thống kê và ngôn ngữ R (4): Phân tích phương sai (ANOVA)
Suy diễn thống kê và ngôn ngữ R (4): Phân tích phương sai (ANOVA)Tài Tài
 
Báo cáo thí nghiệm điều khiển số Tuần 1
Báo cáo thí nghiệm điều khiển số Tuần 1Báo cáo thí nghiệm điều khiển số Tuần 1
Báo cáo thí nghiệm điều khiển số Tuần 1checkitnow93
 
Tổng hợp hệ thống tự động điều chỉnh tốc độ theo sơ đồ hệ triristor - động cơ...
Tổng hợp hệ thống tự động điều chỉnh tốc độ theo sơ đồ hệ triristor - động cơ...Tổng hợp hệ thống tự động điều chỉnh tốc độ theo sơ đồ hệ triristor - động cơ...
Tổng hợp hệ thống tự động điều chỉnh tốc độ theo sơ đồ hệ triristor - động cơ...nataliej4
 
Chương 4: Kiểm Đồ Thuộc Tính (Control Charts for Attributes)
Chương 4: Kiểm Đồ Thuộc Tính (Control Charts for Attributes) Chương 4: Kiểm Đồ Thuộc Tính (Control Charts for Attributes)
Chương 4: Kiểm Đồ Thuộc Tính (Control Charts for Attributes) Le Nguyen Truong Giang
 
S dng mo_hinh_arima_trong_d_bao_gia
S dng mo_hinh_arima_trong_d_bao_giaS dng mo_hinh_arima_trong_d_bao_gia
S dng mo_hinh_arima_trong_d_bao_giaTRINH DUC
 
Điều khiển điện tử công suất DCDC bộ BUCK.pdf
Điều khiển điện tử công suất DCDC bộ BUCK.pdfĐiều khiển điện tử công suất DCDC bộ BUCK.pdf
Điều khiển điện tử công suất DCDC bộ BUCK.pdfNguynCnh45
 
Chương 6: Một Số Kỹ Thuật Kiểm Soát Quá Trình Khác (Spc Techniques)
Chương 6: Một Số Kỹ Thuật Kiểm Soát Quá Trình  Khác (Spc Techniques)Chương 6: Một Số Kỹ Thuật Kiểm Soát Quá Trình  Khác (Spc Techniques)
Chương 6: Một Số Kỹ Thuật Kiểm Soát Quá Trình Khác (Spc Techniques)Le Nguyen Truong Giang
 

Ähnlich wie Su dung stata 4 (13)

Su dung stata 3
Su dung stata 3Su dung stata 3
Su dung stata 3
 
Bài tập nhóm kinh tế lượng-nhóm 5.docx
Bài tập nhóm kinh tế lượng-nhóm 5.docxBài tập nhóm kinh tế lượng-nhóm 5.docx
Bài tập nhóm kinh tế lượng-nhóm 5.docx
 
DSKTD - C9 - Xu ly ket qua do.pptx
DSKTD - C9 - Xu ly ket qua do.pptxDSKTD - C9 - Xu ly ket qua do.pptx
DSKTD - C9 - Xu ly ket qua do.pptx
 
Mô hình dự báo ARIMA
Mô hình dự báo ARIMAMô hình dự báo ARIMA
Mô hình dự báo ARIMA
 
CHƯƠNG 6 TRÀO LƯU CÔNG SUẤT
CHƯƠNG 6 TRÀO LƯU CÔNG SUẤTCHƯƠNG 6 TRÀO LƯU CÔNG SUẤT
CHƯƠNG 6 TRÀO LƯU CÔNG SUẤT
 
Suy diễn thống kê và ngôn ngữ R (4): Phân tích phương sai (ANOVA)
Suy diễn thống kê và ngôn ngữ R (4): Phân tích phương sai (ANOVA)Suy diễn thống kê và ngôn ngữ R (4): Phân tích phương sai (ANOVA)
Suy diễn thống kê và ngôn ngữ R (4): Phân tích phương sai (ANOVA)
 
Báo cáo thí nghiệm điều khiển số Tuần 1
Báo cáo thí nghiệm điều khiển số Tuần 1Báo cáo thí nghiệm điều khiển số Tuần 1
Báo cáo thí nghiệm điều khiển số Tuần 1
 
Tổng hợp hệ thống tự động điều chỉnh tốc độ theo sơ đồ hệ triristor - động cơ...
Tổng hợp hệ thống tự động điều chỉnh tốc độ theo sơ đồ hệ triristor - động cơ...Tổng hợp hệ thống tự động điều chỉnh tốc độ theo sơ đồ hệ triristor - động cơ...
Tổng hợp hệ thống tự động điều chỉnh tốc độ theo sơ đồ hệ triristor - động cơ...
 
Chương 4: Kiểm Đồ Thuộc Tính (Control Charts for Attributes)
Chương 4: Kiểm Đồ Thuộc Tính (Control Charts for Attributes) Chương 4: Kiểm Đồ Thuộc Tính (Control Charts for Attributes)
Chương 4: Kiểm Đồ Thuộc Tính (Control Charts for Attributes)
 
S dng mo_hinh_arima_trong_d_bao_gia
S dng mo_hinh_arima_trong_d_bao_giaS dng mo_hinh_arima_trong_d_bao_gia
S dng mo_hinh_arima_trong_d_bao_gia
 
C6 Continuous System Design
C6 Continuous System Design C6 Continuous System Design
C6 Continuous System Design
 
Điều khiển điện tử công suất DCDC bộ BUCK.pdf
Điều khiển điện tử công suất DCDC bộ BUCK.pdfĐiều khiển điện tử công suất DCDC bộ BUCK.pdf
Điều khiển điện tử công suất DCDC bộ BUCK.pdf
 
Chương 6: Một Số Kỹ Thuật Kiểm Soát Quá Trình Khác (Spc Techniques)
Chương 6: Một Số Kỹ Thuật Kiểm Soát Quá Trình  Khác (Spc Techniques)Chương 6: Một Số Kỹ Thuật Kiểm Soát Quá Trình  Khác (Spc Techniques)
Chương 6: Một Số Kỹ Thuật Kiểm Soát Quá Trình Khác (Spc Techniques)
 

Mehr von Lớp CKII ĐH Phạm Ngọc Thạch (14)

Su dung stata 1
Su dung stata 1Su dung stata 1
Su dung stata 1
 
Diem thck2 1213
Diem thck2 1213Diem thck2 1213
Diem thck2 1213
 
Trach nhiem ncv
Trach nhiem ncvTrach nhiem ncv
Trach nhiem ncv
 
Tong quan ve ncls
Tong quan ve ncls Tong quan ve ncls
Tong quan ve ncls
 
Tai lieu thiet yeu
Tai lieu thiet yeuTai lieu thiet yeu
Tai lieu thiet yeu
 
Tai lieu nguon
Tai lieu nguonTai lieu nguon
Tai lieu nguon
 
Lịch sử đạo đức học trong nc ysh
Lịch sử đạo đức học trong nc yshLịch sử đạo đức học trong nc ysh
Lịch sử đạo đức học trong nc ysh
 
Hoi dong dao duc
Hoi dong dao ducHoi dong dao duc
Hoi dong dao duc
 
Bang dong y tham gia nghien cuu
Bang dong y tham gia nghien cuuBang dong y tham gia nghien cuu
Bang dong y tham gia nghien cuu
 
Trách nhiệm của nhà tài trợ (2012)
Trách nhiệm của nhà tài trợ (2012)Trách nhiệm của nhà tài trợ (2012)
Trách nhiệm của nhà tài trợ (2012)
 
Sỏi đường mật chính_Phạm Văn Viễn
Sỏi đường mật chính_Phạm Văn ViễnSỏi đường mật chính_Phạm Văn Viễn
Sỏi đường mật chính_Phạm Văn Viễn
 
Lịch giảng lớp NCKH (CKII)
Lịch giảng lớp NCKH (CKII)Lịch giảng lớp NCKH (CKII)
Lịch giảng lớp NCKH (CKII)
 
Giáo trình Phương pháp Nghiên cứu Khoa học 1
Giáo trình Phương pháp Nghiên cứu Khoa học 1Giáo trình Phương pháp Nghiên cứu Khoa học 1
Giáo trình Phương pháp Nghiên cứu Khoa học 1
 
Giáo trình Phương pháp Nghiên cứu Khoa học 2
Giáo trình Phương pháp Nghiên cứu Khoa học 2Giáo trình Phương pháp Nghiên cứu Khoa học 2
Giáo trình Phương pháp Nghiên cứu Khoa học 2
 

Su dung stata 4

  • 1. Lớp Phương pháp NCKH – Chương trình CUD UPNT03 Baøi 4 (STATA) SỬ DỤNG STATA 10.0 ĐỂ PHÂN TÍCH THỐNG KÊ TRONG NGHIÊN CỨU KHOA HỌC PHÂN TÍCH PHƯƠNG SAI (ONE-WAY ANOVA), TƯƠNG QUAN VÀ HỒI QUI TUYẾN TÍNH TS. BS Tăng Kim Hồng 1. Phân tích phương sai - Mở file “PULSE” để phân tích. - Lệnh sử dụng trong STATA như sau: + Statistics -> Linear models and related -> ANOVA/MANOVA -> One-way ANOVA -> Chọn biến số cần kiểm định (response variable) và biến số phân nhóm (factor variable) -> Chọn loại test so sánh giữa các nhóm (Multiple-comparison tests) -> Submit (Giả sử giả định về phân phối bình thường của biến số đã được thỏa) 1
  • 2. Lớp Phương pháp NCKH – Chương trình CUD UPNT03 . oneway weight activity, bonferroni scheffe tab | Summary of weight activity | Mean Std. Dev. Freq. ------------+------------------------------------ 0 | 66 0 1 1 | 65.888889 12.830086 9 2 | 63.360656 10.773475 61 3 | 65.047619 9.2977212 21 ------------+------------------------------------ Total | 64.021739 10.53198 92 Analysis of Variance Source SS df MS F Prob > F ------------------------------------------------------------------------ Between groups 84.0496781 3 28.0165594 0.25 0.8638 Within groups 10009.9068 88 113.748941 ------------------------------------------------------------------------ Total 10093.9565 91 110.922599 Bartlett's test for equal variances: chi2(2) = 1.2830 Prob>chi2 = 0.527 note: Bartlett's test performed on cells with positive variance: 1 single-observation cells not used 2
  • 3. Lớp Phương pháp NCKH – Chương trình CUD UPNT03 Comparison of weight by activity (Bonferroni) Row Mean-| Col Mean | 0 1 2 ---------+--------------------------------- 1 | -.111111 | 1.000 | 2 | -2.63934 -2.52823 | 1.000 1.000 | 3 | -.952381 -.84127 1.68696 | 1.000 1.000 1.000 Comparison of weight by activity (Scheffe) Row Mean-| Col Mean | 0 1 2 ---------+--------------------------------- 1 | -.111111 | 1.000 | 2 | -2.63934 -2.52823 | 0.996 0.931 | 3 | -.952381 -.84127 1.68696 | 1.000 0.998 0.942 Giá trị p của Bartlett’s test (test chứng minh phương sai bằng nhau) = 0.527 tức là lớn hơn giá trị 0.05 rất nhiều, cho thấy rằng phương sai của các nhóm vận động thể lực là tương tự nhau. Giá trị p của F test = 0.8638, chứng tỏ rằng trung bình cân nặng của các nhóm vận động thể lực là không khác nhau. Kết quả của test so sánh các nhóm với nhau Bonferroni hay Scheffe đều cho kết quả tương tự. Điều này gợi ý rằng không có sự khác biệt một cách có ý nghĩa của trung bình cân nặng giữa các nhóm có hoạt động thể lực khác nhau. 2. Tương quan - Mở file “PULSE” để phân tích. - Trước khi tính hệ số tương quan, chúng ta nên vẽ 1 đồ thị scatterplot để khảo sát bằng mắt sự liên quan giũa 2 biến số - Lệnh sử dụng trong STATA: scatter y x, trong đó biến số y tạo thành trục tung và biến số x tạo thành trục hoành. Giả sử ta khảo sát sự liên quan giữa 2 biến số pulse1 và pulse2. . twoway (scatter pulse2 pulse1) 3
  • 4. Lớp Phương pháp NCKH – Chương trình CUD UPNT03 120 100 pulse2 80 60 40 50 60 70 80 90 100 pulse1 Đồ thị scatter plots cho thấy có sự liên quan tuyến tính giữa 2 biến số pulse1 và pulse2. 4
  • 5. Lớp Phương pháp NCKH – Chương trình CUD UPNT03 Như trong phần lý thuyết chúng ta đã biết: nếu biến số x và y phân phối bình thường thì tương quan giữa 2 biến số sẽ được tính bằng hệ số tương quan r – hay còn gọi hệ số tương quan Pearson, hay còn gọi product moment correlation coeficient. Nếu 2 biến số x và y phân phối không bình thường thì tương quan sẽ được tính bằng hệ số tương quan Spearman - Để tính hệ số tương quan Pearson, lệnh trong STATA như sau: + Statistics -> Summaries, tables, and tests -> Summary and descriptive statistics -> Correlations and covariances -> Chọn biến số cần tính tương quan -> Submit 5
  • 6. Lớp Phương pháp NCKH – Chương trình CUD UPNT03 - Kết quả có được như sau: . correlate pulse1 pulse2 (obs=90) | pulse1 pulse2 -------------+------------------ pulse1 | 1.0000 pulse2 | 0.5999 1.0000 Không giống như nhiều phần mềm khác, STATA không cho biết giá trị p của phép kiểm chứng minh hệ số tương quan này khác không, do đó ta phải dùng cách khác để tính giá trị p này. Trong trường hợp này p <0.001, do đó ta có thể kết luận rằng 2 biến số này thật sự tương quan với nhau với hệ số tương quan = 0.60. - Để tính hệ số tương quan Spearman, lệnh trong STATA như sau: + Statistics -> Summaries, tables, and tests -> Non-parametric tests of hypotheses -> Spearman’s rank correlation -> Chọn biến số cần tính tương quan -> Submit 6
  • 7. Lớp Phương pháp NCKH – Chương trình CUD UPNT03 7
  • 8. Lớp Phương pháp NCKH – Chương trình CUD UPNT03 - Kết quả có được như sau: . spearman pulse1 pulse2, stats(rho) Number of obs = 90 Spearman's rho = 0.6393 Test of Ho: pulse1 and pulse2 are independent Prob > |t| = 0.0000 Trong trường hợp này, STATA cho biết giá trị p của phép kiểm chứng minh hệ số tương quan này khác không, do đó ta phải dùng cách khác để tính giá trị p này. Trong trường hợp này p <0.001, do đó ta có thể kết luận rằng 2 biến số này thật sự tương quan với nhau với hệ số tương quan = 0.64 3. Hồi qui tuyến tính đơn giản 3.1 Phương trình hối qui tuyến tính - Trước khi báo cáo kết quả của hồi qui tuyến tính, chúng ta phải đảm bảo rằng dữ liệu đã thỏa các giả định (xem phần lý thuyết) - Mở file “PULSE” để phân tích. - Cũng giống như khi tính hệ số tương quan, trước tiên chúng ta nên vẽ 1 đồ thị scatterplot của Y (trục tung) theo X (trục hoành). - Giả sử ta khảo sát phương trình hồi qui của biến số chiều cao trên biến số cân nặng (cân nặng là biến số kết quả còn chiều cao là biến số giải thích) . twoway (scatter weight height) 100 80 weight 60 40 150 160 170 180 190 height - Để thực hiện regression, lệnh trong STATA như sau: 8
  • 9. Lớp Phương pháp NCKH – Chương trình CUD UPNT03 + Statistics -> Linear model and related -> Linear regression -> Chọn biến số cần làm regression -> Submit 9
  • 10. Lớp Phương pháp NCKH – Chương trình CUD UPNT03 - Kết quả có được như sau: . regress weight height Source | SS df MS Number of obs = 92 -------------+------------------------------ F( 1, 90) = 142.15 Model | 6180.73703 1 6180.73703 Prob > F = 0.0000 Residual | 3913.21949 90 43.4802166 R-squared = 0.6123 -------------+------------------------------ Adj R-squared = 0.6080 Total | 10093.9565 91 110.922599 Root MSE = 6.594 ------------------------------------------------------------------------------ weight | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- height | .9015106 .075613 11.92 0.000 .7512921 1.051729 _cons | -90.59713 12.98666 -6.98 0.000 -116.3974 -64.79685 ------------------------------------------------------------------------------ Phần trên của bảng cho ta kết quả của sum of square (thường là không sử dụng). Chúng ta biết được số đối tượng khảo sát là 92. Kết quả của R-squared = 0.6123, cho chúng ta biết 61% cân nặng được giải thích bằng mối liên quan tuyến tính với chiều cao. Phần dưới của bảng kết quả cho ta con số ước lượng của Y intercept - (a) (trong bảng kết quả, nó được hiểu là “_cons”) và độ dốc - β. Phương trình hồi qui như sau: cân nặng = -90.6 + 0.9 × chiều cao. Với phép kiểm H0: β = 0, số thống kê tính được t = 11.9, có p < 0.001, do đó ta loại bỏ giả thiết H0 cho rằng độ dốc bằng 0, và kết luận rằng thật sự có mối liên quan tuyến tính một cách có ý nghĩa giữa chiều cao và cân nặng. 3.2 Tiên đoán kết quả sau khi chạy lệnh regression Sau khi chúng ta chạy lệnh regress, STATA sẽ lưu trữ các hệ số được ước lượng và các sai số chuẩn trong các biến số gọi là “biến số hệ thống”. Các biến số hệ thống này sẽ 10
  • 11. Lớp Phương pháp NCKH – Chương trình CUD UPNT03 được lưu lại trong bộ nhớ cho đến khi chúng ta chạy lệnh regression khác. Các “biến số hệ thống” này sẽ được sử dụng bởi các lệnh “predict” để tính: • giá trị tiên đoán (predicted values), • số dư (residuals), • sai số chuẩn của giá trị trung bình được ước lượng của Y, • sai số chuẩn của giá trị được ước lượng của Y. Ví dụ để tạo ra một biến số mới được gọi là “pweigh” có chứa các giá trị tiên đoán cân nặng dựa trên chiều cao trong bộ số liệu, ta dùng lệnh sau: predict pweight * Lưu ý: Lệnh predict không tạo ra kết quả nào hết, để thấy được kết quả của việc tạo ra pweight ta dùng lệnh sum sum weight pweight . sum weight pweight Variable | Obs Mean Std. Dev. Min Max -------------+-------------------------------------------------------- weight | 92 64.02174 10.53198 42 95 pweight | 92 64.02174 8.24137 46.43248 77.98535 4. Hồi qui tuyến tính đa biến Bài tập: Giả sử chúng ta muốn khảo sát cân nặng ở trẻ em suy dinh dưỡng thay đổi theo chiều cao và tuổi như thế nào. Biến số kết quả (outcome) là y = wgt và biến số giải thích là x1 = hgt và x2 = age. Một mẫu ngẫu nhiên 12 trẻ được rút ra từ số trẻ bệnh của trại A. Cân nặng (wgt), chiều cao (hgt) và tuổi (age) như sau: Cân nặng (wgt) Chiều cao (hgt) Tuổi (age) 64 57 8 71 59 10 53 49 6 67 62 11 55 51 8 58 50 7 77 55 10 57 48 9 56 42 10 51 42 6 76 61 12 68 57 9 - Lệnh sử dụng trong STATA: + Statistics -> Multivariate analysis -> MANOVA, multivariate regression and related -> Multivariate regression -> Nhập biến số cần chạy regression -> Submit regress wgt hgt age 11
  • 12. Lớp Phương pháp NCKH – Chương trình CUD UPNT03 - Kết quả có được như sau: . regress wgt hgt age Source | SS df MS Number of obs = 12 -------------+------------------------------ F( 2, 9) = 15.95 Model | 692.822607 2 346.411303 Prob > F = 0.0011 Residual | 195.427393 9 21.7141548 R-squared = 0.7800 -------------+------------------------------ Adj R-squared = 0.7311 Total | 888.25 11 80.75 Root MSE = 4.6598 ------------------------------------------------------------------------------ wgt | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- hgt | .722038 .2608051 2.77 0.022 .1320559 1.31202 age | 2.050126 .9372256 2.19 0.056 -.0700253 4.170278 _cons | 6.553048 10.94483 0.60 0.564 -18.20587 31.31197 ------------------------------------------------------------------------------ Kết quả cho thấy F = 346.41/21.71 = 15.96 với (2,9) độ tự do. Giá trị p của F-test = 0.0011 gợi ý rằng chúng ta nên loại bỏ H0 và kết luận là có 1 tỉ lệ đáng kể thay đổi của cân nặng được giải thích bởi chiều cao và tuổi. R-squared = 0.78, cho chúng ta biết chiều cao và tuổi giải thích được 78% sự thay đổi của cân nặng được giải thích bằng mối liên quan tuyến tính với chiều cao. Adjusted R-square là tỉ lệ thay đổi của y được giải thích bằng phương trình hồi qui. Ở đây, adjusted R-square = 0.73, cho thấy sau khi hiệu chỉnh R cho 2 biến số được đưa vào mô hình, chúng ta có thể giải thích được khoảng 73% sự thay đổi của y. Phương trình hồi qui sẽ có a= 6.55, b1 = 0.72, b2 = 2.05 Điều này có nghĩa là nếu chiều cao = 0, tuổi = 0 thì cân nặng là 6.55 pounds. Hoặc cứ chiều cao tăng 1cm thì cân nặng tăng 0.72 pounds (nếu tuổi giữ nguyên), hoặc nếu tuổi tăng 1 năm thì cân nặng tăng 2.95 pounds (nếu chiều cao giữ nguyên). 12
  • 13. Lớp Phương pháp NCKH – Chương trình CUD UPNT03 BÀI TẬP THỰC HÀNH Bài tập 1 Sử dụng file “lowbwt” để trả lời những câu hỏi sau đây: a) Tạo ra đồ thị two-way scatter plot của biến số sbp (HA tâm thu) và gestage (tuổi thai). b) Đồ thị có đưa ra gợi ý gì về mối liên quan những biến số này không? c) Giả sử sbp là biến số kết quả, hãy viết phương trình hồi qui thể hiện mối liên quan giữa sbp và tuổi thai. Diễn giải the slope and the y-intercept of the line. d) Ở mức ý nghĩa 0.05, hãy kiểm định giả thiết H0: β = 0. e) Hãy tiên đoán HA tâm thu của thai phụ có tuổi thai là 31 tuần Bài tập 2 1) Hãy dùng STATA để nhập số liệu sau, trong đó: Y = Trung bình huyết áp động mạch (mm Hg) X1 = Tuổi (năm) X2 = Cân nặng (kg) X3 = Diện tích bề mặt cơ thể (m2) X4 = Thời gian bị CHA (năm) X5 = Mạch (lần/phút) X6 = Số đo mức độ tress 2) Những biến số nào liên quan một cách có ý nghĩa với trung bình huyết áp động mạch 13