Bài giảng 2: Thống kê mô tả
Giới thiệu về các dạng phân phối và cách lấy mẫu trong thống kê là nội dung chính trong Bài giảng 2, bao gồm:
Thống kê tỷ lệ
Phân phối thường
Phân phối chuẩn
Lấy mẫu phân phối trung vị
Lấy mẫu phân phối tỷ lệ
Lấy mẫu hạn chế trong dân số
Các tài liệu tham khảo sau đây là kiến thức cơ bản, giúp hiểu nội dung của bài giảng:
_ Patrick Dattalo, Xác định kích thước mẫu: Sự cân bằng về , sự chính xác, và tính thực tiễn, Oxford University Press Hoa Kỳ, 2008 (Chương 2 và Chương 3)
_ JAMES T. McCLAVE, P. GEORGE BENSON, TERRY SlNClCH, Khóa học đầu tiên trong số liệu thống kê kinh doanh, Prentice Hall; 8 ấn bản năm 2000 (Chương 1 và Chương 2)
_ Mario F. Triola, Thống kê cơ bản, Addison Wesley; 9 ấn bản, 2003 (Chương 6 và Chương 7)
Để biết thêm chi tiết về các hoạt động và nghiên cứu của DEPOCEN truy cập:
Website: http://depocen.org/vn/
LinkedIn: http://linkd.in/1GnHrHB
Facebook: DEPOCEN
(2) Giới thiệu về thống kê cho các ngành khoa học xã hội_Bài giảng 2: Thống kê mô tả
1. Giới thiệu về thống kê
DEPOCEN
Chương 3
Tóm tắt và mô tả số liệu
2. Các chủ đề
• Các đại lượng hướng tâm: trung bình,
trung vị, Mod, phân vị, trung bình
khoảng.
• Các đại lượng biến thiên: biên độ,
khoảng tứ vị phân, phương sai, độ lệch
chuẩn, hệ số biến thiên
• Dạng đồ thị: đối xứng, nhọn, sử dụng
hộp và phần đuôi.
3. Các đại lượng
Hướng tâm
Trung
bình Trung vị
Mod
trung bình
khoảng
Phân vị
Các đại lượng
Biến thiên
Phương sai
Độ lệch chuẩn
Hệ số biến thiênBiên độ
4. Các đại lượng hướng tâm
Các đại lượng
hướng tâm
Trung bình Trung vị Mod
Trung
bình
khoảng
n
x
n
i
i∑
=1
5. Trung bình
•Là trung bình số học của số liệu:
•Hầu hết là hướng tâm
• Bị ảnh hưởng bởi yếu tố ngoại lai
n
x
n
1i
i∑
=
n
xxx n2i +•••++
=
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14
Mean = 5 Mean = 6
=x
Sample Mean
6. Đặc trưng chính của trung bình:
1. Yêu cầu một khoảng giá trị xác định.
2. Sử dụng tất cả các giá trị.
3. Là duy nhất.
4. Tổng độ sai lệch tính từ trung bình
đến các giá trị bằng 0.
7. Minh họa tính chất 4:
xét các số liệu có giá trị: 3, 8, 4 và có
trung bình là 5.
[ ] 0)54()58()53()( =−+−+−=−Σ XX
8. Bài toán
Tính trung bình độ tuổi của học sinh?
Học sinh Tần xuất
0 đến 10 3
10 đến 20 8
20 đến 30 16
30 đến 40 10
40 đến 50 9
50 đến 60 4
Tổng 50
9. Trung bình của một nhóm số liệu
Trung bình của một mẫu số liệu được
cho ở dạng bảng phân phối tần xuất
được tính như sau:
Trong đó: f là tần số
n
Xf
X
Σ
=
10. Trung vị
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14
Median = 5 Median = 5
•Là một đại lượng hướng tâm quan trọng
•Trong một mảng có thứ tự, trung vị là số “ở
giữa”:
•Nếu n chẵn, trung vị là số ở chính giữa.
•Nếu n lẻ, trung vị là trung bình của hai số nằm
chính giữa.
•Không bị ảnh hưởng bởi giá trị ngoại lai
11. Mod
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Mode = 9
• Là một đại lượng hướng tâm
• Là giá trị xuất hiện nhiều nhất
• Không bị ảnh hưởng bởi giá trị ngoại lai
• Có thể có hoặc không có Mod
• Có thể có một vài Mod
• Được sử dụng với số liệu hoặc biến định tính
0 1 2 3 4 5 6
No Mode
12. Trung bình khoảng
•Là một đại lượng hướng tâm
•Là trung bình của giá trị lớn nhất và nhỏ
nhất quan sát được.
•Bị ảnh hưởng bởi giá trị ngoại lai
2
xx smallestestl +
= arg
Midrange
0 1 2 3 4 5 6 7 8 9
10
0 1 2 3 4 5 6 7 8 9 10
Midrange = 5 Midrange = 5
13. Điểm phân vị
• Không là đại lượng hướng tâm
• Chia khoảng số liệu có thứ tự làm 4 phần bằng nhau
•Vị trí điểm phân vị thứ i:
25% 25% 25% 25%
Q1 Q2 Q3
Q i(n+1)
i = 4
Dãy số liệu: 11 12 13 16 16 17 18 21 22
Vị trí Q1 = 2.50 Q1 =12.5= 1•(9 + 1)
4
14. Các đại lượng biến thiên
Variation
Phương sai Độ lệch chuẩn Hệ số biến thiên
Phương sai
tổng thê
Phương
sai mẫu
Độ lệch chuẩn
tổng thể
Độ lệch
chuẩn mẫu
Biên độ
Khoảng tứ vị phân
100%⋅
=
X
S
CV
( )
1n
xx
s
2
i2
−
∑ −
=
15. • là một đại lượng biến thiên
• là sự sai khác giữa giá trị lớn nhất và nhỏ
nhất của quan sát:
Range =
• không cần biết phân phối:
Biên độ
SmallestrgestLa xx −
7 8 9 10 11
12
Range = 12 - 7 = 5
7 8 9 10 11
12
Range = 12 - 7 = 5
16. Khoảng tứ vị phân
13 QQ −
Data in Ordered Array: 11 12 13 16 16 17 17 18 21
13 QQ − = 17.5 - 12.5 = 5
17. •Là một đại lượng biến thiên quan trọng
•Công thức cho tổng thể:
•Công thức cho mẫu:
Phương sai
( )
N
Xi∑ −
=
2
2 µ
σ
( )
1
2
2
−
∑ −
=
n
XX
s i
For the Population: use N in the
denominator.
For the Sample : use n - 1
in the denominator.
18. •Là đại lượng biến thiên quan trọng nhất
•Công thức cho tổng thể:
•Công thức cho mẫu:
Độ lệch chuẩn
( )
N
Xi∑ −
=
2
µ
σ
( )
1
2
−
∑ −
=
n
XX
s i
For the Population: use N in the
denominator.
For the Sample : use n - 1
in the denominator.
19. Diễn giải và sử dụng độ
lệch chuẩn
Thực nghiệm: với bất kỳ phân phối có đồ
thị đối xứng, hình “chum”:
(1) Khoảng 68% quan sát nằm trong khoảng từ giá
trị trung bình cộng/trừ 1 (lần) độ lệch chuẩn
(2) 95% quan sát nằm trong khoảng từ giá trị trung
bình cộng/trừ 2 (lần) độ lệch chuẩn
(3) 99.7% quan sát nằm trong khoảng từ giá trị
trung bình cộng/trừ 3 (lần) độ lệch chuẩn
20. Độ lệch chuẩn mẫu
( )
1
2
−
∑ −
=
n
XXi
For the Sample : use n - 1
in the denominator.
Data: 10 12 14 15 17 18 18
24
s =
n = 8 Mean =16
18
1624161816171615161416121610 2222222
−
−+−+−+−+−+−+− )()()()()()()(
= 4.2426
s
:Xi
21. So sánh các độ lệch chuẩn
( )
1
2
−
∑ −
n
XXis = = 4.2426
( )
N
Xi∑ −
=
2
µ
σ = 3.9686
Độ lệch chuẩn mẫu lớn hơn độ lệch chuẩn tổng thể.
Data : 10 12 14 15 17 18 18 24:Xi
N= 8 Mean =16
22. Comparing Standard Deviations
Mean = 15.5
s = 3.33811 12 13 14 15 16 17 18 19 20 21
11 12 13 14 15 16 17 18 19 20 21
Data B
Data A
Mean = 15.5
s = .9258
11 12 13 14 15 16 17 18 19 20 21
Mean = 15.5
s = 4.57
Data C
23. Hệ số biến thiên
•Là đại lượng biến thiên.
•Đơn vị: %
•Sử dụng để so sánh 2 hoặc nhiều nhóm
•Công thức (với mẫu):
100%⋅
=
X
S
CV
24. Hệ số biến thiên là tỉ số giữa độ lệch
chuẩn mẫu (S) và trung bình mẫu,
đơn vị tính: %
25. Ví dụ: so sánh các hệ số biến thiên
Lương: Average = $70/month
Standard Deviation = $7
Hàng hóa : Average Price last year = $100
Standard Deviation = $8
100%⋅
=
X
S
CV
Coefficient of Variation:
Lương: CV = 10%
Hàng hóa: CV = 8%
26. Dạng đồ thị
• Mô tả số liệu được phân bố như thế nào
• Các đại lượng ảnh hưởng đến dạng đồ
thị: hệ số đối xứng và độ nghiêng
Right-SkewedLeft-Skewed Symmetric
Mean = Median = ModeMean Median Mode Median MeanMode
27. Hộp và phần đuôi
Có 5 giá trị cần xác định trong một
hộp: giá trị nhỏ nhất, điểm phân vị
thứ 1, trung vị, điểm phân vị thứ
3, giá trị lớn nhất.
28. Hộp và phần đuôi
Graphical Display of Data Using
5-Number Summary
Median
4 6 8 10 12
Q3Q1 XlargestXsmallest
29. Dạng phân phối&
Hộp - phần đuôi
Right-SkewedLeft-Skewed Symmetric
Q1 Median Q3
Q1 Median Q3 Q1
Median Q3