SlideShare ist ein Scribd-Unternehmen logo
1 von 51
TRUNG TÂM NGHIÊN CỨU CHÍNH SÁCH VÀ PHÁT
TRIỂN
GiỚI THIỆU PHẦN MỀM XỬ
LÝ SỐ LIỆU STATA
Quản lý số liệu trong Stata
Log file
• Sử dụng log file:
– Nếu bạn muốn ghi lại tất cả những gì bạn làm?
– Chúng ta sử dụng log file.
– Logfile chứa các câu lệnh và bảng kết quả, không chứa biểu đồ, đồ
thị.
• Để mở một log file: Từ menu vào File – Log – Begin
hoặc gõ trực tiếp log using ten_log tại dòng lệnh.
 log using filename [, append replace [text|smcl]]
• Đuôi mở rộng của log file: .log; .smcl; .doc
• Đóng logfile sử dụng câu lệnh
 log close
Quản lý số liệu trong Stata
Tạo dataset
• Một vài câu lệnh trong phần này: use, browse, edit, format,
generate, list, merge, append, replace, save, set, sort, tabulate,
label, keep, drop.
• Tạo một dataset:
 set obs #: tạo một dataset mới với số # quan sát và chưa có bất kỳ biến nào.
 dùng lệnh tạo biến generate.
 Tạo mới: gõ edit tại dòng lệnh (ctrl + 7) hoặc Window  data editor.  Cú
pháp: edit [varlist] [if] [in] [, nolabel]
• Mở dataset:
– Mở một data hệ thống: sysuse Ten_data_hethong
– File đã có sẵn (File  Open) hoặc dùng lệnh (use, clear)
– Sử dụng dataset trên mạng: webuse
• Lưu dataset với save và saveold (dùng cho các version 8,9)
 save [filename] [, save_options]
• Xem dữ liệu (browser)
 browse [varlist] [if] [in] [, nolabel]
Quản lý số liệu trong Stata
Tạo dataset
• sysuse auto (s d ng m t s d li u s n có trongử ụ ộ ố ữ ệ ẵ
Stata)
• Chúng ta có th xem các s li u: Fileể ố ệ Example
datasets
Quản lý số liệu trong Stata
Tạo dataset
S d ng dataset trên m ngử ụ ạ
webuse lifeexp : S d ng lifeexp đ c l u t iử ụ ượ ư ạ
http://www.stata-press.com/data/r10
Quản lý số liệu trong Stata
Import dữ liệu
S d ng StatTransferử ụ
S d ng câu l nh insheetử ụ ệ
S d ng câu lênh odbcử ụ
Quản lý số liệu trong Stata
StatTransfer
Quản lý số liệu trong Stata
insheet
• Đ c các file d li u t đ nh d ng text b ng insheetọ ữ ệ ừ ị ạ ằ
insheet [varlist] using filename [, options]
M t s options:ộ ố
– [no] double: xác đ nh ki u d li u double (m c đ nh), n u không có thì ki uị ể ữ ệ ặ ị ế ể
d li u s là float.ữ ệ ẽ
– tab: Các giá tr trong s li u cách nhau b i tabị ố ệ ở
– comma: Các giá tr cách nhau b i d u ph yị ở ấ ẩ
– delimiter( “char”): Chúng ta có th xác đ nh kí t trong s li uể ị ự ố ệ
– clear: xóa s li u trong b nhố ệ ộ ớ
– [no] names: m c đ nh tên bi n là dòng đ u tiên. N u b n xác đ nh no thìặ ị ế ầ ế ạ ị
ng c l iượ ạ
Quản lý số liệu trong Stata
insheet (tiếp)
Đ bi t đ c lo i file d li u đ nh d ng theo cáchể ế ượ ạ ữ ệ ị ạ
nào  gõ type “tên_file”
Ví d :ụ
type “đ ng_d n_fem.dat”ườ ẫ  Xem d li u theo đ nh d ng lo i gìữ ệ ị ạ ạ
insheet using "E:ebookstataLectureData exampleHandbook of
Statafem.dat“, tab
T menu: Fileừ  Import  ASCII data created by a
sheet
Quản lý số liệu trong Stata
odbc
Các b n s d ng câu l nh odbc cho excelạ ử ụ ệ
odbc load, dsn("Excel Files;DBQ=d:Book1.xls")
table("Sheet1$")
File  Import  ODBC data source  ch n MSọ
excel (ch n đ ng d n đ n file excel)ọ ườ ẫ ế
Quản lý số liệu trong Stata (tiếp)
Biến
Một số quy ước: độ dài tối đa của biến là 32 kí tự, nhãn
để mô tả biến có độ dài tối đa là 224 kí tự.
Tạo biến (generate)
Gán label và value label cho biến?
Quản lý số liệu trong Stata (tiếp)
Biến
Có 2 cách gán giá tr và label c a bi nị ủ ế
 Dùng menu
 Dùng giao di n dòng l nhệ ệ
Quản lý số liệu trong Stata (tiếp)
Biến (dùng menu)
generate q1=. (T o ra bi n q1 và gán cho bi nạ ế ế
q1 giá tr missingị )
Gán nhãn cho bi n: Dataế  Labels  Label
variable
Quản lý số liệu trong Stata (tiếp)
Biến (dùng menu)
Đ nh nghĩa m t nhãn giá tr : Dataị ộ ị  Labels
Label values  Define or modify value labels
Quản lý số liệu trong Stata (tiếp)
Biến(dùng menu)
Bây gi , khi đã đ nh nghĩa m t tên nhãn giá trờ ị ộ ị
(yesno), chúng ta ph i gán cho m t bi n nào đó?ả ộ ế
(q1)
Vào Data  Labels Label Values  Assign value
label to variable
Quản lý số liệu trong Stata (tiếp)
Biến( giao diện dòng lệnh)
Thao tác v i t i dòng l nhớ ạ ệ
label variable q1 “B n đã l p gia đình ch a?”ạ ậ ư
label define yesno 1 “yes” 2 “no”
label values q1 yesno
N u chúng ta mu n thêm nhãn giá tr cho bi n q1, ta làmế ố ị ế
nh sau:ư
label define yesno 8 “don’t know”,add
N u chúng ta ch nh s a nhãn giá tr cho bi n q1, ta làm nhế ỉ ử ị ế ư
sau:
label define yesno 8 “No Responding", modify
Quản lý số liệu trong Stata (tiếp)
Một số thao tác trên biến
Mô tả cấu trúc dữ liệu hoặc biến ? (describe)
des varlist
Để đổi tên biến: rename old_var new_var.
Muốn xóa một biến trong Stata? (drop hoặc keep)
Ngược lại với drop là keep
drop var1 [var2….]
drop if var1 >=15
Quản lý số liệu trong Stata (tiếp)
Cấu trúc của file dữ liệu
M t ai đó đ a cho chúng ta m t d li u màộ ư ộ ữ ệ
không có b ng h i, chúng ta mu n ki m tra c uả ỏ ố ể ấ
trúc d li u, các kho ng giá tr c a bi n, các nhãnữ ệ ả ị ủ ế
c a bi n, các nhãn c a giá trủ ế ủ ị
S d ng:ử ụ
 codebook2 ho c codebook: hi n th codebook c a d li uặ ể ị ử ữ ệ
 describe: mô t s li u ho c mô t bi n nh đã gi i thi uả ố ệ ặ ả ế ư ớ ệ ở
trên
 list: dùng đ hi n th giá tr c a bi n trên màn hình k t quể ể ị ị ủ ế ế ả
(th ng k t h p v i if, in)ườ ế ợ ớ
Quản lý số liệu trong Stata (tiếp)
Chuyển biến kiểu số sang chuỗi và ngược lại
destring: chuy n bi n ki u chu i (kí t ) sang bi nể ế ể ỗ ự ế
ki u sể ố
destring [varlist] , {generate(newvarlist)|replace} [destring_options]
tostring: chuy n bi n ki u s sang ki u chu iể ế ể ố ể ỗ
tostring varlist , {generate(newvarlist)|replace} [tostring_options]
Ví dụ: sử dụng số liệu destring1.dta, tostring.dta
Chúng ta có thể cộng 2 hay nhiều biến string được với
nhau.
Quản lý số liệu trong Stata (tiếp)
Hàm định dạng - format
Cú pháp: format varlist %fmt
V i %fmt:ớ
 %w.df: w là chi u dài c a s đó, d là s ch s sau ph n th p phânề ủ ố ố ữ ố ầ ậ
ví d : 1.5235 n u đ nh d ng %8.2fụ ế ị ạ  1.52
 %w.0g: w chi u dài c a s đóề ủ ố
 int %8.0g
 byte %8.0g
 long %12.0g
 float %9.0g
 double %10.0g
 str# %#s
Ví d : s d ng s li u autoụ ử ụ ố ệ
sysuse auto
format length %9.0g
Quản lý số liệu trong Stata (tiếp)
Hàm toán học và Toán tử
Chúng ta muốn tính toán, hiển thị kết quả như một máy
tính: display
Các hàm toán h c: mod(x,y), sign(x), max(x1,x2, …ọ
x3)
Ví d : Mu n l y ph n d c a 5 chia cho 2ụ ố ấ ầ ư ủ
display mod(5,2)  k t qu b ng 1ế ả ằ
Kết hợp lệnh gen với các hàm toán học
ví d : gen phandu = mod(5,2)ụ
Quản lý số liệu trong Stata (tiếp)
Hàm toán học và Toán tử
Trước tiên, chúng phải biết các toán tử so sánh và toán
tử logic và các phép cộng, trừ, nhân…
Toán tử Ý nghĩa
== So sánh bằng
!= (~=) So sánh không bằng
> Lớn hơn
< Nhỏ hơn
>= Lớn hơn hoặc bằng
<= Nhỏ hơn hoặc bằng
& And
| Or
!(~) not
Quản lý số liệu trong Stata (tiếp)
if và in
Cú pháp lệnh if
if biểu_thức
Ví dụ: Số liệu “stock 2 final.dta”.
summarize q1 if q34 ==1
Chúng ta có thể kết hợp các toán tử với lệnh generate và
replace.
Ví dụ:
gen var1 = 3^2 * 5 và
replace var1 = 1 if var1 ==.
Quản lý số liệu trong Stata (tiếp)
if và in
Cú pháp: cau_lenh in khoang
Kho ng:ả
#: Hi n th giá tr c a bi n th #ể ị ị ủ ế ứ
#/#: t v tr nào đ n v trí nàoừ ị ị ế ị
f/#: t v trí đ u tiên đ n v trí #ừ ị ầ ế ị
#/l(last): t v trí # đ n cu iừ ị ế ố
Ví d :ụ
list q1 1/10  hi n th giá tr c a q1 t v trí 1 đ n 10ể ị ị ủ ừ ị ế
Quản lý số liệu trong Stata (tiếp)
egen
Là hàm m r ng c a generateở ộ ủ
Cú pháp
egen [type] newvar = fcn(arguments) [if] [in] [, options]
Ví d : Tính t ng thu nh p ngoài ti n công, l ng tụ ổ ậ ề ươ ừ
câu 12a đ n câu 12e (muc4a.dta)ế
 B n dùng help egen t i dòng l nh đ tìm hi uạ ạ ệ ể ể
thêm các option c a l nh egen.ủ ệ
Quản lý số liệu trong Stata (tiếp)
Mã hóa lại biến
Chúng ta c n mã hóa l i bi n. Ví d bi n q1 đ cầ ạ ế ụ ế ượ
gán v i nhãn giá tr là yesno (recode).ớ ị
recode q1 (1=0) (2=1)
T ng v i l nh replace k t h p v i ifươ ớ ệ ế ợ ớ
replace q1=0 if q1==1
replace q1 = 1 if q1 == 2
Chúng ta mu n t o ra m t bi n m i new và nhãn giáố ạ ộ ế ớ
tr new_q1.ị
recode q1 (1=0 “yes”) (2=1 “no”), pre(new)
label(new_q1)
Quản lý số liệu trong Stata (tiếp)
Mã hóa lại biến
M t câu h i đ t ra là chúng ta mu n recode bi nộ ỏ ặ ố ế
theo kho ng giá tr c a bi n đó? ta làm nh thả ị ủ ế ư ế
nào?
Ví d bi n tu i (age): 0 – 17: 1ụ ế ổ  D i đ tu iướ ộ ổ
lao đ ng; 18-65:2ộ  Đ tu i lao đ ng; 67 tr đi:ộ ổ ộ ở
3  Ngoài đ tu i lao đ ng; và t o ra m t bi nộ ổ ộ ạ ộ ế
m i là newage và nhãn giá tr new_ageớ ị
recode age (0/17 = 1 “D i đ tu i lao đ ng”)ướ ộ ổ ộ
(18/65=2 “Đ tu i lao đ ng”) (65/105 = 3 “Ngoàiộ ổ ộ
đ tu i lao đ ng”), pre(newage) label(new_age)ộ ổ ộ
Quản lý số liệu trong Stata (tiếp)
Mã hóa lại biến (Bài tập)
Dùng s li u VHLSS06 (ph n thông tin chung)ố ệ ầ
muc1a.dta
Câu h i:ỏ
 Tính tu i thành viên(indage) t năm sinhổ ừ
 Gi i tính c a ch h (hhsex)ớ ủ ủ ộ
 T ng s con (hhchild) c a ch hổ ố ủ ủ ộ
Quản lý số liệu trong Stata (tiếp)
Quản lý bộ nhớ
Mặc định Stata thiết lập bộ nhớ là 10MB, nhưng nếu dữ
liệu của bạn lớn hơn 10MB thì sao? (set mem kich_cỡ) –
set mem 120m.
Muốn màn hình kết quả hiển thị tất cả kết quả mà không
có more? set more off  Câu lệnh này rất được hay dùng
trong dofile.
Quản lý số liệu trong Stata (tiếp)
Một số ép kiểu dữ liệu
Hàm int(), float(), string(). chúng ta muốn ép từ kiểu
dữ liệu này sang kiểu dữ liệu khác  Vậy nó khác gì
với các hàm chuyển kiểu như destring() và tostring()?
Ví dụ: display int(3.45)  kết quả sẽ là 3
Khoảng biến: var1-var5 (var1 var2 var3 var4 var5).
Bạn cũng có thể dùng các kí tự ?, * để thay thế cho các
kí tự; ví dụ: var* - sẽ tìm tất cả các biến bắt đầu bằng
var.
Quản lý số liệu trong Stata (tiếp)
Nối số liệu
Nối 2 hay nhiều file dữ liệu stata (append hoặc merge).
Nối 2 số liệu theo observation (case) ta sử dụng append.
Nối 2 số liệu theo biến ta sử dụng merge (chú ý khi trước
khi sử dụng lệnh merge thì cả 2 số liệu phải được sắp xếp
– lệnh sort).
Quản lý số liệu trong Stata (tiếp)
Nối số liệu (append)
Cú pháp:
append using filename [, options]
options:
keep(varlist)  Chúng ta có th ch n i m t s bi n c th t s li uể ỉ ố ộ ố ế ụ ể ừ ố ệ
using đ c xác đ nh trong varlist, n u không có xác đ nh keep thì m cượ ị ế ị ặ
đ nh là t t c các bi n s đ c n i.ị ấ ả ế ẽ ượ ố
S d ng 2 s li u even.dta và odd.dtaử ụ ố ệ
use Đ ng_d n_đ n s li u odd.dtaườ ẫ ế ố ệ
append using Đ ng_d n_đ n_s _li u even.dtaườ ẫ ế ố ệ
list  Hi n th k t qu sau khi n i.ể ị ế ả ố
Quản lý số liệu trong Stata (tiếp)
Nối số liệu
Trong lệnh merge số liệu master là trong bộ nhớ, còn số
liệu using là dữ liệu để merge vào.
merge [varlist] using filename [filename ...] [, options]
Mặc định tạo ra biến _merge nhận 3 giá trị
 1 Quan sát chỉ có trong số liệu master
 2 Quan sát chỉ có trong số liệu using
 3 Quan sát có cả trong master và using
Merge bạn có thể quan hệ 1-1, 1-nhiều, nhiều nhiều
Quản lý số liệu trong Stata (tiếp)
Nối số liệu
Ví d 1: n i 1-1, tr c khi n i ta ph i sort s li uụ ố ướ ố ả ố ệ
tr c. Chúng ta v n s d ng 2 s li u even.dta vàướ ẫ ử ụ ố ệ
odd.dta
use “Đ ng_d n_ch a_file_even.dta”,clearườ ẫ ứ
merge using “Đ ng_d n_ch a_file_odd.dta”ườ ẫ ứ
đây, file even.dta là master file, còn file odd.dta là using fileỞ
Ví d 2: s d ng bi n đ n i ( th ng là bi n id)ụ ử ụ ế ể ố ườ ế
use “Đ ng_d n_ch a_file_even.dta”,clearườ ẫ ứ
sort number // s p s li u theo chi u tăng d n c a bi n numberắ ố ệ ề ầ ủ ế
save, replace // l u và thay s li u trong fileư ố ệ
use “Đ ng_d n_ch a_file_odd2.dta”,clearườ ẫ ứ  là s li u master.ố ệ
sort number // s p s li u theo chi u tăng d n c a bi n numberắ ố ệ ề ầ ủ ế
merge number using “Đ ng_d n_ch a_file_even.dta”ườ ẫ ứ
Quản lý số liệu trong Stata (tiếp)
Nối số liệu
Ví d 3: merge 2 s li u province và merge provinceụ ố ệ
(master).  chúng ta s n i theo bi n procode.ẽ ố ế
Quản lý số liệu trong Stata (tiếp)
Tạo số ngẫu nhiên
Tạo dữ liệu ngẫu nhiên và mẫu ngẫu nhiên.
Một số hàm:
 uniform() tạo số ngẫu nhiên trong khoảng (0,1).
 set obs rownum: thiết lập số observation cho một dữ liệu
 set seed số_bất_kỳ: có tác dụng biết số ngẫu nhiên đó lần sau.
 sample: lấy số liệu ngẫu nhiên từ dữ liệu sẵn có. sample có 2 dạng là
chọn theo %; sample n(phần trăm) và chọn theo số lượng; sample n,
count
Quản lý số liệu trong Stata (tiếp)
Sử dụng biến hệ thống
Khi s li u đã có trong b nh thì _N đ i di n choố ệ ộ ớ ạ ệ
t ng s quan sátổ ố
_n đ i di n cho quan sát s : _n=1 quan sát th nh t,ạ ệ ố ứ ấ
_n=2 cho quan sát th hai, đ n _n=_N cho quan sátứ ế
cu i cùng.ố
Chúng ta có th ng d ng _n đ t o ch m c.ể ứ ụ ể ạ ỉ ụ
gen caseID = _n
Quản lý số liệu trong Stata (tiếp)
Sử dụng biến hệ thống
Trong stata còn cho phép hi n th d li u c a m tể ị ữ ệ ủ ộ
ô c th trong d li u.ụ ể ữ ệ
Bi n h th ng _n còn có ng d ng trong d li uế ệ ố ứ ụ ữ ệ
d ng series. N u chúng ta có d li u hàng ngày vạ ế ữ ệ ề
giá c a m t c phi u c th trên th tr ng ch ngủ ộ ổ ế ụ ể ị ườ ứ
khoán v i tên bi n là open. Nh v y, chúng taớ ế ư ậ
mu n tính giao đ ng giá c a ngày hôm sau so v iố ộ ủ ớ
hôm tr c:ướ
sysuse sp500
gen difopen = open – open[_n-1]
Bài t pậ
L u l i nh t kí làm vi c c a mìnhư ạ ậ ệ ủ
Thêm nhãn, nhãn giá tr trong b ng h i VHLSS2006ị ả ỏ
ph n s li u muc4a (thu nh p) cho các câuầ ố ệ ậ m4ac1a,
m4ac1b, m4ac1c, m4ac2, m4ac3, m4ac10b. T đóừ
tính t ng thu nh p (câu 11 + câu 12f + câu 21 + câu 22f +ổ ậ
câu 25 trong b ng h i)ả ỏ
S d ng s li u muc1a, t o m t bi n reg8 (phân thành 8ử ụ ố ệ ạ ộ ế
vùng) t t nh;ừ ỉ 1 "Red River Delta" 2 "North East" 3
"North West" 4 "North Central Coast“ 5 "South Central
Coast" 6 "Central Highlands" 7 "South East" 8 "Mekong
River Delta"
Mô tả thống kê
Các lệnh: summarize, tabulate, tabstat,tab1, tab2.
Mô tả thống kê với các biến liên tục.
Xử lý các giá trị missing và ví dụ.
Bảng tần suất và bảng tương quan quan 2 chiều(cross-
tabulation).
Export dữ liệu
Mô tả thống kê với các biến liên tục
Đ mô t th ng kê v i bi n liên t c ta s d ng l nhể ả ố ớ ế ụ ử ụ ệ
nào trong Stata?  summarize
Trong l nh summarize: ch tính b các observationệ ỉ ị
không có missing. S lo i b các observation có giáẽ ạ ỏ
tr missing.ị
bysort k t h p v i summarize. Đ tính summarizeế ợ ớ ể
và tách theo bi n r i r c.ế ờ ạ
summarize k t h p v i ifế ợ ớ
Mô tả thống kê với các biến liên tục (tiếp)
Ví d : muc4a.dta, tính t ng thu nh p trung bình,ụ ổ ậ
theo ngành ngh làm vi c (câu 10a)ề ệ
K t h p bysort v i sumế ợ ớ
bysort m4ac10a: sum tongTN  Chia theo ngành nghề
K t h p if v i sumế ợ ớ
sum tongTN if m4ac10a ==4 & m4ac10b==1  Mô tả
tongTN theo kinh t NN và là cán b công ch cế ộ ứ
sum tongTN if m4ac10a ==6  Mô t tongTN theo kinhả
t t nhânế ư
Mô tả thống kê với các biến liên tục (tiếp)
tabstat: cung c p cho b n mô t th ng kê theo ýấ ạ ả ố
mu n c a b n.ố ủ ạ
T ví d tr c: ta mu n hi n th mean, sd, median,ừ ụ ướ ố ể ị
variance, n
tabstat m4ac11, sta(mean sd median variance n)
Mô tả thống kê với các biến liên tục
(tiếp)
tabstat k t h p v i byế ợ ớ
tabstat m4ac11, sta(mean sd median variance n) by
( m4ac10b)m4ac10b mean sd p50 variance N
có 16785.07 10389.17 15600 1.08e+08 716
không 11715.51 9470.253 9550 8.97e+07 384
Total 15015.33 10359.63 14000 1.07e+08 1100
N u b n mu n tính th ng kê v i giá tr missing c a bi n đi u ki n (q34) thìế ạ ố ố ớ ị ủ ế ề ệ
ta ch c n gõ thêm l a ch n missing nh sauỉ ầ ự ọ ư
tabstat m4ac11, sta(mean sd median variance n) by ( m4ac10b) missing
Chúng ta có th đ nh d ng l i s li u b ng l a ch n formatể ị ạ ạ ố ệ ằ ự ọ
tabstat m4ac11, sta(mean sd median variance n) by ( m4ac10b) format(%9.1f)
Xử lý các giá trị missing và ví dụ
Có 27 giá tr missing có th có trong Stata, m c đ nhị ể ặ ị
giá tr missing là d u ch m(.)ị ấ ấ
Còn l i là 26 giá tr missing trùng v i 26 kí t trongạ ị ớ ự
b ng ch cái nh ng có d u ch m đ ng tr c(.a, .b,ả ữ ư ấ ấ ở ằ ướ
.c,…..).
Các giá tr missing trong Stata đ c coi nh các s vôị ượ ư ố
cùng l n.ớ
Xử lý các giá trị missing và ví dụ(tiếp)
Ví d : chúng ta mu n tính tính summarize (mô tụ ố ả
th ng kê) v i d li u auto, ta tính mean c a bi nố ớ ữ ệ ủ ế
price, theo rep78.
sysuse auto
summarize price if rep78>3  kết quả bảng 1.1
sum price if rep78>3 & rep78 <.  Kết quả bảng 1.2
Variable Obs Mean Std. Dev. Min Max
price 34 6073 2315.435 3748 12990
Variable Obs Mean Std. Dev. Min Max
price 29 6011.37
9
2055.312 3748 11995
B ng 1.1ả
B ng 1.2ả
B ng t n su t 1 chi uả ầ ấ ề
Đ mô t các bi n r i r cể ả ế ờ ạ
Cú pháp: có 2 câu l nh cho chúng ta l a ch nệ ự ọ
tabulate varname [if] [in] [weight] [, tabulate1_options]
tab1 varlist [if] [in] [weight] [, tab1_options]  ch y cùng m t lúcạ ộ
nhi u bi nề ế
Ví d : tính frequencies gi i tính c a ch hụ ớ ủ ủ ộ
tabulate m1ac2 if matv ==1
 Ch y nhi u frequecies cùng lúc tab1 m1ac2 m1ac3 m1ac6ạ ề
Bảng tần suất và bảng tương quan quan 2
chiều(cross-tabulation)
S d ng b ng t n su t và b ng t ng quan 2ử ụ ả ầ ấ ả ươ
chi u v i tabulate.ề ớ
Cú pháp: có 2 l a ch nự ọ
tabulate varname1 varname2 [if] [in] [weight] [, options]
tab2 varlist [if] [in] [weight] [, options]  tính t n su t 2 chi u theoầ ấ ề
cách khác
Mô tả thống kê theo bảng của Mean, Median, và các
đại lượng thống kê khác
 Ví dụ: tabulate var, sum(varlist)  Tương tự như tabstat kết
hợp với by
 Với var là biến rời rạc, varlist là biến liên tục
Mô t thông kê (ti p)ả ế
Export d li uữ ệ
Dùng outsheet tabout đ export d li u ra các đ nhể ữ ệ ị
d ng khác nhau nh excel t s li u g c.ạ ư ừ ố ệ ố
outsheet [varlist] using filename [if] [in] [, options]
 Ví dụ
keep make price mpg rep78 foreign
keep 1/10
outsheet make price mpg re78 foreign using “D:test.xls”, delimiter(“;")
Mô t thông kê (ti p)ả ế
Export d li uữ ệ
tabform export d li u b ng cách tính mean, sd, ciữ ệ ằ
tabform varlist using filename [if] [in] [aw fw], [ by(varname) sd se ci
level (#) nototal bdec(#) sdbracket cibrace mte st mtprob mtse mtbdec
vertical ]
Ví d :ụ
tabform price mpg trunk weight using
"D:test.xls", by(foreign) sd ci level(90) bdec(2)
sdbracket cibrace
Mô t thông kê (ti p)ả ế
Export d li uữ ệ
Dùng log file, v i đuôi m r ng là file docớ ở ộ

Weitere ähnliche Inhalte

Empfohlen

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Empfohlen (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Phân tích số liệu định lượng với phần mềm STATA. Bài giảng 2: Quản lý dữ liệu trong STATA

  • 1. TRUNG TÂM NGHIÊN CỨU CHÍNH SÁCH VÀ PHÁT TRIỂN GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA
  • 2. Quản lý số liệu trong Stata Log file • Sử dụng log file: – Nếu bạn muốn ghi lại tất cả những gì bạn làm? – Chúng ta sử dụng log file. – Logfile chứa các câu lệnh và bảng kết quả, không chứa biểu đồ, đồ thị. • Để mở một log file: Từ menu vào File – Log – Begin hoặc gõ trực tiếp log using ten_log tại dòng lệnh.  log using filename [, append replace [text|smcl]] • Đuôi mở rộng của log file: .log; .smcl; .doc • Đóng logfile sử dụng câu lệnh  log close
  • 3. Quản lý số liệu trong Stata Tạo dataset • Một vài câu lệnh trong phần này: use, browse, edit, format, generate, list, merge, append, replace, save, set, sort, tabulate, label, keep, drop. • Tạo một dataset:  set obs #: tạo một dataset mới với số # quan sát và chưa có bất kỳ biến nào.  dùng lệnh tạo biến generate.  Tạo mới: gõ edit tại dòng lệnh (ctrl + 7) hoặc Window  data editor.  Cú pháp: edit [varlist] [if] [in] [, nolabel] • Mở dataset: – Mở một data hệ thống: sysuse Ten_data_hethong – File đã có sẵn (File  Open) hoặc dùng lệnh (use, clear) – Sử dụng dataset trên mạng: webuse • Lưu dataset với save và saveold (dùng cho các version 8,9)  save [filename] [, save_options] • Xem dữ liệu (browser)  browse [varlist] [if] [in] [, nolabel]
  • 4. Quản lý số liệu trong Stata Tạo dataset • sysuse auto (s d ng m t s d li u s n có trongử ụ ộ ố ữ ệ ẵ Stata) • Chúng ta có th xem các s li u: Fileể ố ệ Example datasets
  • 5. Quản lý số liệu trong Stata Tạo dataset S d ng dataset trên m ngử ụ ạ webuse lifeexp : S d ng lifeexp đ c l u t iử ụ ượ ư ạ http://www.stata-press.com/data/r10
  • 6. Quản lý số liệu trong Stata Import dữ liệu S d ng StatTransferử ụ S d ng câu l nh insheetử ụ ệ S d ng câu lênh odbcử ụ
  • 7. Quản lý số liệu trong Stata StatTransfer
  • 8. Quản lý số liệu trong Stata insheet • Đ c các file d li u t đ nh d ng text b ng insheetọ ữ ệ ừ ị ạ ằ insheet [varlist] using filename [, options] M t s options:ộ ố – [no] double: xác đ nh ki u d li u double (m c đ nh), n u không có thì ki uị ể ữ ệ ặ ị ế ể d li u s là float.ữ ệ ẽ – tab: Các giá tr trong s li u cách nhau b i tabị ố ệ ở – comma: Các giá tr cách nhau b i d u ph yị ở ấ ẩ – delimiter( “char”): Chúng ta có th xác đ nh kí t trong s li uể ị ự ố ệ – clear: xóa s li u trong b nhố ệ ộ ớ – [no] names: m c đ nh tên bi n là dòng đ u tiên. N u b n xác đ nh no thìặ ị ế ầ ế ạ ị ng c l iượ ạ
  • 9. Quản lý số liệu trong Stata insheet (tiếp) Đ bi t đ c lo i file d li u đ nh d ng theo cáchể ế ượ ạ ữ ệ ị ạ nào  gõ type “tên_file” Ví d :ụ type “đ ng_d n_fem.dat”ườ ẫ  Xem d li u theo đ nh d ng lo i gìữ ệ ị ạ ạ insheet using "E:ebookstataLectureData exampleHandbook of Statafem.dat“, tab T menu: Fileừ  Import  ASCII data created by a sheet
  • 10. Quản lý số liệu trong Stata odbc Các b n s d ng câu l nh odbc cho excelạ ử ụ ệ odbc load, dsn("Excel Files;DBQ=d:Book1.xls") table("Sheet1$") File  Import  ODBC data source  ch n MSọ excel (ch n đ ng d n đ n file excel)ọ ườ ẫ ế
  • 11. Quản lý số liệu trong Stata (tiếp) Biến Một số quy ước: độ dài tối đa của biến là 32 kí tự, nhãn để mô tả biến có độ dài tối đa là 224 kí tự. Tạo biến (generate) Gán label và value label cho biến?
  • 12. Quản lý số liệu trong Stata (tiếp) Biến Có 2 cách gán giá tr và label c a bi nị ủ ế  Dùng menu  Dùng giao di n dòng l nhệ ệ
  • 13. Quản lý số liệu trong Stata (tiếp) Biến (dùng menu) generate q1=. (T o ra bi n q1 và gán cho bi nạ ế ế q1 giá tr missingị ) Gán nhãn cho bi n: Dataế  Labels  Label variable
  • 14. Quản lý số liệu trong Stata (tiếp) Biến (dùng menu) Đ nh nghĩa m t nhãn giá tr : Dataị ộ ị  Labels Label values  Define or modify value labels
  • 15. Quản lý số liệu trong Stata (tiếp) Biến(dùng menu) Bây gi , khi đã đ nh nghĩa m t tên nhãn giá trờ ị ộ ị (yesno), chúng ta ph i gán cho m t bi n nào đó?ả ộ ế (q1) Vào Data  Labels Label Values  Assign value label to variable
  • 16. Quản lý số liệu trong Stata (tiếp) Biến( giao diện dòng lệnh) Thao tác v i t i dòng l nhớ ạ ệ label variable q1 “B n đã l p gia đình ch a?”ạ ậ ư label define yesno 1 “yes” 2 “no” label values q1 yesno N u chúng ta mu n thêm nhãn giá tr cho bi n q1, ta làmế ố ị ế nh sau:ư label define yesno 8 “don’t know”,add N u chúng ta ch nh s a nhãn giá tr cho bi n q1, ta làm nhế ỉ ử ị ế ư sau: label define yesno 8 “No Responding", modify
  • 17. Quản lý số liệu trong Stata (tiếp) Một số thao tác trên biến Mô tả cấu trúc dữ liệu hoặc biến ? (describe) des varlist Để đổi tên biến: rename old_var new_var. Muốn xóa một biến trong Stata? (drop hoặc keep) Ngược lại với drop là keep drop var1 [var2….] drop if var1 >=15
  • 18. Quản lý số liệu trong Stata (tiếp) Cấu trúc của file dữ liệu M t ai đó đ a cho chúng ta m t d li u màộ ư ộ ữ ệ không có b ng h i, chúng ta mu n ki m tra c uả ỏ ố ể ấ trúc d li u, các kho ng giá tr c a bi n, các nhãnữ ệ ả ị ủ ế c a bi n, các nhãn c a giá trủ ế ủ ị S d ng:ử ụ  codebook2 ho c codebook: hi n th codebook c a d li uặ ể ị ử ữ ệ  describe: mô t s li u ho c mô t bi n nh đã gi i thi uả ố ệ ặ ả ế ư ớ ệ ở trên  list: dùng đ hi n th giá tr c a bi n trên màn hình k t quể ể ị ị ủ ế ế ả (th ng k t h p v i if, in)ườ ế ợ ớ
  • 19. Quản lý số liệu trong Stata (tiếp) Chuyển biến kiểu số sang chuỗi và ngược lại destring: chuy n bi n ki u chu i (kí t ) sang bi nể ế ể ỗ ự ế ki u sể ố destring [varlist] , {generate(newvarlist)|replace} [destring_options] tostring: chuy n bi n ki u s sang ki u chu iể ế ể ố ể ỗ tostring varlist , {generate(newvarlist)|replace} [tostring_options] Ví dụ: sử dụng số liệu destring1.dta, tostring.dta Chúng ta có thể cộng 2 hay nhiều biến string được với nhau.
  • 20. Quản lý số liệu trong Stata (tiếp) Hàm định dạng - format Cú pháp: format varlist %fmt V i %fmt:ớ  %w.df: w là chi u dài c a s đó, d là s ch s sau ph n th p phânề ủ ố ố ữ ố ầ ậ ví d : 1.5235 n u đ nh d ng %8.2fụ ế ị ạ  1.52  %w.0g: w chi u dài c a s đóề ủ ố  int %8.0g  byte %8.0g  long %12.0g  float %9.0g  double %10.0g  str# %#s Ví d : s d ng s li u autoụ ử ụ ố ệ sysuse auto format length %9.0g
  • 21. Quản lý số liệu trong Stata (tiếp) Hàm toán học và Toán tử Chúng ta muốn tính toán, hiển thị kết quả như một máy tính: display Các hàm toán h c: mod(x,y), sign(x), max(x1,x2, …ọ x3) Ví d : Mu n l y ph n d c a 5 chia cho 2ụ ố ấ ầ ư ủ display mod(5,2)  k t qu b ng 1ế ả ằ Kết hợp lệnh gen với các hàm toán học ví d : gen phandu = mod(5,2)ụ
  • 22. Quản lý số liệu trong Stata (tiếp) Hàm toán học và Toán tử Trước tiên, chúng phải biết các toán tử so sánh và toán tử logic và các phép cộng, trừ, nhân… Toán tử Ý nghĩa == So sánh bằng != (~=) So sánh không bằng > Lớn hơn < Nhỏ hơn >= Lớn hơn hoặc bằng <= Nhỏ hơn hoặc bằng & And | Or !(~) not
  • 23. Quản lý số liệu trong Stata (tiếp) if và in Cú pháp lệnh if if biểu_thức Ví dụ: Số liệu “stock 2 final.dta”. summarize q1 if q34 ==1 Chúng ta có thể kết hợp các toán tử với lệnh generate và replace. Ví dụ: gen var1 = 3^2 * 5 và replace var1 = 1 if var1 ==.
  • 24. Quản lý số liệu trong Stata (tiếp) if và in Cú pháp: cau_lenh in khoang Kho ng:ả #: Hi n th giá tr c a bi n th #ể ị ị ủ ế ứ #/#: t v tr nào đ n v trí nàoừ ị ị ế ị f/#: t v trí đ u tiên đ n v trí #ừ ị ầ ế ị #/l(last): t v trí # đ n cu iừ ị ế ố Ví d :ụ list q1 1/10  hi n th giá tr c a q1 t v trí 1 đ n 10ể ị ị ủ ừ ị ế
  • 25. Quản lý số liệu trong Stata (tiếp) egen Là hàm m r ng c a generateở ộ ủ Cú pháp egen [type] newvar = fcn(arguments) [if] [in] [, options] Ví d : Tính t ng thu nh p ngoài ti n công, l ng tụ ổ ậ ề ươ ừ câu 12a đ n câu 12e (muc4a.dta)ế  B n dùng help egen t i dòng l nh đ tìm hi uạ ạ ệ ể ể thêm các option c a l nh egen.ủ ệ
  • 26. Quản lý số liệu trong Stata (tiếp) Mã hóa lại biến Chúng ta c n mã hóa l i bi n. Ví d bi n q1 đ cầ ạ ế ụ ế ượ gán v i nhãn giá tr là yesno (recode).ớ ị recode q1 (1=0) (2=1) T ng v i l nh replace k t h p v i ifươ ớ ệ ế ợ ớ replace q1=0 if q1==1 replace q1 = 1 if q1 == 2 Chúng ta mu n t o ra m t bi n m i new và nhãn giáố ạ ộ ế ớ tr new_q1.ị recode q1 (1=0 “yes”) (2=1 “no”), pre(new) label(new_q1)
  • 27. Quản lý số liệu trong Stata (tiếp) Mã hóa lại biến M t câu h i đ t ra là chúng ta mu n recode bi nộ ỏ ặ ố ế theo kho ng giá tr c a bi n đó? ta làm nh thả ị ủ ế ư ế nào? Ví d bi n tu i (age): 0 – 17: 1ụ ế ổ  D i đ tu iướ ộ ổ lao đ ng; 18-65:2ộ  Đ tu i lao đ ng; 67 tr đi:ộ ổ ộ ở 3  Ngoài đ tu i lao đ ng; và t o ra m t bi nộ ổ ộ ạ ộ ế m i là newage và nhãn giá tr new_ageớ ị recode age (0/17 = 1 “D i đ tu i lao đ ng”)ướ ộ ổ ộ (18/65=2 “Đ tu i lao đ ng”) (65/105 = 3 “Ngoàiộ ổ ộ đ tu i lao đ ng”), pre(newage) label(new_age)ộ ổ ộ
  • 28. Quản lý số liệu trong Stata (tiếp) Mã hóa lại biến (Bài tập) Dùng s li u VHLSS06 (ph n thông tin chung)ố ệ ầ muc1a.dta Câu h i:ỏ  Tính tu i thành viên(indage) t năm sinhổ ừ  Gi i tính c a ch h (hhsex)ớ ủ ủ ộ  T ng s con (hhchild) c a ch hổ ố ủ ủ ộ
  • 29. Quản lý số liệu trong Stata (tiếp) Quản lý bộ nhớ Mặc định Stata thiết lập bộ nhớ là 10MB, nhưng nếu dữ liệu của bạn lớn hơn 10MB thì sao? (set mem kich_cỡ) – set mem 120m. Muốn màn hình kết quả hiển thị tất cả kết quả mà không có more? set more off  Câu lệnh này rất được hay dùng trong dofile.
  • 30. Quản lý số liệu trong Stata (tiếp) Một số ép kiểu dữ liệu Hàm int(), float(), string(). chúng ta muốn ép từ kiểu dữ liệu này sang kiểu dữ liệu khác  Vậy nó khác gì với các hàm chuyển kiểu như destring() và tostring()? Ví dụ: display int(3.45)  kết quả sẽ là 3 Khoảng biến: var1-var5 (var1 var2 var3 var4 var5). Bạn cũng có thể dùng các kí tự ?, * để thay thế cho các kí tự; ví dụ: var* - sẽ tìm tất cả các biến bắt đầu bằng var.
  • 31. Quản lý số liệu trong Stata (tiếp) Nối số liệu Nối 2 hay nhiều file dữ liệu stata (append hoặc merge). Nối 2 số liệu theo observation (case) ta sử dụng append. Nối 2 số liệu theo biến ta sử dụng merge (chú ý khi trước khi sử dụng lệnh merge thì cả 2 số liệu phải được sắp xếp – lệnh sort).
  • 32. Quản lý số liệu trong Stata (tiếp) Nối số liệu (append) Cú pháp: append using filename [, options] options: keep(varlist)  Chúng ta có th ch n i m t s bi n c th t s li uể ỉ ố ộ ố ế ụ ể ừ ố ệ using đ c xác đ nh trong varlist, n u không có xác đ nh keep thì m cượ ị ế ị ặ đ nh là t t c các bi n s đ c n i.ị ấ ả ế ẽ ượ ố S d ng 2 s li u even.dta và odd.dtaử ụ ố ệ use Đ ng_d n_đ n s li u odd.dtaườ ẫ ế ố ệ append using Đ ng_d n_đ n_s _li u even.dtaườ ẫ ế ố ệ list  Hi n th k t qu sau khi n i.ể ị ế ả ố
  • 33. Quản lý số liệu trong Stata (tiếp) Nối số liệu Trong lệnh merge số liệu master là trong bộ nhớ, còn số liệu using là dữ liệu để merge vào. merge [varlist] using filename [filename ...] [, options] Mặc định tạo ra biến _merge nhận 3 giá trị  1 Quan sát chỉ có trong số liệu master  2 Quan sát chỉ có trong số liệu using  3 Quan sát có cả trong master và using Merge bạn có thể quan hệ 1-1, 1-nhiều, nhiều nhiều
  • 34. Quản lý số liệu trong Stata (tiếp) Nối số liệu Ví d 1: n i 1-1, tr c khi n i ta ph i sort s li uụ ố ướ ố ả ố ệ tr c. Chúng ta v n s d ng 2 s li u even.dta vàướ ẫ ử ụ ố ệ odd.dta use “Đ ng_d n_ch a_file_even.dta”,clearườ ẫ ứ merge using “Đ ng_d n_ch a_file_odd.dta”ườ ẫ ứ đây, file even.dta là master file, còn file odd.dta là using fileỞ Ví d 2: s d ng bi n đ n i ( th ng là bi n id)ụ ử ụ ế ể ố ườ ế use “Đ ng_d n_ch a_file_even.dta”,clearườ ẫ ứ sort number // s p s li u theo chi u tăng d n c a bi n numberắ ố ệ ề ầ ủ ế save, replace // l u và thay s li u trong fileư ố ệ use “Đ ng_d n_ch a_file_odd2.dta”,clearườ ẫ ứ  là s li u master.ố ệ sort number // s p s li u theo chi u tăng d n c a bi n numberắ ố ệ ề ầ ủ ế merge number using “Đ ng_d n_ch a_file_even.dta”ườ ẫ ứ
  • 35. Quản lý số liệu trong Stata (tiếp) Nối số liệu Ví d 3: merge 2 s li u province và merge provinceụ ố ệ (master).  chúng ta s n i theo bi n procode.ẽ ố ế
  • 36. Quản lý số liệu trong Stata (tiếp) Tạo số ngẫu nhiên Tạo dữ liệu ngẫu nhiên và mẫu ngẫu nhiên. Một số hàm:  uniform() tạo số ngẫu nhiên trong khoảng (0,1).  set obs rownum: thiết lập số observation cho một dữ liệu  set seed số_bất_kỳ: có tác dụng biết số ngẫu nhiên đó lần sau.  sample: lấy số liệu ngẫu nhiên từ dữ liệu sẵn có. sample có 2 dạng là chọn theo %; sample n(phần trăm) và chọn theo số lượng; sample n, count
  • 37. Quản lý số liệu trong Stata (tiếp) Sử dụng biến hệ thống Khi s li u đã có trong b nh thì _N đ i di n choố ệ ộ ớ ạ ệ t ng s quan sátổ ố _n đ i di n cho quan sát s : _n=1 quan sát th nh t,ạ ệ ố ứ ấ _n=2 cho quan sát th hai, đ n _n=_N cho quan sátứ ế cu i cùng.ố Chúng ta có th ng d ng _n đ t o ch m c.ể ứ ụ ể ạ ỉ ụ gen caseID = _n
  • 38. Quản lý số liệu trong Stata (tiếp) Sử dụng biến hệ thống Trong stata còn cho phép hi n th d li u c a m tể ị ữ ệ ủ ộ ô c th trong d li u.ụ ể ữ ệ Bi n h th ng _n còn có ng d ng trong d li uế ệ ố ứ ụ ữ ệ d ng series. N u chúng ta có d li u hàng ngày vạ ế ữ ệ ề giá c a m t c phi u c th trên th tr ng ch ngủ ộ ổ ế ụ ể ị ườ ứ khoán v i tên bi n là open. Nh v y, chúng taớ ế ư ậ mu n tính giao đ ng giá c a ngày hôm sau so v iố ộ ủ ớ hôm tr c:ướ sysuse sp500 gen difopen = open – open[_n-1]
  • 39. Bài t pậ L u l i nh t kí làm vi c c a mìnhư ạ ậ ệ ủ Thêm nhãn, nhãn giá tr trong b ng h i VHLSS2006ị ả ỏ ph n s li u muc4a (thu nh p) cho các câuầ ố ệ ậ m4ac1a, m4ac1b, m4ac1c, m4ac2, m4ac3, m4ac10b. T đóừ tính t ng thu nh p (câu 11 + câu 12f + câu 21 + câu 22f +ổ ậ câu 25 trong b ng h i)ả ỏ S d ng s li u muc1a, t o m t bi n reg8 (phân thành 8ử ụ ố ệ ạ ộ ế vùng) t t nh;ừ ỉ 1 "Red River Delta" 2 "North East" 3 "North West" 4 "North Central Coast“ 5 "South Central Coast" 6 "Central Highlands" 7 "South East" 8 "Mekong River Delta"
  • 40. Mô tả thống kê Các lệnh: summarize, tabulate, tabstat,tab1, tab2. Mô tả thống kê với các biến liên tục. Xử lý các giá trị missing và ví dụ. Bảng tần suất và bảng tương quan quan 2 chiều(cross- tabulation). Export dữ liệu
  • 41. Mô tả thống kê với các biến liên tục Đ mô t th ng kê v i bi n liên t c ta s d ng l nhể ả ố ớ ế ụ ử ụ ệ nào trong Stata?  summarize Trong l nh summarize: ch tính b các observationệ ỉ ị không có missing. S lo i b các observation có giáẽ ạ ỏ tr missing.ị bysort k t h p v i summarize. Đ tính summarizeế ợ ớ ể và tách theo bi n r i r c.ế ờ ạ summarize k t h p v i ifế ợ ớ
  • 42. Mô tả thống kê với các biến liên tục (tiếp) Ví d : muc4a.dta, tính t ng thu nh p trung bình,ụ ổ ậ theo ngành ngh làm vi c (câu 10a)ề ệ K t h p bysort v i sumế ợ ớ bysort m4ac10a: sum tongTN  Chia theo ngành nghề K t h p if v i sumế ợ ớ sum tongTN if m4ac10a ==4 & m4ac10b==1  Mô tả tongTN theo kinh t NN và là cán b công ch cế ộ ứ sum tongTN if m4ac10a ==6  Mô t tongTN theo kinhả t t nhânế ư
  • 43. Mô tả thống kê với các biến liên tục (tiếp) tabstat: cung c p cho b n mô t th ng kê theo ýấ ạ ả ố mu n c a b n.ố ủ ạ T ví d tr c: ta mu n hi n th mean, sd, median,ừ ụ ướ ố ể ị variance, n tabstat m4ac11, sta(mean sd median variance n)
  • 44. Mô tả thống kê với các biến liên tục (tiếp) tabstat k t h p v i byế ợ ớ tabstat m4ac11, sta(mean sd median variance n) by ( m4ac10b)m4ac10b mean sd p50 variance N có 16785.07 10389.17 15600 1.08e+08 716 không 11715.51 9470.253 9550 8.97e+07 384 Total 15015.33 10359.63 14000 1.07e+08 1100 N u b n mu n tính th ng kê v i giá tr missing c a bi n đi u ki n (q34) thìế ạ ố ố ớ ị ủ ế ề ệ ta ch c n gõ thêm l a ch n missing nh sauỉ ầ ự ọ ư tabstat m4ac11, sta(mean sd median variance n) by ( m4ac10b) missing Chúng ta có th đ nh d ng l i s li u b ng l a ch n formatể ị ạ ạ ố ệ ằ ự ọ tabstat m4ac11, sta(mean sd median variance n) by ( m4ac10b) format(%9.1f)
  • 45. Xử lý các giá trị missing và ví dụ Có 27 giá tr missing có th có trong Stata, m c đ nhị ể ặ ị giá tr missing là d u ch m(.)ị ấ ấ Còn l i là 26 giá tr missing trùng v i 26 kí t trongạ ị ớ ự b ng ch cái nh ng có d u ch m đ ng tr c(.a, .b,ả ữ ư ấ ấ ở ằ ướ .c,…..). Các giá tr missing trong Stata đ c coi nh các s vôị ượ ư ố cùng l n.ớ
  • 46. Xử lý các giá trị missing và ví dụ(tiếp) Ví d : chúng ta mu n tính tính summarize (mô tụ ố ả th ng kê) v i d li u auto, ta tính mean c a bi nố ớ ữ ệ ủ ế price, theo rep78. sysuse auto summarize price if rep78>3  kết quả bảng 1.1 sum price if rep78>3 & rep78 <.  Kết quả bảng 1.2 Variable Obs Mean Std. Dev. Min Max price 34 6073 2315.435 3748 12990 Variable Obs Mean Std. Dev. Min Max price 29 6011.37 9 2055.312 3748 11995 B ng 1.1ả B ng 1.2ả
  • 47. B ng t n su t 1 chi uả ầ ấ ề Đ mô t các bi n r i r cể ả ế ờ ạ Cú pháp: có 2 câu l nh cho chúng ta l a ch nệ ự ọ tabulate varname [if] [in] [weight] [, tabulate1_options] tab1 varlist [if] [in] [weight] [, tab1_options]  ch y cùng m t lúcạ ộ nhi u bi nề ế Ví d : tính frequencies gi i tính c a ch hụ ớ ủ ủ ộ tabulate m1ac2 if matv ==1  Ch y nhi u frequecies cùng lúc tab1 m1ac2 m1ac3 m1ac6ạ ề
  • 48. Bảng tần suất và bảng tương quan quan 2 chiều(cross-tabulation) S d ng b ng t n su t và b ng t ng quan 2ử ụ ả ầ ấ ả ươ chi u v i tabulate.ề ớ Cú pháp: có 2 l a ch nự ọ tabulate varname1 varname2 [if] [in] [weight] [, options] tab2 varlist [if] [in] [weight] [, options]  tính t n su t 2 chi u theoầ ấ ề cách khác Mô tả thống kê theo bảng của Mean, Median, và các đại lượng thống kê khác  Ví dụ: tabulate var, sum(varlist)  Tương tự như tabstat kết hợp với by  Với var là biến rời rạc, varlist là biến liên tục
  • 49. Mô t thông kê (ti p)ả ế Export d li uữ ệ Dùng outsheet tabout đ export d li u ra các đ nhể ữ ệ ị d ng khác nhau nh excel t s li u g c.ạ ư ừ ố ệ ố outsheet [varlist] using filename [if] [in] [, options]  Ví dụ keep make price mpg rep78 foreign keep 1/10 outsheet make price mpg re78 foreign using “D:test.xls”, delimiter(“;")
  • 50. Mô t thông kê (ti p)ả ế Export d li uữ ệ tabform export d li u b ng cách tính mean, sd, ciữ ệ ằ tabform varlist using filename [if] [in] [aw fw], [ by(varname) sd se ci level (#) nototal bdec(#) sdbracket cibrace mte st mtprob mtse mtbdec vertical ] Ví d :ụ tabform price mpg trunk weight using "D:test.xls", by(foreign) sd ci level(90) bdec(2) sdbracket cibrace
  • 51. Mô t thông kê (ti p)ả ế Export d li uữ ệ Dùng log file, v i đuôi m r ng là file docớ ở ộ