QUY TRÌNH KIỂM ĐỊNH K-S, KOLMOGOROV-SMIRNOV HAI MẪU
Ý nghĩa của kiểm định K-S, Kolmogorov-Smirnov hai mẫu:
+ Kiểm định Kolmogorov – Smirnov hai mẫu được sử dụng để kiểm tra xem hai mẫu có đến từ cùng một phân phối hay không?
+ Kiểm định Kolmogorov – Smirnov hai mẫu được sử dụng trong so sánh đánh giá tính tối ưu của phân phối A với phân phối B.
Giả sử rằng mẫu đầu tiên có kích thước m với hàm phân phối tích lũy quan sát là F ( x ) và mẫu thứ hai có kích thước n với hàm phân phối tích lũy quan sát được của G ( x ).
Định nghĩa:

Giả sử đồ thị của hàm WTTN (Màu đỏ) và hàm WSTN (Màu xanh)

Gọi: ${{D}_{m,n}}={{D}_{\text{MAX}}}=\underset{x}{\mathop{\max }}\,\left| {{F}_{m}}(x)-{{G}_{n}}(x) \right|$ Cho m và n đủ lớn: ${{D}_{m,n,\alpha }}$ là giá trị tới hạn.
Giả thuyết không là H 0 : Cả hai mẫu đều đến từ một quần thể có cùng phân phối. Đối với phép thử Kolmogorov – Smirnov hai mẫu về tính quy tắc, Chúng tôi bác bỏ giả thuyết không (ở mức ý nghĩa α ) nếu D m, n= Dmax > D m, n, α trong đó D m, n, α là giá trị tới hạn.
- Tìm Dmax
Lậpbảng Tần suất tích lũy (Phân phối tích lũy) như bảng sau trong EXCEL.

Trong đó:
Cột D chứa phân phối tích lũy cho TTN (dựa trên cột B), cột E chứa phân phối tích lũy cho STN và cột F chứa giá trị tuyệt đối của hiệu các cột D và E.
Cụ thể:
– Cột D, ô D3 chứa công thức = B3 / B8, ô D4 chứa công thức = B4 / B8 + D3; ô D5 chứa công thức =B5/B8+D4;…
– Tương tự cột D cho cột E.
– Cột F, ô F3 chứa công thức = ABS (D3-E3); F4 chứa công thức=ABS(D4-F4);…
– Ô F9 chứa công thức = max (F3:F7).
– Ô F10 là giá trị Dm,n,α được tính ở mục 2 sau.
Vậy: Dmax=giá trị ô F9.
- Tính ${D_{m,n,\alpha }}$
a) Trường hợp 1: m,n có trong bảng Kolmogorov – Smirnov hai mẫu;
${{D}_{m,n,\alpha }}=\frac{c(\alpha )}{m.n}$ ; Với c(α) được tra bảng với giá trị α, dòng m, cột n tương ứng.
Ví dụ: m=10, n=15, α=0,05

=>c(0.05)=80;${{D}_{10,15,0.05}}=\frac{80}{10.15}=0,5333$ .
Bảng Kolmogorov – Smirnov hai mẫu

b) Trường hợp 2: m, n lớn vượt quá bảng Kolmogorov – Smirnov hai mẫu.
Ta có: ${{D}_{m,n,\alpha }}=c(\alpha ).\sqrt{\frac{m+n}{m.n}}$
Trong đó: c(α) là số cuối cùng của tử số trong bảng Kolmogorov – Smirnov một mẫu dưới đây.
Bảng Kolmogorov – Smirnov một mẫu

Ví dụ: Giả sử: m=195; n=198; α=0.05 =>c(α)=1.35810.
Với m=195, n=198 thì ${{D}_{m,n,\alpha }}={{D}_{195,198,0.05}}=1.3581.\sqrt{\frac{195+198}{195.198}}=0.1360$
3. Thực hành kiểm định Kolmogorov – Smirnov hai mẫu
Giả sử ta có hai phân phối tích lũy (như bảng sau).

Từ bảng trên ta có Dmax=0,3102.
Sử dụng kiểm định Kolmogorov-Smirnov hai mẫu, với mức α = 0,05 .
Tra bảng Kolmogorov – Smirnov với: m = 195;n=198, cho ta kết quả là:
C(α) =1,3581=> ${{D}_{m,n,\alpha }}=c(\alpha )\sqrt{\frac{m+n}{mn}}=1.3581\sqrt{\frac{195+198}{195.198}}=0.1360$
=> Dm,n,α =0.1360 <Dmax= 0,3302; với mức ý nghĩa sai số 5%
Do đó, giả thuyết H0 bị bác bỏ.
Ta có biểu đồ tần suất tích lũy như sau:

Đánh giá: Biểu đồ Phân phối WSTN nằm phía bên phải biểu đồ phân phối WTTN. Do vậy phân phối WSTN tốt hơn phân phối WTTN với mức ý nghĩa 95%.
Chúc các bạn thành công.
Nguồn: http://www.real-statistics.com, http://www.real-statistics.com
Bạn có thể tải tài liệu gốc tại đây:
Bản free pdf:
Bản word docx:
0 Bình luận