QUY TRÌNH KIỂM ĐỊNH K-S, KOLMOGOROV-SMIRNOV HAI MẪU

Ý nghĩa của kiểm định K-S, Kolmogorov-Smirnov hai mẫu:

+ Kiểm định Kolmogorov – Smirnov hai mẫu được sử dụng để kiểm tra xem hai mẫu có đến từ cùng một phân phối hay không?

+ Kiểm định Kolmogorov – Smirnov hai mẫu được sử dụng trong so sánh đánh giá tính tối ưu của phân phối A với phân phối B.

Giả sử rằng mẫu đầu tiên có kích thước m với hàm phân phối tích lũy quan sát là F ( x ) và mẫu thứ hai có kích thước n với hàm phân phối tích lũy quan sát được của G ( x ).

Định nghĩa:

Giả sử đồ thị của hàm WTTN (Màu đỏ) và hàm WSTN (Màu xanh)

Gọi: ${{D}_{m,n}}={{D}_{\text{MAX}}}=\underset{x}{\mathop{\max }}\,\left| {{F}_{m}}(x)-{{G}_{n}}(x) \right|$ Cho m và n đủ lớn: ${{D}_{m,n,\alpha }}$ là giá trị tới hạn.

Giả thuyết không là H 0 : Cả hai mẫu đều đến từ một quần thể có cùng phân phối. Đối với phép thử Kolmogorov – Smirnov hai mẫu về tính quy tắc, Chúng tôi bác bỏ giả thuyết không (ở mức ý nghĩa α ) nếu m, n= Dmax > D m, n, α trong đó m, n, α  là giá trị tới hạn.

  1. Tìm Dmax

Lậpbảng Tần suất tích lũy (Phân phối tích lũy) như bảng sau trong EXCEL.

Trong đó:

Cột D chứa phân phối tích lũy cho TTN (dựa trên cột B), cột E chứa phân phối tích lũy cho STN và cột F chứa giá trị tuyệt đối của hiệu các cột D và E.

Cụ thể:

– Cột D, ô D3 chứa công thức = B3 / B8, ô D4 chứa công thức = B4 / B8 + D3; ô D5 chứa công thức =B5/B8+D4;…

– Tương tự cột D cho cột E.

– Cột F, ô F3 chứa công thức = ABS (D3-E3); F4 chứa công thức=ABS(D4-F4);…

– Ô F9 chứa công thức = max (F3:F7).

– Ô F10 là giá trị Dm,n,α được tính ở mục 2 sau.

Vậy: Dmax=giá trị ô F9.

  • Tính ${D_{m,n,\alpha }}$

a) Trường hợp 1: m,n có trong bảng Kolmogorov – Smirnov hai mẫu;

${{D}_{m,n,\alpha }}=\frac{c(\alpha )}{m.n}$ ; Với c(α) được tra bảng với giá trị α, dòng m, cột n tương ứng.

Ví dụ: m=10, n=15, α=0,05

=>c(0.05)=80;${{D}_{10,15,0.05}}=\frac{80}{10.15}=0,5333$ .

Bảng Kolmogorov – Smirnov hai mẫu 

b) Trường hợp 2: m, n lớn vượt quá bảng Kolmogorov – Smirnov hai mẫu.

Ta có: ${{D}_{m,n,\alpha }}=c(\alpha ).\sqrt{\frac{m+n}{m.n}}$

Trong đó: c(α) là số cuối cùng của tử số trong bảng Kolmogorov – Smirnov  một mẫu dưới đây.

Bảng Kolmogorov – Smirnov một mẫu

Ví dụ: Giả sử:  m=195; n=198; α=0.05 =>c(α)=1.35810.

Với m=195, n=198 thì   ${{D}_{m,n,\alpha }}={{D}_{195,198,0.05}}=1.3581.\sqrt{\frac{195+198}{195.198}}=0.1360$

3. Thực hành kiểm định Kolmogorov – Smirnov hai mẫu

Giả sử ta có hai phân phối tích lũy (như bảng sau).

Từ bảng trên ta có Dmax=0,3102.

Sử dụng kiểm định Kolmogorov-Smirnov hai mẫu, với mức α = 0,05 .

Tra bảng Kolmogorov – Smirnov với: m = 195;n=198, cho ta kết quả là:

C(α) =1,3581=> ${{D}_{m,n,\alpha }}=c(\alpha )\sqrt{\frac{m+n}{mn}}=1.3581\sqrt{\frac{195+198}{195.198}}=0.1360$

=> Dm,n,α =0.1360 <Dmax= 0,3302; với mức ý nghĩa sai số 5%

Do đó, giả thuyết H0 bị bác bỏ.

Ta có biểu đồ tần suất tích lũy như sau:

Đánh giá:  Biểu đồ Phân phối WSTN nằm phía bên phải biểu đồ phân phối WTTN. Do vậy phân phối WSTN tốt hơn phân phối WTTN với mức ý nghĩa  95%.

Chúc các bạn thành công.

Nguồn: http://www.real-statistics.com, http://www.real-statistics.com

Bạn có thể tải tài liệu gốc tại đây:

Bản free pdf:

Bản word docx:


0 Bình luận

Trả lời

Avatar placeholder