1.1. Khoảng biến thiên và khoảng tứ phân vị
Khoảng biến thiên, kí hiệu R, là hiệu số giữa giá trị lớn nhất và giá trị nhỏ nhất trong mẫu số liệu. |
---|
Ý nghĩa: Khoảng biến thiê dùng để đo độ phân tán của mẫu số liệu: Khoảng biến thiên càng lớn thì mẫu số liệu càng phân tán.
Nhận xét: Sử dụng khoảng biến thiên có ưu điểm là đơn giản, dễ tính toán song khoảng biến thiên chỉ sử dụng thông tin của giá trị lớn nahát và giá trị nhỏ nhất mà bỏ quá thông tin từ các giá trị khác. Do đó, khoảng biến thiên rất dễ bị bị ảnh hưởng bởi các giá trị bất thường.
Ví dụ: Điểm kiểm tra học kỉ môn Toán của các bạn Tổ 1, Tổ 2 lớp 10A được cho như sau:
Tổ 1: 7 8 8 9 8 8 8.
Tổ 2: 10 6 8 9 9 7 8 7 8.
a) Điểm kiểm tra trung bình của hai tổ có như nhau không?
b) Tính các khoảng biến thiên của hai mẫu số liệu. Căn cứ trên chỉ số này, các bạn tổ nào học đồng đều hơn?
Giải
a) Điểm kiểm tra trung bình của hai tổ đều bằng 8.
b) Đối với Tổ 1: Điểm kiểm tra thấp nhất, cao nhất tương ứng là 7; 9. Do đó khoảng biến thiên là: R1 = 9 – 7 = 2.
Đối với Tổ 2: Điểm kiểm tra thấp nhất, cao nhất tương ứng là 6; 10. Do đó khoảng biến thiên là: R2 = 10 – 6 = 4.
Do R2> R1 nên ta nói các bạn Tổ 1 học đều hơn các bạn Tổ 2.
Khoảng tứ phân vị, kí hiệu là \({\Delta _Q}\), là hiệu số giữa tứ phân vị thứ ba và tứ phân vị thứ nhất, tức là: \({\Delta _Q} = {Q_3} – {Q_1}\) |
---|
Ý nghĩa: Khoảng tứ phân vị cũng là một sô đo độ phân tán của mẫu số liệu. Khoảng tứ phân vị càng lớn thì mẫu số liệu càng phân tán.
Chú ý: Một số tài liệu gọi khoảng biến thiên là biên độ và khoảng tứ phân vị là độ trải giữa.
Ví dụ: Mẫu số liệu sau cho biết số ghế trống tại một rạp chiều phim trong 9 ngày:
7 8 22 20 15 18 19 13 11.
Tim khoảng tứ phân vị cho mẫu số liệu này.
Giải
Trước hết, ta sắp xếp mẫu số liệu theo thứ tự không giảm:
7 8 11 13 15 18 19 20 22.
Mẫu số liệu gồm 9 giá trị nên trung vị là số ở vị trí chính giữa Q2 = 15.
Nửa số liệu bên trái là 7, 8, 11, 13 gồm 4 giá trị, hai phần tử chính giữa là 8, 11.
Do đó, Q1 = (8 + 11): 2= 9,5.
Nửa số liệu bên phải là 18, 19, 20, 22 gồm 4 giá trị, hai phản tử chính giữa là 19, 20.
Do đó, Q3 = (19 + 20) : 2= 19,5.
Vậy khoảng tứ phân vị cho mẫu số liệu là \({\Delta _Q}\) = 19,5 – 9,5 = 10.
1.2. Phương sai và độ lệch chuẩn
Khoảng biến thiên chỉ sử dụng thông tin của giá trị lớn nhất và nhỏ nhất của mẫu số liệu (bỏ qua thông tin của tắt cả các giá tị khác), còn khoảng tứ phân vị chỉ sử dụng thông tin của 50% số liệu chính giữa. Có một vài số đặc trưng khác đo độ phân tán sử dụng thông tin của tất cả các giá trị trong mẫu số liệu. Hai trong số đó là phương sai và độ lệch chuẩn.
Cụ thể là với mẫu số liệu \({x_1},{x_2},{x_3},…,{x_n}\) nếu gọi số trung bình là \(\overline x \) thì với mỗi giá trị x, độ lệch của nó so với giá trị trung binh là \({x_i} – \overline x \).
Phương sai là giá trị \({s^2} = \frac{{{{({x_1} – \overline x )}^2} + {{({x_2} – \overline x )}^2} + … + {{({x_n} – \overline x )}^2}}}{n}\). Căn bậc hai của phương sai \(s = \sqrt {{s^2}} \), được gọi là độ lệch chuẩn. |
---|
Chú ý: Người ta còn sử dụng đại lượng để đo độ phân tán của mẫu số liệu: \({s^2} = \frac{{{{({x_1} – \bar x)}^2} + {{({x_2} – \bar x)}^2} + … + {{({x_k} – \bar x)}^2}}}{{n – 1}}\)
Ý nghĩa: Nếu số liệu càng phân tán thì phương sai và độ lẹch chuẩn càng lớn.
Ví dụ: Mẫu số liệu sau đây cho biết sĩ số của 5 lớp khối 10 tại một trường Trung học:
43 45 46 41 40.
Tìm phương sai và độ lệch chuẳn cho mẫu số liệu này.
Giải
Số trung binh của mẫu số lệu là: \(\overline X = \frac{{43 + 45 + 46 + 41 + 40}}{5} = 43\)
Ta có bảng sau:
Mẫu số liệu gồm 5 giá trị nên n = 5. Do đó phương sai là: \({s^2} = \frac{{26}}{5} = 5,2\)
Độ lệch chuẩn là: \(s = \sqrt {5,2} \approx 2,28\)
1.3. Phát hiện số liệu bất thường hoặc không chính xác bằng biểu đồ hộp
Trong mẫu số liệu thống kê, có khi gặp những giá trị quá lớn hoặc quá nhỏ so với đa số các giá trị khác. Những giá trị này được gọi là giá trị bất thường. Chúng xuất hiện trong mẫu số liệu có thể do nhằm lẫn hay sai sót nào đó. Ta có thể dùng biểu đồ hộp để phát hiện những giá tị bắt thường này.
Các giá trị lớn hơn \({Q_3} + 1,5.{\Delta _Q}\) hoặc bé hơn \({Q_3} – 1,5.{\Delta _Q}\) được xem là giá trị bất thường.
Ví dụ: Hàm lượng Natri (đơn vị mg) trong 100 g một số loại ngũ cốc được cho như sau:
0 340 70 140 200 180 210 150 100 130
140 180 190 160 290 50 220 180 200 210.
Tìm giá trị bất thường trong mẫu số liệu trên bằng cách sử dụng biểu đồ hộp.
Giải
Từ mẫu số liệu ta tính được Q1 = 135 và Q3= 205. Do đó, khoảng tứ phân vị là:
\({\Delta _Q} = 205 – 135 = 70\)
Biểu đồ hộp cho mẫu số liệu này là:
Ta có \({Q_1} – 1,5.{\Delta _Q}=30\) và \({Q_3} + 1,5.{\Delta _Q}=310\) nên trong mẫu số liệu có hai giá trị được xem là bắt thường là 340 mg (lớn hơn 310 mg) và 0 mg (bé hơn 30 mg).