1.1. Khoảng biến thiên, khoảng tứ phân vị
a) Định nghĩa
+ Trong một mẫu số liệu, khoảng biến thiên là hiệu số giữa giá trị lớn nhất và giá trị nhỏ nhất của mẫu số liệu đó. Ta có thể tính khoảng biến thiên R của mẫu số liệu theo công thức sau: \(R = {x_{{\rm{max}}}} – {x_{\min }}\) trong đó \({x_{{\rm{max}}}}\) là giá trị lớn nhất, \({x_{\min }}\) là giá trị nhỏ nhất của mẫu số liệu đó. + Giả sử \({Q_1},{Q_2},{Q_3}\) là tứ phân vị của mẫu số liệu. Ta gọi hiệu \({\Delta _Q} = {Q_3} – {Q_1}\) là khoảng tứ phân vị, của mẫu số liệu đó. |
---|
Ví dụ: Hãy tính khoảng biên thiên và khoảng tứ phân vị của mẫu số liệu: 10; 20; 3; 1; 3; 4; 7; 4; 9.
Giải
Xét mẫu số liệu đã sắp xếp là: \(1;3;3;4;4;7;9;10;20\)
+ Khoảng biến thiên của mẫu số liệu là: R = 20 – 1 = 19
+ Cỡ mẫu là n = 9 là số lẻ nên giá tị tứ phân vị thứ hai là: Q2 = 4
+ Tứ phân vị thứ nhất là trung vị của mẫu: 1; 3; 3; 4. Do đó Q1 = 3
+ Tử phân vị thứ ba là trung vị của mẫu: 7; 9; 10; 20. Do đó Q3 = 9,5.
+ Khoảng tứ phân vị của mẫu là: AQ = 9,5 – 3 = 6,5.
b) Ý nghĩa
+ Ý nghĩa của khoảng biến thiên: Khoảng biến thiên của mẫu số liệu phản ánh sự “đao động”, “sự dàn trải” của các số liệu trong mẫu đó. Khoảng biến thiên được sử dụng trong nhiều tình huống thực tiễn, chẳng hạn: tìm ra sự phân tán điểm kiểm tra của một lớp học hay xác định phạm vi giá cả của một dịch vụ …
+ Theo cách nhìn như ở trong vật lí, ở đó biên độ dao động phản ánh khoảng cách từ điểm cân bằng đến điểm xa nhất của dao động, nếu coi số trung bình cộng là “điểm cân bằng” của mẫu số liệu thì khoảng biến thiên của mẫu số liệu có thể xem như hai lần biên độ đao động của các số trong mẫu đó quanh điểm cân bằng.
+ Trong các đại lượng đo mức độ phân tán của mẫu số liệu, khoảng biến thiên là đại lượng dễ hiểu, dễ tính toán và tương đối tốt đối với các mẫu số liệu nhỏ. Tuy nhiên, do khoảng biến thiên chỉ sử dụng hai giá trị \({x_{{\rm{max}}}}\) và \({x_{\min }}\) của mẫu số liệu nên đại lượng đó chưa diễn giải đầy đủ sự phân tán của các số liệu trong mẫu. Ngoài ra, giá trị của khoảng biến thiên sẽ bị ảnh hưởng bởi các giá trị bất thường của mẫu số liệu đó. Trong những trường hợp như vậy, khoảng biến thiên của mẫu số liệu không phản ánh chính xác độ dàn trải của mẫu số liệu.
+ Ý nghĩa của khoảng tứ phân vị: Khoảng tứ phân vị là một đại lượng cho biết mức độ phân tán của nửa giữa mẫu số liệu và có thể giúp xác định các giá trị bất thường của mẫu số liệu đó. Khoảng tứ phân vị thường được sử dụng thay cho khoảng biến thiên vì nó loại trừ hầu hết giá trị bất thường của mẫu số liệu.
1.2. Phương sai
a) Định nghĩa
Cho mẫu số liệu thống kê có n giá trị \({x_1},{x_2},….,{x_n}\) và số trung bình cộng là \(\overline x \). Ta gọi số \({s^2} = \frac{{{{\left( {{x_1} – \overline x } \right)}^2} + {{\left( {{x_2} – \overline x } \right)}^2} + … + {{\left( {{x_n} – \overline x } \right)}^2}}}{n}\) là phương sai của mẫu số liệu trên. |
---|
b) Ý nghĩa
Phương sai là số đặc trưng đo mức độ phân tán của mẫu số liệu.
Ví dụ: Xét mẫu số liệu thống kê kết quả 5 bài kiểm tra môn Toán của bạn Huy là:
6 7 7 8 7 (4)
Số trung bình cộng của mẫu số liệu (4) là: \(\overline x = 7\).
a) Tính phương sai của mẫu số liệu (4).
b) So sánh phương sai của mẫu số liệu (4) với phương sai của mẫu số liệu (3). Từ đó cho biết bạn nào có kết quả kiểm tra môn Toán đồng đều hơn.
Giải
a) Gọi phương sai của hai mẫu số liệu (3) và (4) lần lượt là \(s_D^2,s_H^2\). Ta có: \(s_D^2 = 2\);
\(s_H^2 = \frac{{{{\left( {6 – 7} \right)}^2} + {{\left( {7 – 7} \right)}^2} + {{\left( {7 – 7} \right)}^2} + {{\left( {8 – 7} \right)}^2} + {{\left( {7 – 7} \right)}^2}}}{5} = \frac{2}{5} = 0,4\)
b) Do sử \(s_H^2 = 0,4 < s_D^2 = 2\) nên bạn Huy có kết quả kiểm tra môn Toán đồng đều hơn bạn Dũng.
1.3. Độ lệch chuẩn
a) Định nghĩa
Căn bậc hai của phương sai gọi là độ lệch chuẩn của mẫu số liệu thống kê. |
---|
Nhận xét: Vì đơn vị đo của phương sai là bình phương đơn vị đo của số liệu thống kê, trong khi độ lệch chuẩn lại có cùng đơn vị đo với số liệu thống kê, nên khi càn chú ý đến đơn vị đo thì ta sử dụng độ lệch chuẩn.
b) Ý nghĩa
Cũng như phương sai, khi hai mẫu số liệu thống kê có cùng đơn vị đo và có số trung bình cộng bằng nhau (hoặc xấp xỉ nhau), mẫu số liệu nào có độ lệch chuẩn nhỏ hơn thì mức độ phân tán (so với số trung bình cộng) của các số liệu trong mẫu đó sẽ thấp hơn. Độ lệch chuẩn là số đặc trưng đo mức độ phân tán của mẫu số liệu thống kê có cùng đơn vị đo.
Ví dụ: Điều tra một số học sinh về số cái bánh chưng mà gia đình mỗi bạn tiêu thụ trong địp Tết Nguyên đán, kết quả được ghi lại ở bảng sau. Hãy tính số trung bình và độ lệch chuẩn của mẫu sô liêu.
Giải
Số trung bình của mẫu số liệu trên là:
\(\overline x = \frac{1}{{40}}\left( {5.6 + 7.7 + 10.8 + 8.9 + 5.10 + 4.11 + 15} \right) = 8,5\).
Phương sai của mẫu số liệu trên là
\({S^2} = \frac{1}{{40}}\left( {{{5.6}^2} + {{7.7}^2} + {{10.8}^2} + {{8.9}^2} + {{5.10}^2} + {{4.11}^2} + {{15}^2}} \right) – 8,{5^2} = 3,25\)
Độ lệch chuẩn của mẫu số liệu là:
\(S = \sqrt {{S^2}} = \sqrt {3,25} \approx 1,80.\)
1.4. Tính hợp lí của số liệu thống kê
Ta có thể sử dụng các số đặc trưng đo mức độ phân tán cho mẫu số liệu không ghép nhóm để chỉ ra được những số liệu bất thường của mẫu số liệu đó. Ta thường sử dụng khoảng tứ phân vị để xác định số liệu bất thường của mẫu số liệu. Cụ thể như sau:
Giả sử \({Q_1},{Q_2},{Q_3}\) là tứ phân vị của mẫu số liệu và hiệu \({\Delta _Q} = {Q_3} – {Q_1}\) là khoảng tứ phân vị của mẫu số liệu đó. Một giá trị trong mẫu số liệu được coi là một giá trị bất thường, nếu nó nhỏ hơn \({Q_1} – \frac{3}{2}{\Delta _Q}\) hoặc lớn hơn \({Q_3} + \frac{3}{2}{\Delta _Q}\). Như vậy, khoảng tứ phân vị cho ta cách nhận ra giá trị bất thường của mẫu số liệu.