Mình cũng từng gặp khái niệm này giống bạn, lúc đầu có hơi mông lung nhưng sau một thời gian nghiền ngẫm, cuối cùng mình cũng đã hiểu ra. Mình sẽ bắt đầu bằng một ví dụ khá thú vị để bạn có thể hiểu ngay khái niệm độ lệch chuẩn mà bắt đầu của độ lệch chuẩn là phương sai.
Có một nhà hàng sau mỗi ngày buôn bán họ đều ghi lại số tiền lời. Giả sử sau vài năm, họ có cột dữ liệu với một bên là ngày, một bên là số tiền lời như sau,
do đó, họ có thể tính được số tiền thu nhập bình quân hàng năm. Năm sau đó, họ đạt số tiền lời cao hơn số tiền lời bình quân hằng năm. Năm sau đó nữa, làm ăn thua lỗ, họ đạt số tiền lời thấp hơn số tiền lời bình quân hằng năm. Cứ như vậy, các giá trị cứ lên xuống liên tục. Sự chênh lệch đó chúng ta gọi là phương sai, tức là sự chênh lệch
giữa số tiền lời thực tế hằng năm với số tiền lời trung bình của cửa hàng.
Trong thống kê, độ lệch chuẩn và phương sai đều cùng chung một mục đích đó là dùng để đánh giá sự biến động, phân tán của các giá trị so với giá trị trung bình trong tập dữ liệu. Nhưng khi báo cáo người ta lại thích dùng độ lệch chuẩn hơn. Bây giờ chúng ta bắt đầu với bài tập nhỏ sử dụng công thức tính độ lệch chuẩn để đánh giá dữ liệu.
Giả sử ta có hai tập dữ liệu:
- A (5, 6, 7, 8):
- B(1, 9, 10, 15):
Nhìn vào hai hình trên bạn có thể thấy rằng mức độ phân tán của tập dữ liệu A ít hơn mức độ phân tán của tập dữ liệu B. Đó là bạn nhìn bằng mắt, trong toán học phải dùng công thức để tính toán và đánh giá mới khách quan, do đó công thức tính độ lệch chuẩn có thể giúp chúng ta.
Trước tiên muốn tính độ lệch chuẩn, ta phải tính giá trị trung bình của tập dữ liệu A gồm có 4 giá trị: $$\overline{x}_A = \frac{5 + 6 + 7 + 8}{4} = 6.5$$
và tương tự, giá trị trung bình của tập dữ liệu B: $$\overline{x}_B = \frac{1 + 9 + 10 + 15}{4} = 8.75$$
Áp dụng công thức tính phương sai:
$$\sigma^2 = \frac{\Sigma^N_{i = 1} (x_i - \overline{x})^2}{N}$$
Ta có phương sai của tập dữ liệu A:
$$\sigma^2_A = \frac{(5 - 6.5)^2 + (6 - 6.5)^2 + (7 - 6.5)^2 + (8 - 6.5)^2}{4} = 1.25$$
và phương sai của tập dữ liệu B:
$$\sigma^2_B = \frac{(1 - 8.75)^2 + (9 - 8.75)^2 + (10 - 8.75)^2 + (15 - 8.75)^2}{4} = 98.82$$
Công thức tính độ lệch chuẩn rất đơn giản, đó chính là căn
của phương sai:
$$s = \sqrt{\sigma^2}$$
Áp dụng vào bài toán, ta có:
$$s_A = \sqrt{\sigma^2_A} = \sqrt{1.25} \approx 1.12$$
$$s_B = \sqrt{\sigma^2_B} = \sqrt{98.82} \approx 9.94$$
Liên hệ với hình ảnh phân bố dữ liệu bên trên và kết quả sau khi tính độ lệch chuẩn, bạn có thể thấy độ lệch chuẩn đã mô tả được sự phân tán giá trị so với giá trị trung bình trong tập dữ liệu với độ lệch chuẩn mà càng lớn thì dữ liệu càng bị phân tán và ngược lại.