4
Độ lệch chuẩn là gì? Ý nghĩa của độ lệch chuẩn?
4
Hoàng Mỹ40 đã đăng:

Mình đang gặp khó khăn trong việc hiểu khái niệm và ý nghĩa của độ lệch chuẩn? Mọi người ai có thể đưa ra ví dụ và giải thích một cách dễ hiểu về độ lệch chuẩn được không ạ?

thêm bình luận...
6
MinhHung60 đã đăng:

Mình cũng từng gặp khái niệm này giống bạn, lúc đầu có hơi mông lung nhưng sau một thời gian nghiền ngẫm, cuối cùng mình cũng đã hiểu ra. Mình sẽ bắt đầu bằng một ví dụ khá thú vị để bạn có thể hiểu ngay khái niệm độ lệch chuẩn mà bắt đầu của độ lệch chuẩn là phương sai.

Có một nhà hàng sau mỗi ngày buôn bán họ đều ghi lại số tiền lời. Giả sử sau vài năm, họ có cột dữ liệu với một bên là ngày, một bên là số tiền lời như sau,

Bảng tiền lời

do đó, họ có thể tính được số tiền thu nhập bình quân hàng năm. Năm sau đó, họ đạt số tiền lời cao hơn số tiền lời bình quân hằng năm. Năm sau đó nữa, làm ăn thua lỗ, họ đạt số tiền lời thấp hơn số tiền lời bình quân hằng năm. Cứ như vậy, các giá trị cứ lên xuống liên tục. Sự chênh lệch đó chúng ta gọi là phương sai, tức là sự chênh lệch giữa số tiền lời thực tế hằng năm với số tiền lời trung bình của cửa hàng.

Trong thống kê, độ lệch chuẩn và phương sai đều cùng chung một mục đích đó là dùng để đánh giá sự biến động, phân tán của các giá trị so với giá trị trung bình trong tập dữ liệu. Nhưng khi báo cáo người ta lại thích dùng độ lệch chuẩn hơn. Bây giờ chúng ta bắt đầu với bài tập nhỏ sử dụng công thức tính độ lệch chuẩn để đánh giá dữ liệu.

Giả sử ta có hai tập dữ liệu:

  • A (5, 6, 7, 8):

Tập dữ liệu của điểm A

  • B(1, 9, 10, 15):

Tập dữ liệu của điểm B

Nhìn vào hai hình trên bạn có thể thấy rằng mức độ phân tán của tập dữ liệu A ít hơn mức độ phân tán của tập dữ liệu B. Đó là bạn nhìn bằng mắt, trong toán học phải dùng công thức để tính toán và đánh giá mới khách quan, do đó công thức tính độ lệch chuẩn có thể giúp chúng ta.

Trước tiên muốn tính độ lệch chuẩn, ta phải tính giá trị trung bình của tập dữ liệu A gồm có 4 giá trị: $$\overline{x}_A = \frac{5 + 6 + 7 + 8}{4} = 6.5$$

và tương tự, giá trị trung bình của tập dữ liệu B: $$\overline{x}_B = \frac{1 + 9 + 10 + 15}{4} = 8.75$$

Áp dụng công thức tính phương sai:

$$\sigma^2 = \frac{\Sigma^N_{i = 1} (x_i - \overline{x})^2}{N}$$

Ta có phương sai của tập dữ liệu A:

$$\sigma^2_A = \frac{(5 - 6.5)^2 + (6 - 6.5)^2 + (7 - 6.5)^2 + (8 - 6.5)^2}{4} = 1.25$$

và phương sai của tập dữ liệu B:

$$\sigma^2_B = \frac{(1 - 8.75)^2 + (9 - 8.75)^2 + (10 - 8.75)^2 + (15 - 8.75)^2}{4} = 98.82$$

Công thức tính độ lệch chuẩn rất đơn giản, đó chính là căn của phương sai:

$$s = \sqrt{\sigma^2}$$

Áp dụng vào bài toán, ta có:

$$s_A = \sqrt{\sigma^2_A} = \sqrt{1.25} \approx 1.12$$

$$s_B = \sqrt{\sigma^2_B} = \sqrt{98.82} \approx 9.94$$

Liên hệ với hình ảnh phân bố dữ liệu bên trên và kết quả sau khi tính độ lệch chuẩn, bạn có thể thấy độ lệch chuẩn đã mô tả được sự phân tán giá trị so với giá trị trung bình trong tập dữ liệu với độ lệch chuẩn mà càng lớn thì dữ liệu càng bị phân tán và ngược lại.

đã bổ sung 4.0 năm trước bởi
Mr. Carrot ♦♦ 40

Cám ơn bạn nhiều lắm. Thật sự mình học hoài cũng không hiểu khái niệm này vì học chương trình nước ngoài. Nhưng đọc ví dụ và giải thích của bạn mình hiểu 1 cách rất tường tận về sd. Chúc bạn thành công nhé.

Member4388 20.11.2018

Ủa tưởng $\text{N}$ trong công thức tính phương sai ở trên phải là $\text{N} - 1$ chứ?

Công thức $ \sigma^2 = \frac{\sum_{i = 1}^N (x_i - \bar{x})^2}{N - 1}$ thay vì $\sigma^2 = \frac{\sum_{i = 1}^N (x_i - \bar{x})^2}{N}$, tại sao vậy?

Cộng đồng 19.03.2019

Không có gì sai cả, cả 2 công thức đều đúng, chúng chỉ khác nhau ở trường hợp sử dụng.

Ý nghĩa của việc chia cho $\text{N} - 1$ thay vì chia cho $\text{N}$ có thể ví như thay vì ăn hết một cái bánh (trường hợp của $\text{N}$) mới biết được nó có ngon hay không bạn chỉ cần ăn một phần của nó thôi (trường hợp $\text{N} - 1$) cũng đủ biết rồi.

Ví dụ như để đánh giá dân số Việt Nam về chiều cao chẳng hạn, thay vì bạn phải thu thập tất cả chiều cao của 95 triệu dân, bạn chỉ cần thu thập chiều cao của khoảng 1 triệu dân là đủ để đánh giá rồi.

Trong trường hợp bạn muốn tính độ lệch chuẩn/phương sai trên toàn bộ dữ liệu bạn đang có, chia cho $\text{N}$.

Trong trường hợp bạn muốn tính độ lệch chuẩn/phương sai dựa trên một phần nhỏ của dữ liệu bạn đang có, chia cho $\text{N} - 1$.

Ở ví dụ của bạn @MinhHung, bạn @MinhHung sử dụng toàn bộ dữ liệu bạn ấy đang có để tính phương sai nên chia cho $\text{N}$ là đúng, còn tại sao phải như vậy thì bạn có thể xem chứng minh của Friedrich Bessel với thuyết sửa chữa Bessel (Bessel's Correction).

GrayScale Life 19.03.2019

bạn này cho ví dụ và giải thích rất hay

Cộng đồng 15.04.2020

Bạn tính sai phương sai của B rồi phải là 25,1875 và sB=5,02 nhé

Cộng đồng 29.04.2020
thêm bình luận...
1
Cộng đồng đã đăng:

Độ lệch chuẩn chỉ để sử sụng để đánh giá độ phan tán trong cùng một tập số liệu, nếu hai tập số liệu có trung bình công khác nhau, việc sử dụng độ lệch chuẩn để so sánh như ví dụ không chính xác, cần sử dụng hệ số biến thiên để so sánh!

thêm bình luận...
0
Cộng đồng đã đăng:

Hiểu độ lệch chuẩn một cách giản đơn là sai lệch giữa giá trị trung bình và giá trị lớn nhất, bé nhất của giá trị trung bình "có thể có"

thêm bình luận...
0
Cộng đồng đã đăng:

độ lệch chuẩn càng cao hay càng thấp thì giải thích được gì ạ

độ lệch chuẩn càng lớn thì rủi ro càng cao và ngược lại

Cộng đồng 21.10.2021
thêm bình luận...
Bạn đang thắc mắc? Ghi câu hỏi của bạn và đăng ở chế độ cộng đồng (?)