Bài 1. Xử lý dữ liệu

Giải thích rõ hơn thuật ngữ “hiệp biến”
Chúng ta biết rằng với một biến X hay Y, có ba thông số kỹ thuật thống kê diễn đạt : số cỡ mẫu, số trung ( mean ), và phương sai ( variance ). Nhưng để miêu tả mối quan hệ giữa hai biến X và Y, tất cả chúng ta cần đến hiệp biến .

Có thể hiểu hiệp biến qua hình học lượng giác như sau. Chúng ta biết rằng cho một tam giác vuông, nếu gọi cạnh huyền là c và hai cạnh còn lại là a và b, Định lí Pythagoras cho biết bình phương cạnh huyền bằng tổng bình phương hai cạnh kia: c2 = a2 + b2

Nhưng cho một tam giác thường, thì mối liên hệ giữa c và hai cạnh a và b phức tạp hơn với mối liên hệ được định lượng bằng hàm cosine của góc C như sau: c2 = a2 + b2 – 2ab × Cos (C)

Tương tự như vậy, cho hai biến X và Y, và nếu hai biến này hoàn toàn độc lập với nhau, chúng ta có thể phát biểu rằng phương sai của biến X + Y bằng phương sai của X cộng với phương sai của Y: var(X+Y) = var(X) + var(Y)  . trong đó, “var” là viết tắt của phương sai (tức variance). Chú ý rằng X+Y là một biến mới.

Bạn đang đọc: Bài 1. Xử lý dữ liệu

Nếu hai biến X và Y có tương quan nhau, thì công thức trên được thay thế bằng một công thức khác với hiệp biến: var(X+Y) = var(X) + var(Y) + 2×Cov(X,Y). trong đó, “Cov” là viết tắt của hiệp biến (covariance).

Ví dụ, trong nghiên cứu và phân tích đối sánh tương quan Pearson ( r ), hiệp biến so với mỗi cá thể của xi và yi được cho bởi công thức :

Nhưng ở đây tất cả chúng ta có n đối tượng người tiêu dùng, do đó cần phải cộng toàn bộ lại và chia cho số đối tượng người dùng :

Công thức trên chính là định nghĩa của hiệp biến. Từ hai công thức trên, chúng ta có thể rút ra vài nhận xét:

  • Một hiệp biến là số dương có nghĩa là độ lệch từ số trung bình của x tuân theo chiều hướng thuận với y.
  • Một hiệp biến là số âm có nghĩa là độ lệch từ số trung bình của x tuân theo chiều hướng nghịch với y.
  • Nếu hiệp biến là 0, thì hai biến x và y độc lập nhau, tức không có tương quan gì với nhau.

Tương quan Pearson ( r ) là lấy tỉ số của hai chỉ số này :

Nếu giá trị của r là dương, hai biến x và y cùng biến thiên theo một hướng ; nếu giá trị của r là âm, x và y liên hệ đảo ngược : tức khi khi x tăng thì y giảm, và ngược lại .

BẠN CÓ THỂ QUAN TÂM