Matlab 教材:將向量視為數據的描述統計

對於向量,Matlab 除了提供基本的線性代數函式之外, 還提供基本的描述統計函式。

例如若 v 是一個向量,而其元素代表 Alice 在計概課的小考成績。

v = [8 7 0 5 5 10 4]'
數據的筆數 (共有幾筆資料) 就是 v 的維度,亦即
length(v)
在這個例子裡,是 7。

平均值 (mean value) 是

mean(v)
也就是 (v(1) + v(2) + ... + v(7))/7,大約是 5.5714。 中位數 (median) 是
median(v)
也就是 5。把 v 的數據從小排到大:
sort(v)
也就是 0, 4, 5, 5, 7, 8, 10。 所謂中位數就是數據排序之後,位於「中間」的那個數。 在以上例子中,也就是排序後的第四個元素:5。 sort 一定是從小排到大。如果要從大排到小怎麼辦?以後再說。

標準差 (standard deviation) 是

std(v)
定義為
\begin{displaymath}
\sigma = \sqrt{\frac{\displaystyle\sum_{i=1}^n (v_i-\mu)^2}{n-1}}
\end{displaymath}

其中 n 就是 length(v),而 $\mu$ 就是 mean(v)。 分母是 n-1 也許與讀者在基礎統計課程中所學不同, 這個公式假設原數據是從常態分佈的母群體中抽選出來, 然後根據這些數據來估計母群之標準差,稱為「不偏估計」。 各位應該會在比較專業的統計課程中學習這個道理。

v 當中的最大值 (maximal value) 是

max(v)
最小值 (minimal value) 是
min(v)

若 v 和 w 是兩個維度相同的向量,假設 v 和 w 不平行。 則 v 和 w 的頂端,再加上原點,就是三個點。 在任何空間中,三個不共線點總是決定一個平面。 在 v 和 w (以及原點) 決定的那個平面上,v 和 w 有一個夾角 $\theta$。 簡化一點來說,這個角的餘弦 (cosine) $\cos\theta$ 就是這兩組數據 v 和 w 的相關係數。 當 v 和 w 越「相關」,代表夾角 $\theta$ 越小,因此相關係數越接近 1。如果 v 和 w 越「無關」,代表夾角 $\theta$ 越接近 90 度,因此相關係數越接近 0。 如果 v 和 w 越「逆相關」,代表夾角 $\theta$ 越接近 180 度,因此相關係數越接近 -1。 根據所謂的「餘弦等式」,得知

\begin{displaymath}
\cos\theta = \frac{\langle v,w\rangle}{\Vert v\Vert\cdot\Vert w\Vert}
\end{displaymath}

其中分子是內積,而分母是 v 和 w 的長度之積。 因此可以利用 Matlab 來計算 v 和 w 的「相關係數」。

例如若 v 如上述,而

w = [9 6 2 4 5 8 5]'
則 v 與 w 的相關係數是
dot(v,w) / (norm(v) * norm(w))
0.9787,這是非常相關的兩組數據。 我們可以用
acos(0.9787)
算出 $\theta$ 大約是 0.2068。不過這是弧度量。 如果想要轉換成角度,因為
\begin{displaymath} \frac\theta\pi \times 180 \end{displaymath}

所以用
0.2068 * 180 / pi
得知夾角大約是 12 度。

習題

  1. 令 v = [8 7 0 5 5 10 4] 是某甲的成績記錄,而 w = [7 6 3 8 7 9 5] 是某乙的成績記錄。 計算兩者分別的平均和聯合的平均。
  2. 令 v = [8 7 0 5 5 10 4] 是某甲的成績記錄,而 w = [7 6 3 8 7 9 5] 是某乙的成績記錄。 計算這兩份成績的相關係數。
  3. 令 v = [8 7 0 5 5 10 4] 是某甲的成績記錄,而 w = [0 4 2 7 2 8 5] 是某乙的成績記錄。 計算這兩個向量的夾角,以角度表示。
  4. 取得 [虛擬成績表格] 中的矩陣 A,計算 A 的最後一行數據之總和。
  5. 取得 [虛擬成績表格] 中的矩陣 A,計算 A 的最後一行數據之平均值。
  6. 取得 [虛擬成績表格] 中的矩陣 A,計算 A 的最後一行數據之中位數。
  7. 取得 [虛擬成績表格] 中的矩陣 A,寫出 A 的最後一行數據中,排序第七小的數值。
單維彰 (2003/04/09) --- 03/04/10 (單), 04/03/19 (單) [Prev] [Next] [Up]