資料分析前,必須知道的四種數據類型

在進入資料分析的階段前,我們必須對資料進行清洗與整理,而搜集來的資料有許多種,也有各種屬性,透過測量尺度的概念來理解眾多屬性,能幫助我們進行更合適的處理

心理學家史帝文斯(S.S. Stevens)在1950年時,將測量的尺度區分為四個類別,依據同質性、不等性、是否可加減及乘除,分別分成了名目尺度(Nominal Scale)、順序尺度(Ordinal Scale)、區間尺度(Interval Scale)和比例尺度(Ratio Scale)。

在資料科學的領域中,蒐集而來的資料可能維度非常大,不只資料筆數上的多,也會有各種的屬性。然而,每個屬性所代表的意義皆不盡相同,有的屬性代表的是類別,有的代表的卻是測量數值等等。因此,「透過測量尺度的概念來理解眾多屬性,可以在後續的資料清洗、整理、數學運算上,進行更合適的處理」。

對此,選擇測量的尺度是研究設計過程中的很重要的一部分,因為對系統化的測量和數據分類都是必要的,因此對它們進行分析並從中得出結論被認為是有效的。

四種測量尺度

(圖片來源:數據領航員)

四個類別又可再區分為兩類,第一類為屬性資料(Qualitative Data)/定性,是依照資料的類別給予名稱的,並且是屬非數值的。可以理解成一個定義或宣稱的概念,例如:比賽時有金牌、銀牌、銅牌(順序尺度)); 第二類為計量資料(Quantitative Data)/定量,是屬數值型的,且通常由等距尺度或等比尺度中獲得。直白的解釋就是由各種數字所組成的,例如:寒流來襲,明日溫度下探7度(區間尺度)。

(圖片來源:數據領航員)

每個屬性所含的資訊量會因尺度而有所差異。資訊量由小排到大的順序是:名目→順序→區間→比例尺度。

計量資料包含的資訊量多過屬性資料主要是因為屬性資料只是從多個類別中區分出一個最符合的,而計量資料卻是精準的一個數值。以下舉兩個例子作為參考:

  • 101大樓位於台北市(屬性資料-名目尺度),經緯度為(25°02'01.0"N, 121°33'53.1"E)(計量資料-區間尺度)。
  • 小明身高160公分、體重100公斤(計量資料-比例尺度),屬於過胖程度(屬性資料-順序尺度)。

名目尺度(Nominal Scale)

是四個尺度中最弱的結構,資料分類無屬性大小之分。根據特徵的性質做分類,純粹用來分辨不同的性質。EX:星座、職業等。

資料處理方式:因名目尺度的資料為字串型態的(就算為數值,也並非是數學上的意義),在資料分析會是建立模型時是無法做存取的,須將其轉換為數值(目的為分辨不同性質)。常見的方法有Label Encoding、One-Hot Encoding等等。

舉例:性別屬性中,我們時常以1表示為男性、0表示為女性(或是以0表示為男性、1表示為女性,並無限定)。

順序尺度(Ordinal Scale)

除了可區分類別外,尚具備順序的概念(資料的排序是具意義的),可能為互斥或週延。EX:名次、等級等。

資料處理方式:順序尺度的資料可能為數字型態也可能為字串型態,若為數字型態也只是表示某一種類別,而字串型態也需轉換為數值型態。相比名目尺度,不同的地方為因順序尺度具有「順序」的概念,在轉換為數值時須按照資料的排序做轉換。

舉例:金牌、銀牌、銅牌可轉換為0、1、2(或2、1、0),但不可是1、0、2等其他的排列組合,會失去資料本身排序上的意義。

區間尺度(Interval Scale)

除了具分類及順序外,是可以比較兩元素之間的差異,於數學運算上可做加減但不能乘除,因無倍數的關係。EX:年分、智商等。

資料處理方式:為數字型態的資料,且數字有真正數學上的意義,但是缺乏實質意義,只有相對的零點,並無絕對的零點。區間尺度的資料本身反應了相對的差距,是具標準化單位的測量工具,必須避免做乘除上的比較。

舉例:年份可以做相差上的數學運算,但若是乘除則並無任何意義。

比例尺度(Ratio Scale)

有以上三種尺度的所有特性外,各數值間具有等差與比率的關係,能衡量數值之間實質的差異,因此可做加減乘除所有的數學運算。EX:長度、質量等。

資料處理方式:為數字型態的資料,具備數字及實質上的意義,也有絕對零點*的概念。

舉例:160公分等於1.6公尺(公尺單位為公分單位的一百倍,也可互相作為比較。

小補充:

  • 絕對零點:若一個變項為零,則意味著該變項完全不存在。例如:長度為0,則表示沒有長度。
  • 相對零點:是和其他變項相比出的,沒有一定的標準。例如:溫度為 0 就是相對零點,但溫度為 0 不代表沒有溫度。因溫度的單位是由人訂定出來的,有華氏與攝氏的不同,所以溫度為0才不代表值。)

參考文章

統計中的衡量水平和衡量標準

測量尺度 — 维基百科,自由的百科全书