質(zhì)量工具之散點圖
1. 什么是散點圖
散點圖(Scatter Plot or Scatter Chart),也叫散布圖,顧名思義就是由一些散亂的點組成的圖表,這些點在哪個位置,是由其X值和Y值確定的。所以也叫做XY散點圖。它將所有的數(shù)據(jù)以點的形式展現(xiàn)在直角坐標系上,以顯示變量之間的相互影響程度,點的位置由變量的數(shù)值決定。
在分析獨立數(shù)據(jù)時,用直方圖、柏拉圖就可以直接找到改善著眼點,但是要解析兩個變量X、Y之間的相關(guān)性時,就要用到散點圖。如鋼的淬火溫度和硬度,螺絲的扭矩和抗張強度,油的溫度與粘度,玻璃中含鉛量與抗輻射等。
人們經(jīng)常用散點圖來表述兩個連續(xù)變量X和Y之間的關(guān)系,圖中的每個點表示目標數(shù)據(jù)集中的每個樣本,在直角坐標系平面上數(shù)據(jù)點的分布和因變量隨自變量而變化的大致趨勢。由此趨勢可以選擇合適的函數(shù)進行經(jīng)驗分布的擬合,同時散點圖中常常還會擬合一些直線和曲線,以用來表示某些模型,進而找到變量之間的函數(shù)關(guān)系。
2. 散點圖的作用
散點圖將序列顯示為一組點,值由點在圖表中的位置表示,類別由圖表中的不同標記表示。散點圖通常用于比較跨類別的聚合數(shù)據(jù),其應(yīng)用有很多,總結(jié)兩個常見的應(yīng)用如下。
2.1 回歸分析
散點圖用于回歸分析中,數(shù)據(jù)點在直角坐標系平面上的分布圖,散點圖表示因變量隨自變量而變化的大致趨勢,據(jù)此可以選擇合適的函數(shù)對數(shù)據(jù)點進行擬合。
散點圖經(jīng)過回歸分析之后,可以對相關(guān)對象進行預(yù)測分析,能讓我們發(fā)現(xiàn)變量之間隱藏的關(guān)系,進而做出科學(xué)的決策,而不是模棱兩可。比如,下面房價的散點圖可以為我們直觀呈現(xiàn)不同城市的房價上漲情況,為后續(xù)的房價政策調(diào)整做出重要的支持。
2.2 相關(guān)性分析
散點圖用于相關(guān)性分析中,用兩組數(shù)據(jù)構(gòu)成多個坐標點,考察坐標點的分布,判斷兩變量之間是否存在某種關(guān)聯(lián)或總結(jié)坐標點的分布模式。
通過觀察散點圖上數(shù)據(jù)點的分布情況,我們可以推斷出變量間的相關(guān)性。如果變量之間不存在相互關(guān)系,那么在散點圖上就會表現(xiàn)為隨機分布的離散的點,如果存在某種相關(guān)性,那么大部分的數(shù)據(jù)點就會相對密集并以某種趨勢呈現(xiàn)。
散點圖核心的價值在于發(fā)現(xiàn)變量之間的關(guān)系,千萬不要簡單地將這個關(guān)系理解為線性回歸關(guān)系。變量間的關(guān)系有很多,如線性關(guān)系、指數(shù)關(guān)系、對數(shù)關(guān)系等等,當(dāng)然,沒有關(guān)系也是一種重要的關(guān)系。
數(shù)據(jù)的相關(guān)關(guān)系主要分為:正相關(guān)(兩個變量值同時增長)、負相關(guān)(一個變量值增加另一個變量值下降)、不相關(guān)、線性相關(guān)、指數(shù)相關(guān)等,表現(xiàn)在散點圖上的大致分布如下圖所示。那些離點集群較遠的點我們稱為離群點或者異常點。
從PDCA的角度,散點圖的應(yīng)用總結(jié)如下:
3. 散點圖的變形
基于應(yīng)用場景不同,散點圖有很多變形,下面列出了幾種常見變形。
u散點圖矩陣
當(dāng)欲同時考察多個變量間的相關(guān)關(guān)系時,若一一繪制它們間的簡單散點圖,十分麻煩。此時可利用散點圖矩陣來同時繪制各自變量間的散點圖,這樣可以快速發(fā)現(xiàn)多個變量間的主要相關(guān)性,這一點在進行多元線性回歸時顯得尤為重要。 下面的散點圖矩陣展示球隊總積分、勝、傳球成功率和射門的關(guān)系。
u三維散點圖
在散點圖矩陣中雖然可以同時觀察多個變量間的聯(lián)系,但是兩兩進行平面散點圖的觀察的,有可能漏掉一些重要的信息。三維散點圖就是在由3個變量確定的三維空間中研究變量之間的關(guān)系,由于同時考慮了3個變量,常常可以發(fā)現(xiàn)在兩維圖形中發(fā)現(xiàn)不了的信息。下面的三維散點圖展示球隊總積分、勝、和射正的關(guān)系。
u氣泡圖
氣泡圖(bubble chart)是可用于展示三個變量之間的關(guān)系。排列在工作表的列中的數(shù)據(jù)(第一列中列出 x 值,在相鄰列中列出相應(yīng)的 y 值和氣泡大小的值)可以繪制在氣泡圖中。
氣泡圖與散點圖相似,不同之處在于,氣泡圖允許在圖表中額外加入一個表示大小的變量。實際上,這就像以二維方式繪制包含三個變量的圖表一樣。氣泡由大小不同的標記(指示相對重要程度)表示。
4. 散點圖的應(yīng)用
應(yīng)用散點圖的好處多多,總結(jié)出常用的幾點如下:
u可發(fā)現(xiàn)原因與結(jié)果的關(guān)系:收集原因的數(shù)據(jù)與結(jié)果的數(shù)據(jù),相對比較。
u繪出散點圖,對結(jié)果一目了然:在散點圖內(nèi),將原因和結(jié)果的數(shù)據(jù)點以X、Y坐標表示。
u可判斷是有關(guān)聯(lián)或是沒有關(guān)聯(lián):由散點圖可以清楚了解兩組數(shù)據(jù)間的關(guān)系。
注意:如果收集到的數(shù)據(jù)在圖上無法判定,則應(yīng)先與層別,再行點入繪成散布圖。
下表所列數(shù)據(jù)為收集的某鋼件的淬火溫度X與硬度Y記錄表。兩個變量淬火溫度X和硬度Y之間是否有相關(guān)性?
如果只看上面表格中的數(shù)據(jù),能看出上面的數(shù)據(jù)有什么特征嗎?肯定不能,但是我們將其繪制成散點圖,其數(shù)據(jù)明顯具有一定的趨勢。
如果我們給其添加趨勢線就更明顯了。



