2008-07-25 20:03:33♂╰ 熊 ╯♀
別讓統計數字騙了你-讀後感
這是報告版的~
所以以下簡稱筆者~@@
----------------------------------
δ前言
其實在之前筆者就很想買這本書,只是剛好學校的數學科推薦書單中有出現,所以就名正言順的買下來了,而這本書也讓我大開眼界,因為原來統計可以這樣子拿來「愚弄」人,真是太奇妙了!我也打算將書中介紹的內容歸納並轉譯成自己的語言,所以就繼續往下看吧!
δ1.慎選樣本
在書中,提到了一個極誇張的點:“《時代雜誌》1950年代在評論紐約《太陽報》某項報導時,曾寫到「1924年畢業的耶魯大學畢業生,平均年薪為25111美元。」(當時一般人平均年收入低於10000美元)”,兩者之間的平均年收入有兩倍以上的差距,那這樣是不是表示只要考上耶魯大學,就等於拿了一張不愁吃喝的保證票,其實這並不是對的,因為《時代雜誌》並沒有註明其調查的母體是哪些人,由於畢業了25年,光是要取得聯絡地址就十分的困難,其中較容易取到的不外乎是飛黃騰達的一群,而舉凡是較為落魄的一群,就幾乎取不到聯絡地址,而且樣本中還不包括不願透露的一群,所以如果將那些飛黃騰達者的年收入平均,出來的數值就會十分的可觀了,在這部分我們得到了一個結論:由於樣本是人為取得的,且最後的結果一定不會比母體還要好,所以一份有代表性的樣本,就必須將所有偏差的來源都排除掉,為了能達成這個目的,就必須進行多方面的取樣,且涵蓋的範圍要廣,這樣才能得到較為正確的結果,而先前提到偏差的來源,最可能的原因是因為受訪者想給訪問員一個滿意的答案,所以訪問員本身須保持中立的態度,不該影響受訪者的想法,才不會影響到最後的結果。
δ2.選擇性平均
一般人總會認為「平均」就是大家的數字加在一起再除以總人數,事實上廣義的平均包括了:平均數、中位數以及眾數,這三個名詞定義想必大家都很熟悉,筆者也不在名詞定義上多加筆墨,當數據接近常態分布時,這三個數據的差異並不大,但有些時候卻也可以拿來唬弄人,舉個例子來說:A公司為了能吸引更多的員工,便說自家公司的平均年薪是20000美元,許多人聽到後便會想要到A公司上班,但其實在A公司中,許多人的年薪都不到8000美元,為何數據差距頗大呢?其實是因為,光是老闆年薪就高達100000美元,更何況還有高階主管呢?所以雖然A公司可以名正言順的公告其平均年薪,但此時中位數和眾數反而比平均數更能呈現出此公司大部分員工的薪水狀況,在這部分我們得到了一個結論:有時,平均數反而不是一個呈現整體狀況的好方法,特別是在有極端值的狀況,此時,如果不用中位數或是種數來呈現整體狀況,將有可能出現幾乎每個人都低於平均的狀況,如果使用中位數或眾數,提供的訊息會比使用平均數要好得多了。
δ3.刻意隱藏的小數字
舉個書中的例子:“竇克斯牙膏的使用者回報,蛀牙少了23%。”乍看之下,會認為這牌子的牙膏好像不錯,可以很有效的減少蛀牙,但在這廣告的背後,有個驚人的事實:參與使用者回報的人數只有12人,雖然竇克斯牙膏公司在牙膏盒子上的標示皆為事實,但若在得知牙膏盒子背後的事實後,相信購買的人數會大量減少,在舉另外一個書裡的例子:“奧克拉荷馬市在1890~1952年的平均溫度為60.2℉。”此溫度相當於15.67℃,或許有些人會認為還滿涼爽的,但在此數據背後的事實是最高溫為113℉(45℃),最低溫為-17℉(-27.22℃),此一數據一定又讓許多人傻眼,因此,在這一部分,我們又得到了另一個結論:廣告商取巧之處,就是選擇不恰當的樣本,因為只要樣本夠小,就會因為機遇而產生出不代表任何意義的結果,除此之外,那些該列出卻未列出的數字,常會遭人忽略,這種行為形同欺騙,當你發現重要數字並未伴隨出現,那麼這筆數據便可能有問題,所以在閱讀某一數據時,最好能提前注意到這幾個點。
δ4.誇張的圖表
筆者先讓各位看幾張圖,了解圖表能夠如何影響到閱讀者的觀感。
所以以下簡稱筆者~@@
----------------------------------
δ前言
其實在之前筆者就很想買這本書,只是剛好學校的數學科推薦書單中有出現,所以就名正言順的買下來了,而這本書也讓我大開眼界,因為原來統計可以這樣子拿來「愚弄」人,真是太奇妙了!我也打算將書中介紹的內容歸納並轉譯成自己的語言,所以就繼續往下看吧!
δ1.慎選樣本
在書中,提到了一個極誇張的點:“《時代雜誌》1950年代在評論紐約《太陽報》某項報導時,曾寫到「1924年畢業的耶魯大學畢業生,平均年薪為25111美元。」(當時一般人平均年收入低於10000美元)”,兩者之間的平均年收入有兩倍以上的差距,那這樣是不是表示只要考上耶魯大學,就等於拿了一張不愁吃喝的保證票,其實這並不是對的,因為《時代雜誌》並沒有註明其調查的母體是哪些人,由於畢業了25年,光是要取得聯絡地址就十分的困難,其中較容易取到的不外乎是飛黃騰達的一群,而舉凡是較為落魄的一群,就幾乎取不到聯絡地址,而且樣本中還不包括不願透露的一群,所以如果將那些飛黃騰達者的年收入平均,出來的數值就會十分的可觀了,在這部分我們得到了一個結論:由於樣本是人為取得的,且最後的結果一定不會比母體還要好,所以一份有代表性的樣本,就必須將所有偏差的來源都排除掉,為了能達成這個目的,就必須進行多方面的取樣,且涵蓋的範圍要廣,這樣才能得到較為正確的結果,而先前提到偏差的來源,最可能的原因是因為受訪者想給訪問員一個滿意的答案,所以訪問員本身須保持中立的態度,不該影響受訪者的想法,才不會影響到最後的結果。
δ2.選擇性平均
一般人總會認為「平均」就是大家的數字加在一起再除以總人數,事實上廣義的平均包括了:平均數、中位數以及眾數,這三個名詞定義想必大家都很熟悉,筆者也不在名詞定義上多加筆墨,當數據接近常態分布時,這三個數據的差異並不大,但有些時候卻也可以拿來唬弄人,舉個例子來說:A公司為了能吸引更多的員工,便說自家公司的平均年薪是20000美元,許多人聽到後便會想要到A公司上班,但其實在A公司中,許多人的年薪都不到8000美元,為何數據差距頗大呢?其實是因為,光是老闆年薪就高達100000美元,更何況還有高階主管呢?所以雖然A公司可以名正言順的公告其平均年薪,但此時中位數和眾數反而比平均數更能呈現出此公司大部分員工的薪水狀況,在這部分我們得到了一個結論:有時,平均數反而不是一個呈現整體狀況的好方法,特別是在有極端值的狀況,此時,如果不用中位數或是種數來呈現整體狀況,將有可能出現幾乎每個人都低於平均的狀況,如果使用中位數或眾數,提供的訊息會比使用平均數要好得多了。
δ3.刻意隱藏的小數字
舉個書中的例子:“竇克斯牙膏的使用者回報,蛀牙少了23%。”乍看之下,會認為這牌子的牙膏好像不錯,可以很有效的減少蛀牙,但在這廣告的背後,有個驚人的事實:參與使用者回報的人數只有12人,雖然竇克斯牙膏公司在牙膏盒子上的標示皆為事實,但若在得知牙膏盒子背後的事實後,相信購買的人數會大量減少,在舉另外一個書裡的例子:“奧克拉荷馬市在1890~1952年的平均溫度為60.2℉。”此溫度相當於15.67℃,或許有些人會認為還滿涼爽的,但在此數據背後的事實是最高溫為113℉(45℃),最低溫為-17℉(-27.22℃),此一數據一定又讓許多人傻眼,因此,在這一部分,我們又得到了另一個結論:廣告商取巧之處,就是選擇不恰當的樣本,因為只要樣本夠小,就會因為機遇而產生出不代表任何意義的結果,除此之外,那些該列出卻未列出的數字,常會遭人忽略,這種行為形同欺騙,當你發現重要數字並未伴隨出現,那麼這筆數據便可能有問題,所以在閱讀某一數據時,最好能提前注意到這幾個點。
δ4.誇張的圖表
筆者先讓各位看幾張圖,了解圖表能夠如何影響到閱讀者的觀感。
↑圖一
↑圖二
↑圖三
【以上圖片出自:別讓統計數字騙了你】
其實圖二和圖三都是由圖一擷取出來的,只是因為圖片長度、寬度不同,進而影響到閱讀者的視覺感受,同時也讓閱讀者產生出不同的想法,只看圖一時會認為此家公司的每個月營業額都是循序漸進,再看圖二會認為此家公司每個月營業額爬升速度挺快的,看了圖三後便會認為此家公司真是不得了,相信其未來發展必定大有看頭,這就是許多公司愛用的小計謀,將一圖表經過切割放大,使它呈現出來的視覺效果令人驚訝,而筆者國中時曾參與過科展,也曾在縣展比賽會場利用此類圖表來使評審認為實驗效果不錯,既使是些微的變化,也能利用此圖來使變化量看起來增加不少,在這部分我們得到一個結論:線圖在經過切割後(如圖二),我們的眼無法「暸解」沒出現的部份,因此小部分的上升,看起來有較大幅度的增長,而在將圖二經過刻度變更並放大後,並沒有使用任何形容詞或副詞來破壞客觀性,且此作法比使用文字更為吸引閱讀者的目光。
δ5.似相關而非相關的數字
筆者先舉一個書中的例子:“《本週》雜誌指出「高速公路上的車禍死亡人數,晚上七點是早上七點的四倍。」”難道這就表示說,要飆車的話,請在早上七點到高速公路上飆車,你的存活機率將是晚上七點的四倍嗎?當然不是,這兩樣事情根本不能放在一起講,因為早上高速公路車禍死亡人數少,可能是因為當時在高速公路上的人較少,所以不能不考慮其他原因就直接拿數據比較,再舉另外一個例子:“在美西戰爭當中,海軍的死亡率是9‰,而在同一時期中,紐約市的老百姓的死亡率則是16‰,負責招募新兵的人後來就用這些數字來「證明」,加入海軍比不加入要安全。”但這不全然是對的,因為海軍是由健康良好的人民組成的,老百姓裡卻包括嬰兒、老年人和病人,而這些人的死亡率較高,所以海軍的死亡率當然較低,所以這兩群人根本不能比較,在這部分我們得到了一個結論:事情真相常常不向表面上看到的一樣,因為任何一個數字都常常有許多種表示方法,欺騙的一方常常是選擇聽起來一樣,實際上卻不同的事情來進行欺騙,所以在閱讀這些訊息時,需利用大腦思考一下,或許這則訊息所隱藏的事實並不是像它表面上看起來的。
δ6.錯誤因果結論
大家常常會有一個錯誤的觀念:因為乙跟著甲發生,所以一定是甲造成了乙,就像書中的例子:“有人曾經花了一大堆功夫,想要知道吸煙者的大學成績是否比不吸菸者要差,結果果真如此。”誰能確定是因為吸菸而導致成績變差,而不是因為成績差而吸菸,所以此兩件事情之間可能不是因果關係,而是因為另外一項因素而造成的結果,在「吸菸」和「成績差」之間關聯雖然存在,但之間是否有因果關係就純屬猜測,而有些事情雖然有相關性,但之間的關聯並非百分之百,例如:身高越高的人比身高越矮的人重,在大部分的時候,此關聯成立,但是也是可以找到身高165卻比身高175的重,所以我們可以說身高和體重之間有一定程度的正相關,在這一部分我們得到了一個結論:只要樣本小一點,你就有可能在你想像得到的任何兩種特質或事件之間,找到相當程度的關聯,既使一項關聯確實存在,而且也的確由因果關係造成,但是對單獨個案來說,這個關聯還是可能會完全不適用;當數字與結論放在一起時,不代表數字就可以支持這個結論,所以我們一定不能讓統計及數字攪亂了因果關係。
δ7.統計操控
先來舉個例子:“1949年時美國的平均收入在普查局方面和賽吉基金會所給的數具之間有極大的出入,原因是普查局是取中位數,而賽吉基金會是取平均數。”如果照賽吉基金會的算法,想成為百萬富翁的首要條件就是必須多生些小孩,真是荒謬的說法,而在利用統計唬弄人的部份,最有用的非小數點和百分比莫屬了,只要使用小數點,即便是最差勁的統計結果也能因此使一些人信服,而百分比和百分點其實是不一樣的東西,例如:某年的投資金額的利潤從3%上升到6%,可以說是上升3個百分點,也可說是上升100%,在這一部分我就不贅述,直接結論:小數點和百分比能讓不確定的數字看起來精確,而任何根據稀少案例所計算出來的百分比,誤導的機會都不小,不如直接把原始數字寫出來,這樣反而比較清楚;而有許多詐騙手段都是源自於把不應該相加,卻可以相加的東西加在一起,既使是從事學術研究的人,也可能因為觀念有所偏差,或想要證明某個觀點,甚至是有所企圖,而利用「統計操控」。
δ後記
在遇到統計資訊時,要如何正面迎戰不實的統計,並把它征服呢?可以利用書上給的五個問題來刺探,以下便是這五個問題:
(1)誰說的?
*要找出蓄意的偏差,既使是不自覺的,都必須找出,並找出「誰」說的,而並非籠統的「xx大學說」、「民調顯示」……。
(2)他怎麼知道的?
*必須了解樣本的大小,看看是否足夠使結論可靠;而如果報導的是某種關聯,則必須問:關聯夠大嗎?有實質意義嗎?
(3)漏了什麼?
*在缺少比較的情形下,很多數字會失去意義;若提出「平均」兩字,則必須告訴閱讀者是何種平均;還有,別忘了提供者刻意忽略的小數字。
(4)是否有人改變了主題?
*要注意從原始數據推導到結論的過程當中,有沒有什麼地方被改掉了,另外,屬於看似相關,實際上不相關的這類胡說八道,是另外一種看不出來的改變主題方法。
(5)這有道理嗎?
*很多統計數字從表面就可以看出是錯的,而精確到令人訝異的數字,同樣有違我們的一般常識,還有,過去至今的趨勢或許是事實,但是對將來趨勢做預測時,不過是有根據的猜測罷了。
譯者鄭惟厚寫到:「看這本書的目的不是要敎大家說謊,而是希望大家能讓用統計說謊的人「破功」。」的確,在看完這本書後,覺得自己判斷數據的能力大大的增加,相信以後我因統計而上當的機會一定會大幅的減低!
δ參考資料
(1) 別讓統計數字騙了你/赫夫 著/鄭惟厚 譯/天下文化 出版
(2) 圖解數學辭典/奧斯朋出版編輯群 著/陳昭蓉 譯/天下文化 出版
----------------------------------
和大家分享~
如有要引用的~
不管是報告還是blog~
留言問我唄~-ˇ-
【以上圖片出自:別讓統計數字騙了你】
其實圖二和圖三都是由圖一擷取出來的,只是因為圖片長度、寬度不同,進而影響到閱讀者的視覺感受,同時也讓閱讀者產生出不同的想法,只看圖一時會認為此家公司的每個月營業額都是循序漸進,再看圖二會認為此家公司每個月營業額爬升速度挺快的,看了圖三後便會認為此家公司真是不得了,相信其未來發展必定大有看頭,這就是許多公司愛用的小計謀,將一圖表經過切割放大,使它呈現出來的視覺效果令人驚訝,而筆者國中時曾參與過科展,也曾在縣展比賽會場利用此類圖表來使評審認為實驗效果不錯,既使是些微的變化,也能利用此圖來使變化量看起來增加不少,在這部分我們得到一個結論:線圖在經過切割後(如圖二),我們的眼無法「暸解」沒出現的部份,因此小部分的上升,看起來有較大幅度的增長,而在將圖二經過刻度變更並放大後,並沒有使用任何形容詞或副詞來破壞客觀性,且此作法比使用文字更為吸引閱讀者的目光。
δ5.似相關而非相關的數字
筆者先舉一個書中的例子:“《本週》雜誌指出「高速公路上的車禍死亡人數,晚上七點是早上七點的四倍。」”難道這就表示說,要飆車的話,請在早上七點到高速公路上飆車,你的存活機率將是晚上七點的四倍嗎?當然不是,這兩樣事情根本不能放在一起講,因為早上高速公路車禍死亡人數少,可能是因為當時在高速公路上的人較少,所以不能不考慮其他原因就直接拿數據比較,再舉另外一個例子:“在美西戰爭當中,海軍的死亡率是9‰,而在同一時期中,紐約市的老百姓的死亡率則是16‰,負責招募新兵的人後來就用這些數字來「證明」,加入海軍比不加入要安全。”但這不全然是對的,因為海軍是由健康良好的人民組成的,老百姓裡卻包括嬰兒、老年人和病人,而這些人的死亡率較高,所以海軍的死亡率當然較低,所以這兩群人根本不能比較,在這部分我們得到了一個結論:事情真相常常不向表面上看到的一樣,因為任何一個數字都常常有許多種表示方法,欺騙的一方常常是選擇聽起來一樣,實際上卻不同的事情來進行欺騙,所以在閱讀這些訊息時,需利用大腦思考一下,或許這則訊息所隱藏的事實並不是像它表面上看起來的。
δ6.錯誤因果結論
大家常常會有一個錯誤的觀念:因為乙跟著甲發生,所以一定是甲造成了乙,就像書中的例子:“有人曾經花了一大堆功夫,想要知道吸煙者的大學成績是否比不吸菸者要差,結果果真如此。”誰能確定是因為吸菸而導致成績變差,而不是因為成績差而吸菸,所以此兩件事情之間可能不是因果關係,而是因為另外一項因素而造成的結果,在「吸菸」和「成績差」之間關聯雖然存在,但之間是否有因果關係就純屬猜測,而有些事情雖然有相關性,但之間的關聯並非百分之百,例如:身高越高的人比身高越矮的人重,在大部分的時候,此關聯成立,但是也是可以找到身高165卻比身高175的重,所以我們可以說身高和體重之間有一定程度的正相關,在這一部分我們得到了一個結論:只要樣本小一點,你就有可能在你想像得到的任何兩種特質或事件之間,找到相當程度的關聯,既使一項關聯確實存在,而且也的確由因果關係造成,但是對單獨個案來說,這個關聯還是可能會完全不適用;當數字與結論放在一起時,不代表數字就可以支持這個結論,所以我們一定不能讓統計及數字攪亂了因果關係。
δ7.統計操控
先來舉個例子:“1949年時美國的平均收入在普查局方面和賽吉基金會所給的數具之間有極大的出入,原因是普查局是取中位數,而賽吉基金會是取平均數。”如果照賽吉基金會的算法,想成為百萬富翁的首要條件就是必須多生些小孩,真是荒謬的說法,而在利用統計唬弄人的部份,最有用的非小數點和百分比莫屬了,只要使用小數點,即便是最差勁的統計結果也能因此使一些人信服,而百分比和百分點其實是不一樣的東西,例如:某年的投資金額的利潤從3%上升到6%,可以說是上升3個百分點,也可說是上升100%,在這一部分我就不贅述,直接結論:小數點和百分比能讓不確定的數字看起來精確,而任何根據稀少案例所計算出來的百分比,誤導的機會都不小,不如直接把原始數字寫出來,這樣反而比較清楚;而有許多詐騙手段都是源自於把不應該相加,卻可以相加的東西加在一起,既使是從事學術研究的人,也可能因為觀念有所偏差,或想要證明某個觀點,甚至是有所企圖,而利用「統計操控」。
δ後記
在遇到統計資訊時,要如何正面迎戰不實的統計,並把它征服呢?可以利用書上給的五個問題來刺探,以下便是這五個問題:
(1)誰說的?
*要找出蓄意的偏差,既使是不自覺的,都必須找出,並找出「誰」說的,而並非籠統的「xx大學說」、「民調顯示」……。
(2)他怎麼知道的?
*必須了解樣本的大小,看看是否足夠使結論可靠;而如果報導的是某種關聯,則必須問:關聯夠大嗎?有實質意義嗎?
(3)漏了什麼?
*在缺少比較的情形下,很多數字會失去意義;若提出「平均」兩字,則必須告訴閱讀者是何種平均;還有,別忘了提供者刻意忽略的小數字。
(4)是否有人改變了主題?
*要注意從原始數據推導到結論的過程當中,有沒有什麼地方被改掉了,另外,屬於看似相關,實際上不相關的這類胡說八道,是另外一種看不出來的改變主題方法。
(5)這有道理嗎?
*很多統計數字從表面就可以看出是錯的,而精確到令人訝異的數字,同樣有違我們的一般常識,還有,過去至今的趨勢或許是事實,但是對將來趨勢做預測時,不過是有根據的猜測罷了。
譯者鄭惟厚寫到:「看這本書的目的不是要敎大家說謊,而是希望大家能讓用統計說謊的人「破功」。」的確,在看完這本書後,覺得自己判斷數據的能力大大的增加,相信以後我因統計而上當的機會一定會大幅的減低!
δ參考資料
(1) 別讓統計數字騙了你/赫夫 著/鄭惟厚 譯/天下文化 出版
(2) 圖解數學辭典/奧斯朋出版編輯群 著/陳昭蓉 譯/天下文化 出版
----------------------------------
和大家分享~
如有要引用的~
不管是報告還是blog~
留言問我唄~-ˇ-
上一篇:我的頭毛壓~
下一篇:IPv6–未來生活應用展
Q
2008-07-25 21:38:38
如果想到是少了什麼~
要跟我說捏~-ˇ- 2008-07-26 10:01:57
補= =
能上建中真不是蓋的!!
寫的挺好...但感覺上總覺得少了什麼= =
說不出,
:)
繼續加油阿*
版主回應
摁~如果想到是少了什麼~
要跟我說捏~-ˇ- 2008-07-26 10:01:57
我好像看過= =
(之前無聊找統計學的資料時)
看完你的文章之後,顯然有很多部分和我曾經看過的一樣......
這讓我確定我有看過這本書了XD
(搞啥東西阿我= =)
不過虧你很有耐心的把這麼長的東西打上去
厲害....= ˇ =