有效思維 · 第十一章 數字的理解與誤解
前一章末了的討論應當已經使我們明白,即使我們知道,例如,三十歲到四十歲之間的公共汽車司機100個有90個有胃病,我們也沒有理由作結論,開公共汽車和得胃炎之間有某種特殊聯繫,如果我們所知道的就只有這一情況。我們還需要知道在三十歲到四十歲之間的非公共汽車司機的人中間的胃病發病率。在進行後一種人的取樣的時候,既要有從事相近的職業的,如卡車司機等等,又要有從事迥不相同的職業的,如國會議員、教師、律師等等,還要有沒有固定職業的,如失業者和「無所事事的有錢人」。這種辦法合乎常識,也符合邏輯。如果發現在非公共汽車司機的人中間,患胃病的人的比例比公共汽車司機中間的比例低,那就有理由說在開公共汽車和得胃病這二者之間有特殊聯繫。這並不意味著所有的公共汽車司機都有胃病;它只意味著公共汽車司機有得胃病的傾向。前一章里討論了一個同類的問題,其目的就在於強調A有B的傾向這一形式跟所有的A都是B和有的A是B這兩種形式有根本性的區別。我說這種區別是根本性的,因為「A有B的傾向」給予我們的信息跟「所有的A都是B」和「有的A是B」是不同類的。如果我們說「A有B的傾向」,比我們說「有的A是B」提供更多的信息,雖然前者包含後者。另一方面,「A有B的傾向」又不等於「所有的A都是B」。把話說得細緻些,「A有B的傾向」的意思就是「雖然有的A不是B,有的非A是B,然而A之中的B的比例大於非A之中的B」。稍稍思考一下,我們就會懂得,這樣的信息是有用的;而且在人類事務中有一定重要性、引起人們關心的問題上,我們所能得到的有關事物之間的聯繫的信息往往只能是這種形式的信息。很少既真實又合於我們需要的話能夠採取「所有的A都是B」的形式,如果A代表變化多端的事物,如人,政府形式,職業種類,處罰種類等等。
我們說到某種職業病的時候,意思是從事這種職業的人有得那種病的傾向。這一發現應當引導我們去考察導致這種疾病的條件。也許會發現這些條件可以改變,因而消除或至少是減少得這種病的傾向,不至於要求人們完全脫離那種職業。無須多舉例子來說明我們必須弄清楚兩種特徵之間有一定的聯繫還是僅僅偶然同時出現;另一方面,由於這些特徵難於從亂七八糟的一堆情況里分離出來,我們無法直接研究它們的聯繫。公共汽車司機中間得胃病的多這個問題就屬於這種情形。我們面對一堆複雜的情況,不能決定這些人如果不當公共汽車司機是否同樣會得胃病。處理這類問題,必須運用統計方法。在這類問題上,我們既無法觀察一切可能的案例,又不能做實驗。要做實驗,必得能夠控制有關的條件,一次變換一個因素。如果做不到這一點,變換一個因素的結果將被各種別的變化的影響所擾亂。統計方法就是幫助我們對多種原因的事例作有效處理的。確實沒有別的方法可以分清這些因素。
詳細說明統計考查的性質不在本書的範圍之內,討論統計法的技術問題就更不用說了。我們的討論限於陳述和解說統計結果所遇到的某些困難。很多無效思維是由於沒有認識到,如果我們要從統計結果中得出正確的結論,如果我們要避免由統計結果的某種表現方式所引起的誤解,我們就必須在某些方面提高警惕。
有效思維的障礙之一是,我們有時候沒有認識到我們的結論建立在不完全的數據之上,我們本當應用一種粗淺的統計方法。前一章末了提到癟下巴的人有性格懦弱的傾向就屬於這類問題。我們往往會從一個例子或幾個例子,其中A是B,一躍而得出凡A皆B的結論。我們忘了要留意反面的例子,因而很容易被人家只用一個A不是B的例子就把我們駁倒。可是,我們已經在前面說過,雖然有A不是B的例子,我們不是只能滿足於「有的A是B,有的A不是B」這種軟弱的陳述。可能有A往往是B這種傾向。讀者還記得,要確立這一論斷,必須區分四類。用字母A和B來表示,這四類是:AB類;A 類; B類;類。如果B中之A的比例等於非B中之A的比例,那麼這兩類是不相干的。A沒有是B的傾向,B也沒有是A的傾向。例如,據我所知,藍眼珠的人沒有脾氣好的傾向,脾氣好的人也沒有藍眼珠的傾向。如果事實是如此,我們就應該說,藍眼珠和好脾氣之間沒有聯繫。我曾經聽人說,海軍中的人有藍眼珠的傾向,我懷疑這種信念起源於海軍人員與藍色的海之間的聯繫,而這種信念又為虛構所加固。可是如果這種信念有事實根據,我們就得說,當海軍和有藍眼珠之間有正面的聯繫。兩種特徵之間的聯繫可以有各種程度,從完全聯繫到完全不聯繫即互不相干。
始終存在一種犯錯誤的危險,就是沒有注意到AB,A , B,四類,下面是一個例子。
「種牛痘不防止出天花或者使天花出得比較溫和。按照戶口登記總處的統計,嬰兒死於牛痘的比死於天花的多。」(《和平新聞》,1938年4月23日)
姑且承認死於牛痘的嬰兒比死於天花的多。這也不能支持前面的結論。因為種牛痘的嬰兒的數目比傳染上天花的嬰兒多。上面的引文的作者沒有考慮到那些沒有種牛痘、得了天花而死了的嬰兒與種了牛痘、有傳染天花的機會而沒有傳染的嬰兒的比例如何。
統計考查的目的就是要使我們能夠發現並陳述特徵組合與特徵組合之間的聯繫。或者個體類之間的相互關係——二者實際是一回事。人口統計是拿不同時期或不同地區之間的出生率、死亡率等等作比較的。勞動統計搜集某種工業勞動的工傷事故次數和這種勞動的疲勞度,用以確定二者之間有無或有多大的相關度。表示這種種結果,我們有應用起來很方便的語言——平均數。
我想大家都熟悉「平均」這個詞的用法,但是未必每個人都知道統計學家有不同類別的平均數。該用哪一種,決定於數據的類型和統計應用的目的。最為大家所熟悉的是算術平均數。舉個例,假定一個候選人在考試中得了60分,他怎麼知道這是個好的還是不好的分數呢?不同的主考人給分數可以上下很大,同一主考人在不同的考試中給分數也可以上下很大。如果候選人知道60分是「大大高於平均數」,他就會很高興。這裡的平均數大概是算術平均數。這個平均數是先把所有應考人的分數加在一起,除以應考的人數取得的。這樣,平均數代表一個分數集,可以認為表示這個集的中央傾向。算術的平均數有時候不能表示事情的真相,因為它不提供這些項目的分布情況,它們可能擠在中心附近,也可以分散得很開,或者從最低分到最高分分布得很均勻。如果我們要比較不同職業的兩組人可能獲得的平均收入,算術的平均數就可能造成誤解。比如我們要比較一組教師的工資和伊戈希爾商行職員的工資。假定我們在兩組各取二十名,分別稱為A和B。假定A組裡邊有八個人年薪300鎊,三個人年薪325鎊,四個人年薪350鎊,兩個人年薪400鎊,一個人年薪425鎊,兩個人年薪500鎊。這一組的平均收入是350鎊。在B組,兩個人年薪150鎊,四個人年薪200鎊,四個人年薪250鎊,兩個人年薪300鎊,一個人年薪350鎊,一個人年薪400鎊,一個人年薪450鎊,一個人年薪500鎊,一個人年薪600鎊,兩個人年薪800鎊,一個人年薪1000鎊。這一組人的平均收入是380鎊。但是,雖然B組的平均收入高於A組,如果說B組的人有獲得更高收入的傾向,那可就錯了。正相反,B組有十個人的收入低於A組的任何一個人;就是說,B組有一半人的年收入在A組的任何一人之下。B組的人的「總收入」達到7600鎊,而A組的人的總收入只有7000鎊,這一事實並不能鼓舞B組裡的一部分成員,他們很少希望能得到較高的收入。較高的一頭的高收入把平均數「拉高」了。收入並不是公有的,所以B組有幾個人收入大大高於A組的多數人,並不能安慰B組那些低收入的人。所以,如果我們用算術平均數來計算英國居民的平均收入,我們會得到一個非常錯誤的印象,因為英國的財富是分布得很不均勻的,有百萬富翁在一個極端,有毫無收入的人在另一極端,而大多數人的收入是一年不到250鎊。以這一個例子而論,用稱為眾數(mode)的那種平均數更為有用。所謂「眾數」就是在一組裡邊出現次數最多的一個。因此,眾數常常被認為是一組之中最有代表性的一個。在兩端之間的變異(稱為「分布域」)相當大的時候,眾數比算術平均數更能代表整個組,因為眾數標誌著整個大組裡邊最大的一個小組,因而表示最有可能出現的一種情況。它不像算術平均數那樣會被這一頭或那一頭「拉高」或「拉低」。眾數的這個特點有時候很有用。如果我們要決定一個很大的集合物的性質,並且我們已經取樣相當多,那麼眾數是最有用的平均數,因為它不受兩極端的廣大分歧的影響。另一方面,用於某種目的,眾數又可能是一種缺點,因為在整組之中取消幾個個體可以不影響眾數。另一種平均數是中數。這是一系列個體按大小排列之後居於中間的一個。如果這一系列的個體數是單數,必然有一個中數,比它大的和比它小的恰好數目相等。如果個體數是雙數,那麼,最中間的兩個個體的算術平均數就是中數。
上面只是關於平均數的非常初步的說明。關於各種平均數和統計方法的充分討論可以在許多教科書里找到。我的注意力放在報紙的普通讀者會遇到的某些困難上,這些困難往往不引起注意。首先我們可以注意,算術的平均數不能表示一組之中任何一個個體的情況。可能沒有一個個體恰好符合這個數;即使有,這個數目也不是表示那個個體的;平均數表示組的特徵。例如,如果我們知道一個板球擊球手的平均得分是50,我們不能認為他恰巧有得五十分的任何機會。相反,他可能是不穩定的人,第一次失了手,當他注意了球的時候,可能扳回了一百分。另一種危險是把話說得準確到超過事實所允許。例如要求一個學生把他一個星期之內用於學習的小時數說出來。他也許說是8,7,7,5,6,8,8。算術平均數是6小時,用小數記下來是6.8591。計算是正確的,但不能就此認為得數是準確的。學生提供的是整數,小時的數目是對的。但可能多幾分鐘,少幾分鐘。例如他說的是7小時,實際是6小時52分。這是個無關緊要的例子,但是可以用來說明對精確數字結果的信賴往往是可笑的,除非那些數據是以同樣的數據取得精密度。重要的是不要讓我們上虛假的精確性的當。我們太容易輕信統計結果,因為我們相信統計人員的數學能力。A.N.懷特海教授說得好:「因為有了長時間的準確的數學計算,就認為把計算結果用於某些自然界事實是絕對可靠,沒有比這更常見的錯誤了。」(1)
下面也許是偽準確的一個例子:「1930至1935年,日本本國居民從64,450,005增加到69,254,148人。1935年出生超過死亡在一百萬以上。」(2)我們不知道作者是否把1930年12月31日午夜前一分鐘出生的(如果有)和1930年12月31日午夜後一分鐘出生的之間的線畫得準確。如若不然,我們倒想知道那末位數5是怎麼得來的。在人口統計上,平均數的價值是不大的,除非考查延續相當多的年份。常識告訴我們,如果我們的考查只有三四年,我們沒有根據說一個國家的出生率在下降。也許在這一段時間之內有什麼特殊的、不再現的原因起了作用。常識——可惜太稀罕了——告訴我們一條規律,平均數的可靠性與所依據的觀察的次數多寡成正比例。還有,有了一個以一定次數的觀察為根據的平均數,從它產生的推論的可靠程度要看那些數據的分布是否分散在兩個極端。一定要記住,「平均數」是「極端之間的變異的度量」。可以把它當做有代表性的數。
雖然多數沒有研究過這門學問的人會說「平均」意味著「算術平均數」,我想一般人嘴裡說的「平均」(the average man)只能認為指「眾數人」(the mode或modal man),意思是「典型人」(3)。我們在前一章討論羅素的話,他說的「平均的婦女」(一般婦女)就是用的這個意思。無疑,「典型婦女」(如果有)是具有最常常跟婦女聯繫在一起的那些特徵的婦女。我想這個解釋合於羅素的用法。可是也可能他並不打算說得這麼精確。正如《滑稽》(Punch)報里的一個角色說過的,「我相信五十個女人裡邊不會有比一個更多的平均女人。」在兩極端相距很遠的時候,一個受教育比較少的人很難認識到還是有一個平均數。有時候我們大家都感覺困難,除了專業的統計學家。我們全都很難記住,通過平均數,甚至通過一般的統計結果,給予我們的信息是何等稀少,只有專業的統計學家他們不糊塗。
很多人都知道,有時候從調查表的答案里產生出來的數據經過統計得出重要的結論。1935年的有名的和平投票就是用的這個方法,更早幾年兩家倫敦報紙舉行的關於宗教信仰是否衰頹的調查也是用的這個方法。很明顯,沒有很可靠的信息可以用這種方式取得。一般的做法是要求對一些問題用簡單的即無條件的「是」和「非」來回答。然而在這類問題上要設計出非常明晰的問題、可以用「是」和「非」來回答,幾乎是不可能。其次,只有某一種類型的人會回答這些問題;別的人會拒絕回答,或者因為討厭這種調查法,或者因為懶,或者因為有別的事情纏住。在這種情況下,要劃清被調查者的範圍就非常困難。然而這是正確使用統計法的首要條件。結果的性質如此有賴於每一個提問的措辭周密、問題總的覆蓋面、其答案將構成數據的人的類型,以致在我看來,這種調查表的可靠性非常小,尤其是通過報紙或通過派人登門收集。調查表的方法只能在考查者本人能適當控制的情況下應用才能有點用處。
我要從米里森·法瑟特女爵士1912年出版的《婦女選舉權》上引一個例子。(4)她說英國反婦女選舉權同盟十分強調從市縣選舉婦女投票人那裡收集到很多請願書、抗議書反對國會選舉中的婦女選舉權。但是米里森女爵士指出,擁護選舉權者「在同一群眾中就同一問題舉行的調查」,其結果與反對選舉權者所獲得的結果「全然不同」。她引用了「擁護選舉權者在1909年和反對選舉權者在1911年分別舉行的雷丁市婦女選舉人意見調查」,結果如下:
擁護婦女選舉權同盟1909年調查:
反對婦女選舉權同盟1911年調查:
米里森女爵士的結論是:「這兩次調查的結果相差如此之大,不進一步考查雙方所用方法,沒有可能作結論。」
另一種性質的錯誤是有時候講到一組的百分比,可是不說明這一組的人數。例如,如果一位教師說他的學生百分之百考試及格,而另外一位教師的學生只有百分之六十及格。這給人一個顯明對比的印象。可是如果我們發現第一位教師只輔導了一個學生而第二位卻輔導了十位,我們的看法就要修改了。沒有文化的人講到百分數的時候有時候會犯非常可笑的錯誤。下面這個故事是極端可笑的例子。《曼徹斯特衛報周刊》(1938年5月27日)從一家法國報紙轉載一位法國人在蘇格蘭旅行時遇到的一件事。一隻小火輪的船長賣明信片。「兩分錢一張,」他說。「我是薄利推銷,只收取百分之一的利潤。您看,我一分買來,二分賣出。」
我不擔保這個故事的真實性,但這是跟本章內容有點關係的。
有一個相反的錯誤的例子。一個小學生誇口說上學誤火車只有一次,而隔壁那個孩子誤了四次。事實是第一個孩子才上了一個學期的學,而第二個孩子則已經上了兩年學了。
數量的比較常常用圖形來表示,這也要注意防止錯覺。現在我面前有一張這樣的圖,是發表在一家倫敦報紙上的(《旗幟晚報》,1938年3月28日)。這幅圖是用來表示三個數量的比較的:(1)英國從蘇聯進口的貨物;(2)從英國轉口到蘇聯的貨物;(3)蘇聯從英國進口的貨物。這三項的價值分別為:(1)29,096,536鎊;(2)16,432,55鎊;(3)3,083,025鎊。圖畫的標題是「十比一的逆差」。我們得承認,用圖畫來表示,讀者對於數量的比較能獲得更鮮明的印象。這一幅圖裡畫著三條船,每條船上寫出類別和錢數。船的形狀是寬而不高,有點像歐羅巴型,船身全黑。這三條船的高度是按照上述的三個錢數定的,但是讀者的眼睛不可避免的既看到高度,也看到面積。除非他特別小心,否則他會拿每個圖形的整體作比較。最高的那條船(代表英國從蘇聯進口的貨物)高度是66毫米;最小的那條船(代表蘇聯從英國進口的貨物)高度是6毫米。這兩個高度代表兩項貨款是大致不差的(錢數都寫在每條船的旁邊)。可是讀者如果不是十分注意,就會為船身面積所左右,而且如果他是對船舶感興趣的,還會為船的體積所左右。結果所得印象多少可以表示如下:
任何一位讀者對這些船形看上一眼大概都會得到一個印象,最大的船比最小的船大一百倍而不是十倍。如果他是個搞運輸的,他會想到船的載貨量,那麼大船將是小船的一千倍。(5)這是一個很不巧妙的數量比較圖畫表示法。或者,也許太巧妙?
附 記
158—159頁補記:上面這一段寫成之後,《新聞記事報》即已開始公布英國輿論學會的調查結果,這個學會的目的是要了解「英國人在想什麼」。按照我所能判斷的,所擬的問題的措辭是可以取得明確答案的。取樣是與全部人口成比例的。因為結果的正確主要在於人口中各種成分的代表性而不在於問題的多寡,所以取樣特別注意各方面的代表性。一般公認,有2500人的隨機取樣(6),所得結果的誤差可以不超過百分之三。
輿論學會除在《新聞記事報》上公布問題和結果外,跟那個報紙沒別的關係。(請看《新聞記事報》,1938年10月15日,28日。)
————————————————————
(1) A. N. Whitehead: Introduction to Mathematics, p. 27.
(2) W. H.Chamberlain: Japan over Asia, p. 21.
(3) 即漢語常說的是「普通人」或「一般人」,——譯者
(4) Dame Millicent Fawcett: Woman's Suffrage, pp. 51-52.
(5) 這個例子是A.F.道溫先生提供給我的。
(6) 即無畸重畸輕的情況。——譯者