

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第 4 章 數據的概括性度量,4.1 集中趨勢的度量 4.2 離散程度的度量 4.3 偏態(tài)與峰態(tài)的度量,數據的概括性度量,4.1 集中趨勢的度量,集中趨勢(central tendency)是指一組數據向某一中心值靠攏的傾向和程度,集中趨勢可以反映一組數據的中心值或代表值,不同數據類型可選用不同的集中趨勢測度值.低層次數據的測度值適用于高層次的測量數據,但高層次數據的測度值并不適用于低層次的測量數據.,4.1
2、.1 分類數據:眾數,一組數據中出現次數最多的變量值稱為眾數(mode) ,用M0 表示.不受極端值的影響.眾數主要用于測度分類數據的集中趨勢.也可用于順序數據和數值型數據. 一組數據可以沒有眾數,也可以有幾個眾數.,眾數的特性,(1) 一組數據可以沒有眾數 假定一組數據如下: 1 2 3 4 5則這組數據沒有眾數.,,,,,,,,,1,1,2,3,4,5,(2) 一組數據可以有多個眾數. 假定一
3、組數據如下: 1 2 2 3 4 4 5那么這組數據有兩個眾數.,,,,,,,,1,1,2,3,4,5,,,2,圖4 -1 眾數示意圖,,,,無眾數 一個眾數 多于一個眾數,例 4.1,根據第3章表 3-4 的數據,計算“飲料品牌”的眾數.,表3-4 不同品牌飲料的頻數分布,解:這里的變量為“飲料品牌”,是分類變量,不同類型的飲料就是變量值.在所調查的50 人中, 購買可口可
4、樂的人數最多,為15人,占總被調查人數的 30% ,因此眾數為“可口可樂”這一品牌. 即 可口可樂,例4.2,表3-6 甲城市家庭對住房狀況的評價,根據第3章表3-6的數據,計算甲城市對住房狀況滿意度評價的眾數.,解:這里的變量是回答類別,是順序變量.甲城市所調查的300戶家庭中,對目前住房不滿意的戶數最多,有108戶.所以這組數據的眾數為“不滿意” 這一類別.即 不
5、滿意,例4.3,在某城市中隨機抽取9戶家庭, 調查得每戶家庭的人均月收入數據如下(單位:元).要求計算人均月收入的眾數. 1080 750 1080 1080 850 960 2000 1250 1630 解: 人均月收入1080的家庭最多, 即 元,一個由claremont學院本科學生組成
6、的“莎士比亞診所”,用統(tǒng)計分析對58個與莎士比亞同時代的作家進行分析,以確定誰的寫作風格與莎士比亞的作品風格最相近。他們從58個作家的作品中選取片段,并將其分成500字一段的小段,對區(qū)組中的一些變量進行計數統(tǒng)計,例如,考察52個關鍵字的出現情況,并找出其眾數,由此得出各個作家的主要特征。結果,58個備選者中沒有一個能通過眾數檢驗。因此證明,是莎士比亞寫下了他本人的詩篇。,莎士比亞著作中的眾數,4.1.2 順序數據:中位數和分位數,1.中
7、位數(median),一組數據按從小到大排列時,處于中間位置上的變量值稱為中位數,用 Me 表示. 中位數主要用于測度順序數據的集中趨勢.中位數當然也適用于數值型數據,但不適用于分類數據. 顯然,中位數作為位置代表值,其數值不受極大值和極小值的影響.,中位數的位置,對未分組數據 中位數的位置=即未分組數據的中位數是1, 2, , n 這 n 個位置的平均. 而對于分組數據,則
8、中位數的位置=,(4.1),中位數的計算,例 4.4,根據第 3 章表 3-6 的數據,計算甲城市家庭對住房狀況滿意程度評價的中位數.,表3-6 甲城市家庭對住房狀況的評價,解:已知n = 300,從而中位數的位置為,從累積頻數可知,中位數在“一般”這一類中,因此,一般,例 4.5,在某城市中隨機抽取9個家庭,調查得各個家庭的人均月收入數據如下(單位:元),試計算人均月收入的中位數. 1500 750 780 108
9、0 850 960 2000 1250 1630 解:把數據排序得 750 780 850 960 1080 1250 1500 1630 2000而中位數的位置= (9+1)/2 = 5, 于是,例 4.5(續(xù)),假定例4.5中隨機抽取10個家庭,各個家庭的人均月收入數據如下 660 750 780 850 960 1080 1250 1500 1630 2000從而中
10、位數的位置= (10+1)/2 = 5.5, 于是,例,根據第3章表3-12的數據,計算電腦銷售量的中位數. 解:由于 n =120,則中位數的位置為,中位數為,2 四分位數(quartile),與中位數類似的還有四分位數。一組數據按從小到大排列時,處于 位置上的變量值稱為第一個四分位數(下四分位數),處于 位置上的變量值稱為第三個四分位數(上四分位數),而中位數就是第二個四分位數。,四分位數的位置,對未分組時
11、 下四分位數( )的位置= 上四分位數( )的位置= 而對于分組數據,則 下四分位數( )的位置= 上四分位數( )的位置=,(4.3),例,例 4.6,對例4.5的數據,計算人均月收入的下四分位數和上四分位數. 解:已知 n =9,得下四分位數和上四分位數的位置,于是,例,解:QL位置= (300)/4 =75 QU位置 =(3×
12、300)/4 =225 從累計頻數看, QL在“不滿意”這一組別中; QU在“一般”這一組別中。因此 QL = 不滿意 QU = 一般,4.1.3 數值型數據:平均數,平均數也稱均值(mean), 是最常用的集中趨勢測度值,易受極端值的影響.主要適用于數值型數據,但不適用于分類數據和順序數據.,1.簡單平均數與加權平均數,(1) 根據未分
13、組的數據計算簡單平均數,設一組數據為 則平均數 的計算公式為,例如,根據例4.5的數據,計算9個家庭人均月收入的平均數為,(元),(4.4 ),(2)根據分組的數據計算加權平均數,設一組數據 分為k組,各組的組中值和組頻數分別為 . 則平均數 的計算公式為,(4.5 ),例4.7,根據第3章表 3-13中的數據,計算電腦銷售量的平均數.,表4 -1 某電腦公司銷售量數據平均數計算表,解:根
14、據(4.5)式,得,(臺),加權平均數(權數對平均數的影響),甲乙兩組各有10名學生,他們的考試成績及其分布數據如下 甲組: 考試成績(x ): 0 20 100 人數分布(f ): 1 1 8 乙組: 考試成績(x): 0 20 100 人數分布(f ): 8 1 1,,,2 調和平均數(Harmonic me
15、an),均值的另一種表現形式,易受極端值的影響.計算公式為,原來只是計算時使用了不同的數據!,調和平均數(例題分析),【例】某蔬菜批發(fā)市場三種蔬菜的日成交數據如表,計算三種蔬菜該日的平均批發(fā)價格。,,3 一種特殊的平均數:幾何平均數,幾何平均數(geometric mean)是平均數的另一種類型,主要用于比率或速度的平均. (1)根據未分組的數據計算幾何平均數 設一組數據為 則幾何平均數為,(4.6 ),(2)
16、根據分組的數據計算幾何平均數 設一組數據 分為k組,各組的組中值和組頻數分別為 ,則幾何平均數的計算公式為,平均增長率,對逐年增長率 平均增長率應 滿足,(4.8 ),即,或,(4.9 ),幾何平均數 (例題分析),【例】某水泥生產企業(yè)1999年的水泥產量為100萬噸,2000年與1999年相比增長率為9%,2001年與2000年相比增長率為16%,2002年與200
17、1年相比增長率為20%。求各年的年平均增長率。,年平均增長率=114.91%-1=14.91%,幾何平均數 (例題分析),【例】某企業(yè)生產某種產品要經過三個連續(xù)作業(yè)車間才能完成。若某月份第一車間粗加工產品的合格率為 95%,第二車間精加工產品的合格率為 93%,第三車間最后裝配的合格率為 90%,則該產品的車間平均合格率為多少?,即該產品的車間平均合格率為 92.64% 。,例4.8,一位投資者持有一種股票,2001-2004年的收益率
18、分別為4.5%,2.1%,25.5%和1.9%. 計算該投資者在這四年內的平均收益率. 解:根據(4.6),得,即該投資者的投資平均收益率為108.0787%-100%=8.0787% .,4.1.4 眾數、中位數和平均數的比較,1.眾數、中位數和平均數的關系,圖4-2 不同分布的眾數、中位數和平均數,(a)對稱分布,(b)左偏分布,(c)右偏分布,,2.眾數、中位數和平均數的特點,(1)眾數是一組數據出現次數最多的數值,
19、不受極端值的影響,但可能沒有眾數,也可能有兩個或兩個以上眾數。眾數主要適用于分類數據的集中趨勢測度. (2)中位數是一組數據處于中間位置上的數值,不受極端值的影響,主要適用于順序數據的集中趨勢測度. (3)平均數具有優(yōu)良的統(tǒng)計性質,是實際應用最廣泛的集中趨勢測度值.主要適用于數值型數據的集中趨勢測度.,3.眾數、中位數和平均數的應用場合,例 從一家公司中選取一個20名工人的樣本,將他們每周除去所有費用后的凈收入近似為
20、整數并按升序排列如下(元):240,240,240,240,240,240,240,240,255,255,265,265,280,280,290,300,305,325,330,340。計算 (1)、平均數,中位數,眾數; ,中位數=260元,眾數=240元 (2)、從偏斜
21、度的角度描述這組工資數據; 由于平均數大于中位數,所以這個分布是右偏分布。,3.眾數、中位數和平均數的應用場合,(3)、假如你是這家公司負責勞資問題的副總經理,你會采用哪個測度值代表公司中所有員工的收入水平? 因為樣本平均數是這三個平均數測度值中的最大值,所以你可能傾向于采用它作為平均數。事實上,使用它非常合適,因為這里牽涉到統(tǒng)計推斷,而樣本平均數是可用的最穩(wěn)定的統(tǒng)計量。 (4)、假設你是推選出的工會主
22、席,你會采用哪個測度值代表公司中所有員工的收入水平? 從你在工資問題談判中所處的位置出發(fā),你可能傾向于選擇眾數,或者至少是中位數,而決不會選用平均數。為了說明你選擇的測度值是合理的,你應該指出眾數代表了樣本中大部分人的凈收入,或者可以指出從樣本中可以看出樣本平均數受到極少數高工資的影響。然而,無論是眾數還是中位數都會隨樣本不同而產生很大變化,所以比起平均數都是不穩(wěn)定的總體估計值。,數據類型與集中趨勢測度值,4.2 離散程度
23、的度量,離散程度或分散程度是數據分布的另一個重要特征,離散程度的測度值反映數據的分散程度.數據的分散程度越大,則集中趨勢測度值的代表性就越差;分散程度越小,則集中趨勢測度值的代表性就越好. 不同數據類型有不同的離散程度測度值.,4.2.1 分類數據:異眾比率,異眾比率(variation ratio)是非眾數組的頻數所占的比例,即,異眾比率用于衡量眾數的代表程度: (1)異眾比率大,說明眾數的代表性差 (2)
24、異眾比率小,說明眾數的代表性好,(4.10),例4.9,根據第3章表3–4的數據,計算異眾比率.,表 3-4 不同品牌飲料的頻數分布,解:根據(4.10)式,得異眾比率,在所調查的50人當中,購買其他品牌飲料的人數占70%. 由于異眾比率比較大,因此用“可口可樂”代表消費者購買飲料品牌的狀況,其代表性不是很好.,4.2.2 順序數據:四分位差,四分位差(quartile deviation)是上四分位數與下四分位數之差,即,(4.11
25、),四分位差反映了下四分位數至上四分位數之間 (即中間的50%數據)的離散程度或變動范圍.四分位差越大,說明中間這部分數據越分散,而四分位差越小,則說明中間這部分數據越集中.四分位差在一定程度上可用于衡量中位數的代表程度.,四分位差 (例題分析),解:為了計算順序數據的四分位差,需要把各類別數量化。設非常不滿意為1,不滿意為2, 一般為3, 滿意為 4, 非常滿意為5,已知 QL = 不滿意 = 2 QU =
26、 一般 = 3四分位差: QD = QU — QL = 3 – 2 = 1,例4.10,根據例4.6的數據,已求得 ,從而四分位差為,(臺),4.2.3 數值型數據:方差和標準差,測度數值型數據離散程度的主要方法有極差、 平均差、方差和標準差,但最常用的是方差和標準差.,1.極差,極差(range)是一組數據的最大值與最小值之差,
27、即 未分組數據:R=最大值-最小值 分組數據:R≈最后一組的上限-第一組的下限 (4.12) 極差計算簡單,是描述數據離散程度的最簡單的測值.但極差易受極端值的影響,并且不能反映中間數據的分散程度?! ±?,根據例4.5的數據,得9個家庭人均月收入的極差為 R=2000-750=1250(元),2.平均差,平均差(mean deviation)是各變量值與均值離差絕對值的平均.平均差雖然能全面反映
28、一組數據的分散程度,但由于離差取了絕對值,這給計算和統(tǒng)計性質的討論帶來不便,因而實際工作中應用較少.計算公式為:,未分組數據,組距分組數據,(4.13),(4.14),例 4.11,含義:每一天的銷售量與平均數相比,平均相差17臺,3.方差和標準差,方差和標準差(variance and standard deviation)是最常用的離散程度測度值. 根據總體數據計算的稱為總體方差或總體標準差,而根據樣本數據計算的則稱為樣本方差或
29、樣本標準差.,(1)總體方差和標準差,方差的計算公式未分組數據:組距分組數據:,標準差的計算公式未分組數據:組距分組數據:,,總體標準差(例題分析),某車間50名工人日加工零件的標準差計算表,解: 計算過程列于表,根據計算公式得,(個),(2)樣本方差和標準差,未分組數據:,組距分組數據:,未分組數據:,組距分組數據:,方差的計算公式,標準差的計算公式,,(4.15),(4.17),(4.18),自由度的說明,1、一組
30、數據中可以自由取值的數據的個數2、當樣本數據的個數為 n 時,若樣本均值?x 確定后,只有n-1個數據可以自由取值,其中必有一個數據不能自由取值3、例如,樣本有3個數值,即x1=2,x2=4,x3=9,則 ?x = 5。當 ?x = 5 確定后,x1,x2和x3有兩個數據可以自由取值,另一個則不能自由取值,比如x1=6,x2=7,那么x3則必然取2,而不能取其他值4、樣本方差用自由度去除,其原因可從多方面來解釋,從實際應用角度看,
31、在抽樣估計中,當用樣本方差去估計總體方差σ2時,它是σ2的無偏估計量,例4.12 樣本標準差的計算,含義:每一天的銷售量與平均數相比,平均相差21.58臺.,方差的展開公式,在實際計算時,也可按展開公式計算方差,,1.,2.,3.,4.,4.相對位置的測量,(1)標準分數,標準分數(性質),標準分數(性質),標準分數只是將原始數據進行了線性變換,它并沒有改變一個數據在該組數據中的位置,也沒有改變該組數分布的形狀,而只是將該組數據變?yōu)榫?/p>
32、為0,標準差為1。,例4.13,根據例4.5的數據,計算每個家庭的人均月收入的標準分數. 解:根據例4.5的數據求可得 ,由(4.19)式得每個家庭的人均月收入的標準分數如下(表4-4) 表4-4 9個家庭人均月收入標準分數計算表,可以看出,收入最低的家庭其人均收入與平均數相比低1.042個標準差;而收入最高的家庭人均收入比平均數高1.853個標準差。,標準分數 (例題分析
33、),前NBA巨星Michael Jordan身高78英寸,而WNBA運動員R. Lobo身高76英寸,很明顯Jordan高出2英寸,但誰相對來說高一些呢?(男性平均身高69英寸,標準差為2.8英寸;女性平均身高63.6英寸,標準差為2.5英寸),Jordan的身高高于平均數3.21個標準差,而Lobo的身高高于平均數4.96個標準差。,(2)經驗法則,經驗法則表明:當一組數據對稱分布時 ▽ 約有68%的數據在均值加減1個標
34、準差的范圍之內 ▽ 約有95%的數據在均值加減2個標準差的范圍之內 ▽ 約有99%的數據在均值加減3個標準差的范圍之內,(4.15),(3)切比雪夫不等式(Chebyshev inequality ),對于k=2,3,4,該不等式的含義是 ▽ 至少有75%的數據在平均數加減2個標準差的范圍之內 ▽ 至少有89%的數據在平均數加減3個標準差的范圍之內 ▽ 至少有94%的數據在平均數加減4
35、個標準差的范圍之內,1)如果一組數據不是對稱分布,經驗法則就不再使用,這時可使用切比雪夫不等式,它對任何分布形狀的數據都適用 2)切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少” 3)對于任意分布形態(tài)的數據,根據切比雪夫不等式,至少有 (1-1/ ) 的數據落在k個標準差之內。其中k是大于1的任意值,但不一定是整數,4.2.4 相對離散程度:離散系數,方差或標準差都反映了數據分散程度的絕對值,而影響方差或
36、標準差數值大小有2個方面的原因: (1)與這組數據的平均數大小有關 (2)與這組數據的計量單位有關 例:設一組數據為1,2,3(n = 3),則 .而另一組數據為100,200,300 ( n = 3 ) ,則 . 從而對于不同平均水平或不同計量單位的兩組數據,不能通過直接比較方差或標準差來表明數據離散程度的大小. 為消除平均水平與計量單位的影響,需要計算離散系數,(4.2
37、0),例4.14,表4-5 某管理局所屬8家企業(yè)的產品銷售數據,某管理局抽查了8家企業(yè),其產品銷售數據見表4-5.試比較產品銷售額與銷售利潤的離散程度.,,,例4.14的解,解:由于銷售額與利潤額的平均數大小不同,不能直接按標準差進行比較,需計算離散系數. 根據表4-5數據,得,由于 ,說明銷售額的離散程度小于銷售利潤的離散程度.,數據類型與離散程度測度值,4.3 偏態(tài)與峰態(tài)的測度,偏態(tài)與峰度是對數據分布形狀的測度,4.3.1
38、 偏態(tài)及其測度,(1)未分組樣本數據的偏態(tài)系數,(2)分組樣本數據的偏態(tài)系數,設一組數據 分為 k 組,各組的組中值和組頻數分別為 . 則偏態(tài)系數的計算公式為,(4.22),(1) ,為對稱分布.,(2) ,為右偏分布.,(3) ,為左偏分布.,(4) 越大,則偏斜程度就越大.,例4.15,根據表3-9的數據,計算電腦銷售量的偏態(tài)系數.,表4-6 某電腦公司銷售量偏態(tài)與峰
39、度系數計算表,例4.15的解,已知,根據(4.22)式, 得,偏態(tài)系數為正值,且數值較小,說明電腦銷售量為輕微右偏分布,即銷售量較少的天數占據多數,而銷售量較多的天數則占少數.,4.3.2 峰態(tài)及其測度,(1)未分組樣本數據的峰態(tài)系數,峰態(tài)(kurtosis)是對分布尖峭或平緩程度的測度. 設一組數據 ,則峰態(tài)系數(kurtosis coefficient) 的計算公式為,(4.23),(2)分組樣本數據的峰態(tài)系數,峰
40、態(tài)是與正態(tài)分布相比較而言的,由于正態(tài)分布的峰度系數等于0,所以 (Ⅰ) ,峰態(tài)適中. (Ⅱ) ,比正態(tài)分布更尖峭,為尖峰分布. (Ⅲ) ,比正態(tài)分布更平緩,為平峰分布.,設一組數據 分為 k 組,各組的組中值和組頻數分別為 . 則峰態(tài)系數的計算公式為,(4.24),例 4.16,根據表 4-6的數據,計算電腦銷售量的峰態(tài)系數. 解:根據(4.24)式, 得,由于
41、 ,說明電腦銷售量的分布為平峰分布.,偏態(tài)與峰態(tài)(從直方圖上觀察),按銷售量分組(臺),結論:1. 為右偏分布 2. 峰態(tài)適中,某電腦公司銷售量分布的直方圖,用Excel計算描述統(tǒng)計量,把第3章表3-9電腦公司的銷售量的數據輸入到Excel工作表中,然后按下列步驟操作: 1.選擇【工具】下拉菜單, 并選擇【數據分析】命令. 2.在【數據分析】對話框中,選擇【描述統(tǒng)計】,并單擊【確定】.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 統(tǒng)計學第3、4章習題
- 統(tǒng)計學第1章
- 統(tǒng)計學a第8章-統(tǒng)計指數
- 醫(yī)學統(tǒng)計學第4章-計數資料的統(tǒng)計描述
- 應用統(tǒng)計學第12章
- 第01章管理統(tǒng)計學
- 統(tǒng)計學第3章練習
- 統(tǒng)計學第1.2章--習題
- 管理統(tǒng)計學-第4章--假設檢驗
- 《應用統(tǒng)計學》第4章概率論基礎
- 統(tǒng)計學【第5章概率】
- 劉超-簡明應用統(tǒng)計學-第2版-第1章-統(tǒng)計學緒論
- 統(tǒng)計學第2章習題答
- 統(tǒng)計學a第6章-抽樣推斷
- 統(tǒng)計學第6章習題答案
- 統(tǒng)計學第6章習題答案
- 安全統(tǒng)計學第13章職業(yè)健康統(tǒng)計
- 第2章統(tǒng)計學統(tǒng)計數據收集
- 應用統(tǒng)計學第4章-數據分布特征的度量
- 統(tǒng)計學第3章練習題
評論
0/150
提交評論