應用統(tǒng)計學--第4章-數(shù)據(jù)分布特征的度量_第1頁
已閱讀1頁,還剩70頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、4.1 集中趨勢的度量 4.2 離散程度的度量4.3 偏態(tài)與峰態(tài)的度量,第4章 數(shù)據(jù)分布特征的度量,學習目標,集中趨勢各測度值的計算方法集中趨勢各測度值的特點及應用場合離散程度各測度值的計算方法離散程度各測度值的特點及應用場合偏態(tài)與峰態(tài)的測度方法用Excel計算描述統(tǒng)計量并進行分析,,數(shù)據(jù)分布的特征,4.1 集中趨勢的度量,4.1.1 眾數(shù)4.1.2 中位數(shù)和分位數(shù)4.1.3 平均數(shù)4.1.

2、4 眾數(shù)、中位數(shù)和平均數(shù)的比較,集中趨勢,一組數(shù)據(jù)向其中心值靠攏的傾向和程度測度集中趨勢就是尋找數(shù)據(jù)水平的代表值或中心值不同類型的數(shù)據(jù)用不同的集中趨勢測度值低層次數(shù)據(jù)的測度值適用于高層次的測量數(shù)據(jù),但高層次數(shù)據(jù)的測度值并不適用于低層次的測量數(shù)據(jù),眾數(shù)(mode),一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值適合于數(shù)據(jù)量較多時使用不受極端值的影響一組數(shù)據(jù)可能沒有眾數(shù)或有幾個眾數(shù)主要用于分類數(shù)據(jù),也可用于順序數(shù)據(jù)和數(shù)值型數(shù)據(jù),眾數(shù)(不

3、惟一性),無眾數(shù)原始數(shù)據(jù):10 5 9 12 6 8,一個眾數(shù)原始數(shù)據(jù):6 5 9 8 5 5,多于一個眾數(shù)原始數(shù)據(jù): 25 28 28 36 42 42,分類數(shù)據(jù)的眾數(shù) (例題分析),解:這里的變量為“飲料品牌”,這是個分類變量,不同類型的飲料就是變量值 所調查的100人中,購買可口可樂的人數(shù)最多,為35人,占被調查總人數(shù)的35%,

4、因此眾數(shù)為“可口可樂”這一品牌,即 Mo=可口可樂,順序數(shù)據(jù)的眾數(shù) (例題分析),解:這里的數(shù)據(jù)為順序數(shù)據(jù)。變量為“回答類別” 甲城市中對住房表示不滿意的戶數(shù)最多,為108戶,因此眾數(shù)為“不滿意”這一類別,即 Mo=不滿意,1.由眾數(shù)的定義可知,在單項數(shù)列的情形求眾數(shù),只需通過觀察,找出頻數(shù)最多的變量值,則該變量值即為眾數(shù)。2.在組距數(shù)列的條件下,則要先確定眾數(shù)所在組,然后按下面的近

5、似公式計算。,數(shù)值型數(shù)據(jù)的眾數(shù),,數(shù)值型數(shù)據(jù)的眾數(shù) (例題分析),,解:①確定眾數(shù)組。由于1200~1400組頻數(shù)最多,故該組即為眾數(shù)組。②根據(jù)近似公式計算眾數(shù)值。,,中位數(shù)(median),按大小排序后處于中間位置上的值,不受極端值的影響主要用于順序數(shù)據(jù),也可用數(shù)值型數(shù)據(jù),但不能用于分類數(shù)據(jù)各變量值與中位數(shù)的離差絕對值之和最小,即,中位數(shù)(位置和數(shù)值的確定),位置確定,數(shù)值確定,順序數(shù)據(jù)的中位數(shù) (例題分析),解:中位

6、數(shù)的位置為 (300+1)/2=150.5 從累計頻數(shù)看,中位數(shù)在“一般”這一組別中 中位數(shù)為 Me=一般,數(shù)值型數(shù)據(jù)的中位數(shù) (9個數(shù)據(jù)的算例),【例】 9個家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù): 1500 750 780 1080 850 960 2000 1250 1630排 序: 750 780 850

7、 960 1080 1250 1500 1630 2000位 置: 1 2 3 4 5 6 7 8 9,中位數(shù) ? 1080,?,數(shù)值型數(shù)據(jù)的中位數(shù) (10個數(shù)據(jù)的算例),【例】:10個家庭的人均月收入數(shù)據(jù)排 序: 660 750 780 850 960 1080 1250 1500 1630 2000位

8、 置: 1 2 3 4 5 6 7 8 9 10,?,數(shù)值型數(shù)據(jù)的中位數(shù) (分組數(shù)據(jù)的算例),身高( cm),人數(shù)(人),,解:①確定中位數(shù)位次:②確定中位數(shù)組:按人數(shù)向上累積(或向下累積)知,中位數(shù)在第三組。③確定中位數(shù):中位數(shù)組只有唯一的變量值170cm,故它就是所求的中位數(shù)。,,數(shù)值型數(shù)據(jù)的中位數(shù) (組距數(shù)列)

9、,在組距數(shù)列的情況下,確定中位數(shù)組后,由于這時中位數(shù)組是一區(qū)間,可用下面的近似公式計算中位數(shù):,,數(shù)值型數(shù)據(jù)的中位數(shù) (分組數(shù)據(jù)的算例),,①確定中位數(shù)位次。②確定中位數(shù)組。從向上累積欄中,找出首個大于等于中位數(shù)位次60的組,該組即為中位數(shù)組,因此中位數(shù)組為1200~1400元。③按近似公式計算中位數(shù)值。,,,四分位數(shù)(quartile),排序后處于25%和75%位置上的值,不受極端值的影響主要用于順序數(shù)據(jù),也可用于數(shù)值型

10、數(shù)據(jù),但不能用于分類數(shù)據(jù),四分位數(shù)(位置的確定及計算),,的位次=,,,的位次=,,第i個四分位數(shù)可按如下近似公式計算:,,,順序數(shù)據(jù)的四分位數(shù) (例題分析),解:Q1位置= (300)/4 =75 Q3位置 =(3×300)/4 =225 從累計頻數(shù)看, Q1在“不滿意”這一組別中; Q3在“一般”這一組別中 四分位數(shù)為

11、Q1 = 不滿意 Q3 = 一般,數(shù)值型數(shù)據(jù)的四分位數(shù) (9個數(shù)據(jù)的算例),【例】:9個家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù): 1500 750 780 1080 850 960 2000 1250 1630排 序: 750 780 850 960 1080 1250 1500 1630 2000位 置: 1 2 3

12、 4 5 6 7 8 9,?,?,數(shù)值型數(shù)據(jù):平均數(shù)(簡單平均數(shù)),設一組數(shù)據(jù)為:x1 ,x2 ,… ,xn (總體數(shù)據(jù)xN),樣本平均數(shù),總體平均數(shù),設各組的組中值為:x1 ,x2 ,… ,xk 相應的頻數(shù)為: f1 , f2 ,… ,fk,樣本加權平均,總體加權平均,數(shù)值型數(shù)據(jù):平均數(shù)(加權平均數(shù)),加權平均數(shù) (例題分析),?,加權平均數(shù)(權數(shù)對均值的影響),甲乙兩組各

13、有10名學生,考試成績及其分布數(shù)據(jù)如下: 甲組: 考試成績(x ): 0 20 100 人數(shù)分布(f ): 1 1 8 乙組: 考試成績(x): 0 20 100 人數(shù)分布(f ): 8 1 1,平均數(shù)(數(shù)學性質),1.各變量值與平

14、均數(shù)的離差之和等于零,2. 各變量值與平均數(shù)的離差平方和最小,,中位數(shù)和平均數(shù)數(shù)學性質的驗證,幾何平均數(shù)(geometric mean),n 個變量值乘積的 n 次方根適用于對比率數(shù)據(jù)的平均主要用于計算平均增長率計算公式為,5. 可看作是平均數(shù)的一種變形,幾何平均數(shù) (例題分析),【例】某水泥生產企業(yè)1999年的水泥產量為100萬噸,2000年與1999年相比增長率為9%,2001年與2000年相比增長率為16%,2002年

15、與2001年相比增長率為20%。求各年的年平均增長率,年平均增長率=114.91%-1=14.91%,幾何平均數(shù) (例題分析),【例】一位投資者購持有一種股票,在2000、2001、2002和2003年收益率分別為4.5%、2.1%、25.5%、1.9%。計算該投資者在這四年內的平均收益率,算術平均:,幾何平均:,,眾數(shù)、中位數(shù)和平均數(shù)的關系,,眾數(shù)、中位數(shù)、平均數(shù)的特點和應用,眾數(shù)不受極端值影響具有不惟一性數(shù)據(jù)分布偏斜程度較大

16、且有明顯峰值時應用中位數(shù)不受極端值影響數(shù)據(jù)分布偏斜程度較大時應用平均數(shù)易受極端值影響數(shù)學性質優(yōu)良數(shù)據(jù)對稱分布或接近對稱分布時應用,,數(shù)據(jù)類型與集中趨勢測度值,4.2 離散程度的度量,4.2.1 分類數(shù)據(jù):異眾比率4.2.2 順序數(shù)據(jù):四分位差4.2.3 數(shù)值型數(shù)據(jù):方差和標準差4.2.4 相對離散程度:離散系數(shù),離中趨勢,數(shù)據(jù)分布的另一個重要特征反映各變量值遠離其中心值的程度(離散程度)從另一

17、個側面說明了集中趨勢測度值的代表程度不同類型的數(shù)據(jù)有不同的離散程度測度值,異眾比率,1.對分類數(shù)據(jù)離散程度的測度2.非眾數(shù)組的頻數(shù)占總頻數(shù)的比例3.計算公式為,,4. 用于衡量眾數(shù)的代表性,,異眾比率 (例題分析),解: 在所調查的50人當中,購買其他品牌飲料的人數(shù)占70%,異眾比率比較大。因此,用“可口可樂”代表消費者購買飲料品牌的狀況,其代表性不是很好,四分位差(quartile deviati

18、on),對順序數(shù)據(jù)離散程度的測度也稱為內距或四分間距上四分位數(shù)與下四分位數(shù)之差 Qd = Q3 – Q1反映了中間50%數(shù)據(jù)的離散程度不受極端值的影響用于衡量中位數(shù)的代表性,四分位差 (例題分析),解:設非常不滿意為1,不滿意為2, 一般為3, 滿意為 4, 非常滿意為5 。 已知 Q1 = 不滿意 = 2 Q3 = 一般 = 3四分位差為 Qd = Q3

19、 - Q1 = 3 – 2 = 1,極差(range),一組數(shù)據(jù)的最大值與最小值之差離散程度的最簡單測度值易受極端值影響未考慮數(shù)據(jù)的分布,R = max(xi) - min(xi),計算公式為,平均差(mean deviation),各變量值與其平均數(shù)離差絕對值的平均數(shù)能全面反映一組數(shù)據(jù)的離散程度數(shù)學性質較差,實際中應用較少,計算公式為,未分組數(shù)據(jù),組距分組數(shù)據(jù),,平均差 (

20、例題分析),方差和標準差(variance and standard deviation),數(shù)據(jù)離散程度的最常用測度值反映了各變量值與均值的平均差異根據(jù)總體數(shù)據(jù)計算的,稱為總體方差或標準差,記為?2(?);根據(jù)樣本數(shù)據(jù)計算的,稱為樣本方差或標準差,記為s2(s),樣本方差和標準差 (simple variance and standard deviation),未分組數(shù)據(jù),組距分組數(shù)據(jù),未分組數(shù)據(jù),組距分組據(jù)數(shù),方差的計算公式,

21、標準差的計算公式,,,注意:樣本方差用自由度n-1去除!,自由度 (degree of freedom),自由度是指附加給獨立的觀測值的約束或限制的個數(shù)從字面涵義來看,自由度是指一組數(shù)據(jù)中可以自由取值的個數(shù)當樣本數(shù)據(jù)的個數(shù)為n時,若樣本平均數(shù)確定后,則附加給n個觀測值的約束個數(shù)就是1個,因此只有n-1個數(shù)據(jù)可以自由取值,其中必有一個數(shù)據(jù)不能自由取值按著這一邏輯,如果對n個觀測值附加的約束個數(shù)為k個,自由度則為n-k,自由度

22、(degree of freedom),樣本有3個數(shù)值,即x1=2,x2=4,x3=9,則 ?x = 5。當 ?x = 5 確定后,x1,x2和x3有兩個數(shù)據(jù)可以自由取值,另一個則不能自由取值,比如x1=6,x2=7,那么x3則必然取2,而不能取其他值為什么樣本方差的自由度是n-1呢?因為在計算離差平方和時,必須先求出樣本均值?x ,而?x則是附加給離差平方和的一個約束,因此,計算離差平方和時只有n-1個獨立的觀測值,而不是n個 樣

23、本方差用自由度去除,其原因可從多方面解釋,從實際應用角度看,在抽樣估計中,當用樣本方差s2去估計總體方差σ2時,它是σ2的無偏估計量,,樣本標準差 (例題分析),總體方差和標準差 (Population variance and Standard deviation),未分組數(shù)據(jù),組距分組數(shù)據(jù),未分組數(shù)據(jù),組距分組數(shù)據(jù),方差的計算公式,標準差的計算公式,,數(shù)據(jù)分布數(shù)量的估計(經驗法則),?經驗法則表明:當一組數(shù)據(jù)對稱分布時約有6

24、8%的數(shù)據(jù)在平均數(shù)加減1個標準差的范圍之內約有95%的數(shù)據(jù)在平均數(shù)加減2個標準差的范圍之內約有99%的數(shù)據(jù)在平均數(shù)加減3個標準差的范圍之內,切比雪夫不等式(Chebyshev’s inequality ),如果一組數(shù)據(jù)不是對稱分布,經驗法則就不再適用,這時可使用切比雪夫不等式,它對任何分布形狀的數(shù)據(jù)都適用切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少”對于任意分布形態(tài)的數(shù)據(jù),根據(jù)切比雪夫不等式,至少有1-1/k2的

25、數(shù)據(jù)落在k個標準差之內。其中k是大于1的任意值,但不一定是整數(shù),切比雪夫不等式(Chebyshev’s inequality ),?對于k=2,3,4,該不等式的含義是至少有75%的數(shù)據(jù)落在平均數(shù)加減2個標準差的范圍之內至少有89%的數(shù)據(jù)落在平均數(shù)加減3個標準差的范圍之內至少有94%的數(shù)據(jù)落在平均數(shù)加減4個標準差的范圍之內,離散系數(shù)(coefficient of variation),1.標準差與其相應的均值之比2.對數(shù)據(jù)相

26、對離散程度的測度3.消除了數(shù)據(jù)水平高低和計量單位的影響4.用于對不同組別數(shù)據(jù)離散程度的比較5.計算公式為,離散系數(shù) (例題分析),【 例 】某管理局抽查了所屬的8家企業(yè),其產品銷售數(shù)據(jù)如表。試比較產品銷售額與銷售利潤的離散程度,離散系數(shù) (例題分析),,結論: 計算結果表明,v1<v2,說明產品銷售額的離散程度小于銷售利潤的離散程度,,數(shù)據(jù)類型與離散程度測度值,4.3 偏態(tài)與峰態(tài)的度量,4.3.1 偏態(tài)及其測度

27、4.3.2 峰態(tài)及其測度,,偏態(tài)與峰態(tài)分布的形狀,偏態(tài),峰態(tài),,矩的概念及計算公式,1.矩的基本形式 變量x對常數(shù)a的“k階矩”為:,,2.當a=0就得到k階原點矩,,矩的概念及計算公式,3.當 就得到k階中心矩,,,,4.中心矩的兩條重要性質,(1)當分布對稱時,,為任意正整數(shù),(2)當分布為正態(tài)分布時,,從而有:,,偏態(tài)系數(shù) (coefficient of skewness),2.偏態(tài)方向和程度的判別:按上面

28、公式計算出來的偏度指標,其符號可以表明分布的偏斜方向,其絕對值大小則可以表明分布的偏斜程度。,1.偏態(tài)系數(shù)的計算公式:,,偏態(tài)(skewness),統(tǒng)計學家Pearson于1895年首次提出 數(shù)據(jù)分布偏斜程度的測度3.偏態(tài)系數(shù)=0為對稱分布4. 偏態(tài)系數(shù)> 0為右偏分布5. 偏態(tài)系數(shù)< 0為左偏分布6. 偏態(tài)系數(shù)大于1或小于-1,被稱為高度偏態(tài)分布;偏態(tài)系數(shù)在0.5~1或-0.5~-1之間,被認為是中等偏態(tài)分布

29、;偏態(tài)系數(shù)越接近0,偏斜程度就越低,峰度系數(shù) (coefficient of skewness),2.峰度的判別:按上面公式計算出來的峰度指標,可以用來判定分布的形態(tài)特征。其判別標準為:,1.峰度系數(shù)的計算公式:,,,,峰態(tài)(kurtosis),統(tǒng)計學家Pearson于1905年首次提出數(shù)據(jù)分布扁平程度的測度峰態(tài)系數(shù)=0扁平峰度適中峰態(tài)系數(shù)0為尖峰分布,偏態(tài)系數(shù)和峰態(tài)系數(shù) (例題分析),,,,偏態(tài)系數(shù)和峰態(tài)系數(shù) (例題分析

30、),,,,,,,,,,,因 , 數(shù)值不是很大,說明分布略為右偏; ,數(shù)值很小,說明比具有同方差的正態(tài)分布略為平坦。,用Excel計算描述統(tǒng)計量,MODE—計算眾數(shù)MEDIAN—計算中位數(shù)QUARTILE—計算四分位數(shù)AVERAGE—計算平均數(shù)HARMEAN—計算簡單調和平均數(shù)GEOMEAN—計算幾何平均數(shù)AVEDEV

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論