部分從事調查研究的朋友,都會碰到“多大樣本量”才用代表性問題,其實這個問題不光研究人員會困惑,企業也非常困惑。那到底應該如何選擇樣本量呢?其實今天不是要回答這個問題,而是幫助你:如何解釋這樣一個樣本量是恰當或合適的,既滿足統計要求,也能考慮費用和可操作性!樣本量的確定是費用與精度的函數,取決于研究的精度和費用,特別是實踐中費用考慮的更多!抽樣調查,特別是隨機抽樣,樣本有代表性,往往比普查更有效率,
部分從事調查研究的朋友,都會碰到“多大樣本量”才用代表性問題,其實這個問題不光研究人員會困惑,企業也非常困惑。那到底應該如何選擇樣本量呢?其實今天不是要回答這個問題,而是幫助你:如何解釋這樣一個樣本量是恰當或合適的,既滿足統計要求,也能考慮費用和可操作性!
- 樣本量的確定是費用與精度的函數,取決于研究的精度和費用,特別是實踐中費用考慮的更多!
- 抽樣調查,特別是隨機抽樣,樣本有代表性,往往比普查更有效率,甚至精度更高,這里我們主要計算和討論抽樣誤差,非抽樣誤差是人為因素,考質量控制;
- 樣本量的確定有賴于隨機抽樣,或者說主要是針對隨機抽樣,需要統計推斷下的計算樣本量,如果是非概率抽樣,理論上沒有計算和控制樣本量的問題;
- 如果研究只要40-50個樣本,感覺上應該是非概率抽樣(依賴被訪者選擇方式)
- 即使是非概率抽樣,我們很多時候也采用概率和統計分析及推斷思想來進行數據分析和下結論!只是這種方法沒有完善的理論支持,或者說有可能因為研究者的主觀判斷失誤造成偏差;
- 無論是概率抽樣還是非概率抽樣,樣本量越大當然效果越好,結論越穩定(理論上說)
- 40-50個樣本在統計上屬于小樣本,t-檢驗,如果樣本大于60或理想120以上,t分布就是正態分布了,所以40個樣本在統計上是最小推斷總體的樣本,換句話說40-50個樣本是介于小樣本和正態分布大樣本的臨界樣本量;如果不嚴格的話40個樣本就可以比較總體之間的統計差異了;
- 所以,一般來講,針對一個研究對象和人群,要進行比較最少40個樣本,比如男女差異,應該各擁有40人(80人),或者說你們進行配額樣本的時候要保證統計比較的類別至少有40個樣本;
- 那么40個樣本有代表性嗎?當然越多越好,越有代表性
- 但如果調查對象非常一致,沒有差異,只要問一個人就行了,所以要考慮研究對象的差異性,如果差異大,當然樣本量要大,如果沒有差異,同質性較高樣本量就少;
- 總體的大小對樣本量的選擇沒有影響,調查研究一般必須在研究前明確總體是誰,大總體沒有影響(上萬人),中等總體有點影響(5000人),小總體有很大影響(千百個人);總體是你要推斷的人群;
- 再者要考慮研究對象在總體中擁有的比例(比如要找艾滋病人),如果比例非常低的話,需要大樣本才能找到;但往往商業研究就采用非概率抽樣了,比如滾雪球抽樣,專家判斷抽樣,配額抽樣等;
- 另外,選擇40個人,如果是經過我們主觀判斷的,有一種說法:叫條件概率,也就是我們越了解研究目的和對象,我們就越能夠做出正確判斷;比如P(A|B),也就是說我們越了解B事件發生的概率,那么A發生的概率就越確定;就像我們在Google中搜東西,你的關鍵詞=B越準確,得到的結果A就越是你想要的東西;
- 當然,如果你的主觀判斷錯了,就會犯更大的錯誤
- 還有就是希望得到的精度;如果得到的結果是70%加減10%誤差我們可以接受,但如果是總體本身就不到8%,那8%加減10%,尾巴比頭都大顯然不行,當然到底如何確定精度,是研究前你們與客戶要明確的,事先研究設計確定的,不能事后來說;
- 記?。河袝r候我們研究本身不需要那么高的精度
- 整個研究設計過程的質量控制可以更有效提升研究品質
- 研究測試的技術(接近自然科學儀器測量)可獲得更好研究品質
- 根據精確的抽樣,需要采用精確的統計分析,否則也達不到效果
- 任何研究都不會完美,都是權衡和保守的過程,總的來講保守不犯錯
- 如果研究有實驗設計和研究設計,所以實驗設計,包括所謂雙盲實驗、正交設計、拉丁方格等,確定樣本分組是非常精細的,有助于研究品質;但設計缺陷會造成降低品質;
- 處置組和對照組的設計,主要應用在傳播效果、廣告效果研究上,需要有設計原則
- 實驗設計也強調對其它影響因素的控制,也就是X對Y的影響,要控制住Z的干擾,更能提高研究品質
- 被訪者的參與度(你的激勵方式)也重要,一分錢一分貨;我們是花錢買信息
- 任何理由都是可解釋的,但這里主要是要用術語,越專業越說行話,別人更相信,所以解釋樣本量的科學性,有時候要用科學,也就是理論;
- 因為有理論,顯得有水平,因為有水平就有話語權,就有執行力!所以權威部門的設計或出面,客戶就相信了!
- 研究過程,不斷修正,比如追加樣本也是解決問題的辦法
- 連續性研究,也會解決或減少對樣本量的需求
- 廣告效果研究經常采用rolling data的方式,因為廣告效果有延遲效應,每周50個樣本,4周一個分析,就是200樣本,第五周分析前4周,第六周分析2-5周數據,進行比較和檢驗,這是常有方法;