分析資料的技術和理論。

  資料也稱觀測值,是實驗、測量、觀察、調查等的結果,常以數量的形式給出。資料分析的目的是把隱沒在一大批看來雜亂無章的資料中的資訊集中、萃取和提煉出來,以找出所研究物件的內在規律。在實用中,資料分析可幫助人們作判斷,以便採取適當行動。例如J.開普勒通過分析行星角位置的觀測資料,找出瞭行星運動規律。又如,一個企業的領導人要通過市場調查,分析所得資料以判定市場動向,從而制定合適的生產及銷售計畫。因此資料分分析有著極廣泛的應用范圍。

  數理統計學也是一門以收集和分析數據為內容的學科,它與數據分析不同之處在於數理統計學中所涉及的數據是受到隨機性的影響,分析的目的是對數據所來自的總體作出推斷,總體有一定的概率模型,推斷的結論也往往以概率的形式表達。但在一般的數據分析中,則不包含這些要求。例如,分析20世紀以來北半球年平均氣溫的數據,以確定是否有變冷或變暖的趨勢。從數理統計的觀點,年平均溫度數據應看成是從一個總體抽取的樣本,這種看法在本問題中顯得牽強;而數據分析則不受這些約束,它的出發點就隻是數據本身,即所謂“讓數據本身說話”。所以,廣義地說,可以把數理統計學看成是數據分析的一部分;但一般隻把那種數學模型不明顯,或模型需要借助於分析已有的數據而提出,或者根本不需要模型等情況,列入數據分析的范圍。

  典型的數據分析工作可能包含以下幾個步驟。首先,當數據剛取得時,可能隻是一大堆雜亂無章的數字,不僅看不出其規律性,甚至也不知道如何著手尋找其中可能隱含的規律性,於是就通過作圖、造表、用各種形式的方程擬合、計算某些特征量等手段探索規律性的可能形式,即往什麼方向和用何種方式去尋找和揭示隱含在數據中的規律性。這一步工作叫探索性數據分析。J.W.圖基在其著作《探索性數據分析》中對此進行瞭詳細的論述。第二步是模型選定分析,在探索性分析的基礎上提出瞭一類或幾類可能的模型,然後通過進一步的分析從中挑選一定的模型。例如研究兩變量xY的關系,初步分析可以用不超過三次的多項式去擬合,還要進一步確定其次數,並且估計出多項式各項的系數。又如,在一個包含多個自變量的回歸問題(見回歸分析)中,經判定認為具有線性關系,則進一步需要確定使用哪些自變量,如何估計方程中的系數。如果數據是來自一個統計總體,則這一步實際上是數理統計學的研究對象。最後一步是推斷分析,通常使用數理統計方法對所定模型或估計的可靠程度和精確程度作出推斷。例如,檢驗由上面所定出的模型是否可用。這一步工作完全屬於數理統計學的范圍,若不假定數據有一定的統計結構,則無法進行,隻能將第二步所得模型付諸實用,以對所研究的現象提出一種假說或作出某種采取行動的方案,再由以後收集到的數據去檢驗和修正。

  因此,狹義的數據分析主要是指探索性數據分析。有時根據問題的需要和現實的可能隻能做到第一步,有時則必須進到模型選定分析。探索性數據分析是在盡量少的先驗假定下處理數據,以表格、摘要、圖示等直觀的手段,探索數據的結構,及檢測對於某種指定模型是否有重大偏離。它可以作為進一步分析的基礎,也可據以對數據作出非正式的解釋。實驗者常常據此擴充或修改其實驗方案,重作實驗。圖形由於其形象性,容易為人所理解,故作圖法是探索分析的重要方法。圖基在上述著作中把探索分析放在模型選定分析與推斷分析之前,提高瞭人們對於“讓數據說話”和“探索”的重要性的認識。對一、兩個變量和為數不多的數據,用筆和坐標紙就可以進行探索分析。計算機及其作圖設備的人機對話功能提供瞭充分探索的可能性,例如用不同方法看數據,進行數據變換,圖示,考察殘差等等。至於怎樣對多變量、大批量、復雜結構的數據作合適而有效的探索分析,已引起廣泛註意。

  數據分析離不開外部的知識和判斷,形式化的數據分析方法隻是一種輔助性手段,以幫助人們進行判斷或推理。在有些問題中,上述三個步驟的某一步驟可以跳過或簡略地進行,而在進行過程中又可能返回前面的某一步驟。在作數據分析時,必須註意所得結果是近似的,對它的解釋可能不完全正確。例如,開普勒曾發現太陽系中當時已發現的6個行星軌道的某種數據,與5種正多面體有微妙的關聯,由此他解釋為什麼行星恰好是6個。這一點現在知道並不正確。所以數據分析所發現的事實及其解釋,最終要接受以後數據的檢驗。

  數據及其結構、數據分析的問題及目的,都是多種多樣的,來自不同的領域,具有不同的特性,從而數據分析可劃分成許多課題。它尚未定型,與數學、統計學、計算機科學等學科和技術都有密切關系,正在蓬勃發展,對促進科學技術的進展有重要作用。

  

參考書目

 J.W.Tukey,Exploratory data Analysis,Addison-Wesley,Reading,Mass.,1977.