從非結構化的文本文檔中抽取用戶感興趣的、重要的模式或知識的過程,可以看作是資料挖掘或資料庫中知識發現(KDD)的延伸。由於目前存儲資訊的最一般形式是文本,所以有人認為文本挖掘的商業潛能甚至比資料挖掘還要高。最常用的文本挖掘技術有文本聚類技術、文本分類技術和摘要抽取技術等。文本挖掘的關鍵步驟是文本提煉和知識提取。前者將自由形式的文本轉換成某種中間形式,而後者則負責從中間形式中挖掘模式或知識。
文本挖掘不同於全文檢索。
從非結構化的文本文檔中抽取用戶感興趣的、重要的模式或知識的過程,可以看作是資料挖掘或資料庫中知識發現(KDD)的延伸。由於目前存儲資訊的最一般形式是文本,所以有人認為文本挖掘的商業潛能甚至比資料挖掘還要高。最常用的文本挖掘技術有文本聚類技術、文本分類技術和摘要抽取技術等。文本挖掘的關鍵步驟是文本提煉和知識提取。前者將自由形式的文本轉換成某種中間形式,而後者則負責從中間形式中挖掘模式或知識。
文本挖掘不同於全文檢索。