從非結構化的文本文檔中抽取用戶感興趣的、重要的模式或知識的過程,可以看作是資料挖掘或資料庫中知識發現(KDD)的延伸。由於目前存儲資訊的最一般形式是文本,所以有人認為文本挖掘的商業潛能甚至比資料挖掘還要高。最常用的文本挖掘技術有文本聚類技術、文本分類技術和摘要抽取技術等。文本挖掘的關鍵步驟是文本提煉和知識提取。前者將自由形式的文本轉換成某種中間形式,而後者則負責從中間形式中挖掘模式或知識。

  文本挖掘不同於全文檢索。全文檢索提供信息定位的功能,而文本挖掘的主要功能是自動抽取文本中有價值的信息,並據此發掘文本信息之間的聯系,以用戶容易理解的方式表現出來,使其能夠迅速瞭解文檔的內容與結構,從而幫助用戶發現知識。文本挖掘處理的對象是非結構化的文本數據,這是一件很復雜的工作,涉及多個學科領域,如信息檢索、文本分析、信息抽取、自動聚類、自動分類、可視化技術、數據庫技術、機器學習和數據挖掘等。