對情報資料進行收集、編輯、管理和檢索的系統。現代情報檢索系統是由電子電腦、通信網路和終端設備等組成的自動化系統,可進行情報資料的收集、標引、分析、組織、存儲、檢索和傳播等工作。電腦情報檢索可分為資料檢索、文獻檢索、圖譜檢索、事件檢索等類型。電腦情報檢索的服務方式又可分為三類:①定題情報服務。它是針對相對固定的用戶提出的要求,定期對新到文檔進行檢索,及時向用戶提供所需資訊。②回溯情報檢索。它是根據用戶的要求,對過去某段時間內積累收藏的全部文獻,進行主題題檢索,一般采用脫機批處理方式。③聯機情報檢索。它采用人機對話的方式,用戶在計算機終端上經過通信線路直接與計算機對話,能在短時間內獲得檢索結果。

  簡史 早期的情報檢索系統采用純手工方式,使用卡片、索引和目錄。直到現在相當一部分圖書館和情報服務中心仍沿用這種方式。40年代曾出現機械操作的檢索系統,但未推廣。50年代出現瞭利用穿孔卡片的計算機數據處理系統,它在情報檢索方式的革新中起過一定作用。60年代計算機情報檢索開始得到推廣。當時采用脫機處理和面向磁帶的方式,現在有些情報服務中心還沿用這種方式。這一時期還開始研究聯機檢索方式。1964年美國麻省理工學院研制成功第一個實驗性的聯機檢索系統,它不僅能用標題中的關鍵詞來檢索,還可用引文索引和書目結合的原理進行檢索。1965年美國航空航天局(NASA)開始研究第一個大規模的聯機檢索系統RECON,於1969年投入使用。它采用瞭美國洛克希德公司開發的DIALOG聯機檢索軟件。1971年美國國傢醫學院圖書館的聯機檢索系統 MEDLINE投入使用。它采用美國系統發展公司開發的 ORBIT聯機檢索軟件。70年代衛星通信網絡TYMNET的建成對發展聯機情報檢索系統產生重大影響。TYMNET是蒂姆謝爾公司經營的分時數據通信網絡,它遍佈美國全國並延伸到加拿大和歐洲,通過這個網絡連接瞭許多重要的文獻庫,它以租用方式為用戶提供選接遠地數據庫的檢索服務。這一時期出現的聯機文獻服務中心,實際上是文獻服務零售商。他們通過協議得到若幹種文獻數據庫,連接到自己的計算機系統上,然後向用戶提供文獻檢索服務。例如,系統發展公司經營的ORBIT系統和洛克希德公司經營的DIALOG系統提供瞭廣泛的重要文獻數據庫的檢索服務,包括化學文摘、工程索引、國傢技術情報、科學引文索引以及教育情報中心和國傢農業圖書館的文獻數據庫。1977年聯機服務的用戶已達3000戶,年檢索次數超過1百萬次,累積使用機時達幾十萬小時。表中是主要聯機情報檢索系統的概況。

聯機情報檢索系統概況(70年代末)

  聯機情報檢索 聯機情報檢索系統由帶有文獻數據庫的電子計算機、通信網絡與終端組成。用戶能使用終端直接與他希望查詢的文獻數據庫交換信息。終端一般配備電話機、鍵盤、顯示器和打印機等設備。終端與計算機之間傳遞信息可通過普通通信線路或通過電話線路或通信衛星來進行。利用通信衛星可以把不同地區和國傢的文獻數據庫連接起來,實現情報資料的共享。聯機情報檢索的關鍵技術包括文獻數據庫、聯機情報檢索軟件、文獻傳輸技術和文獻輸入輸出設備等。

  文獻數據庫 現代聯機情報檢索系統已發展到擁有數百個文獻數據庫(見表),每庫收錄文獻數目從數千篇到數百萬篇,收錄范圍包括自然科學、社會科學和人文科學,並有建立跨學科文獻數據庫和私人文獻數據庫的傾向。從內容來看,包括簡單的題錄、文獻摘要(即二次文獻),直到文獻全文(即一次文獻)。建立和應用文獻數據庫包括5個環節:①收集,包括查找合適文獻、提取有用數據和鑒定數據的有效性和正確性等三個步驟。②標引,指用代碼或某種壓縮形式標定選擇文獻數據的必要信息。代碼包括數字代碼和圖形代碼。可用數字化儀或電子掃描的方法輸入圖形,建立圖形數據庫。通過標引不僅使信息代碼化,而且對數據進行瞭壓縮。③登錄,是在計算機裡組織和轉換信息的過程。一般采用隨機存取的方式。文獻數據庫由文檔組成,每個文檔包括名稱、內容(屬性)、建檔日期和發表時間。④檢索,指用主題詞或其他記錄項目從文獻數據庫中找出需要的數據。檢索分兩個階段:先用標引所抽出的主題詞表示問題,再找出內容與問題的主題詞相符合的數據或文獻。聯機檢索使用控制語言,其特點是速度快並能對問題表示的正確性和文檔能否正確回答作出一定判斷。⑤傳播,即將信息傳遞給用戶。把聯機檢索系統與縮微膠片系統結合起來,能將照片和文獻全文的縮微膠片發送給用戶。圖形數據庫的檢索結果還可以通過圖形工作站發送。

  情報檢索軟件 聯機情報檢索軟件是通用性很強的模塊結構軟件,它還具有檢查程序,能自動檢查和排除故障。現有應用最廣的檢索軟件是DIALOG和ORBIT。在ORBIT軟件中用“PROG”和“USER”分別表示系統向用戶發送的信息和用戶向系統發送的信息。它向用戶提供的檢索邏輯式有主題詞與佈爾算符的組合、前面出現過的檢索階段號與主題詞和佈爾算符的組合、階段號與佈爾算符的組合等多種靈活方式。

  文獻傳輸技術 在聯機檢索系統中,終端用戶借助於公用數據網絡與系統連接。公用數據網絡有三種形式:①租用專線網。它能同時傳送數字信息和模擬信息,使用傳統的電話線路,能同時傳遞20對電話,速度為2400位/秒。②數字交換網。它隻能傳輸數字信息,費用便宜。③分組交換網。它也隻傳輸數字信息,把信息分成很多小信息包,每包約為1000位並在包前設置識別頭標和接受地址等。這種方式可以平衡線路負荷。傳輸費用與距離無關。另一種先進的傳輸技術是傳真通信。它能把圖像信息變成數字信息,通過電話線路傳輸。80年代出現高速傳真設備,傳輸速度可達163000頁/小時。

  文獻輸入輸出設備 情報檢索系統采用高性能的輸入輸出設備來解決人與計算機大量交換信息的問題。光學字符識別器和數字掃描器是重要的輸入設備。光學字符識別器可用於自動標引中識別各種字符。數字掃描器對整頁文稿進行高速掃描,能將模擬信息轉換成數字信息,並且密度很高,還能壓縮信息。將光學字符識別與數字掃描技術結合而制成的輸入設備,可高速輸入文獻全文以建立電子文檔。高速智能傳真復印機也可用作輸入設備,它能將文獻和圖表變成數字信息輸入存儲器,並具有數字掃描和傳真通信的能力。此外,它還能將存儲器中的內容直接排版印刷。文獻輸出設備可采用高速打印機、繪圖機和各種智能終端。近年來研制成功的計算機輸出縮微膠片系統不僅速度快而且成本低,它將字符和圖像變成縮微平片或縮微膠卷存入存儲器,然後用掃描器變成電信號,再通過衛星傳輸到用戶終端。計算機輸出的縮微膠片是放在盒子裡保存的。當輸入一個檢索詞後由系統中的自動檢索機器找到命中文獻所在的縮微膠片位置,然後自動將膠片檢出,在閱讀器上顯示出來。

  

參考書目

 C.J.Van Rijsbergen, Information Retrieval 2nd ed.,Batterworths, London,1979.

 F.W.Lancaster,Information Retrieval Systems: Characteristics, Testing, and Evaluation, 2nd ed., Wiley, New York, 1979.