保證系統在某些組成部分出現故障或差錯時仍能正常工作的技術。系統的故障可分為兩類:一類是“致命的”,不可能自行修復,例如系統的主要部件全部損壞;另一類是局部的,可能被修復,例如部分元件失效、線路故障、偶然幹擾引起的差錯等。容錯技術正是用於構造一種能夠自動排除非致命性故障的系統,即容錯系統。生物體是高度完善的容錯系統。例如人腦的細胞總數為1010個,平均每小時死亡約1000個,一生中死亡亡約109個,但人的神經系統卻能正常工作,而且思維能力不斷提高,可靠性日益增大。20世紀50年代中期,J.von諾伊曼提出容錯技術中的復合冗餘方法。他應用概率論證明瞭,可以用不甚可靠的器件堆成一個可靠的具有相同功能的組件。同期又出現瞭莫爾-香農冗餘方法。這些研究奠定瞭容錯系統理論的基礎。在容錯技術中,提高系統工作可靠性的方法主要有自檢技術和冗餘技術。容錯又有多種形式,如硬件容錯、軟件容錯、整機容錯、全線容錯等。

  自檢技術 自檢指系統在發生非致命性故障時能自動發現故障和確定故障的性質、部位,並自動采取措施更換和隔離產生故障的部件。自檢需采用診斷技術,常用專門程序實現,屬於程序設計的范圍。容錯系統的實現要求系統必須具有重復部件或備份部件,或具有不隻一個完成某種功能的通道。因此自檢技術常配合冗餘技術使用。采用計算機的容錯系統一般都需要應用自檢技術。

  冗餘技術 冗餘可分為硬件冗餘(增加硬件)、軟件冗餘(增加程序,如同時采用不同算法或不同人編制的程序)、時間冗餘(如指令重復執行、程序重復執行)、信息冗餘(如增加數據位)等。冗餘技術中最常用的兩種方法是重復線路和備份線路。重復線路指用多個相同品種和規格的元件或組件並聯起來,當作一個元件或組件使用,隻要有一個不出故障系統就能夠正常工作。在並聯工作時每一個組件的可靠性概率是互相獨立的。備份線路與重復線路的差別是參加備份的組件並不接入系統,隻有在處於工作狀態的組件發生故障後才把輸入和輸出接到備份組件上來,同時切斷故障組件的輸入輸出。系統具有自動發現故障的能力和自動轉接的設備。若系統的某一組件發生故障使系統出現錯誤輸出,該輸出又使重復線路的共同輸出產生錯誤,則並聯方式反而降低可靠性。此時可采用備份線路或采用其他規則,例如復合冗餘方法和莫爾-香農冗餘方法,把組件組合起來,仍能有效地提高系統可靠性。用復合冗餘方法構成的復合線路就是由包含多個謝弗門(輸入端帶有反相器的或門)的隨機重復線路的串連。這種方法對可靠性的計算基於元件出錯概率服從高斯分佈的假定。莫爾-香農冗餘方法則用另一種方式組合繼電器,用組合概率的方法分析可靠性。兩種方法都可以構成同樣可靠的線路。當對系統可靠性要求並不十分高而元件可靠性又比較高時,莫爾-香農方法所用元件數比復合冗餘方法少很多。當要求系統可靠性很高時,復合冗餘方法又較優越。冗餘方法提高可靠性的代價是增加瞭硬件費用。特別是復合冗餘方法需要復合成千上萬次,例如針對人腦神經系統的計算表明需要用66000個細胞復合代替一個細胞,才能保證不發生誤差的間隔為 10000年。隨著大規模集成電路的發展,這種設計思想的實際應用已逐步成為可能。而大量采用重復電路和備份電路則早已成為提高可靠性的切實可行的有效方法。對於一定數量的備份元件,使系統可靠性最高的元件組合方式稱為最優冗餘結構。例如,當元件失效率與所受負荷成正比或有更強的依從關系時,把全部備份元件同時接入工作比當工作元件失效後再依次代換工作的方式可靠性高。

  應用 容錯技術已獲得廣泛應用,常用於對可靠性要求高的系統,特別是用於危及人身安全的關鍵部位。在這些部位大多采用雙重冗餘,也有采用三重、四重甚至五重冗餘的。現代的大型復雜系統常常是容錯能力很強的系統。例如蘇聯“聯盟”ΤМ型載人飛船使用瞭三重冗餘的主電氣系統以及雙重冗餘的氣動液壓管路和生命保障系統。容錯技術在計算機中應用得最早和最廣泛。50年代初捷克斯洛伐克制造瞭世界上第一臺容錯計算機SAPO。60年代美國開始大力研制用於控制航天器發射和飛行的容錯計算機。

  

參考書目

 錢學森、宋健著:《工程控制論》,科學出版社,北京,1983。