📜  分布式系统中的各种故障

📅  最后修改于: 2021-08-29 11:19:26             🧑  作者: Mango

DSM在一个非常分布式的系统中实现了分布式系统共享内存模型,该模型没有任何物理共享内存。共享模型提供了在任意数量的节点之间共享的虚拟地址空间。 DSM系统向设备作者隐藏了远程通信机制,从而保护了共享内存系统特有的编程简便性和质量。

这些解释如下。

1.方法失败
在这种类型的故障中,分布式系统通常会停止并且无法执行执行。有时,这会导致执行结束,从而导致相关的错误结果。方法失败会导致系统状态偏离规范,并且方法可能无法继续进行。

  • 行为 –
    可以理解为,如果执行了不正确的计算(如违反保护,死锁,超时,用户输入等),则该方法将停止执行。
  • 恢复 –
    通过中止方法或从其先前状态重新启动方法,可以防止方法失败。

2.系统故障
在系统故障中,与分布式系统关联的处理器无法执行执行。这是由计算机代码错误和硬件问题引起的。硬件问题可能涉及CPU /内存/总线故障。假定每当系统由于某种故障而停止执行时,内部状态就会丢失。

  • 行为 –
    它涉及处理器的物理和逻辑单元。系统可能会冻结,重新引导,并且也无法执行任何使它进入空闲状态的功能。
  • 恢复 –
    可以通过尽快重新引导系统并配置故障点和错误状态来解决此问题。

3.辅助存储设备故障
一旦无法访问保持信息,就声称发生了存储设备故障。此故障有时是由奇偶校验错误,磁头碰撞或介质上沉淀的灰尘颗粒引起的。

  • 行为 –
    无法访问存储的信息。
  • 导致失败的错误–
    奇偶校验错误,磁头崩溃等
  • 恢复/设计策略–
    从档案和活动日志中重建内容,并反映磁盘系统的样式。系统故障将另外分类如下。
    • 伴发认知状态衰竭
    • 部分认知状态衰竭
    • 破坏失败
    • 停止失败

4.通讯介质故障
一旦网站无法与网络中的另一个操作站点进行通信,就会发生通信介质故障。它通常是由换档节点和/或人类活动系统的链接故障引起的。

  • 行为 –
    网站无法与另一个运营网站进行通信。
  • 错误/故障–
    换档节点或通讯链路故障。
  • 恢复/设计策略–
    重新路由,抗错误的通信协议。