网站首页 > 服务器> 文章内容

网络出现黑洞怎么办? Dell出招帮你治理

※发布时间:2018-11-8 5:31:51   ※发布作者:habao   ※出自何处: 

  服务器和网络交换机,作为IT基础架构中最为核心的功能组件,是每一位IT系统网络工程技术人员日常接触最多也是最为熟悉的设备类型。无论是负责售前方案设计的架构师,还是担负系统部署和运维的现场工程师,虽然角色分工有所不同,但都有着一个共同的心愿:那就是希望自己设计、部署和运维的系统具有最好的可用性,不但平日里能够可靠、稳定和高效地承载上层业务应用,而且当故障发生时还能够按照预先设计的冗余策略实现既定的故障转移、自愈或容错。

  作为一个IT人,在我个人日常的技术部署实践和问题诊断排错过程中,经常会发现一些不正确的网络配置,使得网络链故障时,网络流量无法被正确引导至冗余径,致使通讯异常,乃至业务中断。下面,将以Dell刀片系统的网络拓扑结构为例,介绍一种被我称为 “网络黑洞”的故障现象及其解决方法。

  上图中描绘了一个典型的刀片服务器网络接入场景:在Dell M1000e刀片系统中,单台刀片服务器(M630)通过两个集成网口(网卡1和网卡2),分别与刀片机箱上的交换机相连接(刀箱交换机模块A和刀箱交换机模块B)。刀片服务器网卡1和网卡2配置为Teaming或Bond方式。刀箱交换机模块A和B再通过各自的上行端口分别与核心交换机A和核心交换机B连接,每个刀箱交换机模块出于链冗余考虑,都采用2条上行链到核心交换机,每个刀箱交换机用于上行链的2个端口配置为聚合方式(Port Channel)。两台核心交换机之间通过堆叠方式实现互连。

  通过上述方式,我们构建了一个物理层全冗余的网络。那么,它真的能够具备我们所希望的网络冗余能力么?接下来,我们将一梦见吃面条起分析看看,当这个系统中的某些网络链出现故障时,会发生什么?

  此时,来自网卡1的流量到达刀箱交换机模块A后,可以被刀箱交换机模块A从另1条未发生故障的上行链转发到核心交换机B。来自于网卡2的流量到达刀箱交换机模块B后,与此前一样顺利地被转发到核心交换机。除了刀箱交换机模块A到核心交换机的上行链带宽减少50%以外,不会有任何其他网络访问连通性方面的问题。

  在假设1的基础上:如果上图中刀箱交换机模块A与核心交换机B之间的上行链也发生故障,如下图所示:

  此时,刀箱交换机模块A的上行端口已全部变为“link-down”状态,而它与刀片服务器网卡相连接的内部端口仍然保持“link-up”状态。这种情况下,刀片服务器操作系统的teaming或bond服务组件,确认网卡1和网卡2都是“link-up”状态,不会触发任何网络流量切换动作,一如此前的工作状态,继续发送数据流量到服务器网卡1和网卡2。请注意,此时问题出现了:被发送到网卡1的流量到达刀箱交换机模块A后,因为刀箱交换机模块A上行链已全部中断,无法被转发至核心交换机,最终这部分数据流无法被送达目的主机,最终会因投递超时被丢弃。这部分流量仿佛落入了“黑洞”一般,得不到任何回应,将导致严重的丢包或断网情况发生。(注:究竟是完全断网还是部分丢包,与刀片服务器上teaming和bond所设定的网卡冗余的具体模式有关。)

  以上所描绘的场景,自然是我们不希望发生的。那么能否有一种方法,可以让刀片服务器的网卡端口状态,可以随着刀箱交换机模块的上行端口的状态实现“联动”呢?下图描绘了我们最希望看到的没有网络“黑洞”愿景:

  在上述场景中,我们假想,如果刀箱交换机模块A的2条上行链全部失效,刀箱交换机模块A发现全部上行链中断后,可以自动的阻断自己与刀片服务器相连接的交换机端口,使之变为“link-down”状态,那么服务器网卡1也将同步变为“link-down”状态。刀片服务器操作系统的teaming或bond服务组件,将监测到网卡1的状态变化,随时将网络流量全部转移至网卡2,网络流量进一步会由刀箱交换机模块B成功转发给核心交换机,这样就确保了刀片服务器网讯正常,真正实现了原始方案中所设计的服务器网卡冗余的高可用功能,消除了网络“黑洞”现象。

  在三款Dell PowerConnect系列的交换机中,我们设计了一种端口状态“联动”机制,被称之“连接依赖性(Link Dependency)”。我们可以在交换机配置中,通过建立一个“连接依赖性组”, 把具有依赖性关联的端口添加到这个“连接依赖性组”中,并指明端口之间的“联动”规则,即可实现端口智能联动策略。例如,在前面的场景中,我们可以把“刀箱交换机模块A”上和刀片服务器相连接的端口与和核心交换机连接的聚合端口(Port Channel)配置到同一个“连接依赖性组”中,并设定策略:当连接核心交换机的上行聚合端口(Port Channel)变为“link-down”时,所有与刀片服务器相连接的端口也强制变为“link-down”状态。这个配置策略一旦激活生效,上行聚合端口(Port Channel)的连接状态将持续处于被状态,一经发现其链中断,Port Channel变为“link-down”,交换机与刀片服务器相连接的端口也会即可变为“link-down”,与刀箱交换机模块A连接的服务器网卡1自然也会同步变为“link-down”,服务器端teaming或bond将会检测到网卡1链失效,并将网络流量完全切换至网卡2。为对称性,需要在刀箱交换机模块B上同样进行上述配置。这样,我们就彻底防止了潜在网络“黑洞”的出现,确保了网络的可用性。

  配置说明:首先将刀片交换机模块上的上行端口Gi1/0/17和Gi1/0/18聚合为端口通道Port- Channel1。随后创建“连接依赖性组”link-dependency group1,并将刀片交换机的所有内部端口(Gi1/0/1~Gi1/0/16)作为端口添加到连接依赖性组中。最后,端口所依赖的端口为Port- Channel1,设定联动策略为“action down”,意为如若上行端口状态为“link-down”,则所有内部端口也变为“link-down”。

  对于Dell PowerConnect系列交换机,除了CLI命令行访问方式,还为用户提供了Web操作方式,上述配置操作完全也可以通过Web管理界面来实现,操作更为简单便捷。

  以上示例中涉及到的交换机的配置命令以及更详细的使用说明,感兴趣的朋友可以参考Dell技术支持站点提供的《用户手册和用户指南》。您只需选择相应的交换机产品型号,在该产品的技术支持页面中可以选择直接在线阅览或免费下载。

  本文所探讨的 “网络黑洞”问题,是一个十分常见却容易被忽视的问题。事实上,未经充分的链切换测试演练的服务器网络一旦交付上线投产,事前是很难发现这类潜在隐患的。通常都是在投产后发现了网络连通性问题做故障排查时,才会略见端倪,而此时极有可能已经因此引发了计划外生产业务中断事件,代价高昂。所以,仅有服务器、网络链的物理冗余的前期设计是远远不够的,必须辅之以全面优化的部署服务才能确保我们所交付的IT基础架构具备真正意义上的高可用。

  

相关阅读
  • 没有资料
重庆学习网zslpsh,0755深圳房产人才招聘网,拾年网90后,anedc股票,最新电影下载淘娱淘乐,重庆中学生网高考,重庆中学生网高考,学习重庆方言网,重庆中学生学习方法,重庆俗语网,中学生网zslpsh,0755深圳交友网,重庆初中生,贵州重庆方言网,025新闻网,西南重庆方言歌曲,025南京交友网,重庆农家乐美女,观赏蟹种类zadull,云南重庆方言网,重庆中学学习网,028成都交友网,推广taoyutaol,西南四川方言网,观赏龟论坛zadull,四川重庆方言网,022天津交友网,重庆中学生网家长,鹦鹉鱼zadull,重庆俗语,电影淘娱淘乐,taoyutaole娱乐,华夏视讯网,0755深圳旅游招聘,昆明重庆方言网,淘娱淘乐影视,www.00game.net,观赏鱼zadul,重庆高考zslpsh,重庆中学生网高考,027房产招聘网,坝坝舞wagcw,西南重庆方言网,贵州重庆方言网,重庆言子儿网,热带鱼zadull,重庆高考zslpsh,0755深圳旅游招聘网,淘娱淘乐影视网,0571.361.cm,重庆方言学习网,028成都新闻,异形观赏鱼种类,影视网淘娱淘乐,最新电影下载淘娱淘乐,0773桂林论坛,拾年网80后动画片,观赏蟹论坛zadull,观赏龟繁殖教程,重庆一中zslpsh,重庆俗语网,广场舞wagcw,观赏虾的种类zadull,观赏鱼观赏虾观赏龟,西南方言网,观赏鱼之家论坛zadull,战争前线辅助00game,西南重庆方言小说,重庆中小学zslpsh,推广taoyutaol,战争前线论坛00game,0871交友网,025南京新闻网,重庆言子儿网站,娱乐taoyutaole,022天津交友网,025新闻网,重庆中学生网学习,022天津交友网,重庆方言歌网,www.120.cm健康网,anedc股票,重庆初中生