暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
混沌工程学拯救了网飞.pdf
193
2页
4次
2022-11-18
免费下载
4︱2021年3月︱IEEE SPECTRUM︱科技纵览
混沌工程学
拯救了网飞
在线平台的极端压力测试已成为了一门科学。
尝试从中学习经验教训 即使结果显
示系统可按预期运行 也会让人认识
到 工程组织中总会有故障发生
如今的实践表明 混沌工程非常
精妙且积极进取 后续的工具可以有
意地让系统缓慢运行 将网络流量送
入黑洞 还会关闭网络端口 最近
有一款名为 的应用程序
它能够在整个地理区域内按比例缩减
公司的服务器 系统要有足够的补偿
恢复能力才能过关 此外 工程师
还开发了防护和安全措施来控制故障
范围 并制定相应的规制
在网飞 混沌工程已经发展成
一个平台 名为混沌自动化平台
该平台用于运行专门的
试验 详见插图 制造混乱
琼斯 是初创公司
的创始人兼董事长 她说 团队
需要理解何时何地进行试验 在网飞
期间 她帮助完成了 随机
在系统的某个部位制造故障是不起作
用的 她说 这背后需要有推理
和论证
当然 新冠病毒也给网络流量带
来了全新的混乱 亚马逊网络服务的
首席解决方案架构师康斯坦丁
冈萨
雷斯
情期间的网络流量也不是都朝一个方
向波动 例如 地面交通被暂停时
德国包机巨头国际旅游联盟
业务急剧提升 他说 不过 打造可
听格雷格
奥泽尔
最初的混沌
猴子
工具很简单 它随机在网飞云端某处
选取一台托管的虚拟机 向其发送一
终止 命令 让它下线 然后
网飞团队必须搞清楚接下来怎么做
那是十多年前的事了 网飞将自己
的系统转移到了云端 躲过了新的合作
伙伴亚马逊网络服务 在美国东
海岸引发的一次大规模服务中断
奥泽尔目前住在德国的美因茨
的一名首席软件工程师
最近 他回忆起了早期混沌猴子的情
而德国正准备应对又一轮与新冠
疫情有关的封锁和死亡恐惧 外界一
片混乱
新冠病毒给人们的日常生活带来
了天翻地覆的变化 而一种应用在计
算机网络中的实践 混沌工程
则可以帮助大部分网络蹒跚渡过这段
受新冠疫情影响的时期
混沌工程是一种利用极端条件进
行压力测试分析的主动方法 这是一
种新兴的评估分布式网络方法 主动
对正在运行的系统进行使用 通过这
种方法 可以建立起在动荡环境下运
营的信心
奥泽尔和他的网飞同事一起用亚
马逊网络服务软件开发套件制作了基
的工具 混沌猴子 这款
工具有点像数字发生器 但当混沌猴
子通知一台虚拟机停止运行时 这不
是在模拟 该团队要求系统能够承受
部分主机服务器和应用服务出现故
只是嘴上说 不好 要发生故
障了 那很简单 奥泽尔说
们向你保证下月还会发生两次故障
因为我们正在制造故障
混沌工程会采用小规模 可控制
且意义重要的方式 故意定期破坏系
从而检查系统能否正常运行
科技纵览︱IEEE SPECTRUM︱2021年3月︱5
NEWS
恢复网络的目的在于使网络有弹性
混沌工程很适合这种情况 作为
一种工程思维模式 它涉及在登月航
天科学发展期间出现的墨菲定律
果可能会出现问题 那么问题就一定
会出现
很难说是这些实践在疫情期间维
持着不堪重负的网络继续运行 其中
的变数非常多 不过 它对那些使用
混沌工程的技术人员是有帮助的
至对于资产达 亿美元的新加
坡投资机构 星展银行这样一家
传统企业也是有帮助的 现场可靠
性工程师哈普利特
辛格
星展银行的网络弹性项
目已经进行了 早在 年项
目开始时 相关团队就在使用混沌工
具进行试验
混乱似乎是可传递的 琼斯的创
业公司 提出了一份她称之为
化事件 可被混沌工程模拟或发动
的事件 的策略视图 其中显示了组
织认为的运行情况与实际运行情况的
区别 是位于圣何塞的一家
年历史的公司 该公司提供的服
务产品是混沌工程工具
该公司发布了 年首份
沌工程状态 报告 在发布报告的博
文中 该公司市场营销副总裁艾琳
霍根 讲述了这些天
多人参加的混沌工程大会
她指出 到目前为止
用户群就进行了近 万次混沌工程
系统攻击
冈萨雷斯说 亚马逊网络服务已
经进行混沌工程实践很久了 今年
随着网络化世界有望从前所未有的压
力测试中恢复过来 亚马逊网络服务
正在启动一项故障植入服务 云端客
户可用它进行自己的试验
谁知道未来的需求是什么样的
作者
网飞工程师
ChAP
连续
交付系统
网飞
控制平面
实时
监控系统
网飞前门
外部
云服务
提供商
1
2
4
5
6
3
网飞用户
制造混乱 以下是网飞发明的“混沌工程
工作原理。
在线发表评论
spectrum.ieee.org/chaos-mar2021
网飞工程师用该公司的 来连接其连续交付系统 该系统与网飞
外部云服务提供商 相连 对于每条 指令 外部云服务提供商都会根据系统
制平面 中的压力点位置略微修改若干测试操作 订阅者通过服务的虚拟前门
选择视频观看 作为观看体验的一部分 系统会向订阅者提供少量的修改服务
网飞描述的一个示例中 系统故意修改测试用户的书签服务 如果用户在观看视频的
中途退出网飞 那么该服务可能就无法记录用户的停止点 然后 会指示实
时监控系统 观察测试用户的体验 以确保 的小错误能够得到补偿且不会
造成连锁故障或系统崩溃
来源 等 生产中的自动化混沌实验 第届软件工程国际大会会议记录
of 2
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜