百分百源码网-让建站变得如此简单! 登录 注册 签到领金币!

主页 | 如何升级VIP | TAG标签

当前位置: 网站模板(百分百源码网)>电脑软件>服务器> 运维的85条法则
分享本文到:

运维的85条法则

发布时间:05/16 来源:未知 浏览: 关键词:

1.容量第一,优化第二——这条法则在故障产生时生效。在宕机的时候别研究什么优化,先恢复设施。

2.保存所有可以捕捉的记载——以 PostgresQL 为例,包括有 WAL 文件,Slony 复制,快照技术,基于硬盘的 DB 版本(快照附带的)

3.不要由于优化引入更多题目。平常我们解决题目时做出来的东西都会改变成之后运维工作的承担。请确以为运维工作开发的那些工具已经完全交付运用。这些东西经常没法正常运转效果要返回开发组重来。更重要的,这种变更请求平常会打破团队原本安排好的工作规划。

4.维持简略,不要让事情变得太复杂,聪慧的你一定可以做到的。

5.谨慎运用缓存以维护那些难以水平扩展的资源。当然,要是你可以水平扩展它,那么给他加缓存层就不用考虑太多。一旦用上了缓存层,它的目的应当是提高终究会员的访问机能,而不是添加网站的容量。否则,你不过是给本人加上了一个新的非常不牢靠的瓶颈。他们潜在的负面影响可能危及整个系统。事实上缓存层失效带来的,经常是雪崩式的级联故障。

6.不要什么都本人写代码实现,也不要什么都从厂家买——要在恰当的时候采纳恰当的工具。

7.会谈——和真正有实力的厂家会谈的独一办法就是提早做好功课,预备好一切可行项。这样一旦有须要,你可以从你的首选厂家里选中脱离。不用搞虚张声势那套了。

8.永远要预备好 N+1 的服务器。要是 N 等于 1,那么无论什么状况都不要动用这个 +1 的设施,专职期待 N 失效后的接管。当你运用冗余的服务器来平衡负载的时候,就只要49%或者更少的容量可治理了。平常我们会获得 N+2 的时机——一定要好好应用起来。

9.数据遗失是任何一家企业都不敢冒的风险——这是一条普遍真谛。遗失数据造成的损耗远远超过用于保证数据不遗失的破费。

10.随时随地的并行化——这是一种很重要的思维方式。比方,要是 MogileFS 设置为位置感知的方式并且需要实时复制,那么每个 MogileFS 服务器都必须可以复制本人的数据到负载平衡器指定的另一端。只有有可能,尽量实现这种多对多的方式。

11.RTFM——就在今天我还要浏览一对 RAID 卡的注明书来比较他们奥妙的悬殊。魔鬼在于细节。像做家庭作业同样读文档吧!

12.理解每一层上的瓶颈以及怎样发明瓶颈。必必要晓得你是在磁盘,内存,还是 CPU 上挨限定了,搞分明这个其实挺简略的。

13.要有一个牢固的容量治理流程——而且是自动式的,不是被动式的。要晓得系统的弱点在哪里,让现实负荷曲线跑到容量曲线之上是极端惊险的。

14.不促成失败,也不恐惧转变。

15.不要吸进你本人的废气。别认为你此刻的工作效果会变成将来你怎样工作的机动性能。

16.运维人员要写的代码是运维工具,而不是利用软件。

17.不要低估运维团队中项目经理、技术作者、金融剖析师的价值。这些人平常比你给的薪水值钱多了。

18.监控所有的东西——报警只用在异动的时候,其他的都记载下来供趋势剖析。

19.要有一个牢固的流程来查看每个地方的趋势数据。

20.不要让监控太吵闹,那样很快就变得没作用了。

21.确保你的监控系统简略易用到企业里每个人都能上手。监控数据目标转换成为业务目标、市场目标和零售目标等等的频率可能高的让你受惊。

22.只在可以做出响应转变的地方做总结,否则就是白白浪费工夫。

23.总结要公开,同时附上事件相干的数据。这样大家可以很容易的找到总结的要害点并且跳转到对应数据。

24.要让技术的每一个点都有人员在负责。

25.同时为这些负责人预备好备份人员。

26.一直发招聘——哪怕没有名额了。

27.做本人最严格的批判者。无论本人或者自认多聪慧,总有可以提高的地方。

28.多往外看,拿本身的水温和尽量多的企业的职位需求做对照。

29.每年加入一个技术交换大会。要是一年有好几个,那选最佳的那一个去就够了。

30.买你需要的而不是你想要的。绝不摘下你企业的帽子换上那个写着“对我来说什么最简略最平安”的。

31.只做对业务最佳的事情,哪怕这件事是让你滚开……

32.问责制度正规化——记载承诺,事后追查没有完成者。

33.不允许反复失败。听起来有些过于苛责了。不过要区分不可挽回的失误和失误的差别。

34.无情——由于敌手都是无情的。

35.工作是你要在完成的时候亲自署名的东西。署名同时也意味着完成任务。

36.维持对外的可用联系。

37.创业的同伴——告诉他们你的专长和能力范畴。你会得到免费的产品回报,有时候是生活中的。

38.容量是一个业务/产品题目。也就是说每个页面、上传或者登录等请求的网络耗损,都必须是可见的,以协助完成准确的业务/产品决策。

39.一定要打败估算!运维团队总是估算金额最大的挥霍者。企业的收入指标经常达不到,运维团队应当有许多办法来延迟本人的破费。

40.已往的经验不一定适用于此刻以致未来——多尝试没错,而且要有适当的测试工具来做这件事。

41.文档——所有事情都应当好好记载成文档。以免团队的新成员绕着圈的找遍全团队逐一理解工作内容。

42.画一张超大尺寸的网络拓扑图,刻画你的数据核心。

43.为你的每个产品都画一个逻辑流程图。

44.维基——让大家可以很容易的发表“怎样修复这个题目”的文档并且容易查找。这是技术作者发挥作用的地方,不过维基可以让哪怕非正式的文档或者增增改改的小段落也更好查看。

45.确保团队的每个成员,对,是每一个,都是可以替代的。

46.有些人在家里干活比在企业的时候还好,但有些人却不行。

47.订单打包签署——把硬件需求打包成大订单后再去征询最大的折扣合同,记得订单里要包括所有一切,比方备件包,租赁前提等等。

48.和供应商维持长期联络,哪怕你换到下一份工作的时候也能联络上他们。

49.给运维团队每个人都配上一切他们可以长途操控的东西——掌上电脑, 3G 网卡,24 寸 LCD 屏幕……你为有才华的人付出得到的回报,远超过在长途雇佣的现场工程师。记住,运维工程师都是电力狂人,他们晓得并且能充分应用屏幕上每个像素。

50.除非 Mac 可以运转 office 2007 和 outlook,否则团队里总需要几个 windows。这事很毁坏团队的会议安排,联络人治理和邮件列表等等。

51.要有一个简化的采购流程——条件是你要理解本人的估算,并且能够治理好。我们可以从财务汇报中得到现实。技术驱动的汇报和财务驱动的汇报之间平常存在差距。一个好的运维经理可以新建一些模型,将这些差别计入零售总老本中。而了解这些的 CFO 才可以帮忙推进业务决策。

52.周会一定要延续举办,对上周的事件逐一总结和问责。

53.新建一个独立的晋级系统,来治理那些对运维发生负面影响的代码开发工程。这个设法的来源是:一个同时波及运维和开发的题目,在运维或者开发的跟踪系统里大多被埋没疏忽,最后没人理会,所以给这些题目独自新建一个跟踪系统反而更加简略分明。

54.产品开发从设计开端的每个阶段都要和运维技术相联合。这样,扩展性,监控和牢靠性都融入到产品里。这样同时也可以确保运维负责的硬件采购、监控系统按时到位,运转手册即时更新,最后产品按照估计工夫上线运转并且都相符运维规范。

55.像一个真正的企业同样运作——萨班斯法案,WebTrust 平安审计认证,SAS 70 审计规范,Visa 组织和银行等等。要是你真的成功了,这些都是你不得不打交道的。早点开端这些预备其实很简略,不需要太多的知识。不过就是开发一个工单/任务跟踪工具,然后好好运用。把变更控制和治理放进一样的系统里,好好运用。其他信息也放进来。系统就可以帮忙我们找出像“上周变更了什么”这类信息。

56.给冗余留空间。一开端也许很难,但是一个没有真正的扩展性和牢靠性的系统,才会真正耽误你获得成功的工夫。

57.买个 Oracle 规范版(或者微软 SQL Server 规范版)是值得的。要是你可以限定住本人不超过规范版的需求,那就绝对值得买,哪怕你刚刚开端创业。

58.Postgres 和 MySQL 的免费不错。要是你不是特殊在意事务完备性,MySQL 其实挺好的。

59.容量设计应当按照每日峰值再上抛 20% 到 30% 的冗余。除非你是个 vmotion(译注:VMWare 的热迁移技术)达人。

60.尽量多读一些贸易杂志。它们平常是免费的,只有你填写一些观察问卷就好了。消息的价值是庞大的。对了,记得让他们送达到你家里,工作的时候读杂志的时机趋近于零。

61.注意平安。开发人员不应当有生产线的权限,而应当去做代码复核。这是和运维之间的职责别离。然后运维中应当有人控制设置其他运维人员权限的权限。新建一个员工手册,告诫大家违背平安条例会有很重大的后果。从一开端就要记住从物理的、逻辑的、功能的各个方面来维护客户的数据平安和隐私。万一有客户要和你对簿公堂,你回顾起来发明本人只是靠勇气和勤勉来维护客户数据,这感觉可不怎么好。

62.控制好访问入口。首先要保证大家可以正常完成工作;其次要确保你晓得他们是从哪里进来的。快去实现双因素身份验证要领吧。

63.关于人们访问生产环境必经之路的营垒机和网关,键盘记载是至关重要的。关于 Windows 可能略微有点难度,不过有些网关可以供给主动截屏功能。

64.确保有多种办法登录生产环境。不要奢望企业的 VPN 在网络中止的时候还能起作用。直接把 VPN 架设在生产环境里。

65.运用 LDAP 做认证,哪怕你只要 10 台机器,通过复制 passwd 和 shadow 文件的方式来治理,你也要 LDAP 认证。

66.不要低估在 UNIX 环境中一台 Windows Server 2008 设施是多么有用。要是只是由于不懂 Windows,那么去学,而不是贬低它。

67.不要用那些无效的无线方案浪费大家的工夫。企业里所有人都在移动,沙发上,会议室里,门口,各处都要上网。千万保护好你的无线路由。

68.总有些人把额外的精神和工夫都投入到工作上——直接通过他们的告假单好了。而另一些人恰恰相反只把注意力放在怎么通过本人的告假单。在个人工夫安排上,运维人员总是做出庞大的牺牲,他们随时预备凌晨3点爬起床迅速相应排障需求。

69.通过集中式的 RDBMS 治理你所有的设施资产。然后复制资产,人员,网络,合平等所有数据到异地。没错,要的是一个在线的实时可用的复制,而不是天天晚上备份到磁带。

70.主动运用多进程以确认平安,包括操纵系统或者产品的上线,文件的推送,日志的剖析等。

71.主动化操纵必须和运维的 RDBMS 数据相干联。

72.设施平常有三种状态——离线,服务中,准备。准备状态就是说正在通过 cfengine、rsync 或者其他你在运用的工具完成配置。服务中就是已经运转着流量了。同时还需要一个状态,这个状态下的设施可以在不供给生产服务的状况下收集或者测试数据。

73.尊敬日志数据。在设施下线或者重建以前,一定要先导出日志。

74.要是业务飞速开展让你没有太多工夫来做优化,那就尽力锁定一切——进程还能工作,就不要转变它,直到后来有了绝对须要的理由。总之,锁定默许值,期待成长到须要时再审视。

75.你永远没法以免运维工程师在你根基设备最要害的地方犯点啥错——比方在哪台机器上不当心施行 rm -rf / 下令。

76.为团队维持好玩和有趣的氛围——要是他们不再享挨他们的工作,他们就会找别的事情来消遣。要让团队有主人翁意识,运维不是哪个经理的个人任务。

77.供给 99.999% 可用性的真正价值在于让我们有能力维持灵活。这意味着当你需要的时候可以充分应用系统冗余。物理变更、设施迁移、代码修改和回退等等都游刃有余。这个关于企业自身价值庞大,甚至比对客户还大。

78.要是你能做到 99.999%,那就给客户一个 100% 的SLA承诺。

79.不要埋没软件热更新的能力。应当被埋没的是你本人回滚或者转移到旧版本代码的能力。压根就不应当“处置”这种徒劳的失败转移。当事情变得不如人意的时候,你更应当做的是找个大玩意儿来挡住你的肥屁股。CYA(译注:Cover Your Ass,就是前面说的盖屁股) = 维持灵敏 = 成功的企业。

80.记住你为客户构建产品的思绪里每一步的缘由和目的——无论你部署给终究会员的是什么,把这些放在最先考虑,即你所有(根基设备、流程和人员)的设计都是为了供给最佳的服务和产品。

81.第一次就要成功。很少有时机让你回去从新开端的。重做是对企业资源的庞大浪费。

82.多联络业内的合作同伴、盟友和相似的公司,看看他们的运维是怎么做的。很可能他们遇到了跟你同样的挑衅,而解决的更为奇妙。不关键怕分享本人的经验和处置历程,由于他人也会回馈的。

83.招人就要招那些足以让本人担忧会被挤掉当前工作的,招那些你赏识和可以学习的榜样,招那些你情愿和他一起工作的。这感觉甚至超过你招聘一个工作考评为A的员工。

84.IT 和运维是完全不一样的两个概念。一个不错的运维经理应当可以治理好公司 IT,但是一个传统的 IT 工程师很难有能力处置互联网运维任务。

85.当你开端一份新工作或者在每年的起始,都应当去夺取估算。这不是说滚着那个滋滋响的轮子往前走(应当是指循规蹈矩照本宣科),而是要一个基于历史数据做出的优良的案牍。要是你正在评估一份新工作,请确认你完完全全的晓得估算以及估算的来源。同时,还应当有的是改进这份估算的权益。

热门标签:dede模板 / destoon模板 / dedecms模版 / 织梦模板
责任编辑:2mjq2
打赏

打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,你说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

百分百源码网 建议打赏1~10元,土豪随意,感谢您的阅读!

共有153人阅读,期待你的评论!发表评论
昵称: 网址: 验证码: 点击我更换图片
最新评论

本文标签

广告赞助



订阅获得更多模板

本文标签

广告赞助

订阅获得更多模板