线上故障处理

前些天看到caoz一篇文章出了bug怎么办提到bug修复问题,之后airbnb的朱赟发了当工程师收到了 Bug Report,都谈到了bug修复的问题。互联网行业面对的用户量较大,程序中可能有的bug最后都会在线上出现;如果bug的影响范围变大,则会演变成线上故障,造成较大范围的业务影响。

前段时间在团队内整理了一份线上事故处理的流程,修改后在这里分享。

1. 故障信息获取源

1.1 系统&业务报警

这个是获取故障最常用的手段。

一般的系统正常运营过程中都会有一定的指标监控。如:在系统层面某种报错出现的次数,系统常规指标,如可用内存,JVM GC,连接池等信息;业......

互联网公司校招的一些感受

第一次参加校招,虽然没有面特别多的学生,但积累了一些经验,与大家分享。

0. 背景

互联网公司

主要负责初面

共两轮初面,一轮二面,一轮hr面试

面试后端开发

1. 最关注的候选人素质

1.1 学习能力

这也是校招和社招最大的不同点了。绝大部分应届生(除了一些特别优秀的)在面试官眼里都是没有经验,但是期望之后能够快速成长。

其实这些项目经历更多是提供一个面试的话题,会就着项目来问技术问题,看看学习的如何;如果没有实习经历,也建议面试同学能够有拿出手的课程作业,比如上操作系统课时写的一个简单的操作系统,数据库可能写的小型数据库或者自己写的......

如何做技术设计

做业务的开发们,几乎都有一个做架构的心,好的业务开发者不仅要能做好业务,更要能做好业务架构。在现实中我们总会遇到大大小小的需求,那我们应该怎么在满足业务的同时又能作出很好的技术设计呢。

1. 什么是好的技术设计

好的技术设计应该很清楚的表达了:

要解决的问题

......

当服务QPS增高时我们做什么

很多同学在实际的开发中害怕系统的QPS增高,因为觉得QPS太高会导致系统挂掉;基于这种心理会想着尽量的降低系统的请求量,甚至有人会将很多处理放置到服务中来处理,这样外部发一起请求,服务就把所有的业务处理完了(比如将for循环的计算放置到服务端)。

这种方式降低了系统的请求量,但是降低了系统的QPS吗?这种做法系统更安全了还是更危险了?

首先来介绍一下基本概念。

1 性能的关键指标

系统吞吐量(Throughput)

吞吐量指单位时间内系统处理的请求数量,体现系统的整体处理能力。

响应时间(系统延迟Latency)

请求的平均响应时间

一般来说,一个系统的......

技术管理的路

看到[30岁后的程序员,该如何做出职业抉择?](https://mp.weixin.qq.com/s?__biz=MzAwMDU1MTE1OQ==&mid=2653547498&idx=1&sn=5d29a4875d5a093a7f33e9ec89887b3b&scene=1&srcid=0705bSatpzBcv9Lvy2a3VKQo&ke......