线上答疑是什么 (线上疑问零出现|闲鱼稳固性疑问控制与监控提升)
添加微信好友。 免费测试。
复制微信号
一、引言
闲鱼作为C2C电商买卖平台,信息系统是导购链路上关键的一环。用户依赖聊天树立买家与卖家的信赖,进一步失掉商品信息。闲鱼信息的稳固性间接影响到闲鱼用户体验,成交效率。为强化闲鱼信息系统的稳固性,保证用户体验。闲鱼信息团队在2022年8月份对信息系统稳固性启动了体系化控制。本文将从闲鱼信息团队视角登程,讲讲咱们怎样做稳固性控制。
咱们的目的很明白:缩小线上疑问。咱们经过剖析系统现状、回忆历史疑问,将疑问分为两类,一类是高危险高概率,须要重点突击处置的关键疑问,包括变卦危险、弱依赖危险。另一类是存在潜在危险,但控制老本高,须要常年投入树立的深水区疑问,包括强依赖危险,系统设计。咱们针对疑问,制订了对应的控制措施。包括:灰度、监控诉警、智能化回归、强弱依赖控制、演练、重构等。因篇幅有限,本文将聚焦于关键疑问的控制措施。
安保消费环境是由个人层面为保证线上稳固性的灰度流量消费环境。经过接入层网关的流量控制为环境提供1%线高端量+100%办公网流量,恢单线上环境为系统验证提供场合。
咱们以安保消费环境为基础开展一系列控制:
惯例场景下,安保消费流量能保证从入口到后续全链路都在安保消费环境闭环。但在闲鱼信息场景里,强依赖MQ做流量的负载平衡,而安保消费流量经过MQ之后会被平均打散,逃逸到线上,失去灰度观察才干。针对该疑问,咱们经过spring的Conditional条件注入才干,将线上和安保消费的MQ bean隔离,从而将线上和安保消费MQ topic隔离,使流量能够在安保消费环境完整闭环。
安保消费环境和消费环境的监控基线不同,告警阈值不同,为了能及时发现灰度疑问,咱们以安保消费环境的水位独自性能了监控诉警。笼罩调用量、RT、失误量、信息提前等多个目的维度,笼罩发送信息、创立会话等一切外围链路场景。咱们将安保消费监控聚分解监控大盘,实时和线上监控水位做对比,不只能发现变卦惹起的疑问,还能发现变卦对性能目的的影响。
监控诉警是实时的意外目的监控,而离线报表是更常年间窗口的目的聚合。咱们针对安保消费环境性能独立的离线监控报表,它不只能发现纤细动摇的意外目的,也能发现变卦对业务目的(例如信息抵达率、点击率)的影响。
智能化回归保证系统的底线,外围场景回归能防止惹起重大的疑问。咱们将智能化回归与CICD集成,当发布到安保消费环境时智能口头智能化回归。
在完善安保消费树立后,假设没有规范去规范化流程,树立行为准绳雷同达不到保证稳固性的目的。咱们结合信息自身的业务特点,商定了信息团队外部的发布规范:发布必定在安保消费逗留一晚,第二天灰度放量。确保:1. 笼罩期间相关的代码逻辑。2. 足够久的灰度观测。3. 产出t+1的离线监控报表
监控诉警的生命周期可以分为监控数据预备、监控性能、监控验证、告警性能、告警验证五个环节。
监控数据预备环节咱们有完善的基础设备。基于这个基础,咱们对监控诉警启动笼罩率、及时性、有效性控制:
控制的第一个目的是要确保监控笼罩全,不遗漏。咱们分为三步确保笼罩完整:1. 梳理出系统的外围场景链路,链路上的外围观测目的,查缺补漏监控诉警。2. 通用的监控诉警作为兜底,笼罩资源水位、接口调用、两边件性能等基础目的。3. 最后,经过监控诉警离线报表全体性review监控诉警笼罩率。
控制的第二个目的是能及时发现疑问、有效发现疑问。告警的及时性与有效性是互斥的相关,为到达告警及时性与有效性的最佳平衡,咱们依照从严到松的模式逐渐调整告警条件。同时为了继续维持告警及时性有效性,咱们树立监控诉警离线报表,活期review告警记载,对告警调优。
监控诉警控制须要继续投入,继续保鲜。咱们搭建了监控诉警离线报表,它蕴含一切的监控诉警性能,告警历史流水,提供告警历史的聚合试图。为咱们笼罩率控制、有效性控制提供全局视图,撑持咱们活期对监控诉警调优。
智能化回归的目的是保证底线,确保外围链路场景的稳固性。
端到端级别的智能化回归能从实在经常使用角度去验证稳固性。咱们设计端到端的智能化回归用例,笼罩软件从装置、经常使用、卸载的完整生命周期,笼罩信息外围场景链路。咱们将智能化回归与CICD集成,每天定时智能化回归,在发布流程做智能化回归卡口。
凤凰回放工具是基于JVMTI成功的流量回放测试工具。咱们经常使用凤凰回放工具录制RPC流量,回放流量,diff结果,验证接口级别的稳固性。
依赖控制的目的是强弱依赖相关正当,并且弱依赖具有升级快恢才干。咱们启动了以下控制:
写这篇文章的时刻,距离稳固性控制曾经过去6个月。经过半年的通常,能体会到以上控制确实能有效处置疑问。从客观来说,做线上变卦时,灰度的逗留规范+独立的监控诉警让人心里有底。从环节来看,灰度环境的树立也确实帮咱们规避了多起线上疑问。从结果来看,这半年的线上疑问趋近于0。稳固性控制咱们阅历了从一开局的无从下手,到起初逐渐找到思绪,再逐渐找到确定性的门路,明白的处置了一些疑问。对稳固性也有了几点思索:
第八届DAMS-中国数据智能控制峰会将于2023年3月31日在上海举行与大家一同探求大数据与云原生强强联结的模式、开掘由此激起的软件开展和技术提高。
报名链接:2023年DAMS中国数据智能控制峰会-上海站 �-�百格优惠
演讲嘉宾所在单位:阿里、腾讯、京东、美团、华为云、字节、蚂蚁、网易、新浪、携程、哔哩哔哩、小红书、vivo、快狗叫车、货拉拉、工商银行、树立银行、中国银行、安康银行、光大银行、汇丰银行、微众银行、复旦大学等产学研界技术领跑单位。
演讲议题聚焦: