专题: 运维与监控
Day of week:
- 星期五
随着互联网公司业务高速增长,基础设施规模不断扩大,DevOps、SRE、持续交付等理念的引入,云计算的落地使得生产环境日益复杂,变更日益频繁,在系统层面、应用层面、业务层面对监控系统的挑战也越来越大。监控是缩短排障时间、提高网站稳定性最核心的环节之一。
本专题邀请了一线互联网公司的运维&监控专家前来分享,介绍最新的运维理念,探讨如何打造适应运维新趋势的监控平台。
目前负责携程私有云、虚拟桌面云、网站应用持续交付等研发团队,专注于 Cloud/Continuous Delivery,用技术创新提升研发、运营效率;2012 年加入携程,从零组建携程云平台团队,基于 OpenStack 研发携程私有云,用于管理携程所有的开发、测试及生产环境多数据中心基础设施;为超过万人的异地呼叫中心提供虚拟桌面云服务;曾在 OpenStack 香港峰会、中国云计算大会、Cloud Connect、QCon 等大会做主题分享。
by 黄浩
Twitter 高级工程师
Twitter 的 Observability stack 包含了核心的 Timeseries Database,实时的监控报表系统,报警和自动故障恢复系统,以及分布式的日志分析和 tracing 系统。在 Twitter 它是整个公司最关键的内部架构之一,是保证各个服务可用性的关键。目前整个监控报警系统每分钟处理 25 亿次的 metrics 写入,一百七十万的复杂查询和两万五千次的报警规则。日志分析系统和 tracing 系统是工程师们平时追查问题的主要平台。在本演讲中,黄浩将向大家分享整个架构的设计与演进中的思考和经验。
by 唐锐华
携程高级工程师
随着公司业务的扩展,新应用不断涌现,基础监控和应用监控的需求迅猛增长,传统的监控告警平台已经不堪重负。在调研了很多开源方案之后发觉或多或少都存在不太满意的地方,所以在借鉴多种方案的基础上,带着对前辈系统的崇敬,以自服务为最终目标,我们重新设计开发了一套监控告警系统(hickwall),这套系统的主要特色有:
- 集中式的配置中心,并且支持 agent/agentless 两种采集方式;
- 基于 javascript 的告警 DSL,支持 agent side/server side 两种告警模式。学习成本低,告警方式灵活,实现告警的容量与可靠性和资源投入之间的平衡;
- 流式的类 RDD 的数据 Downsample 策略,摆脱 IO 问题,减小多存储方案之间的差异分化;
- 兼容 graphite api 层,隔离用户与存储,便于灵活适配更多存储方案,更能充分利用现有丰富的 graphite 生态圈;
- 目前以 es 作为首选数据存储方案,吞吐量巨大,维护扩容成本低;
- ...
by 马小鹏
阿里巴巴开发专家
全景业务监控平台(Goldeneye)是阿里妈妈在业务监控方向上的一次大数据应用创新, 相比传统的同环比报警检测方式精确度更高。本次演讲向大家介绍一种基于数据统计分析的业务监控检测方法,通过收集监测数据的样本,并使用智能检测算法模型,让程序自动对监控项指标的基准值、阈值做预测,在检测判断异常报警时使用规则组合和均值漂移算法,能精确地判断需要报警的异常点和变点。因为传统的同环比对比比较单调,在工作日和节假日对差异下存在大量的误报、漏报,在监测指标波动时不能有效地过滤掉不值得关注的疑似异常,大量的误报会淹没真正的异常报警。我们从预测样本的选取、监控项报警检测灵敏度区分、异常持续状态次数、均值漂移过程等方面做了智能检测程序,可以避免人工维护的惰性和不可持续性带来的隐患。在故障辅助定位方面,我们通过建立全链路 tracing、上下游数据关联依赖、数据粒度逐层细分、诊断树模型等方式,缩小排查定位问题的范围,直接通过数据分析提供可参考的定位信息,在实际应用中可以降低故障带来的损失。
听众受益:
- 怎样解决业务监控报警中漏报、误报的问题; ...
by 尤勇
美团点评资深工程师
监控是个很宽泛的问题,里面涉及到快速的故障通知,精准的故障定位甚至包括可能性性能分析诊断。
监控这领域解决问题非常多,包括从移动,网络,业务,应用等各个方面,任何一个产品都需要有完备的监控,监控就像汽车行驶的方向盘,没有监控,很容易迷失方向。
这次演讲会从监控的各个层次,移动、应用等各个层次讲诉点评在监控领域做的工作以及一些实战经验,希望能让大家对今后的监控选型有所帮助。
by 焦智慧
网易云计算平台资深开发工程师
APM 要解决的问题,与传统监控的区别(应用与资源),对 DevOps 的帮助。
APM 的功能划分:应用状态把控,问题诊断,性能诊断,数据分析。
客户端及服务端 APM 的特征:
- 客户端偏用户体验,影响维度多,运营商,网络环境,地域等;
- 服务端偏性能统计,主要跟机器资源,代码质量相关。
APM 数据处理架构:
- APM 的存储需求:诊断需求,统计需求,分析需求;
- 数据处理架构:架构演进,存储选择(HBase、MySQL、Druid);
- Druid 的选择:实时数据处理,可伸缩性,高可用;
- Druid 的问题:任务模型,调度模型,租户隔离。
by 鲍永成
京东云平台资深架构师
京东业务壮大,特别是大规模容器落地后,对基础监控带来挑战。
在此背景下,带领团队自研 light 监控平台(内部名称 mjdos 系统),帮助运维和研发同事更好的监控运维业务系统。
light 分布式监控平台特点:
- 支持容器类型监控数据采集;
- 全容器化部署,弹性伸缩;
- 支持跨 IDC 部署和感知;
- 海量监控采集点;
- 监控能力平台化 & 开放 API。
by 李虓
LinkedIn SRE 团队高级技术经理
及时有效地搜索日志是 SRE 日常工作的重要内容。LinkedIn 从使用 Splunk 到建立基于 ES 和 kafka 的日志分发、索引系统,为 SRE 提供了近似实时的搜索平台来检索超过 400 多个子系统的日志。在本演讲中,我将和大家分享这套系统从无到有的一些技术架构经验。
演讲专题
Covering innovative topics
10月20日,星期四
-
前端技术实践
前端技术日新月异,从早期脚本库、jQuery,到框架百花齐放,再到近年的 AngularJS 和 React,不一而足。今年,值得关注的前端技术又有哪些呢?
-
安全之战
正邪相生,这是一场没有硝烟的战争。这是一场攻与防的终极较量,也是一场矛与盾的顶级对抗。
-
新 Java,新未来
本专题将聚焦于 Java 生态系统的创新和前沿技术,分享 Java 技术创新、应用创新的最新成果,帮助开发者了解解决现实问题的新思路。
-
无处不在的容器
本专题主要讨论容器云的实践经验和最新发展,包括 Docker、Mesos、Kubernetes 等。
-
微服务架构,我们该如何实践?
互联网时代,客户的需求变得更加频繁,业务领域变得更加复杂,系统和团队规模变得更加庞大。本专题分享我们该如何打造支持业务持续创新的微服务架构,以应对复杂性和规模化的挑战。
-
大数据应用与系统优化实践(厂商共建专题)
大数据处理的过程中往往需要和其他平台或工具进行结合,同时大数据也可在更高层次的领域发挥重要作用。本专题将邀请多位工程师及技术专家,围绕大数据主题,在系统优化、运维、研发等方面展开更为细致的探讨,分享技术实践心得。
-
业务上云技术拆解(厂商共建专题)
本专题将邀请多位云计算领域技术专家,共同探讨企业业务上云过程中的挑战与应对之策,分享上云技术选型的心得与技巧,并分析总结相关的实践案例,为企业 IT 管理者提供技术参考。
-
智能出行——高德开放平台专场(厂商共建专题)
随着移动互联网不断渗透,人们的“衣食住行”越来越离不开 LBS(基于位置服务)。高德作为在线地图领导品牌之一,将在本专题结合实际案例分享如何在自己的软件中快速且稳定地实现 LBS。
10月21日,星期五
-
玩转大数据
预计到 2020 年全球数据总量将超过 40ZB,如果不能有效的存储、管理和使用数据,将给企业带来的是巨大的成本,同时数据的玩法和应用越来越多、业务的场景越来越复杂,给数据的存储和计算等不断带来新的挑战。本专题主要介绍大数据框架、数据平台、以及新的算法实践等。
-
移动开发探索
移动技术从万物生长到注重最佳实践,从敝帚自珍到开源如火如荼,各种新技术与最佳实践层出不穷——组件化、编程框架、动态化、Swift/Kotlin 语言,移动开发进入一个真正比拼武功的年代。
-
移动视频
本专题将分享多媒体领域不同于传统互联网技术的部分,包括整体架构案例、多媒体处理技术、播放器与播放体验、计算机视觉等方面。
-
让架构更简单
很多互联网(包括移动)业务成长非常迅速,在系统搭建之初和成长阶段就需要充分考虑系统架构设计,以满足在稳定性、扩展性、性能和成本方面的要求。然而在系统的不断演化过程中,系统架构会变得越来越复杂,于是让架构更简单,便成了互联网技术人孜孜不倦的追求。
-
运维与监控
本专题将探讨在互联网业务高速增长,基础设施规模不断扩大,DevOps、SRE、持续交付等理念的引入,云计算的落地,生产环境日益复杂的背景下,如何做好运维和监控。
-
大数据服务与应用
-
高并发与实时处理架构设计(厂商共建专题)
本专题将分享大规模实时流处理平台架构以及实时消息推送架构,并从稳定性和实时性两个方面探讨即时通讯云实践,还将揭示海量数据推送服务背后的挑战,希望能帮助开发者了解解决现实问题的新思路。
-
微服务实践与架构演进之路(厂商共建专题)
应用的发展不可避免会伴随着从简单结构到复杂架构的演化,微服务架构的出现,试图在架构层面把一个大而复杂的问题拆分为很多小而简单的问题,最终达到系统整体交付难度降低的目标。本专题将探讨微服务实践落地过程中遇到的实际问题和挑战,并分享相关解决方案。
10月22日,星期六
-
Growth Hacking,IoT & React Native
-
互联网广告系统实战
在线广告是很多互联网公司的重要盈利模式,广告系统的架构、策略、优化都至关重要。本专题邀请到极具代表性的 Google、腾讯、百度、小米、Spotify 等公司的架构师分享广告系统方面的宝贵经验。
-
工程团队管理
本专题将分享来自不同公司技术团队的管理实战经验,和大家一起,从技术与管理的多个角度,来探讨工程团队管理这件事。
-
技术创业
技术优而创业,是目前很多人的梦想,失败和成功的案例都很多,作为一个技术人员,你真的准备好了吗?本专题由众多创业的朋友来分享其中的酸甜苦辣,经验教训及各种相关话题。
-
机器学习与深度学习
大数据时代,深度学习再次掀起了机器学习的新浪潮,不仅在语音识别,图像识别等领域大获成功,各种现实应用也一触即发,本专题给大家分享一些有趣的应用和实践。
-
用户体验设计
-
研发支撑体系
构建研发支撑体系,提升研发交付效率。
-
业务系统架构
大多架构分享侧重技术架构的剖析,本专题将从业务层面入手,以1号店、人人车、德比软件、特赞等公司为例,说明如何针对特定业务设计合理的架构,以及设计和演进背后的思考。
-
大数据分析与应用
在这个数据海量产出的时代,如何有效地分析和应用数据使其发挥更大价值?本专题来自 LinkedIn、Autodesk、百度、滴滴的一线工程师将分享大数据可视化及大数据在日常生活中的创新实践。
-
大规模前端系统
随着移动互联网的发展,人们越来越关注前端系统。成熟框架变化多维护难,如何处理?新框架层出不穷,如何合理运用?Microsoft、百度、京东等国内外知名互联网公司邀您一起探讨。