专题: 玩转大数据
Day of week:
- 星期五
伴随着各种大数据基础框架的百家争鸣和一步步优化,整体解决方案的数据平台得以迅猛的发展,使得不仅仅专业人员可以开发数据产品,业务和产品等非技术人员也慢慢能方便的构建数据产品。同时大数据除了在广告、推荐、风控等领域继续深耕细作外,在智能客服、供应链、物流、图像、甚至足球运动等领域也扮演越来越重要的角色。本专题将邀请行业的专家一起探讨大数据框架、数据平台、以及新的算法应用实践等。
苏宁云商 IT 总部大数据中心技术总监,主要负责智能推荐、数据仓库和数据应用等部门的研发团队,并负责建设支撑供应链、物流、财务、运营等的统一数据平台。成电本科,上交硕士,《Storm 技术内幕与大数据实践》一书作者(人民邮电出版社、出口台湾),中关村大数据产业联盟专委会委员,2012年牵头成立三星电子研究院上海分部技术委员会(把关 Code Review 和技术架构),后在1号店分别任资深开发经理、精准化部门总架构师,目前主要关注推荐系统、应用架构、数据平台、OLAP 等相关技术。
by 魏自立
360 高级工程师 & 资深顾问
Poseidon 系统是一个日志搜索平台,可以在百万亿条、100PB 大小的日志数据中快速分析和检索。360 公司是一个安全公司,在追踪 APT(高级持续威胁)事件,经常需要在海量的历史日志数据中检索某些信息,例如某个恶意样本在某个时间段内的活动情况。在 Poseidon 系统出现之前,都是写 Map/Reduce 计算任务在 hadoop 集群中做计算,一次任务所需的计算时间从数小时到数天不等,大大制约了 APT 事件的追踪效率。Poseidon 系统就是解决这个需求,能在数百万亿条规模的数据集中找出我们需要的数据,只需要花费几秒钟时间,大大提高工作效率;同时,数据不需要额外存储,节省了大量存储和计算资源。该系统可以应用于任何海量(从万亿到千万亿规模)的查询检索需求。
听众受益:
大数据领域又一个简洁高效的解决方案。在数据规模达到万亿级别之后,ES 等系统就解决不好了,而且相较于 HBase 等方案,更加节省存储空间,用户友好性更好,对现有 Map/Reduce、Spark 等任务都无侵害性。
by 于磊
携程基础大数据产品团队总监
区别于一般电商公司,OTA(Online Travel Agent)公司的业务线繁多,各业务线的线上流程、商品数据、用户行为、用户需求和订单逻辑差异性极大,不同业务线,近似于完全不同的行业。但是同一般大型电商公司一样,OTA 的大数据营销平台也同时面对着公司跨繁多业务线的个性化推荐、进阶销售(up-selling)和交叉销售(cross-selling)的业务诉求。本次分享将介绍携程通用实时个性化推荐架构和算法体系设计方面的最新进展。
by Steven Wu(吴震)
Netflix 软件工程师
Netflix 是一个数据驱动型公司,许多产品决定是基于数据分析得到的洞察。几百个微服务系统每天产生万亿条消息和 PB 级数据,数据流水线负责从生产者到消费平台(如 Hadoop/ElasticSearch/Kafka)传输如此大规模的数据。此演讲将分享我们是如何做到的。
我们首先看看 Netflix 数据流水线过去几年的演化之路,然后深入探讨新的 Keystone 数据流水线的架构和一些设计抉择,分享 Keystone 在实战中遇到的问题和得到的教训,最后浅谈对 Keystone 未来的一些想法。
by 杨光耀
1 号店供应链优化部负责人
传统线下零售企业以商品,价格,服务作为三大核心要素。相比线下零售,零售电商的商品流量分配更加灵活并且易于监控效果,深受各大企业重视。本次分享将以1号店为例,分析大数据在商品,价格,流量,服务四个维度的应用为企业带来的具体收益,也会为不同类型的企业或者不同的阶段更应该侧重哪些因素提出一些自己的看法,希望能对公司合理配置资源带来启发。
听众受益:了解电商的需求预测与自动补货系统,自动定价系统,精准化推荐与订单履约等。
by 秦江杰
LinkedIn 数据基础架构部门 Kafka 组高级软件工程师
Kafka 作为高可用的分布式消息系统对消息内容和格式是完全开放的。这使得 Kafka 可以被用作各种应用之间和内部的消息传输。LinkedIn 最近利用了 Kafka 进行我们内部 NoSql 数据库 Espresso 的内部冗余数据备份。在这个过程中,我们解决了许多具有挑战性的问题。这些问题涉及到消息传输的可靠性和完整性,性能和延迟优化,数据安全性以及超大消息的处理等。这些问题的解决对于利用 Kafka 来进行关键业务的数据传输是至关重要的。我们在此对我们的解决方案进行了总结和分享。
听众收益:作为使用最广泛的开源分布式消息系统,Kafka 被众多企业用于从普通消息队列到流处理存储的各种应用。本次演讲是对 LinkdedIn 使用 Apache Kafka 作为数据库备份工具的经验总结。听众将了解到使用 Kafka 的数据可靠性,性能及延迟等诸多方面的问题和解决方法。对于其他使用 Kafka 作为关键业务消息系统的场景具有很好的借鉴意义。
by 张磊(宗超)
阿里数据技术及产品部高级技术专家
数据研发经常会遇到这些问题:
- 研发人数较多(超千人),频繁上下线,如何解决开发效率的问题?
- 业务高速发展,数据量爆炸式的增长,如何有效控制存储与计算的线性增长?
- 从数据采集到数据消费的整个链路非常复杂,如何保障整个数据链路的质量与产出时间?
- 大数据建设的标准规范,如何制定并有效的执行?
- 数据浩瀚如烟、纷繁复杂,如何能够迅速的找到自己想要的数据?
经过几年的摸索,我们通过 OneData 研发体系能够比较有效的解决上述问题。OneData 定位是:一个指标一个算法,一个维度属性只有一个名字,模型规范化,从算法定义、数据研发到数据服务,可管理追溯从而规避重复建设。
听众收益:
- 学习面对海量数据、海量研发人员时的研发体系构建及管理;
- 学习如何制定规范标准及有效执行。
by 王富平
苏宁云商 IT 总部大数据中心高级架构师
- 实时化趋势与背景:
- Adhoc 等业务场景、在线学习 LTR 等实时需求越来越高;
- spark-streaming 与 flink 为代表的批流处理范式统一。
- 数据平台实时化实践:
- 苏宁数据平台——“数聚”的整体架构介绍;
- druid 打造实时 olap 平台与自研 sql on storm 方案介绍;
- 离线计算迁移到实时计算:如搜索 ndcg 计算等;
- 数据实时回流 LTR 改进推荐、搜索排序;
- 线下与线上数据融合:如摄像头实时采集门店客流数据。
听众收益:
- 了解数据平台实时化应用场景与苏宁数据平台实时化实践;
- 了解苏宁线上与线下数据的融合,协助市场、采购、营销人员提升效率降低成本。
演讲专题
Covering innovative topics
10月20日,星期四
-
前端技术实践
前端技术日新月异,从早期脚本库、jQuery,到框架百花齐放,再到近年的 AngularJS 和 React,不一而足。今年,值得关注的前端技术又有哪些呢?
-
安全之战
正邪相生,这是一场没有硝烟的战争。这是一场攻与防的终极较量,也是一场矛与盾的顶级对抗。
-
新 Java,新未来
本专题将聚焦于 Java 生态系统的创新和前沿技术,分享 Java 技术创新、应用创新的最新成果,帮助开发者了解解决现实问题的新思路。
-
无处不在的容器
本专题主要讨论容器云的实践经验和最新发展,包括 Docker、Mesos、Kubernetes 等。
-
微服务架构,我们该如何实践?
互联网时代,客户的需求变得更加频繁,业务领域变得更加复杂,系统和团队规模变得更加庞大。本专题分享我们该如何打造支持业务持续创新的微服务架构,以应对复杂性和规模化的挑战。
-
大数据应用与系统优化实践(厂商共建专题)
大数据处理的过程中往往需要和其他平台或工具进行结合,同时大数据也可在更高层次的领域发挥重要作用。本专题将邀请多位工程师及技术专家,围绕大数据主题,在系统优化、运维、研发等方面展开更为细致的探讨,分享技术实践心得。
-
业务上云技术拆解(厂商共建专题)
本专题将邀请多位云计算领域技术专家,共同探讨企业业务上云过程中的挑战与应对之策,分享上云技术选型的心得与技巧,并分析总结相关的实践案例,为企业 IT 管理者提供技术参考。
-
智能出行——高德开放平台专场(厂商共建专题)
随着移动互联网不断渗透,人们的“衣食住行”越来越离不开 LBS(基于位置服务)。高德作为在线地图领导品牌之一,将在本专题结合实际案例分享如何在自己的软件中快速且稳定地实现 LBS。
10月21日,星期五
-
玩转大数据
预计到 2020 年全球数据总量将超过 40ZB,如果不能有效的存储、管理和使用数据,将给企业带来的是巨大的成本,同时数据的玩法和应用越来越多、业务的场景越来越复杂,给数据的存储和计算等不断带来新的挑战。本专题主要介绍大数据框架、数据平台、以及新的算法实践等。
-
移动开发探索
移动技术从万物生长到注重最佳实践,从敝帚自珍到开源如火如荼,各种新技术与最佳实践层出不穷——组件化、编程框架、动态化、Swift/Kotlin 语言,移动开发进入一个真正比拼武功的年代。
-
移动视频
本专题将分享多媒体领域不同于传统互联网技术的部分,包括整体架构案例、多媒体处理技术、播放器与播放体验、计算机视觉等方面。
-
让架构更简单
很多互联网(包括移动)业务成长非常迅速,在系统搭建之初和成长阶段就需要充分考虑系统架构设计,以满足在稳定性、扩展性、性能和成本方面的要求。然而在系统的不断演化过程中,系统架构会变得越来越复杂,于是让架构更简单,便成了互联网技术人孜孜不倦的追求。
-
运维与监控
本专题将探讨在互联网业务高速增长,基础设施规模不断扩大,DevOps、SRE、持续交付等理念的引入,云计算的落地,生产环境日益复杂的背景下,如何做好运维和监控。
-
大数据服务与应用
-
高并发与实时处理架构设计(厂商共建专题)
本专题将分享大规模实时流处理平台架构以及实时消息推送架构,并从稳定性和实时性两个方面探讨即时通讯云实践,还将揭示海量数据推送服务背后的挑战,希望能帮助开发者了解解决现实问题的新思路。
-
微服务实践与架构演进之路(厂商共建专题)
应用的发展不可避免会伴随着从简单结构到复杂架构的演化,微服务架构的出现,试图在架构层面把一个大而复杂的问题拆分为很多小而简单的问题,最终达到系统整体交付难度降低的目标。本专题将探讨微服务实践落地过程中遇到的实际问题和挑战,并分享相关解决方案。
10月22日,星期六
-
Growth Hacking,IoT & React Native
-
互联网广告系统实战
在线广告是很多互联网公司的重要盈利模式,广告系统的架构、策略、优化都至关重要。本专题邀请到极具代表性的 Google、腾讯、百度、小米、Spotify 等公司的架构师分享广告系统方面的宝贵经验。
-
工程团队管理
本专题将分享来自不同公司技术团队的管理实战经验,和大家一起,从技术与管理的多个角度,来探讨工程团队管理这件事。
-
技术创业
技术优而创业,是目前很多人的梦想,失败和成功的案例都很多,作为一个技术人员,你真的准备好了吗?本专题由众多创业的朋友来分享其中的酸甜苦辣,经验教训及各种相关话题。
-
机器学习与深度学习
大数据时代,深度学习再次掀起了机器学习的新浪潮,不仅在语音识别,图像识别等领域大获成功,各种现实应用也一触即发,本专题给大家分享一些有趣的应用和实践。
-
用户体验设计
-
研发支撑体系
构建研发支撑体系,提升研发交付效率。
-
业务系统架构
大多架构分享侧重技术架构的剖析,本专题将从业务层面入手,以1号店、人人车、德比软件、特赞等公司为例,说明如何针对特定业务设计合理的架构,以及设计和演进背后的思考。
-
大数据分析与应用
在这个数据海量产出的时代,如何有效地分析和应用数据使其发挥更大价值?本专题来自 LinkedIn、Autodesk、百度、滴滴的一线工程师将分享大数据可视化及大数据在日常生活中的创新实践。
-
大规模前端系统
随着移动互联网的发展,人们越来越关注前端系统。成熟框架变化多维护难,如何处理?新框架层出不穷,如何合理运用?Microsoft、百度、京东等国内外知名互联网公司邀您一起探讨。