每周一本书之《Druid实时大数据分析原理与实践》:来自腾讯、小米等公司的一线实践经验
《Druid实时大数据分析原理与实践》旨在帮助技术人员更好地深入理解Druid 技术、大数据分析技术选型、Druid 的安装和使用、高级特性的使用,也包括一些源代码的解析,以及一些常见问题的快速回答。
作者 | abby
随着社交通信、数字广告、电子商务、网络游戏等商业模式的发展,越来越多的互联网企业诞生。他们都享受了大数据基础技术的红利,从初始就具备比较强大的数据收集、分析和处理能力,并且可以用在业务优化上。
很显然,因为行业的多样性,业务场景变得越来越复杂,对数据处理的要求已经不仅是体量大和速度快,还要数据结构灵活、编程接口强大、系统可扩展、原子化操作、高效备份、读性能加速或者写性能加速等。
在这个技术普及的时代,不仅互联网行业有越来越多的技术人员和数据人员开始参与到大数据工作中,而且很多传统软件从业者也慢慢受到吸引,双方互相借鉴,进一步扩大了大数据技术的能力和影响。
可以看到,传统的数据库、操作系统、编程语言等技术思想被引入来解决各种复杂的需求。因此而诞生的包括NoSQL、SQL on Hadoop、ElasticSearch这样的新事物,逐渐把我们推进到一个全新的时代。
而Druid 作为一款开源的实时大数据分析软件,最近几年快速风靡全球互联网公司,特别是对于海量数据和实时性要求高的场景,包括广告数据分析、用户行为分析、数据统计分析、运维监控分析等,在腾讯、阿里、优酷、小米等公司都有大量成功应用的案例。
今天小编为大家推荐的《Druid实时大数据分析原理与实践》就是旨在帮助技术人员更好地深入理解Druid 技术、大数据分析技术选型、Druid 的安装和使用、高级特性的使用,也包括一些源代码的解析,以及一些常见问题的快速回答。
Druid是一个支持在大型数据集上进行实时查询而设计的开源数据分析和存储系统,提供了低成本、高性能、高可靠性的解决方案,整个系统支持水平扩展,管理方便。实际上,Druid的很多设计思想来源于Google的秘密分析武器PowerDrill,在功能上,和Apache开源的Drill也有几分相似。Druid被设计成支持PB级别的数据量,现实中有数百TB级别的数据应用实例,每天处理数十亿流式事件。
Druid之所以保持高效,有这样几个原因:一是数据进行了有效的聚合或预计算;二是数据结构的优化,应用了Bitmap的压缩算法;三是可扩展的高可用架构,灵活支持部署的扩展;四是社区的力量,Druid开发和用户社区保持活跃,不断推动Druid的完善和改进。
Druid成功应用于众多互联网和非互联网公司中,特别是用户行为分析、个性化推荐的数据分析、物联网的实时数据分析、互联网广告交易分析等领域。国内的主流广告技术公司,都曾尝试或开始采用Druid支持实时数据分析。传统技术公司如Cisco, SK Telecom,也都在使用Druid进行用户行为分析等项目。Druid帮助这些业务场景实现了高效数据存储和流式数据分析。
另外,Druid项目中也有不少中国元素,其创始人之一为中国工程师杨仿今,其他核心开发工程师也包括阿里的宾莉金、谷歌的郭秉坤等。杨仿今曾多次来到中国进行Druid的技术交流。Druid项目初期,不少中国广告技术公司参与了Druid的技术评估。目前该技术也广泛应用于中国互联网公司中,例如腾讯、阿里、小米、优酷土豆、蓝海讯通等。
本书的目的就是介绍Druid,让读者能够深入了解Druid的架构设计、使用管理,也介绍了一些高级特性和核心源码的导读。
本书从内容上共分为11个章节,分别是:
第1章:介绍Druid的初级概念;
第2章:对行业中不同的数据分析软件进行介绍和对比,包括一些时序数据库;
第3章:Druid的设计理念和架构介绍;
第4章:Druid的安装和配置;
第5章:Druid的数据摄入;
第6章:查询详解;
第7章:介绍Druid的一些高级特性,包括正在积极完善的一些功能;
第8章:核心代码的导读和分析;
第9章:集群管理中的安全和监控;
第10章:介绍几个公司的Druid最佳实践;
第11章:Druid的生态介绍和展望。
附录A:简要回答了一些常见的问题;
附录B:列出了各个服务模块的参数含义和建议值,方便系统管理。
适读人群:
适合大数据分析的从业人员、IT 人员、互联网从业者阅读。
作者介绍:
欧阳辰,小米商业产品部研发总监,负责广告架构和数据分析平台,擅长数据挖掘,大数据分析和广告搜索架构。
刘麒赟,现任Testin云测公司技术总监,全面负责领导团队完成数据分析产品的研发。作为资深数据技术专家,曾为多个著名开源项目(Hadoop/Sqoop/Oozie/Druid)贡献源代码,在互联网大数据分析、机器学习和统计学应用等方面拥有丰富的实战经验和相关专利。
张海雷,资深工程师。目前在优酷土豆广告技术团队负责Druid集群的维护。活跃在Druid中国用户组,Druid、Redis和Storm的开源项目代码贡献者。
高振源,热爱技术,爱智求真的后台开发和数据工程师。先后负责过广告DSP产品、QQ公众号精准投放平台、数据分析产品等研发工作。目前在腾讯SNG企业产品部,负责企点产品的数据平台工作。
许哲,腾讯后台开发高级工程师,先后参与了公司企业产品消息服务后台、QQ公众号后台、QQ公众号精准投放平台等研发,目前在腾讯SNG企业产品部,负责腾讯企点的后台和数据平台开发工作。
本书由 数据猿联合电子工业出版社 共同推荐
【本栏目合作伙伴】:清华大学出版社、电子工业出版社、北京师范大学出版社、中国人民大学出版社。