不浮夸,20本大数据相关图书,只给你实用可依赖的技术
数据挖掘 + 数据分析 + 机器学习 + R/Hadoop/Mahout/Storm/Docker/Elasticsearch/Openstack 1、互联网大规模数据挖掘与分布式处理 作者:Jure Leskovec,Anand Rajaraman,Jeffrey David Ullman 畅销书全新升级,新增影响与同质性、社交媒体推荐和行为分析等超实用内容 2、数据挖掘导论(完整版) 作者:Jure Leskovec,Anand Rajaraman,Jeffrey David Ullman 本书全面介绍了数据挖掘的理论和方法,旨在为读者提供将数据挖掘应用于实际问题所必需的知识。 本书涵盖五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题都包含两章:前面一章讲述基本概念、代表性算法和评估技术,后面一章较深入地讨论高级概念和算法。目的是使读者在透彻地理解数据挖掘基础的同时,还能了解更多重要的高级主题。此外,书中还提供了大量示例、图表和习题。 3、数据科学实战 作者:Cathy O’Neil,Rachel Schutt 英文原版数据挖掘和算法类畅销书,随机模型类No.1 4、命令行中的数据科学 作者:Jeroen Janssens 本书讲解众多实用的命令行工具。无论使用Windows、OS X,还是Linux,都可以安装包含80多个命令行工具的“数据科学工具箱”,迅速创建自己的数据分析环境。 5、重新设计互联网 作者:徐立冰 “弯曲评论”网站“拨云见日”系列热文加量10倍的强烈之书首次完整呈现。 云计算时代,网络面临怎样的挑战?大数据之下,网络设计应着眼何处?虚拟化的最后1000米你该如何冲刺?OpenFlow、FCoE、LISP、FabricPath、VN-Tag、VPLS、VXLAN ……当所有这一切结合到一起,你将面临怎样的情形? 是时候,重新设计互联网。 通过阅读本书,读者将清楚地了解到如何在云计算与大数据时代构建安全、可靠、高速与灵活的网络。 5、机器学习入门第一书 作者:杉山将 最简单的机器学习入门书,187张图轻松入门 本书用丰富的图示,从最小二乘法出发,对基于最小二乘法实现的各种机器学习算法进行了详细的介绍。第Ⅰ部分介绍了机器学习领域的概况;第Ⅱ部分和第Ⅲ部分分别介绍了各种有监督的回归算法和分类算法;第Ⅳ部分介绍了各种无监督学习算法;第Ⅴ部分介绍了机器学习领域中的新兴算法。书中大部分算法都有相应的MATLAB程序源代码,可以用来进行简单的测试。 7、机器学习系统设计 作者:Willi Richert,Luis Pedro Coelho 微软Bing核心团队成员推出 本书将向读者展示如何从原始数据中发现模式,首先从Python与机器学习的关系讲起,再介绍一些库,然后就开始基于数据集进行比较正式的项目开发了,涉及建模、推荐及改进,以及声音与图像处理。通过流行的开源库,我们可以掌握如何高效处理文本、图片和声音。同时,读者也能掌握如何评估、比较和选择适用的机器学习技术。 8、机器学习实战 作者:Peter Harrington 最畅销机器学习图书 全书通过精心编排的实例,切入日常工作任务,摒弃学术化语言,利用高效的可复用Python代码来阐释如何处理统计数据,进行数据分析及可视化。通过各种实例,读者可从中学会机器学习的核心算法,并能将其运用于一些策略性任务中,如分类、预测、推荐。另外,还可用它们来实现一些更高级的功能,如汇总和简化等。 9、R语言入门 作者:Richard Cotton 语言幽默,通俗易懂 “这本书读起来感觉棒极了,示例完整清晰,内容通俗易懂,是目前市面上介绍R核心组件最优秀的图书之一。” 10、R语言实战 作者:Robert I. Kabacoff 本书从解决实际问题入手,尽量跳脱统计学的理论阐述来讨论R语言及其应用,讲解清晰透澈,极具实用性。通读本书,你将全面掌握使用R语言进行数据分析、数据挖掘的技巧,并领略大量探索和展示数据的图形功能,从而更加高效地进行分析与沟通。 11、Hadoop基础教程 作者:Garry Turkington 本书着重讲解如何应用Hadoop和相关技术搭建工作系统并完成任务。本书从Hadoop的基本概念和初始设置入手,讲述了如何开发Hadoop程序,如何在数据规模增长的时候维持系统运行,涵盖有效使用Hadoop处理实际问题所需用到的全部知识。 12、Hadoop实战 作者:Chuck Lam 经典畅销书,广受赞誉 本书分为3个部分,深入浅出地介绍了Hadoop框架、编写和运行Hadoop数据处理程序所需的实践技能及Hadoop之外更大的生态系统。 13、Mahout实战 作者:Sean Owen,Robin Anil等 Apache基金会官方推荐 Mahout作为Apache的开源机器学习项目,把推荐系统、分类和聚类等领域的核心算法浓缩到了可扩展的现成的库中。使用Mahout可以在自己的项目中应用亚马逊、Netflix等公司的机器学习技术。 14、Storm源码分析 作者:李明 王晓鹏 微软搜索技术部门高级研发工程师实战经验分享 “本书从源代码角度深入浅出地分析了Storm的设计及实现,一方面可以使读者更好地了解并用好Storm技术,另一方面可以让读者学习如何设计大规模分布式系统,相信读者一定会受益匪浅。” 15、Elasticsearch服务器开发 作者:Rafal Kuc,Marek Rogozinski Elasticsearch百科全书式著作,用户权威指南 Elasticsearch是一个基于Lucene构建的开源、分布式、RESTful风格的搜索引擎。它被设计用于云计算中,具有实时搜索、稳定、快速、安装使用方便等优点。本书是关于Elasticsearch的百科全书式著作,介绍了Elasticsearch这个优秀的全文检索和分析引擎从安装和配置到集群管理的方方面面知识。 16、Openstack部署实践 作者:张子凡 从研究D版以来,我在各个群中回答了很多新手在OpenStack系统安装部署方面碰到的各类问题,虽然在博客中公布了很多,但仍比较零散,我也一直盼望能有一本较为系统的书给新手提供帮助。看到本书后我非常高兴,对于OpenStack初学者和在公司内使用OpenStack部署私有云的系统运维工程师来说,此书将会帮助大家解决很多问题,同时更有助于大家灵活地运用OpenStack系统。 一线高手实践总结 17、Docker开发实践 作者:曾金龙,肖新华,刘清 出自国内最强云加速+ 云存储“迅雷云”团队 “腾讯的互娱的开发节奏,只有Docker跟得上!如果你想你的团队加快开发速度,那么我推荐你使用Docker,而本书从基础、案例到高级话题,都有很全面的覆盖。” 18、非技术读本 《精益数据分析》 作者:Alistair Croll, Benjamin Yoskovitz 精益系列丛书,《精益创业》作者埃里克·莱斯主编 本书围绕精益创业展开讨论,融合了精益创业法、客户开发、商业模式画布和敏捷/持续集成的精华。本书汇聚了100多位创始人、投资人、内部创业者和创新者的成功创业经验,呈现了30多个极具价值的案例分析,可以为各阶段的创业者提供行为准则。 19、非技术读本《大数据的冲击》 作者:城田真琴 本书是日本最畅销的大数据商业应用指南。书中结合野村综合研究独家披露的调查数据,网罗了美国、日本标杆企业与政府的应用案例,总结了大数据的商业模式,以及在大数据应用中需要注意的隐私问题,并就如何为大数据时代做好准备展开了深入的探讨,提出了诸多有益的建议。 20、非技术读本《有趣的统计》 作者:Bruce Frey 本书介绍的实用技巧运用了统计学原理,还借鉴了教育学和心理学上的测量和实验研究方法。这些技巧可以帮你解决商业、游戏以及日常生活中的各类问题。利用统计推断的各种工具,揭开概率的神秘面纱、发现相关性,预测事件。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |