数据之魅:基于开源工具的数据分析
发布时间:2020-12-12 20:29:37 所属栏目:百科 来源:网络整理
导读:《数据之魅:基于开源工具的数据分析》 基本信息 作者: (美)雅奈特(Janert,K. P.) 译者: 黄权 陆昌辉 邹雪梅 费柳凤 出版社:清华大学出版社 ISBN:9787302290988 上架时间:2012-7-11 出版日期:2012 年7月 开本:16开 页码:1 版次:1-1 所属分类: 计算
《数据之魅:基于开源工具的数据分析》
基本信息 作者: (美)雅奈特(Janert,K. P.) 译者: 黄权 陆昌辉 邹雪梅 费柳凤 出版社:清华大学出版社 ISBN:9787302290988 上架时间:2012-7-11 出版日期:2012 年7月 开本:16开 页码:1 版次:1-1 所属分类: 计算机 > 计算机科学理论与基础知识 > 数值计算 > 综合 更多关于 》》》《 数据之魅:基于开源工具的数据分析》 内容简介 书籍 计算机书籍 《数据之魅:基于开源工具的数据分析》结合作者多年来从事数据分析工作的丰富经验,阐述了数据分析所涉及的概念和方法。本书共四部分19 章,主题包括如何通过图表来观察数据,如何通过各种建模方法来分析数据,然后着重阐述如何进行数据挖掘,最后强调数据分析在商业和金融等领域的实际应用。本书包含大量的模拟过程及结果展示,并通过实例来阐述如何使用开源工具来进行数据分析。通过本书的阅读,读者可以清楚地了解这些方法的实际用法及用途。 《数据之魅:基于开源工具的数据分析》结构合理,通俗易懂,适合数据分析爱好者和从业者阅读,也适合以科学计算为工具的科研人员参考。同时,本书还适用于计算机科学、数学、工程技术和其他相关专业本科或研究生的数据分析课程,是一本不错的参考书。 目录 《数据之魅:基于开源工具的数据分析》 第1 章导论1 数据分析1 本书内容2 关于讲习班 3 关于数学4 需要具备的知识 6 本书不涉及的内容6 第ⅰ部分图表:观察数据 第2 章单一变量:形状和 分布 11 数据点和抖动图 12 直方图和核密度估计 14 直方图15 核密度估计 19 (选学)如何选择最优带宽 22 累积分布函数23 (选学)概率图分布和qq 图 分布的对比 25 秩序图和上升图 30 仅用于适当时机:汇总统计量 和箱形图 33 汇总统计量 33 box-and-whisker 图 36 (讲习班)numpy 38 numpy 实践 38 numpy 详解 41 扩展阅读 45 第3 章两个变量:建立关系 47 散点图 47 克服噪声:平滑 48 样条 50 loess51 示例 52 残差 54 其他观点及提醒55 对数图 57 倾斜 61 线性回归以及诸如此类的方法 62 描述重要信息 66 图形分析与图形演示68 (讲习班)matplotlib 69 交互式使用matplotlib 70 案例学习:matplotlib 与 loess73 控制属性 74 matplotlib 对象模型及结构 76 目录xii 零碎知识 77 扩展阅读 78 第4 章以时间为变量: 时序分析 79 示例 79 任务 83 需求和现实 84 平滑处理 84 移动平均法 85 指数平滑法 86 不要忽视显而易见的东西 90 相关函数 91 示例 92 实现上的问题 93 (选学)过滤器和卷积 95 (讲习班)scipy.signal 96 扩展阅读 98 第5 章多变量:图形的多变量 分析 99 假色图100 概览:多值图 105 散点图矩阵105 协作图 107 变种.108 组成问题.110 组成的改变110 多维组成:树形图和 马赛克图112 新颖的曲线类型116 标识符116 平行坐标图117 交互式探索120 查询和缩放121 连接和涂层121 大游览与投影寻踪121 工具.122 (讲习班)多变量图形工具123 r 123 实验工具124 python 的chaco 库124 扩展阅读.125 第6 章插曲:数据分析会话 127 数据分析会话127 (讲习班)gnuplot 软件136 扩展阅读.138 第ⅱ部分分析:数据建模 第7 章推算和粗略计算141 推算的原理 142 估计大小143 建立关联145 使用数字146 10 的幂146 小扰动147 对数.148 目录xiii 更多示例149 我所知道的一些常见事(物) 的相关数字151 这些数字是否足够好? 151 准备工作:可行性和成本 153 完成之后:引用和 呈现数字154 (选学)进一步探索摄动理论和 误差传播 155 误差传播156 (讲习班)gnu 科学库(gsl)158 扩展阅读 161 第8 章缩放参数模型.163 模型163 建模 164 模型的运用和误用 164 参数的缩放 165 缩放参数165 示例:维度参数 167 示例:优化问题 169 示例:成本模型 170 (选学)缩放参数与 量纲分析172 其他理论174 平均场近似 175 背景知识和其他示例176 常见的时间演变方案 178 无限增长和衰减现象178 约束增长:逻辑斯谛方程.180 振荡.181 案例学习:多少台服务器才是 最好的? .182 为什么要建模? 184 (讲习班)sage.184 扩展阅读.188 第9 章关于概率模型的讨论 191 9.1 二项分布和伯努利试验191 精确的结果192 利用伯努利试验建立平均场 模型194 9.2 高斯分布和中心极限定理195 中心极限定理.195 中心项与尾项.197 为什么高斯分布如此实用? 198 (选学)高斯积分.199 幂律分布和非常规统计学201 幂律分布的用法203 (选学)期望值为无限时的 分布204 接下来的研究.206 其他分布.206 几何分布207 泊松分布207 对数正态分布.209 特殊用途的分布211 目录xiv (选学)案例学习——随时间变化的单 一访问者数量 211 (讲习班)幂律分布215 扩展阅读 219 第10 章你真正需要了解的 经典统计学知识221 起源221 统计学的定义 223 从统计学角度解释 226 示例:公式测验 vs 图解法 229 控制实验vs 观察研究 230 实验设计232 前景 234 (选学)贝叶斯统计—— 另一种观点 235 用频率论来解释概率235 用贝叶斯方法来理解概率 236 贝叶斯数据分析: 一个实际有 效的例子238 贝叶斯推理:总结与讨论.241 (讲习班)r 语言243 扩展阅读.249 第11 章插叙:数学大搜捕—— 大脚怪和最小二 乘等253 11.1 如何平均均值.253 辛普森(simpson)悖论.254 标准差.256 如何计算258 (选学)应该选择哪一个259 (选学)标准误差.259 最小二乘.260 统计参数估计.261 函数逼近263 扩展阅读.264 第ⅲ部分计算:数据挖掘 第12 章模拟267 热身问题 267 蒙特卡洛模拟 270 组合问题270 获得结果分布 272 优点和缺点275 重新采样方法 276 拔靴法 277 拔靴法适用于哪些情况?.278 拔靴变量280 (讲习班)simpy 离散事件模拟280 simpy 简介281 最简单的排队过程282 (选学)排队理论.285 运行simpy 模拟288 小结290 目录xv 扩展阅读 291 第13 章找出簇293 簇由什么组成? 293 一种不同的观点296 距离计算和相似度计算 298 常见的距离和相似度 计算方法300 聚类方法 304 中心探索法305 树形构造器307 邻居生长器309 前期处理和后期处理 311 规模的规范化 311 类的属性和评估 311 其他想法 314 具体案例:超市购物篮的 分析 316 提醒319 (讲习班)pycluster 和c 聚类库 320 扩展阅读 324 第14 章一木见林: 找出重要属性327 主成分分析法328 动机.328 (选学)理论330 解释.333 计算.334 实用观点335 双标图336 可视化技术337 多元尺度法338 网络图339 柯霍南图.339 (讲习班)用r 进行pca342 扩展阅读.348 线性代数349 第15 章插曲:当数据不成 比例地增长时351 一个真实的故事353 一些建议.354 map/reduce 如何356 (讲习班)生成排列357 扩展阅读.358 第ⅳ部分应用:数据的使用 第16 章报表、商务智能和 仪表板361 商务智能 362 报表 364 企业指标和仪表板 369 关于指标计划的建议370 数据的质量问题373 数据的可用性.373 数据的一致性.375 (讲习班)berkeley db 和sqlite .376 目录xvi berkeley db 377 sqlite 379 扩展阅读 381 第17 章金融计算与建模383 货币的时间价值384 一次性支付:未来值和 现值 384 多笔付款:复利 386 复利的计算技巧 387 概览:现金流分析和 净现值 389 计划成本和机会成本中的 不确定性 391 用账户的期望值来考虑 不确定性391 机会成本393 成本概念及贬值394 直接成本和间接成本394 固定成本和可变成本396 资本开支与运营成本397 是否应该加以关注? 398 这些就是全部吗? 399 (讲习班)报纸经销商问题 400 (选学)精确解402 扩展阅读 403 报纸经销商问题 404 第18 章预测分析.405 预测分析的主题406 一些分类术语407 分类算法.408 基于实例的分类和最近邻 分类算法409 贝叶斯分类器.409 回归.413 支持向量机414 决策树和基于规则的 分类器416 其他分类算法.418 流程419 集成方法:bagging 和 boosting 419 估计预测误差.420 类不平衡问题.421 私家秘诀.423 统计学习的本质424 (讲习班)自己编写的两个 分类器.426 扩展阅读.431 第19 章结语:事实并非 现实433 附录a 科学计算与数据分析的 编程环境435 附录b 应用:微积分447 附录c 使用数据485 索引499 本 图书信息来源: 中国互动出版网 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |