加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

数据分析、挖掘方面,有哪些好书值得推荐

发布时间:2020-12-14 03:42:45 所属栏目:大数据 来源:网络整理
导读:在数据分析、挖掘方面,有哪些好书值得推荐? 消费者行为学 (第8版·中国版) 推荐这本书,其实没有计算机前就有数据分析和数据挖掘了。 套用一句最近比较时髦的话,搞数据分析、数据挖掘要接地气。 你分析、挖掘出来的东西,很可能是业务常识,不要过于沉


在数据分析、挖掘方面,有哪些好书值得推荐?


消费者行为学 (第8版·中国版)
推荐这本书,其实没有计算机前就有数据分析和数据挖掘了。
套用一句最近比较时髦的话,搞数据分析、数据挖掘要接地气。

你分析、挖掘出来的东西,很可能是业务常识,不要过于沉迷于算法。
专门搞挖掘算法的是机器学习。


2014.2.1更新,由于经常接到私信要求在这个书单之内再推荐两三本,每个人的行业背景也不一样,所以就把下面的书单归类整理一下。

入门读物:

  1. 深入浅出数据分析 (豆瓣)?这书挺简单的,基本的内容都涉及了,说得也比较清楚,最后谈到了R是大加分。难易程度:非常易。
  2. 啤酒与尿布 (豆瓣)?通过案例来说事情,而且是最经典的例子。难易程度:非常易。
  3. 数据之美 (豆瓣)?一本介绍性的书籍,每章都解决一个具体的问题,甚至还有代码,对理解数据分析的应用领域和做法非常有帮助。难易程度:易。
  4. 数学之美 (豆瓣)?这本书非常棒啦,入门读起来很不错!
数据分析:
  1. SciPy and NumPy (豆瓣)?这本书可以归类为数据分析书吧,因为numpy和scipy真的是非常强大啊。
  2. Python for Data Analysis (豆瓣)?作者是Pandas这个包的作者,看过他在Scipy会议上的演讲,实例非常强!
  3. Bad Data Handbook (豆瓣)?很好玩的书,作者的角度很不同。
适合入门的教程:
  • 集体智慧编程 (豆瓣)?学习数据分析、数据挖掘、机器学习人员应该仔细阅读的第一本书。作者通过实际例子介绍了机器学习和数据挖掘中的算法,浅显易懂,还有可执行的Python代码。难易程度:中。
  • Machine Learning in Action (豆瓣)?用人话把复杂难懂的机器学习算法解释清楚了,其中有零星的数学公式,但是是以解释清楚为目的的。而且有Python代码,大赞!目前中科院的王斌老师(微博: 王斌_ICTIR)已经翻译这本书了?机器学习实战 (豆瓣)。这本书本身质量就很高,王老师的翻译质量也很高。难易程度:中。我带的研究生入门必看数目之一!
  • Building Machine Learning Systems with Python (豆瓣)?虽然是英文的,但是由于写得很简单,比较理解,又有 Python 代码跟着,辅助理解。
  • 数据挖掘导论 (豆瓣)?最近几年数据挖掘教材中比较好的一本书,被美国诸多大学的数据挖掘课作为教材,没有推荐Jiawei Han老师的那本书,因为个人觉得那本书对于初学者来说不太容易读懂。难易程度:中上。
  • Machine Learning for Hackers (豆瓣)?也是通过实例讲解机器学习算法,用R实现的,可以一边学习机器学习一边学习R。

  • 稍微专业些的:
  • Introduction to Semi-Supervised Learning (豆瓣)?半监督学习必读必看的书。
  • Learning to Rank for Information Retrieval (豆瓣)?微软亚院刘铁岩老师关于LTR的著作,啥都不说了,推荐!
  • Learning to Rank for Information Retrieval and Natural Language Processing (豆瓣)?李航老师关于LTR的书,也是当时他在微软亚院时候的书,可见微软亚院对LTR的研究之深,贡献之大。
  • 推荐系统实践 (豆瓣)?这本书不用说了,研究推荐系统必须要读的书,而且是第一本要读的书。
  • Graphical Models,Exponential Families,and Variational Inference (豆瓣)?这个是Jordan老爷子和他的得意门徒?Martin J Wainwright?在 Foundation of Machine Learning Research上的创刊号,可以免费下载,比较难懂,但是一旦读通了,graphical model的相关内容就可以踏平了。
  • Natural Language Processing with Python (豆瓣)?NLP 经典,其实主要是讲 NLTK 这个包,但是啊,NLTK 这个包几乎涵盖了 NLP 的很多内容了啊!

  • 机器学习教材:
  • The Elements of Statistical Learning (豆瓣)?这本书有对应的中文版:统计学习基础 (豆瓣)。书中配有R包,非常赞!可以参照着代码学习算法。
  • 统计学习方法 (豆瓣)?李航老师的扛鼎之作,强烈推荐。难易程度:难。
  • Machine Learning (豆瓣)?去年出版的新书,作者Kevin Murrphy教授是机器学习领域中年少有为的代表。这书是他的集大成之作,写完之后,就去Google了,产学研结合,没有比这个更好的了。
  • Machine Learning (豆瓣)?这书和上面的书不是一本!这书叫:Machine Learning: An Algorithmic Perspective 之前做过我带的研究生教材,由于配有代码,所以理解起来比较容易。
  • Pattern Recognition And Machine Learning (豆瓣)?经典中的经典。
  • Bayesian Reasoning and Machine Learning (豆瓣)?看名字就知道了,彻彻底底的Bayesian学派的书,里面的内容非常多,有一张图将机器学习中设计算法的关系总结了一下,很棒。
  • Probabilistic Graphical Models (豆瓣)?鸿篇巨制,这书谁要是读完了告诉我一声。
  • Convex Optimization (豆瓣)?凸优化中最好的教材,没有之一了。课程也非常棒,Stephen老师拿着纸一步一步推到,图一点一点画,太棒了。

  • 数据分析和挖掘有哪些公开的数据来源?

    除了自己收集数据,有没有比较合适的公开数据源,用来做一些数据分析和挖掘实例。
    • UCI是最经典的,不过也比较古老
    • 数据堂最近异军突起,非常值得称赞
    • 国外还有一些网站,比如mlcomp.org/mldata.org/你可以看看
    • 另外KDDCUP每年都会针对一个特定的问题进行比赛,数据集也是公开的
    • 最近几年,数据挖掘的比赛越来越多了,你可以去PASCAL上看看你感兴趣的领域,自己搜索一下
    • delicious.com/pskomoroc这个是delicious上面一个人搜集的数据集网站书签,比较杂,或许你能找到你所要的(话说delicious改版之前这个里面的内容比现在的多多了)?
    • 再有就是看具体的做的内容,然后看相关学者都用什么数据集,除了LDC那种变态组织,其他很多数据都可以通过track论文中的信息或者是作者主页上的信息下载到的
    • 做数据挖掘和数据分析都是针对某一个领域或者问题去做,其实也看那个领域会不会有开放的心态去公开数据,前两年在Hans Rosling老先生在TED上公开呼吁之后,很多机构,包括联合国都公开了自己的数据?
    补充,在quora上面看到一个问题中的答案涉及这个问题,那个更加全面 quora.com/Data/Where-ca


    《数据挖掘的数据集资源》
    大家做数据挖掘研究时,常常为找不到合适的数据而发愁。在KDNuggets上有Datasets栏目,提供一些数据集,网址为:kdnuggets.com/datasets/
    还有另外一个很好的资源网址为:kdd.ics.uci.edu/?,里面包含的数据资源如下(按应用领域划分):
    Direct Marketing
    KDD CUP 1998 Data
    GIS
    Forest CoverType
    Indexing
    Corel Image Features
    Pseudo Periodic Synthetic Time Series
    Intrusion Detection
    KDD CUP 1999 Data
    Process Control
    Synthetic Control Chart Time Series
    Recommendation Systems
    Entree Chicago Recommendation Data
    Robots
    Pioneer-1 Mobile Robot Data
    Robot Execution Failures
    Sign Language Recognition
    Australian Sign Language Data
    High-quality Australian Sign Language Data
    Text Categorization
    20 Newsgroups Data
    Reuters-21578 Text Categorization Collection
    NSF Research Awards Abstracts 199 0-2003
    World Wide Web
    Microsoft Anonymous Web Data
    MSNBC Anonymous Web Data
    Syskill Webert Web Data
    转:blogger.org.cn/blog/mor
    1、气候监测数据集?cdiac.ornl.gov/ftp/ndp0
    2、几个实用的测试数据集下载的网站
    cs.toronto.edu/~roweis/
    kdd.ics.uci.edu/summary
    www-2.cs.cmu.edu/afs/cs
    www-2.cs.cmu.edu/afs/cs
    phys.uni.torun.pl/~duch
    在下面的网址可以找到reuters数据集research.att.com/~lewis
    以下网址上有各种数据集:
    kdd.ics.uci.edu/summary
    进行文本分类,还有一个数据集是可以用的,即rainbow的数据集
    www-2.cs.cmu.edu/afs/cs
    3、找了很多测试数据集,写论文的同志们肯定需要的,至少能用来检验算法的效果
    可能有一些不能访问,但是总有能访问的吧:
    UCI收集的机器学习数据集
    ftp://pami.sjtu.edu.cn/
    ics.uci.edu/~mlearn//ML
    statlib
    liama.ia.ac.cn/SCILAB/s
    lib.stat.cmu.edu/
    样本数据库
    kdd.ics.uci.edu/
    ics.uci.edu/~mlearn/MLR
    关于基金的数据挖掘的网站
    gotofund.com/index.asp
    lans.ece.utexas.edu/~st
    reuters数据集
    research.att.com/~lewis
    各种数据集:
    mlnet.org/cgi-bin/mlnet
    lib.stat.cmu.edu/datase
    dctc.sjtu.edu.cn/adapti
    fimi.cs.helsinki.fi/dat
    almaden.ibm.com/softwar
    miles.cnuce.cnr.it/~pal
    进行文本分类&WEB
    w3.org/TR/WD-logfile-96
    w3.org/Daemon/User/Conf
    w3.org/1998/11/05/WC-wo
    web-caching.com/traces-
    www-2.cs.cmu.edu/webkb
    cs.auc.dk/research/DP/t
    cs.cornell.edu/projects
    时间序列数据的网址
    stat.wisc.edu/~reinsel/
    apriori算法的测试数据
    almaden.ibm.com/cs/ques
    数据生成器的链接
    cse.cuhk.edu.hk/~kdd/da
    关联:
    flow.dl.sourceforge.net
    almaden.ibm.com/softwar
    WEKA:
    1。A jarfile containing 37 classification problems,originally obtained from the UCI repository
    prdownloads.sourceforge.net
    2。A jarfile containing 37 regression problems,obtained from various sources
    prdownloads.sourceforge.net
    3。A jarfile containing 30 regression datasets collected by Luis Torgo
    prdownloads.sourceforge.net
    癌症基因:
    broad.mit.edu/cgi-bin/c
    金融数据:
    lisp.vse.cz/pkdd99/Chal
    另一个人提供的
    在下面的网址可以找到reuters数据集
    Download the Financial Data (~17.5M zipped file,~67M unzipped data)
    Download the Medical Data (~2M zipped file,~6M unzipped data)
    kdnuggets 相关链接数据集(借花献佛了):
    kdnuggets.com/datasets/
    你也可以到blogger.org.cn/blog/mor
    察看kdnuggets 数据集资源的详细介绍。
    数据挖掘相关比赛以及数据集
    2005 University of California data mining contest,predicting bad accounts and their churn date using real-world CRM data,deadline June 30,2005.
    · ILP 2005 Challenge,on the prediction of functional classes of genes.
    · KDD Cup 2005,on classifying internet user search queries,deadline July 8.
    · Data Mining Cup 2005 (Chemnitz,Germany),for students; topic: How data mining can ascertain the risk of loss of payments and reduce this risk.
    · KDD Cup 2004,focuses on data-mining for a several performance criteria using datasets from bioinformatics and quantum physics.
    · InfoVis 2004 Contest,The History of InfoVis.
    · DATA MINING CUP 2004 (Chemnitz,for students.
    · InfoVis 2003 Contest: Visualization and Pair Wise Comparison of Trees,results announced Sep 5,2003.
    · KDD Cup 2003,focuses on problems motivated by network mining and the analysis of usage logs.
    · DATA MINING CUP 2003 (Chemnitz,Germany) . The task is to identify spam emails before they reach the user′s mailbox.
    · KDD Cup 2002,focus on data mining in molecular biology.
    · Student Data Mining Cup (2002),Chemnitz University and Prudential Systems.


    李直,关注大数据

    TT biucb、Leben Pung、萧泰熀? 等人赞同
    Quora上有人问过类似的问题:Where can I get large datasets open to the public??
    问题链接: quora.com/Data/Where-ca
    该页面的Answer Wiki列举了数十个数据来源,现在搬运如下:

    Cross-disciplinary data repositories,data collections and data search engines:

    • aws.amazon.com/datasets
    • databib.org
    • datacite.org
    • figshare.com
    • linkeddata.org
    • reddit.com/r/datasets
    • thedatahub.org?alias?ckan.net


    Single datasets and data repositories

    archive.ics.uci.edu/ml/
    crawdad.org/
    data.austintexas.gov
    data.cityofchicago.org
    data.govloop.com
    data.gov.uk/
    data.medicare.gov
    data.seattle.gov
    data.sfgov.org
    data.sunlightlabs.com
    datamarket.azure.com/
    developer.yahoo.com/geo.
    econ.worldbank.org/data
    en.wikipedia.org/wiki/W.
    factfinder.census.gov/s.
    ftp.ncbi.nih.gov/
    gettingpastgo.socrata.com
    googleresearch.blogspot.c...
    books.google.com/ngrams
    medihal.archives-ouvertes.fr
    public.resource.org/
    rechercheisidore.fr
    snap.stanford.edu/data/.
    timetric.com/public-dat
    wist.echo.nasa.gov/~wis.
    www2.jpl.nasa.gov/srtm
    archives.gov/research...
    bls.gov/
    crunchbase.com/
    dartmouthatlas.org/
    data.gov/
    datakc.org
    dbpedia.org
    delicious.com/jbaldwi...
    factual.com/
    research.stlouisfed.org.?
    freebase.com/
    google.com/publicdata...
    guardian.co.uk/news/d...
    infochimps.com
    kaggle.com/
    build.kiva.org/
    nationalarchives.gov.
    nyc.gov/html/datamine...
    ordnancesurvey.co.uk/...
    philwhln.com/how-to-g...
    imdb.com/interfaces
    imat-relpred.yandex.ru/.
    dados.gov.pt/pt/catal...
    knoema.com
    daten.berlin.de/
    qunb.com
    databib.org/
    datacite.org/Edit

    (编辑:李大同)

    【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

      推荐文章
        热点阅读