加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

毕业季,意味着大批的论文要出世了!Python带你告别代写!

发布时间:2020-12-17 01:20:25 所属栏目:Python 来源:网络整理
导读:p style="margin-top:1em;margin-bottom:0px;border:0px;font-size:18px;line-height:inherit;font-family:helvetica,Arial,'Hiragino Sans GB','Microsoft YaHei',simsun;vertical-align:baseline;color:rgb(93,93,93);background-color:rgb(255,255,255);"

<p style="margin-top:1em;margin-bottom:0px;border:0px;font-size:18px;line-height:inherit;font-family:helvetica,Arial,'Hiragino Sans GB','Microsoft YaHei',simsun;vertical-align:baseline;color:rgb(93,93,93);background-color:rgb(255,255,255);">写过论文或者正在写论文的人都知道,文献综述是论文的重要组成部分,也是导师审查的重点之一,要完成好这一部分的写作,免不了阅读大量文献,通常还会要求中英文献都要有,而且尽量参考权威期刊同时避免参考学位论文。下载文献的时候,在知网上点点点,选选选,翻翻翻,是不是还挺麻烦的?笔者在这里分享给大家一个相对轻松的方法。

<p style="margin-top:1em;margin-bottom:0px;border:0px;font-size:18px;line-height:inherit;font-family:helvetica,255);">在校时,有很多免费的学术资源供大家使用,但随着毕业,这些资源基本都得花钱啦(在校生们要好好珍惜这些资源)。没有免费资源怎么办呢?笔者在这里推荐百度学术,因为这里的外文文献相对还是比较多的。

<p style="margin-top:1em;margin-bottom:0px;border:0px;font-size:18px;line-height:inherit;font-family:helvetica,255);">

<p style="margin-top:1em;margin-bottom:0px;border:0px;font-size:18px;line-height:inherit;font-family:helvetica,255);">找到每一个想要爬取的信息的HTML标签,就可以开始写爬虫了。

<p style="margin-top:1em;margin-bottom:0px;border:0px;font-size:18px;line-height:inherit;font-family:helvetica,255);">先导入需要用到的包,如果你是直接安装的anconda,那你只需要单独再安装一下bs4,打开终端使用安装命令: pip install beautifulsoup4即可安装。若只单独安装了python3.6,那么同样通过pip的方式安装pandas。re、os、requests、collections都是python的内置模块。

<p style="margin-top:1em;margin-bottom:0px;border:0px;font-size:18px;line-height:inherit;font-family:helvetica,255);">接着,创建一个名为paper的namedtuple,包含三个属性:title用来存放论文标题,author用来存放作者,abstract用来存放论文摘要

<p style="margin-top:1em;margin-bottom:0px;border:0px;font-size:18px;line-height:inherit;font-family:helvetica,255);">paper=namedtuple(‘paper’,[‘title’,’author’,’abstract’])

<p style="margin-top:1em;margin-bottom:0px;border:0px;font-size:18px;line-height:inherit;font-family:helvetica,255);">爬取论文主要用到BeautifulSoup中的find_all方法。find_all方法接收的参数实际是筛选条件。如find_all(‘div’,{‘class’:’abstract’})意味着寻找标签为div并且满足class标签等于‘abstract’的内容。返回的结果可能有多个,选取想要的结果的索引,然后用text属性获取其文本内容。

<p style="margin-top:1em;margin-bottom:0px;border:0px;font-size:18px;line-height:inherit;font-family:helvetica,255);">通常搜索结果会有多页,这里介绍两种方法来实现自动爬取多页结果:

<ul class="list-paddingleft-2" style="margin-top:1em;margin-bottom:0px;padding-left:30px;border:0px;font-size:18px;line-height:inherit;font-family:helvetica,simsun;vertical-align:baseline;list-style-position:outside;color:rgb(93,255);"><li style="margin-top:0px;margin-left:0px;padding:0px;border:0px;font-style:inherit;font-variant:inherit;font-weight:inherit;line-height:inherit;font-family:inherit;vertical-align:baseline;clear:both;"><p style="margin-bottom:0px;border:0px;font-style:inherit;font-variant:inherit;font-weight:inherit;line-height:inherit;font-family:inherit;vertical-align:baseline;">在搜索结果页来回翻几页,观察网页url的变化,找到规律,写循环,直接访问各页面。

<p style="margin-top:1em;margin-bottom:0px;border:0px;font-size:18px;line-height:inherit;font-family:helvetica,255);">笔者找到的规律是:地址中有一个参数表示了第几页。于是根据你想爬取的页面数量,写一个简单的循环就可以实现。

<p style="margin-top:1em;margin-bottom:0px;border:0px;font-size:18px;line-height:inherit;font-family:helvetica,255);">

<p style="margin-top:1em;margin-bottom:0px;border:0px;font-size:18px;line-height:inherit;font-family:helvetica,255);">

<p style="margin-top:1em;margin-bottom:0px;border:0px;font-size:18px;line-height:inherit;font-family:helvetica,255);">下载文献到本地

<p style="margin-top:1em;margin-bottom:0px;border:0px;font-size:18px;line-height:inherit;font-family:helvetica,255);">现在可以利用下面这段代码开始自动下载文献到本地啦:

<p style="margin-top:1em;margin-bottom:0px;border:0px;font-size:18px;line-height:inherit;font-family:helvetica,255);">新建一个专门存放文献的文件夹 在python里直接用os里面的mkdir就可以:

<p style="margin-top:1em;margin-bottom:0px;border:0px;font-size:18px;line-height:inherit;font-family:helvetica,255);">如:os.mkdir(‘E://文献’)

<p style="margin-top:1em;margin-bottom:0px;border:0px;font-size:18px;line-height:inherit;font-family:helvetica,255);">打印出来的内容告诉我们有些链接确实下载不了,于是尝试其他链接,文献成功下载。打开文件夹,你就能看到文献啦!

<p style="margin-top:1em;margin-bottom:0px;border:0px;font-size:18px;line-height:inherit;font-family:helvetica,255);">文献管理表分析

<p style="margin-top:1em;margin-bottom:0px;border:0px;font-size:18px;line-height:inherit;font-family:helvetica,255);">至此,我们其实可以针对这张管理表做一个简单的分析。

<p style="margin-top:1em;margin-bottom:0px;border:0px;font-size:18px;line-height:inherit;font-family:helvetica,255);">比如,文献库里,都包含了哪些年份的文献,各年份有多少篇文献。

<p style="margin-top:1em;margin-bottom:0px;border:0px;font-size:18px;line-height:inherit;font-family:helvetica,255);">

<p style="margin-top:1em;margin-bottom:0px;border:0px;font-size:18px;line-height:inherit;font-family:helvetica,255);">此外,你还可以做很多有趣的分析,自己动手尝试尝试吧!

<p style="margin-top:1em;margin-bottom:0px;border:0px;font-size:18px;line-height:inherit;font-family:helvetica,255);">读完本文,你应该可以动手尝试下载相关主题的文献。后续,我们还将示范如何提取pdf中的文献内容,并进行分析和总结,进一步帮助大家写论文!

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读