加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 编程开发 > Python > 正文

Python有道字典

发布时间:2020-12-17 17:21:17 所属栏目:Python 来源:网络整理
导读:今天PHP站长网 52php.cn把收集自互联网的代码分享给大家,仅供参考。 #----------------------------------------------------------------# -*- coding: utf-8 -*-#!/usr/bin/env python#------------------------------

以下代码由PHP站长网 52php.cn收集自互联网

现在PHP站长网小编把它分享给大家,仅供参考

#----------------------------------------------------------------
# -*- coding: utf-8 -*-
#!/usr/bin/env python
#----------------------------------------------------------------
#   Author : Scharfsinnig
#
#   E-Mail : [email?protected]
#
#   File   : WebDict.py
#
#   Introduction:
#   脚本主要是对有道网的单词查询网页,进行简单的信息提取任务,找到
#   单词的翻译结果。方便自己在终端下对不认识的单词进行查询。
#----------------------------------------------------------------
import re
import time
import thread
import urllib
import urllib2
from urllib import quote


class Spider_Youdao:
    #初始化
    def __init__(self):
        #有道网页翻译段
        self.Trans_Youdao_Tag = re.compile(r's?<li>.*?</li>s?')
        #21世纪大词典段
        self.Trans_Shiji_Tag = re.compile(r's?<span.*?class="def">.*?</span>')
        #退出标志 
        self.run = True


    #获得查询的单词
    def SearchWord(self):
        S_Word = raw_input("n#[输入单词]n>")
        
        return S_Word


    #得到URL
    def GetUrl(self):
        SWord = self.SearchWord()
        #加上查询的单词以后
        if quote(SWord) == SWord:
            MyUrl = "http://dict.youdao.com/search?len=eng&q="+quote(SWord)+"&keyfrom=dict.top"
            return MyUrl


    #获得页面
    def GetPage(self):
        #获取URL
        Youdao_Url = self.GetUrl()
        #伪装成浏览器请求
        user_agent = 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:32.0) Gecko/20100101 Firefox/32.0'
        headers = { 'User-Agent' : user_agent }
        req = urllib2.Request(Youdao_Url,headers = headers)
        Res = urllib2.urlopen(req)
        #将其他编码的字符串转换成unicode编码
        ResultPage = Res.read().decode("utf-8")
        #ResultPage = Res.read()
        return ResultPage


    #开始提取网页中的信息
    def ExtractPage(self):
        #获得页面
        MyPage = self.GetPage()
        #提取有道的基本翻译
        YoudaoTrans = self.Trans_Youdao_Tag
        #提取21世纪词典的翻译
        ShijiTrans = self.Trans_Shiji_Tag
        print "--------------------------------------------" 
        YouDaoTrans = self.Trans_Youdao_Tag
        TransYdIterator = YouDaoTrans.finditer(MyPage)
        print "#(翻译来自有道词典):"
        myItems = re.findall('<div.*?class="trans-container">(.*?)<div id="webTrans" class="trans-wrapper trans-tab">',MyPage,re.S)    
        for item in myItems:
            YDTmp = item
        TransYdIterator = YouDaoTrans.finditer(YDTmp)
        for iterator in TransYdIterator:
            YouDao = iterator.group()
            YDTag = re.compile('s?<.*?>')
            print YDTag.sub('',YouDao)
        print "--------------------------------------------" 
        TransSjIterator = ShijiTrans.finditer(MyPage)
        print "#(翻译来自21世纪大词典):"
        for iterator in TransSjIterator:
            ShiJi = iterator.group()
            SJTag = re.compile('s?<.*?>')
            print SJTag.sub('',ShiJi)
        print "--------------------------------------------" 


    #启动爬虫
    def Start(self):
        while self.run:
            S_Word = raw_input("n#["!"号退出.回车继续.]n>")
            if S_Word != "!":
                self.ExtractPage()
                #thread.start_new_thread(self.ExtractPage,())
                #time.sleep(5)
            else:
                self.run = False
            
            
        
if __name__ == '__main__':
    mydict = Spider_Youdao()
    mydict.Start()

以上内容由PHP站长网【52php.cn】收集整理供大家参考研究

如果以上内容对您有帮助,欢迎收藏、点赞、推荐、分享。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读