加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

哦,妹子图,高清大图流量爆棚-Groovy

发布时间:2020-12-14 17:10:21 所属栏目:大数据 来源:网络整理
导读:今天PHP站长网 52php.cn把收集自互联网的代码分享给大家,仅供参考。 @Grab(group='org.ccil.cowan.tagsoup',module='tagsoup',version='1.2' )def tagsoupParser = new org.ccil.cowan.tagsoup.Parser() def slurper = n

以下代码由PHP站长网 52php.cn收集自互联网

现在PHP站长网小编把它分享给大家,仅供参考

@Grab(group='org.ccil.cowan.tagsoup',module='tagsoup',version='1.2' )
def tagsoupParser = new org.ccil.cowan.tagsoup.Parser()  
def slurper = new XmlSlurper(tagsoupParser) 
def start=System.currentTimeMillis()
def storePath = "/tmp/mm/"
def urlPrefix = "http://me2-sex.lofter.com"
def htmlParser = slurper.parse("http://me2-sex.lofter.com/tag/%E7%BE%8E%E5%A5%B3%E6%91%84%E5%BD%B1")
println "开始抓取高清图片,存储路径为:${storePath}"
def pagesLink = []
def mmLink = []
htmlParser.'**'.findAll{ [email?protected] == 'num'}.each {//抓取分页地址   
    pagesLink.add(it.'@href'.text())
}
pagesLink.each{//抓取每个分页mm图片链接 
     htmlParser = slurper.parse(urlPrefix+it)
     htmlParser.'**'.findAll{ [email?protected] == 'img'}.each {   
        mmLink.add(it.'@href'.text())
     }
}
def count = 0
long fileSize =  0
mmLink.each{//抓取mm页面图片文件,并且存储到本地 
    slurper.parse(it).'**'.findAll{[email?protected] == 'img imgclasstag'}.each {                
        def address =  it.'@bigimgsrc'.text()
        def file = new File(storePath+address.tokenize("/")[-1])
        def fileOut = new FileOutputStream(file)
        def out = new BufferedOutputStream(fileOut)
        out << new URL(address).openStream()
        out.close() 
        fileSize =  file.length() + fileSize
        println "下载第"+ (count++) +"图片完成" + "大小 " +file.length()/1024 +"kb 地址:"+address         
    }              
}
def end = System.currentTimeMillis()
println "mm数量${mmLink.size()},共抓取到${count}张图片,"+"用时:"+(end - start)/1000/60 + "分钟,下载总大小为:${fileSize/1024/1024}M"

以上内容由PHP站长网【52php.cn】收集整理供大家参考研究

如果以上内容对您有帮助,欢迎收藏、点赞、推荐、分享。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读