PHP实现采集抓取淘宝网单个商品信息

发布时间：2020-12-12 20:37:17 所属栏目：PHP教程来源：网络整理

导读：调用淘宝的数据可以使用淘宝提供的api，如果只需调用淘宝商品图片名称等公开信息在自己网站上，使用php中的 file_get_contents 函数实现即可。思路： file_get_contents(url) 该函数根据 url 如 http://www.baidu.com 将该网页内容（源码）以字符串形式输出

调用淘宝的数据可以使用淘宝提供的api，如果只需调用淘宝商品图片名称等公开信息在自己网站上，使用php中的 file_get_contents 函数实现即可。

思路：

file_get_contents(url) 该函数根据 url 如 http://www.baidu.com 将该网页内容（源码）以字符串形式输出（一个整字符串），然后配合preg_match，preg_replace等这些正则表达式操作就可以实现获取该url特定div，img等信息了。当然前题是淘宝在单个商品页面的结构是固定的，如500图的img中id就是J_ImgBooth！

具体实现方法：（获取500图，名称，价格，属性及商品描述）

代码如下:

A.获取500图：

代码如下:

]*id="J_ImgBooth"[^r]*rc="([^"]*)"[^>]*>/',$text,$img); 
//运用正则抓取img标签中id为J_ImgBooth的img，$img[0]为该500图img标签，$img[1]为500图的图片地址；

B. 获取名称：

代码如下:

([^<>]*)/',$title); 
//因为正文中的商品名称标签没有特殊class或id正则不好抓取，就抓标签中的内容了，一般来说title中内容就是商品名称了（实际有些出入），$title[0]整个title标签 $title[1]标签中内容；
$title=iconv('GBK','UTF-8',$title);
//如果你的网站是utf8编码，那么需要进行一下转码（淘宝是gbk编码）
</div></p>
<p><h3>C.获取价格：</h3></p>
<p><div class="codetitle"><span></U> 代码如下:</div><div class="codebody" id="code42268">
preg_match('/<([a-z]+)[^i]*id="J_StrPrice"[^>]*>([^<]*)</1>/is',$price);
//同理获取id为J_StrPrice的标签内容$price[2],$price[0]是整个标签， $price[1]为h3标签名；
$price=floatval($price);//放入数据库估计还有转一下变量类型
</div></p>
<p><h3>D.获取属性：</h3></p>
<p>这之前获取的内容都是在单标签中相对只需一个正则就可搞定，然而如果要获取如</p>
<p><div class="codetitle"><span></U> 代码如下:</div><div class="codebody" id="code23705">
…
<div id=”xxx”>
<p>…</p>
<ul>
<p>…</p>
</ul>
<div>…
<div>…
</div>
</div>
</div>
<p>…</p>
</div></p>
<p>这样特定div中有未知n个<>标签，获取该特定div将会非常的困难，搜了下网上，最接近的也只是”/<([a-z]+)[^>]*>([^<>]|(?R))*</1>/”这样使用递归抓取标签对，但是他不能抓特定标签，所以想要轻松抓取class=”attributes”的div我是没法办到了。但是淘宝网页有其特殊性，就是它的各个标签结构基本是固定的…<div>…</div>标签后面不是</div><div id=”description”>就是</div><div>，所以我们可以采用变通法达到获取属性标签内容的目的。</p>
<p><div class="codetitle"><span></U> 代码如下:</div><div class="codebody" id="code5951">
preg_match('/<(div)[^c]*class="attributes"[^>]*>.*</1>/is',$text0);
//这个正则会抓取<div开始到整个页面最后一个</div>标签，当然我们属性标签就在这个的前面部分。
<p>$text1=preg_replace("/</div>[^<]<em><(div)[^c]</em>id="description"[^>]<em>>.</em></1>/is","",$text0);<br />
//匹配到</div ><div id=”description”>至最后</div>然后用””代替（就是把匹配的删除了），所以如果attributes的div后面紧跟的是description那么我们已经达到目的了。</p>
<p>$attributes=preg_replace("/</div>[^<]<em><(div)[^c]</em>class="box J_TBox"[^>]<em>>.</em></1>/is",$text1);<br />
//如果attributes后面紧跟box J_Tbox标签，那么我们还需要使用以上这步来剔除box J_Tbox标签，当然如果attributes的div后面紧跟的是description，这一步将不会匹配到任何即什么都不会做。</p>
</div></p>
<p><h3>E.获取描述：</h3></p>
<p>通过上面方法你肯定觉得淘宝页面上任何标签都可以很简单获取了吧（我之前也是这么想的），但是使用这个方法获取描述时得到的内容将会是“描述加载中”，是的，这个描述内容不是在源码中的，它是打开页面加载进一大堆js后，不知道从淘宝的哪个角落中加载进来的。</p>
<p>好吧，那么我们也可以模仿它放一些js进去。不知道哪些对加载描述有用？没事，全加载进来肯定没错。不知道需要放那些特定div上去有作用？抓一个源码，删掉一些div一步步试试看，你会发现“<div id=”detail”> </div></p>
<p><div class="codetitle"><span></U> 代码如下:</div><div class="codebody" id="code32654">
<div id="description">
<p><div id="J_DivItemDesc">描述加载中</div></p>
</div>
</div></p>
<p>这几个div是加载描述所必须的，那么下面就是写代码了：</p>
<p><div class="codetitle"><span></U> 代码如下:</div><div class="codebody" id="code52544">
preg_match_all('/<script[^>]*>[^<]*</script>/is',$content);//页面js脚本
$content=$content[0];
$description='<div id="detail"> </div>
<div id="description">
<div id="J_DivItemDesc">描述加载中</div>
</div>';
foreach ($content as &$v){$description.=iconv('GBK',$v);};
//将这个$description放进页面，描述就会自动的加载进来了，当然多个商品描述在同一个页面也会只有一个描述会被加载的。
</div></p>                        <p style="text-align:right;">（编辑：李大同）</p>
<p style="text-align:right;">【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!</p>
                    </td>
                  </tr>
                </table>
            </div>
            <div class="dede_pagess"><ul class="pagelist"></ul></div>
            <div class="ad-690"><script src='https://ess.0577qiche.com/d/js/acmsd/ad76.js' language='javascript'></script></div>
            <div class="g-box10">
            	<div class="t-2">相关内容</div>
<ul class="b-box12"></ul>
<ul class="b-box13"><li><a href="https://www.lidatong.com.cn/html/jc/php/2020/1213/138102.html" target="_blank">php – 如果在连接中间声明？</a></li><li><a href="https://www.lidatong.com.cn/html/jc/php/2020/1213/132413.html" target="_blank">PHP实现发表文章时自动保存图片</a></li><li><a href="https://www.lidatong.com.cn/html/jc/php/2020/1213/85103.html" target="_blank">PHP实现多文件上传的方法</a></li><li><a href="https://www.lidatong.com.cn/html/jc/php/2020/1213/120576.html" target="_blank">php – 使用codeigniter上传时“没有选择要上传的文件”</a></li><li><a href="https://www.lidatong.com.cn/html/jc/php/2020/1213/101110.html" target="_blank">php – 如何在主机上创建Amazon S3克隆？</a></li><li><a href="https://www.lidatong.com.cn/html/jc/php/2020/1213/87267.html" target="_blank">利用PHP制作简单的内容采集器的原理分析</a></li><li><a href="https://www.lidatong.com.cn/html/jc/php/2020/1213/146513.html" target="_blank">php发送.csv附件的html电子邮件</a></li><li><a href="https://www.lidatong.com.cn/html/jc/php/2020/1213/106454.html" target="_blank">如何在Emacs中关闭php-indent警告</a></li><li><a href="https://www.lidatong.com.cn/html/jc/php/2020/1212/78325.html" target="_blank">php使用str_replace替换多维数组的实现方法分析</a></li><li><a href="https://www.lidatong.com.cn/html/jc/php/2020/1213/131346.html" target="_blank">php对特殊语句查询结果进行数组排序</a></li><div class="cl"></div></ul>
            </div>
        </div>
    </div>
    <div class="right-1 fr">
    	<div class="g-box8">
        <div class="t-2">推荐文章</div>
            <ul></ul>
        </div>
    	<div class="g-box11">
        <div class="t-2">站长推荐</div>
            <ul class="b-box7"><li><a href="https://www.lidatong.com.cn/html/jc/php/2020/1213/86664.html" target="_blank">php array_replace_recursive 递归地使用后面数组</a></li><li><a href="https://www.lidatong.com.cn/html/jc/php/2020/1213/133896.html" target="_blank">php 给url添加超级链接方法</a></li><li><a href="https://www.lidatong.com.cn/html/jc/php/2020/1212/78126.html" target="_blank">Yii2数据库操作常用方法小结</a></li><li><a href="https://www.lidatong.com.cn/html/jc/php/2020/1212/76913.html" target="_blank">php结合md5的加密解密算法实例</a></li><li><a href="https://www.lidatong.com.cn/html/jc/php/2020/1213/91805.html" target="_blank">在PHP中获取一个被调用的函数列表</a></li><li><a href="https://www.lidatong.com.cn/html/jc/php/2020/1213/140399.html" target="_blank">PHP Cloudfront SetCookie</a></li><li><a href="https://www.lidatong.com.cn/html/jc/php/2020/1213/87410.html" target="_blank">php连接mysql数据库代码</a></li><li><a href="https://www.lidatong.com.cn/html/jc/php/2020/1212/77689.html" target="_blank">PHP 类与构造函数解析</a></li><li><a href="https://www.lidatong.com.cn/html/jc/php/2020/1212/77704.html" target="_blank">Yii2学习笔记之汉化yii设置表单的描述（属性标签</a></li><li><a href="https://www.lidatong.com.cn/html/jc/php/2020/1213/115850.html" target="_blank">php – 错误发布带有Facebook链接的消息</a></li></ul>
        </div>
        <script type="text/javascript">jQuery(".g-box8").slide({ titCell:"li",triggerTime:0 });	</script>
        <div class="ad-250"><script src='https://ess.0577qiche.com/d/js/acmsd/ad103.js' language='javascript'></script></div>
    	<div class="g-box3 u-3">
        <div class="t-1">热点阅读</div>
            <ul class="b-box2"></ul>
        </div>
        <div class="ad-250"><script src='https://ess.0577qiche.com/d/js/acmsd/ad77.js' language='javascript'></script></div>
        </div>
	<div class="cl"></div>
</div>
<div class="ad-960"><script src='https://ess.0577qiche.com/d/js/acmsd/ad78.js' language='javascript'></script></div>
<div class="footer">
<p>【免责声明】本站内容转载自互联网，其发布内容言论不代表本站观点，如果其链接、内容的侵犯您的权益，烦请提交相关链接至邮箱bqsm@foxmail.com我们将及时予以处理。</p>
<p>建议您使用1920×1080分辨率、谷歌浏览器Google Chrome、Microsoft Edge以获得本站的最佳浏览效果</p>
<p>Copygight © 2008-2022 https://www.lidatong.com.cn/ All Rights Reserved. 李大同</p>
<p><script type="text/javascript" src="//js.users.51.la/21280179.js"></script></p>
</div>
</body>
</html>