PHP实现采集抓取淘宝网单个商品信息
调用淘宝的数据可以使用淘宝提供的api,如果只需调用淘宝商品图片名称等公开信息在自己网站上,使用php中的 file_get_contents 函数实现即可。 思路:file_get_contents(url) 该函数根据 url 如 http://www.baidu.com 将该网页内容(源码)以字符串形式输出(一个整字符串),然后配合preg_match,preg_replace等这些正则表达式操作就可以实现获取该url特定div,img等信息了。当然前题是淘宝在单个商品页面的结构是固定的,如500图的img中id就是J_ImgBooth! 具体实现方法:(获取500图,名称,价格,属性及商品描述) 代码如下: A.获取500图: 代码如下: ]*id="J_ImgBooth"[^r]*rc="([^"]*)"[^>]*>/',$text,$img);
//运用正则抓取img标签中id为J_ImgBooth的img,$img[0]为该500图img标签,$img[1]为500图的图片地址;
B. 获取名称: 代码如下: ([^<>]*)/',$title);
//因为正文中的商品名称标签没有特殊class或id正则不好抓取,就抓
C.获取价格: 代码如下: ]*>([^<]*)1>/is',$price);
//同理获取id为J_StrPrice的标签内容$price[2],$price[0]是整个标签, $price[1]为h3标签名;
$price=floatval($price);//放入数据库估计还有转一下变量类型
D.获取属性:这之前获取的内容都是在单标签中相对只需一个正则就可搞定,然而如果要获取如 代码如下: … … …
…
… 这样特定div中有未知n个<>标签,获取该特定div将会非常的困难,搜了下网上,最接近的也只是”/<([a-z]+)[^>]*>([^<>]|(?R))*1>/”这样使用递归抓取标签对,但是他不能抓特定标签,所以想要轻松抓取class=”attributes”的div我是没法办到了。但是淘宝网页有其特殊性,就是它的各个标签结构基本是固定的… … 标签后面不是就是 ,所以我们可以采用变通法达到获取属性标签内容的目的。
代码如下: ]*>.*1>/is',$text0);
//这个正则会抓取
标签,当然我们属性标签就在这个的前面部分。
$text1=preg_replace("/</div>[^<]<(div)[^c]id="description"[^>]>.</1>/is","",$text0); 至最后 然后用””代替(就是把匹配的删除了),所以如果attributes的div后面紧跟的是description那么我们已经达到目的了。
$attributes=preg_replace("/</div>[^<]<(div)[^c]class="box J_TBox"[^>]>.</1>/is",$text1); E.获取描述:通过上面方法你肯定觉得淘宝页面上任何标签都可以很简单获取了吧(我之前也是这么想的),但是使用这个方法获取描述时得到的内容将会是“描述加载中”,是的,这个描述内容不是在源码中的,它是打开页面加载进一大堆js后,不知道从淘宝的哪个角落中加载进来的。 好吧,那么我们也可以模仿它放一些js进去。不知道哪些对加载描述有用?没事,全加载进来肯定没错。不知道需要放那些特定div上去有作用?抓一个源码,删掉一些div一步步试试看,你会发现“ 代码如下: <div id="J_DivItemDesc">描述加载中
这几个div是加载描述所必须的,那么下面就是写代码了: 代码如下: ]*>[^<]*/is',$content);//页面js脚本
$content=$content[0];
$description=' (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |