Python爬虫框架Scrapy安装使用步骤
一、爬虫框架Scarpy简介 二、Scrapy安装指南 我们的安装步骤假设你已经安装一下内容:<1>Python2.7<2>lxml<3>OpenSSL,我们使用Python的包管理工具pip或者easy_install来安装Scrapy。 复制代码 代码如下: pip install Scrapy easy_install的安装方式: 复制代码 代码如下: easy_install Scrapy
三、Ubuntu平台上环境配置 1、python的包管理工具 安装过程: 复制代码 代码如下: $ curl -O http://python-distribute.org/distribute_setup.py $ python distribute_setup.py 安装pip: 复制代码 代码如下: $ curl -O https://raw.github.com/pypa/pip/master/contrib/get-pip.py
$ [sudo] python get-pip.py 2、Scrapy的安装 复制代码 代码如下: sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 627220E7 <2>创建/etc/apt/sources.list.d/scrapy.list 文件 复制代码 代码如下: echo 'deb http://archive.scrapy.org/ubuntu scrapy main' | sudo tee /etc/apt/sources.list.d/scrapy.list <3>更新包列表,安装scrapy版本,其中VERSION用实际的版本代替,如scrapy-0.22 复制代码 代码如下: sudo apt-get update && sudo apt-get install scrapy-VERSION
3、Scrapy依赖库的安装 复制代码 代码如下: pip install w3lib ImportError: No module named twisted 复制代码 代码如下: pip install twisted ImportError: No module named lxml.html 复制代码 代码如下: pip install lxml 解决:error: libxml/xmlversion.h: No such file or directory 复制代码 代码如下: apt-get install libxml2-dev libxslt-dev apt-get install python-lxml 解决:ImportError: No module named cssselect 复制代码 代码如下: pip install cssselect ImportError: No module named OpenSSL 复制代码 代码如下: pip install pyOpenSSL
4、定制自己的爬虫开发 复制代码 代码如下: scrapy startproject test
您可能感兴趣的文章:
(编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |