
本人系统是Ubuntu 12.04,后来知道可以直接sudo apt-get install python-lxml就可以。现在想起,我安装的时候,试过sudo apt-get install lxml,提示找不到包。这里引出一个问题如何根据关键词查询包名。
我用sudo apt-get help(好多这种格式的命令都会支持help),结果没有发现apt-get提供的根据关键词搜索包名的command或者option。谷歌之后找到了解决这个小问题的方法:先用 apt-cache search找到软件的准确名字,再用apt-cache show来看详细的信息。
apt-cache search lxml
结果:
inkscape - vector-based drawing program
python-lxml - pythonic binding for the libxml2 and libxslt libraries
python-lxml-dbg - pythonic binding for the libxml2 and libxslt libraries (debug extension)
python-lxml-doc - pythonic binding for the libxml2 and libxslt libraries (documentation)
python3-lxml - pythonic binding for the libxml2 and libxslt libraries
python3-lxml-dbg - pythonic binding for the libxml2 and libxslt libraries (debug extension)
xml-core - XML infrastructure and XML catalog file support
python-okasha - trivial WSGI web framework for Python
python-pyquery - jQuery-like library for python
tclxml - Tcl library for XML parsing
然后就可以用apt-cache python-lxml来查看包的依赖等详细信息。
顺便查了一下apt-cache的用法,贴在下面:
apt-cache是一个apt软件包管理工具,它可查询apt的二进制软件包缓存文件。通过它我们可查询软件包的状态信息。
apt-cache show package_name
显示软件的信息,包括版本号,安装状态和包依赖关系等。
apt-cache search package_name
搜索软件包,可用正则表达式。
apt-cache showpkg package_name
显示软件包的依赖关系信息。
apt-cache policy package_name
显示软件包的安装状态和版本信息。
apt-cache depends package_name
显示指定软件包所依赖的软件包。
apt-cache rdepends package_name
显示软件包的反向依赖关系,即有什么软件包需依赖你所指定的软件包。
最近在学习爬虫,早就听说Python写爬虫极爽(貌似pythoner说python都爽,不过也确实,python的类库非常丰富,不用重复造轮子),还有一个强大的框架Scrapy,于是决定尝试一下。要想使用Scrapy第一件事,当然是安装Scrapy,尝试了Windows和Ubuntu的安装,本文先讲一下 Ubuntu的安装,比Windows的安装简单太多了。抽时间也会详细介绍一下怎么在Windows下进行安装。
官方介绍,在安装Scrapy前需要安装一系列的依赖.
* Python 2.7: Scrapy是Python框架,当然要先安装Python ,不过由于Scrapy暂时只支持 Python2.7,因此首先确保你安装的是Python 2.7
* lxml:大多数Linux发行版自带了lxml
* OpenSSL:除了windows之外的系统都已经提供
* Python Package: pip and setuptools. 由于现在pip依赖setuptools,所以安装pip会自动安装setuptools
有上面的依赖可知,在非windows的环境下安装 Scrapy的相关依赖是比较简单的,只用安装pip即可。Scrapy使用pip完成安装。
检查Scrapy依赖是否安装
你可能会不放心自己的电脑是否已经安装了,上面说的已经存在的依赖,那么你可以使用下面的方法检查一下,本文使用的是Ubuntu 14.04。
检查Python的版本
$ python --version
如果看到下面的输出,说明Python的环境已经安装,我这里显示的是Python 2.7.6,版本也是2.7的满足要求。如果没有出现下面的信息,那么请读者自行百度安装Python,本文不介绍Python的安装(网上一搜一堆)。
检查lxml和OpenSSL是否安装
假设已经安装了Python,在控制台输入python,进入Python的交互环境。
然后分别输入import lxml和import OpenSSL如果没有报错,说明两个依赖都已经安装。
安装python-dev和libevent
python-dev是linux上开发python比较重要的工具,以下的情况你需要安装
* 你需要自己安装一个源外的python类库, 而这个类库内含需要编译的调用python api的c/c++文件
* 你自己写的一个程序编译需要链接libpythonXX.(a|so)
libevent是一个时间出发的高性能的网络库,很多框架的底层都使用了libevent
上面两个库是需要安装的,不然后面后报错。使用下面的指令安装
$sudo apt-get install python-dev
$sudo apt-get install libevent-dev
安装pip
因为Scrapy可以使用pip方便的安装,因此我们需要先安装pip,可以使用下面的指令安装pip
$ sudo apt-get install python-pip
使用pip安装Scrapy
使用下面的指令安装Scrapy。
$ sudo pip install scrapy
记住一定要获得root权限,否则会出现下面的错误。
至此scrapy安装完成,使用下面的命令检查Scrapy是否安装成功。
$ scrapy version
显示如下结果说明安装成功,此处的安装版本是1.02
1、Python爬虫工程师Python爬虫是我们比较熟悉的Python的一个方向,Python爬虫将网络一切数据作为资源,通过自动化程序进行有针对性的数据采集以及处理。Python爬虫可以做的事情很多,如搜索引擎、采集数据、广告过滤等,Python爬虫还可以用于数据分析,在数据的抓取方面可以作用巨大!从事Python爬虫工程师的小伙伴需要熟练使用Python语言,熟悉常用爬虫框架如Scrapy等熟练使用selenium,lxml, bs4 对xml,html的文本进行抓取解析清理对管理网站的cookie实效性处理有经验。2、Python人工智能目前国内人工智能基础编程语言是Python,前段时间,机器人战胜了围棋大师。属于人工智能的时代已经到来了,目前,很多公司都在招募大量人工智能、量化交易、机器学习相关人才,对相关人才要求有较高的学习能力和数学能力,年薪更高,对于刚接触Python的人士来说,Python人工智能很适合作为未来发展方向研究。3、数据处理在互联网飞速的时代,数据可以说明很多东西,现在很多做数据分析的不是原来那么简单,Python语言成为了做数据分析师的第一首选,Python这门编程语言集成的很多图形库可以直接讲数据以数据分布图的方式展示出来。不仅仅在数据统计和处理,在很多高校的实验室里面提取的大量的实验数据也需要整理和归纳,Python也能起到非常大的作用。可以给工作带来很大的效率。想往数据分析这方面发展的小伙伴们需要熟悉主流的数据挖掘建模算法,如数据分析、分类预测、用户画像等掌握数据分析模型的固化及部署工作,可进行进行数据分析、数据建模、挖掘、清洗,可实现包括数据交互、特征提取、数据挖掘、分析报告等。4、Web开发Python拥有很多免费数据函数库、免费web网页模板系统、以及与web服务器进行交互的库,可以实现web开发,搭建web框架,从事该领域的小伙伴们需要从数据、组件、安全等多领域进行学习,从底层了解其工作原理并可驾驭任何业内主流的Web框架。5、Linux运维Linux运维是一定要掌握Python语言,Python是一门非常NB的编程语言,它可以满足Linux运维工程师的工作需求提升效率,总而提升自己的能力,Python是一门综合性的语言,能满足绝大部分自动化运维需求,前端和后端都可以做。欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)