Dropout
文章49
标签32
分类15
Python爬虫从入门到放弃(七)PyQuery库的使用

Python爬虫从入门到放弃(七)PyQuery库的使用

PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery是Python仿照jQuery的严格实现。语法与jQuery几乎完全相同,所以不用再去费心去记一些奇怪的方法了。

Python爬虫从入门到放弃(六)BeautifulSoup库的使用

Python爬虫从入门到放弃(六)BeautifulSoup库的使用

上一篇文章的正则,其实对很多人来说用起来是不方便的,加上需要记很多规则,所以用起来不是特别熟练,而这篇我们提到的BeautifulSoup就是一个非常强大的工具,爬虫利器。

Python爬虫从入门到放弃(五)正则的基本使用

Python爬虫从入门到放弃(五)正则的基本使用

什么是正则表达式

正则表达式是对字符串操作的一种逻辑公式,就是事先定义好的一些特定字符及这些特定字符的组合,组成一个“规则字符”,这个“规则字符” 来表达对字符的一种过滤逻辑。

正则并不是Python独有的,其他语言也都有正则,Python中的正则,封装成了re模块。

Python爬虫从入门到放弃(四)requests库的基本使用

Python爬虫从入门到放弃(四)requests库的基本使用

什么是requests

requests是基于上篇的urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库
如果你看过上篇文章关于urllib库的使用,你会发现,其实urllib还是非常不方便的,而requests它会比urllib更加方便,可以节约我们大量的工作。(用了requests之后,你基本都不愿意用urllib了)一句话,requests是python实现的最简单易用的HTTP库,建议爬虫使用requests库。

默认安装好python之后,是没有安装requests模块的,需要单独通过pip安装

Python爬虫从入门到放弃(三)Urllib库的基本使用

Python爬虫从入门到放弃(三)Urllib库的基本使用

什么是Urllib

Urllib是python内置的HTTP请求库,包括以下模块

  • urllib.request - 请求模块
  • urllib.error - 异常处理模块
  • urllib.parse - url解析模块
  • urllib.robotparser - robots.txt解析模块
Python爬虫从入门到放弃(二)爬虫的原理

Python爬虫从入门到放弃(二)爬虫的原理

在上文中我们说了:爬虫就是请求网站并提取数据的自动化程序。其中请求,提取,自动化是爬虫的关键!下面我们分析爬虫的基本流程

Python爬虫从入门到放弃(一)初始爬虫

Python爬虫从入门到放弃(一)初始爬虫

什么是爬虫?

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

其实通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据

×