Dropout
文章49
标签32
分类15
Docker扩展命令

Docker扩展命令

一键制作 macOS Monterey U盘 USB 启动安装盘命令方法教程 (全新安装 Mac 系统)

一键制作 macOS Monterey U盘 USB 启动安装盘命令方法教程 (全新安装 Mac 系统)

随着苹果 macOS 正式版发布,很多使用 Mac 电脑的同学都已升级到最新版了。但如果你对系统有洁癖或原本系统已凌乱不堪,那么可能还是希望能格式化「全新安装 macOS」的。

OhMyZsh安装

OhMyZsh安装

OhMyZsh是一个令人愉快、开源、社区驱动的框架,用于管理你的Zsh配置。它捆绑了数千个有用的功能,助手,插件,主题,和一些让你惊艳的东西…

OhMyZsh插件推荐

OhMyZsh插件推荐

Python爬虫从入门到放弃(七)PyQuery库的使用

Python爬虫从入门到放弃(七)PyQuery库的使用

PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery是Python仿照jQuery的严格实现。语法与jQuery几乎完全相同,所以不用再去费心去记一些奇怪的方法了。

Python爬虫从入门到放弃(六)BeautifulSoup库的使用

Python爬虫从入门到放弃(六)BeautifulSoup库的使用

上一篇文章的正则,其实对很多人来说用起来是不方便的,加上需要记很多规则,所以用起来不是特别熟练,而这篇我们提到的BeautifulSoup就是一个非常强大的工具,爬虫利器。

Python爬虫从入门到放弃(五)正则的基本使用

Python爬虫从入门到放弃(五)正则的基本使用

什么是正则表达式

正则表达式是对字符串操作的一种逻辑公式,就是事先定义好的一些特定字符及这些特定字符的组合,组成一个“规则字符”,这个“规则字符” 来表达对字符的一种过滤逻辑。

正则并不是Python独有的,其他语言也都有正则,Python中的正则,封装成了re模块。

Python爬虫从入门到放弃(四)requests库的基本使用

Python爬虫从入门到放弃(四)requests库的基本使用

什么是requests

requests是基于上篇的urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库
如果你看过上篇文章关于urllib库的使用,你会发现,其实urllib还是非常不方便的,而requests它会比urllib更加方便,可以节约我们大量的工作。(用了requests之后,你基本都不愿意用urllib了)一句话,requests是python实现的最简单易用的HTTP库,建议爬虫使用requests库。

默认安装好python之后,是没有安装requests模块的,需要单独通过pip安装

Python爬虫从入门到放弃(三)Urllib库的基本使用

Python爬虫从入门到放弃(三)Urllib库的基本使用

什么是Urllib

Urllib是python内置的HTTP请求库,包括以下模块

  • urllib.request - 请求模块
  • urllib.error - 异常处理模块
  • urllib.parse - url解析模块
  • urllib.robotparser - robots.txt解析模块
Python爬虫从入门到放弃(二)爬虫的原理

Python爬虫从入门到放弃(二)爬虫的原理

在上文中我们说了:爬虫就是请求网站并提取数据的自动化程序。其中请求,提取,自动化是爬虫的关键!下面我们分析爬虫的基本流程

×