Dropout
文章48
标签32
分类14
Docker扩展命令

Docker扩展命令

清理

prune 命令用来删除不再使用的 docker 对象。

一键制作 macOS Monterey U盘 USB 启动安装盘命令方法教程 (全新安装 Mac 系统)

一键制作 macOS Monterey U盘 USB 启动安装盘命令方法教程 (全新安装 Mac 系统)

随着苹果 macOS 正式版发布,很多使用 Mac 电脑的同学都已升级到最新版了。但如果你对系统有洁癖或原本系统已凌乱不堪,那么可能还是希望能格式化「全新安装 macOS」的。

OhMyZsh安装

OhMyZsh安装

OhMyZsh是一个令人愉快、开源、社区驱动的框架,用于管理你的Zsh配置。它捆绑了数千个有用的功能,助手,插件,主题,和一些让你惊艳的东西…

OhMyZsh插件推荐

OhMyZsh插件推荐

git

默认开启

可以使用各种git命令缩写。😋

Python爬虫从入门到放弃(七)PyQuery库的使用

Python爬虫从入门到放弃(七)PyQuery库的使用

PyQuery库也是一个非常强大又灵活的网页解析库,如果你有前端开发经验的,都应该接触过jQuery,那么PyQuery就是你非常绝佳的选择,PyQuery是Python仿照jQuery的严格实现。语法与jQuery几乎完全相同,所以不用再去费心去记一些奇怪的方法了。

Python爬虫从入门到放弃(六)BeautifulSoup库的使用

Python爬虫从入门到放弃(六)BeautifulSoup库的使用

上一篇文章的正则,其实对很多人来说用起来是不方便的,加上需要记很多规则,所以用起来不是特别熟练,而这篇我们提到的BeautifulSoup就是一个非常强大的工具,爬虫利器。

Python爬虫从入门到放弃(五)正则的基本使用

Python爬虫从入门到放弃(五)正则的基本使用

什么是正则表达式

正则表达式是对字符串操作的一种逻辑公式,就是事先定义好的一些特定字符及这些特定字符的组合,组成一个“规则字符”,这个“规则字符” 来表达对字符的一种过滤逻辑。

正则并不是Python独有的,其他语言也都有正则,Python中的正则,封装成了re模块。

Python爬虫从入门到放弃(四)requests库的基本使用

Python爬虫从入门到放弃(四)requests库的基本使用

什么是requests

requests是基于上篇的urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库
如果你看过上篇文章关于urllib库的使用,你会发现,其实urllib还是非常不方便的,而requests它会比urllib更加方便,可以节约我们大量的工作。(用了requests之后,你基本都不愿意用urllib了)一句话,requests是python实现的最简单易用的HTTP库,建议爬虫使用requests库。

默认安装好python之后,是没有安装requests模块的,需要单独通过pip安装

Python爬虫从入门到放弃(三)Urllib库的基本使用

Python爬虫从入门到放弃(三)Urllib库的基本使用

什么是Urllib

Urllib是python内置的HTTP请求库,包括以下模块

  • urllib.request - 请求模块
  • urllib.error - 异常处理模块
  • urllib.parse - url解析模块
  • urllib.robotparser - robots.txt解析模块
Python爬虫从入门到放弃(二)爬虫的原理

Python爬虫从入门到放弃(二)爬虫的原理

在上文中我们说了:爬虫就是请求网站并提取数据的自动化程序。其中请求,提取,自动化是爬虫的关键!下面我们分析爬虫的基本流程

×