爬虫导论
爬虫概述
网络爬虫
(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。
原则上,只要是浏览器(客户端)能做的事情,爬虫都能够做。
1. 爬虫是否违法?
在法律中不违法
但是具有违法风险
2. 爬虫可能具有的风险
爬虫可能干扰被访问网站的正常运营
爬虫可能会抓取到被法律保护的特定数据和信息
3. 怎么样避免风险?
经常维护自己的爬虫程序,避免干扰被访问网站的正常运行
在使用,传播爬取到的数据时,检查自己抓取到的内容,若果发现涉及用户隐私或商业机密等违法内容时应及时停止爬取传播,并及时删除清空数据
4. 爬虫的分类
通用爬虫:
抓取系统的重要组成部分,抓取的是一整页面的数据
聚焦式爬虫:
是建立在通用爬虫之上,抓取的是页面中的特定数据
增量式爬虫:
检测网站中数据更新的情况,只会抓取网站中最新更新出来的数据
5. 爬虫的矛与盾
5.1 反爬机制
门户网站,可以通过指定相应的策略或技术手段,防止爬虫程序进行网站数据的爬取
5.2 反反爬策略
爬虫程序也可以通过制定相关的策略和相关的技术手段,破解门户网站中具备的反爬机制从而获取门户网站的数据
6. robots协议
是一种君子协议。即网站可以规定网站中那些数据可以被爬虫爬取,那些数据不可以被爬取。可以遵守也可以不遵守
可以通过在目标网址后加/robots.txt访问目标网址的robots协议
7. http协议
概念:
就是服务器和客户端进行数据交互的一种形式,是一种超文本传输协议
常用请求头信息:
User-Agent:请求载体的身份标识
Connection:请求完毕后,是断开连接还是保持连接
常用响应头信息
Content-Type:服务器响应客户端的数据类型
8. https协议
表示安全的http协议
采用证书秘钥加密方式对数据进行加密
加密方式
对称秘钥加密
一种客户端自定义的加密方式,向服务器发送参数的时候把秘钥与密文一起发送
非对称秘钥加密
服务器产生秘钥,发送给客户端,客户端对数据加密后再发送给服务器
证书秘钥加密
在非对称秘钥加密的基础上加一个证书认证机构,服务器在发送秘钥给客户端之前先发送给证书认证机构,在机构签名后再发送给客户端,保证客户端收到的秘钥是服务器发送的
最后更新于