抓取数据包

随机抓取了bilibili的一段POST数据包:

post数据包

发送HTTP请求

一个请求由四个部份组成:请求行、请求头标、空行和请求数据。

每个部分之间用\r\n来隔开

1.请求行

请求行由三个标记组成:请求方法、请求URL和HTTP版本,它们用空格分隔。

例如:

GET /index.html HTTP/1.1

HTTP 定义了8种可能的请求方法:

GET:检索URL中标识资源的一个简单请求

HEAD:与GET方法相同,服务器只返回状态行和头标,并不返回请求文档

POST:服务器接受被写入客户端输出流中的数据的请求

PUT:服务器保存请求数据作为指定URL新内容的请求

DELETE:服务器删除URL中命令的资源的请求

OPTIONS:关于服务器支持的请求方法信息的请求

TRACE:web服务器反馈Http请求和其头标的请求

CONNECT :已文档化,但当前未实现的一个方法,预留做隧道处理

2.请求头标

由关键字/值对组成,每行一对,关键字和值用冒号分享。请求头标通知服务器腾于客户端的功能和标识。典型的请求头标有:

User-Agent:客户端厂家和版本

Accept:客户端可识别的内容类型列表

Content-Length:附加到请求的数据字节数

3.空行

最后一个请求头标之后是一个空行,发送回车符和退行,通知服务器以下不再有头标。

4.请求数据

使用POST传送数据,最常使用的是Content-TypeContent-Length 头标。

服务器接受请求并返回HTTP响应

一个响应由四个部分组成;状态行、响应头标、空行、响应数据。

1.状态行

状态行由三个标记组成:HTTP版本、响应代码和响应描述。

HTTP版本:向客户端指明其可理解的最高版本。

响应代码:3位的数字代码,指出请求的成功或失败,如果失败则指出原因。

响应描述:为响应代码的可读性解释。

例如:

HTTP/1.1 200 OK

HTTP响应码:

1xx:信息,请求收到,继续处理

2xx:成功,行为被成功地接受、理解和采纳

3xx:重定向,为了完成请求,必须进一步执行的动作

4xx:客户端错误

5xx:服务器错误

.响应头标

像请求头标一样,它们指出服务器的功能,标识出响应数据的细节。

3.空行

最后一个响应头标之后是一个空行,发送回车符和退行,表明服务器以下不再有头标。

4.响应数据

HTML文档和图像等,也就是HTML本身。

200 存在文件
403 存在文件夹
404 不存在文件及文件夹
500 服务器内部错误

服务器关闭连接,浏览器解析响应

1.浏览器首先解析状态行,查看表明请求是否成功的状态代码。

2.然后解析每一个响应头标,头标告知以下为若干字节的HTML。

3.读取响应数据HTML,根据HTML的语法和语义对其进行格式化,并在浏览器窗口中显示它。

4.一个HTML文档可能包含其它需要被载入的资源引用,浏览器识别这些引用,对其它的资源再进行额外的请求,此过程循环多次。

HTTP模型是无状态的,表明在处理一个请求时,Web服务器并不记住来自同一客户端的请求。

使用nc模拟http请求

netcact工具用途很多,可以翻看这篇文章:http://www.xpshuai.cn/2020/03/15/%E5%B7%A5%E5%85%B7-netcat%E4%BD%BF%E7%94%A8/

这里只说用nc模拟http请求,以请求百度为例

1.输入要请求的主机和端口号nc www.baidu.com 80

2.手工填写请求方式和请求头等(比如下面我请求百度的robots.txt文件):

GET /robots.txt HTTP/1.1
Host: www.baidu.com

image-20220501102239605

当然也可以用如下形式的一行命令搞定:

# -e参数是激活转义字符,请求中不同行使用\r\n隔开,然后通过管道重定向给nc
echo -e "GET /robots.txt HTTP/1.1\r\nHost: www.baidu.com\r\n\r\n" | nc www.baidu.com 80

以此类推,当然我们也可以提前把请求写好放到文件中,然后读取文件再通过管道重定向给nc

但是要注意不同系统的换行符是有区别的,如果需要用记得转换一下:

  • Windows系统里,文件每行结尾是”””\r\n”

  • Mac系统里, 文件每行结尾是””,即’\r’

  • Unix系统里, 文件每行结尾是””,即’\n’