HTTP入门 | 计算机网络

HTTP 协议的核心哲学

无状态：一种被误解的”缺陷”

很多人对 HTTP 的无状态性嗤之以鼻，认为这是协议的重大缺陷。但这恰恰是 HTTP 能够支撑整个互联网的关键设计。

无状态不是缺陷，而是一种深思熟虑的架构选择。

HTTP的无状态性让服务端水平扩展变得异常简单。每个请求携带完整上下文，任何服务器实例都能独立处理。这就像优秀的函数式编程思想 - 纯函数不依赖外部状态，易于测试和并行化。

# `有状态`的设计问题
用户 -> 服务器A: 登录成功
用户 -> 服务器B: 请求数据 (B不知道用户已登录)
服务器B -> 用户: 请先登录

# `无状态`的优雅
用户 -> 任意服务器: 请求 + Token
任意服务器 -> 用户: 响应数据

文本协议的智慧

用户报告上传文件时偶尔失败的抓包：

POST /upload HTTP/1.1
Host: api.example.com
Content-Type: multipart/form-data; boundary=----WebKitFormBoundary7MA4YWxkTrZu0gW
Content-Length: 1024000
------WebKitFormBoundary7MA4YWxkTrZu0gW
Content-Disposition: form-data; name="file"; filename="document.pdf"
Content-Type: application/pdf

[二进制数据]
------WebKitFormBoundary7MA4YWxkTrZu0gW--

边界字符串的错误立即显而易见。如果是二进制协议，可能需要专业的解析工具才能发现问题。

文本协议牺牲了少量性能，但获得了无与伦比的调试便利性。这是一个典型的性能与可维护性的权衡。

分层架构的思想

HTTP 延续了 TCP/IP 的分层哲学，每一层都有明确的职责。这种分层不是随意的技术划分，而是对复杂性的优雅管理。HTTP 站在 TCP 的肩膀上，专注于应用层语义，让专业的层做专业的事。

深入 CORS：同源策略

为什么需要同源策略？

同源策略是 Web 安全的基石，它源于一个深刻的洞察：浏览器中的代码运行在用户环境中，而不是开发者环境中。

设想没有同源策略的世界：

恶意网站可以读取你的银行余额
攻击者可以以你的名义发送邮件
任何网站都能访问你的内部系统

CORS 不是限制，而是一种保护机制。

CORS 预检请求

CORS的预检请求设计的智慧：

# 简单请求 - 直接发送
GET /api/data HTTP/1.1
Origin: https://example.com

# 复杂请求 - 先预检
OPTIONS /api/data HTTP/1.1
Access-Control-Request-Method: PUT
Access-Control-Request-Headers: Content-Type, X-Custom-Header

# 服务器响应
HTTP/1.1 204 No Content
Access-Control-Allow-Origin: https://example.com
Access-Control-Allow-Methods: PUT
Access-Control-Allow-Headers: Content-Type, X-Custom-Header

预检请求体现了一种”先询问，后行动”的安全哲学，它避免了对服务器的意外修改，特别是对于可能有副作用的请求。

CORS 与 CSRF

在理解了CORS后，重新审视了CSRF（跨站请求伪造）防护。这两个概念经常让开发者混淆，但它们解决的是不同层面的安全问题。

# CORS解决的问题：是否允许跨域读取响应
浏览器 -> A站点: 从B站点获取数据
B站点 -> 浏览器: 这里是你请求的数据
浏览器 -> A站点: 根据CORS配置决定是否提供数据

# CSRF解决的问题：是否执行跨域状态改变操作
用户 -> 银行站点: 登录
攻击者站点 -> 用户浏览器: 发送转账请求到银行
用户浏览器 -> 银行站点: 携带用户凭证的转账请求
银行站点: 根据CSRF Token验证请求的合法性

CORS控制的是信息的读取权限，CSRF防止的是未授权的状态改变，这两种机制相互补充，共同构建了 Web 应用的安全防线。

HTTP 性能优化

连接复用

HTTP/1.0 时代，每个资源都需要新建一个 TCP 连接。这种设计在网页简单时是合理的，但随着网页复杂度增加，性能问题凸显。

连接复用的核心思想是”连接即资源”，应该被珍惜和重用。

# HTTP/1.0 - 每个请求新建连接
域名解析 -> TCP连接 -> HTTP请求 -> HTTP响应 -> TCP断开
域名解析 -> TCP连接 -> HTTP请求 -> HTTP响应 -> TCP断开
域名解析 -> TCP连接 -> HTTP请求 -> HTTP响应 -> TCP断开

# HTTP/1.1 Keep-Alive - 连接复用
域名解析 -> TCP连接 -> HTTP请求 -> HTTP响应
                    -> HTTP请求 -> HTTP响应
                    -> HTTP请求 -> HTTP响应 -> TCP断开

这种优化看似简单，但背后体现了对资源利用效率的深刻思考。任何优化都是权衡，没有银弹。

缓存策略

HTTP缓存可能是 Web 性能优化中最被低估的特性。深入理解 ETag、Last-Modified、Cache-Control 的交互机制，让你更懂HTTP缓存策略。

# 强缓存 - 客户端直接复用，不发送请求
Cache-Control: max-age=3600
Expires: Wed, 21 Oct 2025 07:28:00 GMT

# 协商缓存 - 客户端发送验证请求
If-Modified-Since: Wed, 21 Oct 2025 07:00:00 GMT
If-None-Match: "5d8c72a5edda3"

# 服务器响应
HTTP/1.1 304 Not Modified
# 或
HTTP/1.1 200 OK
ETag: "5d8c72a5edda3"
Last-Modified: Wed, 21 Oct 2025 07:28:00 GMT

缓存策略的本质是”空间换时间”的经典算法思想在网络协议中的应用。

压缩算法

Gzip 压缩是另一个 HTTP 特性。让我们感受一下压缩前后的数据对比：

# 原始响应
Content-Type: application/json
Content-Length: 10240
{"users":[{"id":1,"name":"Alice","email":"alice@example.com"},...]}

# 压缩后响应
Content-Type: application/json
Content-Encoding: gzip
Content-Length: 1240
[二进制压缩数据]

约 90%的压缩率！ 但是它需要 CPU 资源，会增加服务器响应延迟。这是 HTTP 设计的另一个哲学：协议应该提供机制，而不是策略。

HTTP/2 和 HTTP/3

HTTP/2 的多路复用

HTTP/1.1 的管道化（Pipelining）尝试解决并行请求问题，但因为队头阻塞（Head-of-line Blocking）而失败。HTTP/2 的多路复用用全新的思路解决了这个问题：

# HTTP/1.1 - 队头阻塞问题
请求1 -> 响应1 (慢)
请求2 -> 等待响应1完成
请求3 -> 等待响应2完成

# HTTP/2 - 真正的多路复用
流1: 请求1 -> 响应1片段
流2: 请求2 -> 响应2片段
流3: 请求3 -> 响应3片段
流1: 响应1片段
流2: 响应2片段

多路复用的思想突破在于：把请求-响应对抽象为独立的”流”，在单一连接上交错传输。

HTTP/3 的 QUIC

深入研究 QUIC 协议：

# TCP的队头阻塞问题
TCP数据包1 -> 丢失
TCP数据包2 -> 必须等待数据包1重传
TCP数据包3 -> 必须等待数据包1重传
应用层: 全部阻塞

# QUIC的流级隔离
QUIC流1数据包 -> 丢失，只影响流1
QUIC流2数据包 -> 正常传输，不受影响
QUIC流3数据包 -> 正常传输，不受影响
应用层: 流2和流3正常进行

QUIC 的核心思想是：在 UDP 之上重新实现 TCP 的可靠传输特性，但解决 TCP 的固有问题。

QUIC 的 0-RTT 连接建立：

# TCP+TLS 1.3 - 至少2-RTT
客户端 -> 服务器: TCP SYN
服务器 -> 客户端: TCP SYN+ACK
客户端 -> 服务器: TCP ACK + TLS ClientHello
服务器 -> 客户端: TLS ServerHello + 数据

# QUIC - 0-RTT恢复连接
客户端 -> 服务器: 初始包 + 请求数据
服务器 -> 客户端: 响应数据

这种优化背后的思想是：利用之前连接的”记忆”跳过不必要的握手步骤。

协议演进的统一思想

回顾 HTTP 的演进历程：

HTTP/1.0 到 HTTP/1.1：连接的复用和优化
HTTP/1.1 到 HTTP/2：应用层并行的突破
HTTP/2 到 HTTP/3：传输层问题的根本解决

每一代协议的优化都针对上一代的核心痛点，但保持了应用层语义的兼容性。

HTTP 协议的永恒思想

分层与抽象

HTTP 协议的设计体现了计算机科学中的一个核心思想：通过分层抽象管理复杂性。

应用层: HTTP语义 - URL、方法、状态码、头部
传输层: TCP/QUIC - 可靠传输、流量控制、拥塞避免
网络层: IP - 路由、寻址、分片
链路层: Ethernet/WiFi - 帧传输、错误检测
物理层: 电缆/光纤 - 比特传输

每一层都有明确的职责和边界，上层不需要了解下层的实现细节。

机制与策略分离

HTTP协议很少规定具体的使用策略，而是提供灵活的机制让应用层决定。

缓存：HTTP 定义了缓存机制，但具体缓存策略由应用决定
压缩：HTTP 支持多种压缩算法，选择合适的算法是应用的责任
认证：HTTP 提供认证框架，具体认证方式可以自定义
安全：HTTP 可以升级到 HTTPS，但是否升级由应用决定

这种分离让 HTTP 协议既强大又灵活，能够适应各种应用场景。

向后兼容

HTTP 协议的一个重要特点是极强的向后兼容性。HTTP/2 和 HTTP/3 都能在必要时优雅降级到 HTTP/1.1，这保证了互联网的稳定发展。

HTTP/2服务器 -> 客户端: 我能支持HTTP/2
HTTP/2客户端 -> 服务器: 好的，我们用HTTP/2

HTTP/2服务器 -> 老旧客户端: 我能支持HTTP/2
老旧客户端 -> 服务器: 我不懂HTTP/2，用HTTP/1.1吧
服务器 -> 老旧客户端: HTTP/1.1 200 OK

系统升级应该渐进式，而不是革命式。

总结

HTTP 协议的核心特性：

简单性 - 无状态设计
抽象分层 - TCP/IP 分层
向后兼容 - 协议演进
机制与策略分离 - 缓存、压缩等
安全性 - CORS、HTTPS
性能优化 - 连接复用、缓存、压缩

HTTP 不仅是一个协议，更是一种思维方式，一套解决复杂问题的哲学体系。

“完美不是指不能再增加什么，而是指不能再减少什么。” - 安托万·德·圣埃克苏佩里