最近读了《图解 TCP/IP》这本书,重新理解了大二囫囵吞枣,应付考试而学习的“计算机网络”和 “TCP/IP” 这两门课中一些未理解的知识,和疑惑的问题。

网络基础

OSI 七层模型

TCP/IP:定义了数据链路层以上的协议,包括网络层、传输层、应用层(会话层以上都包括)

网络层

网络层只关心起终点的整体传输(路由和寻址),数据链路层关心每一个设备间的传输。

IP(Internet Protocol)

Q:IP 为何面向无连接?

A:1.简化 2.提速 3.为上层提供自定义

IP 寻址

IP 地址=网络标识+主机标识

Q:如何确定网络标识位数?

A:IP 分类(传统 ABCD)或子网掩码来划分

路由控制

指明 IP 包的下一跳路由,用路由控制表保存信息。

形成方式

路由聚合:多个子网掩码对外呈现同一网络地址,减少路由表条目

Q:0.0.0.0/0,IP地址/32,127.0.0.1分别是什么意思?

A:

1. 代表默认路由,路由表中任意的地址都能和它匹配,并不是一个 IP 地址(IP 地址应标识为 0.0.0.0/32)。匹配不到的都走默认路由。在家用路由器中用来描述 Internet 上所有的路由从而不用存储所有路由。
2. 代表主机路由,所有位都参与路由,代表某一个主机的唯一路由。可用于匹配家用路由器的默认路由的寻找。
3. 代表环回地址,同一计算机内的网络通信的本地默认地址,数据不会被流向网络。

IP 包的分割和重组

在发送端和路由根据每段链路的 MTU 进行分片,接收端进行重组。

Q:为何传输过程需要分割数据包?

A:因为每种数据链路中的 MTU(Max Transfer Unit,最大传输单元)各不相同

Q:为何只在接收端而不在途中重组?

A:

1. 无法保证分片在同一路径传输
2. 分片可能丢失 
3. 可能之后还需要重新分片

分片机制的不足之处

路径 MTU 发现

先获取整个路径中数据链路的最小 MTU,发送端按照这个 MTU 分片

工作原理:

1. 先设置 IP 包禁止分片
2. 发送并在丢弃时(说明包 MTU 过大)将当时可最大的 MTU 用 ICMP 不可达消息返回
3. 设置包 MTU 为 ICMP 返回的 MTU 并重新循环上述步奏,直到无 ICMP 返回

IPv6

特点:

DNS(Domain Name System)

将域名解析成 IP。

各个域的分层有对应的域名服务器,像树一样连接分层,分别可以解析对应域名的 IP。

工作原理:

1. 查询时先向该域内的域名服务器A查询,
2. 域名服务器 A 从下至上找到根域名服务器,
3. 根域名服务器再从上往下找到对应的域名服务器 B 地址并返回给域名服务器 A
4. A 向 B 查询域名的 IP 地址并返回。

主要是用 UDP,用于查询,现在同时支持 TCP 和 UDP。

UDP

TCP

ARP(Address Resolution Protocol)

通过目标 IP 地址定位下一个接收的网络设备 MAC 地址。分为请求和响应两部分。一般获取到 Mac 地址后会缓存一段时间。

ICMP(Internet Control Message Protocol)

主要功能

主要类型包括:目标不可达、重定向、超时、回送(Ping 命令)

DHCP(Dynamic Host Configuratin Protocol)

为主机自动设置 IP 地址和统一管理 IP 地址分配。

工作原理:

1. 发送 DHCP 发现包(目标地址广播,源地址未知),请求网络设置(IP 地址和子网掩码等)
2. DHCP服 务器返回可使用的网络设置
3. 发送 DHCP 请求包(目标地址广播,源地址未知),通知想要应用该网络设置
4. DHCP 服务器通知允许应用该设置

Q:为什么需要第二次通知和确认设置?

A:DHCP 服务器的可分配目标地址可被管理员设置,二次确认可保证即使被重复的设置后也可以正常工作

Q:为什么 DHCP 服务器分配IP地址前发送 ICMP、客户端应用获得的 IP 地址发前送 ARP 请求?

A:确认无返回应答从而检查 IP 地址是否可用,DHCP 服务器发送 ICMP 是因为服务器少于客户端,ICMP 速度更快,也不需要关心 Mac 地址

NAT(Network Address Translator)

用于将局域网中私有地址转换为全局 IP 地址的技术。

通过 NAT 路由器中维护一张自动生成的用来转换地址的表。

不同的内网主机可通过 NAPT(Network Address Ports Translator)技术包含端口号一起转换。

IPv4 和 IPv6 转换也可通过相关技术 NAT-PT 和 NAPT-PT 来实现

不足之处:

解决方式:IPv6 或 NAT 穿透

IP 隧道

在网络层首部后面继续追加网络层首部的通信方式

传输层

传输层通过端口号标识请求发送给哪一个应用程序的守护进程(对消息进行监听)。

标识唯一的通信的要素:源 IP、目标 IP、源端口号、目标端口号、协议号

UDP(User Datagram Protocol)

面向无连接和基于包的通信,不保证通信可靠,不负责丢包重发等。

主要用于高速传输和实时性要求较高的通信或广播:

TCP(Transmission Control Protocol)

面向连接和基于字节流的通信,对传输、发送、通信进行控制,尽量保证通信可靠。

特点:通过序列号和确认应答(ACK)

Q:序列号作用是?

A:确认应答在途中被丢弃或者延迟到达,导致进行多次重传相同数据。序列号定义后可在确认应答中将下个应该发送的序列号带上,保证下次发送的是正确的。

Q:超时重发如何确定?

A:每次计算往返时间(RTT,Round Trip Time)和偏差(抖动值)相加并稍大一点。

Q:什么是 Socket?

A:操作系统对 TCP 协议族封装开放的一组操作 API,如 Listen,Accept,Send,Write,Read,Connect,Create 等。

TCP 连接建立和断开

设计思想我个人总结是:一次请求对应一次应答,客户端和服务端都需要进行请求

Q:为啥建立连接是三次握手?

A:首先这三个包分别是

1. 客户端的请求(建立连接)
2. 客户端请求的应答+服务端请求 (建立连接)
3. 服务端请求的应答

也就是中间那个包实际上包含两个功能。

客户端和服务端都需要请求是因为建立连接前,两端配置(比如序列号)需要协商同步

而三个包则是满足以上两个条件的最小数字

Q:三次握手第三次失败了怎么办?

A:这时客户端已经进入 Established 状态,ACK 若丢失并超时,服务端尝试重新发送(默认次数为 5),间隔 1 秒开始,每次是前一次的 2 倍。若还未响应,则服务端会关闭连接。之后客户端向服务端发包,服务端则用 RST(Reset)包回应告知错误,防止 SYN 洪泛攻击(不断向服务器建立半连接而不确认使服务器不断重发 ACK 消耗服务器资源)。

Q:为啥断开连接是四次挥手?

A:把步骤 2 拆开了,因为被动方不一定已经做好了断开的准备。

Q:四次挥手第四次失败了怎么办?

A:最后一个 ACK 发送后,主动请求一方会进入 TIME_WAIT 状态,等待 2MSL(Maximum Segment Lifetime)后才进入 CLOSE 状态。被动方可在此时间内重发 ACK,来尽可能确保最后一个 ACK 送达。

TCP 窗口

每个请求包对应一个应答会随着数量增大和往返时间增长性能降低。

所以不需要每个包对应一个应答,而是以一个更大的单位。

窗口表示某些连续的包的集合,大小为无需确认应答而可以继续发送的最大值。

窗口需要缓存整个窗口的数据避免有一部分需要重传,直到收到应答后才可清除缓存。

Q:为何需要滑动窗口?

A:滑动窗口是指收到应答后将窗口滑动到确认应答里的序列号的位置。

Q:为何需要快速重传?

A:快速重传是指连续收到三次序号一致的之前序号应答后直接重传。因为丢失某个包后,后面的包也在窗口内所以也发送出去,此时会收到多次之前丢失包序号的应答,而不需要超时等待。之所以是三次参见 链接

窗口大小控制

过大容易造成接收方缓存区数据溢出,丢弃后造成无意义重传。

通过 TCP 首部的值进行动态大小控制。

Q:为何需要发送窗口探测包?

A:接收方缓存区即将满后会暂停接收并通知发送方暂停发送(窗口大小为 0)。接收方可以重新开始接受时发送一个窗口更新包通知。避免此包丢失导致通信无法重新开始,发送端时不时发送窗口探测包来获取最新的窗口大小信息。

Q:TCP 粘包是什么?

A:由于 TCP 是基于字节流协议,没有定义消息边界,发送方后一包的头紧接着前一包的尾,粘成一包。TCP 的设计使发送方可能上个确认才发下个并且确认时一起发送,接收方先缓存再读取。

拥塞控制

连接建立初期,突然发送大量数据容易造成网络瘫痪。

调节拥塞时发送大小的量,定义了“拥塞窗口”,让发送方窗口大小等于拥塞窗口。

设计思想:无拥塞则调大拥塞窗口,拥塞时马上减小窗口

慢启动算法:

1. 将拥塞窗口设置为 1 个 MSS(Maximum Segment Size,最大数据段)
2. 开始窗口指数增长到慢启动阀值(第一次无限制)
3. 到达慢启动阀值后改为线性增长(除第一次)
4. 一旦发生超时则将慢启动阀值设置成当时的拥塞窗口大小的一半,并重新步骤 1
5. 一旦发生重复确认应答则将慢启动阀值设置成当时拥塞窗口的一半,之后将拥塞窗口设置为慢启动阀值大小 +3MSS,并重新步骤 3

TCP 性能

应用层

WWW基本概念

WWW=信息手段和位置-URI(Uniform Resource Identifer)+信息表现形式-HTML(HyperText Markup Language)+ 信息转发-HTTP(HyperText Transfer Protocol)

HTTP

主要有八种方法,常用的是 GET 和 POST

Q:HTTP 1.0、1.1、2.0、3.0 的不同之处?

A:

Q:GET 和 POST 的不同之处?

A:设计的定义不同之处

常用状态码

2XX:成功
3XX:重定向
4XX:客户端失败
5XX:服务器失败

HTTP 是一种无状态的连接,客户端每次读取时,服务器都会认为这是一次新的会话。有时候需要持久保持某些信息,这些信息就由 Cookie 和 Session 保存。

Cookie 保存在客户端上,而 Session 则保存在服务器中。

当服务端接收到 Cookie 后,根据 SessionID 来查找。如果没有,则会生成一个新的 SessionID 发送给客户端。

HTTPS

HTTP 协议在安全上存在三个风险:

针对这三个风险,HTTPS 分别做了处理:

加密方式

TLS(SSL 3.0)

  1. Client 发送给 Server
    • 协议配置
    • 支持的加密算法
    • 生成的随机数 A
  2. Server 将自己的公钥(RSA) hash 后让 CA 的私钥加密生成数字证书
  3. Server 发送给 Client
    • 数字证书
    • 协商的协议配置
    • 加密算法
    • 生成的随机数 B
  4. Client 用 CA 的公钥解密并比对确认,获得 Server 公钥
  5. Client 生成随机数 C,用 Server 公钥加密后发送给 Server
  6. Server 用私钥解密,获得随机数 C
  7. 双方均有随机数 A、B、C,生成对称加密的对话密钥(AES)
  8. 开始使用对话密钥通信

Q:为什么需要三个随机数?

A:

  1. 需要随机数来使生成密钥随机性
  2. 不能信任任何一端给出的随机数,三个可以增高概率

浏览器输入 URL 之后发生了什么

  1. URL 检查(解析,缓存)
  2. DNS 查询(多级缓存,DNS 树查询)
  3. HTTP 请求(多层头封装,建立连接,查询目标地址)
  4. 经过路由器,运营商等网络硬件中转
  5. 防火墙,缓存服务器
  6. 到达服务器处理

最后

TCP/IP 每层都设计得巧妙,实用。了解了 TCP/IP 之后,对网络问题的思考会更加透彻。