OS COW Fork 原理图解

Fork 是一个非常重要的系统调用，它允许创建一个与当前进程（称为父进程）完全相同的子进程。这意味着子进程拥有与父进程相同的内存空间、文件描述符、打开文件、当前工作目录等属性。

Fork 的作用和使用场景

Fork 的作用:

创建新进程: 最常见的是用于创建新进程。子进程可以执行不同的代码，并与父进程并行运行。
实现多进程: 通过 fork 和 execve 函数可以实现多进程编程，例如创建多个子进程来执行不同的任务。
提高程序鲁棒性: 可以通过 fork 创建子进程来执行一些危险的操作，即使子进程失败，也不会影响父进程。
代码复用: 可以通过 fork 创建子进程来复用代码，例如创建多个子进程来处理不同的网络连接。

使用场景:

1. 创建简单的子进程

例如，创建一个子进程来执行一个耗时的任务，父进程可以继续执行其他任务，而不用等待子进程完成。

#include <stdio.h>
#include <unistd.h>

int main() {
  pid_t pid = fork();

  if (pid == 0) {
    // 子进程代码
    // 执行耗时的任务
    for (int i = 0; i < 100000000; i++) {}
    printf("The child process has finished.\n");
  } else if (pid > 0) {
    // 父进程代码
    printf("The child process has been created.\n");
    // 父进程可以继续执行其他任务
  } else {
    // fork 失败
    printf("Fork failed!\n");
  }

  return 0;
}

输出:

The child process has been created.
The child process has finished.

2. 使用 fork 和 execve 创建新的命令行程序

例如，创建一个子进程来执行 ls 命令，列出当前目录下的所有文件。

#include <stdio.h>
#include <unistd.h>

int main() {
  pid_t pid = fork();

  if (pid == 0) {
    // 子进程代码
    execve("/bin/ls", NULL, NULL);
  } else if (pid > 0) {
    // 父进程代码
    printf("The child process has been created.\n");
  } else {
    // fork 失败
    printf("Fork failed!\n");
  }

  return 0;
}

输出:

The child process has been created.

3. 使用 fork 创建守护进程

例如，创建一个守护进程来监控系统日志。

#include <stdio.h>
#include <unistd.h>
#include <stdlib.h>

int main() {
  pid_t pid = fork();

  if (pid == 0) {
    // 子进程代码
    // 将子进程变为守护进程
    setsid();
    // 关闭所有打开的文件描述符
    for (int i = 0; i < 1024; i++) {
      close(i);
    }
    // 进入后台运行
    while (1) {
      // 监控系统日志
      sleep(1);
    }
  } else if (pid > 0) {
    // 父进程代码
    printf("The daemon process has been created.\n");
    exit(0);
  } else {
    // fork 失败
    printf("Fork failed!\n");
  }

  return 0;
}

输出:

The daemon process has been created.

总结:

Fork 是一个非常强大的系统调用，它可以用于创建新进程、实现多进程、提高程序鲁棒性、代码复用等。在实际应用中，fork 可以用于各种场景，例如创建子进程来执行耗时的任务、创建新的命令行程序、创建守护进程等。

注意:

Fork 之后，父进程和子进程会共享相同的内存空间，因此需要谨慎修改内存数据，否则可能会导致意外的结果。
使用 fork 创建子进程后，需要使用 wait 或 waitpid 函数来回收子进程的资源。

传统 fork 的问题和 COW fork 的解决方案

传统 fork 的问题:

不必要的复制: 传统 fork 方法，例如 xv6 Unix fork 和 dumbfork()，会将整个父进程地址空间复制到子进程中，即使子进程不需要它。这是低效和耗时的，特别是在子进程在 fork 后不久使用 exec 替换其内存的情况下。
资源浪费: 复制的数据可能永远不会被子进程使用，导致内存和 CPU 资源浪费。

COW fork 的解决方案:

最初共享内存: COW (copy-on-write) 允许父进程和子进程最初共享相同的内存映射，而不是预先复制数据。这消除了 fork 过程中的不必要复制。
仅在写入时复制: 当任何一个进程尝试写入共享页面时，会发生页面错误。然后内核为修改进程创建一个私有的可写页面副本。这确保每个进程只为其实际修改的内存付费。

COW fork 的优点:

更快的 fork: 大大减少了 fork 操作所需的时间和资源，特别是在子进程中紧接着 exec 的情况下。
高效的内存使用: 避免不必要的复制和内存分配。
灵活性: 允许各个用户模式程序定义自己的 fork 语义，如果需要，可以启用不同的内存共享策略。

在用户空间实现 COW fork:

简化内核，因为复杂的内存管理逻辑由用户空间库处理。
为程序选择首选 fork 行为提供灵活性。

总结:

COW fork 通过延迟内存复制直到实际需要，来解决传统 fork 的效率低下问题，从而导致更快的进程创建和更好的资源利用。此外，在用户空间实现它为自定义 fork 行为提供了灵活性。

COW Fork 的内存布局图解

父进程:

[Heap]
[Stack]
[Code]
[Data]

子进程:

[Heap]
[Stack]
[Code]
[Data] (**完全复制自父进程**)

问题:

子进程可能不需要父进程的所有数据，例如代码段和只读数据段。
复制整个地址空间需要时间和资源，特别是在子进程很快被 exec 替换的情况下。

改进:

使用 COW fork 可以避免不必要的复制，如下图所示：

父进程:

[Heap]
[Stack]
[Code]
[Data] (**只读**)

子进程:

[Heap]
[Stack]
[Code]
[Data] (**指向父进程的只读数据**)

COW fork 内存布局:

父进程和子进程共享代码段和只读数据段，无需复制。
子进程的堆和栈是私有的，可以根据需要进行修改。
当子进程尝试写入共享数据段时，会发生页面错误，内核会为子进程创建私有的可写数据页。

优点:

提高 fork 效率，减少资源消耗。
仅复制实际需要的数据，节省内存空间。

COW fork 是一种更有效、更灵活的 fork 方法，适用于大多数应用程序场景。

everystep

Fork 的作用和使用场景

传统 fork 的问题和 COW fork 的解决方案

COW Fork 的内存布局图解