PHP进程分支设计_唐霜的博客

PHP是一门适合WEB的快速编程语言，之所以目前PHP能够占据web的半壁江山，和它的便捷离不开，对于使用者而言，不必过多的去纠结它的实现，而只需要告诉程序做什么即可。比如，在Java中this很复杂，内存很复杂，而在php中，我们很少用到和内存、指针相关的东西，对于程序而言，不同的去指引它完成目标即可。

问题的产生

但是，当基于php的大型项目出现的时候，程式化的php编程就显得在一些方面显得不足，性能上比较弱，内存管理上的不足，以及最坑的是不支持多线程。

我们来看一段javascript代码：

var time = 300;var timer = setInterval(function(){
  if(time <= 0)
    clearInterval(timer);
  console.log(time);
  time --;
},1000);

// 其他代码

上面这段代码，可以确保从300秒开始倒计时，最终time为0时停止。

但setInterval里面的function并不会马上执行，而是等上1秒以后在执行，而注释处的其他代码并不会等这一秒钟过去后再执行，而是执行完setInterval之后立即执行。

在php内，有一个sleep()函数，可以让程序等上1秒后再执行，但是其后的所有的代码，都必须等上这1秒。这种执行方式，被成为阻塞式。

同步、异步

首先，我们来看下同步、异步的概念。

同步：所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回。

异步：发出一个功能调用时，不必得到结果，继续往下处理。当一个异步过程调用发出后，调用者不会立刻得到结果。实际处理这个调用的部件是在调用发出后，通过状态、通知来通知调用者，或通过回调函数处理这个调用。

我们下面用代码来演示一下：

/* 同步 */
function send() {
  $result = mail('mail_to','subject','content'); // 调用，当mail函数没有得到结果时，不会执行下面的return
  return $result;
}
send(); // 调用，当send()函数没有得到结果时，不会执行下面的while
while(1) {}

可以看到，同步这种编程机制是大部分程序的一种机制，因为后面的代码往往依赖于前面的代码结果，所以同步也是我们最常遇见的一种编程机制。下面我们用javascript来演示一下异步的情况：

/* 异步，基于jquery */
var ajax;
ajax = $.ajax({ // 调用，并不会立即执行内部调用，而是发出请求，发出完请求后不用得到url返回的结果，就会立即往下执行while
  url : 'url',
  type : 'post',
  success : function(result) {}, // 回调，当得到结果时，通过传入一个回调函数，再对返回的结果进行处理，其发生的时间与发出ajax请求的时间没有严格的先后顺序，也就是说如果机子性能OK的话，在下面的while循环过程中，如果ajax请求得到的最终数据结果，那么会执行这个函数内的动作
  error : function(s,x) {},
  complate : function() {}
});
whie(1) {}

可以看到，异步操作有几个特点：1. 在时间上，异步调用仅消耗发出请求的时间，请求发出后这个操作在时间上就结束。2. 必须有回调。

我们在php开发的时候也有异步操作，但是一般都是通过url回调实现的。举一个实际中的开发案例，当我们使用支付宝SDK进行支付相关开发时，通过SDK中的一些类构建支付信息，并将该信息提交到支付宝服务器（发出请求），不过这个时候，支付宝服务器会返回一个提交成功的信息给自己的服务器，你就可以继续往下操作。在这个过程中没有异步发生。当你的用户支付了这个订单，支付宝服务器就会请求你提交的回调地址，而你则通过这个回调url所支持的php，实现回调操作。这整个过程中，你的支付过程并没有要求必须得到支付成功（或失败）的结果数据，而是通过回调地址来接收结果数据。因此，这个场景也是一个异步操作。只不过，这不是由一段程序完成的，而是多个php程序协同完成的，而且在程序设计中，必须考虑用户的操作习惯和耐心。

阻塞、非阻塞

阻塞和非阻塞，是对于程式而言的一种机制。

阻塞：一个调用未得到结果时，该线程被挂起，直到得到结果时再往下执行。

非阻塞：一个调用无论是否得到结果，该线程不受影响，程序继续执行。

我们用代码来进行演示：

/* 阻塞 */
function curl_get($url) {
  $ch = curl_init($url) ;  
  curl_setopt($ch, CURLOPT_RETURNTRANSFER, true) ;
  curl_setopt($ch, CURLOPT_BINARYTRANSFER, true) ;
  $result = curl_exec($ch) ;
  return $result;
}
$data = curl_get('your_api_url');
$data = json_decode($data);
// ...

上面这段代码中，使用curl获取api接口返回的数据，当程式进展到获取数据这个位置的时候，线程被挂起，直到获取api接口返回数据，并被赋值给$data，才继续往下执行。

/* 非阻塞 */
function sock_get($url) { $host = parse_url($url,PHP_URL_HOST); $port = parse_url($url,PHP_URL_PORT); $port = $port ? $port : 80; $scheme = parse_url($url,PHP_URL_SCHEME); $path = parse_url($url,PHP_URL_PATH); $query = parse_url($url,PHP_URL_QUERY); if($query) $path .= '?'.$query; if($scheme == 'https') { $host = 'ssl://'.$host; } $fp = fsockopen($host,$port,$error_code,$error_msg,1); if(!$fp) { return array('error_code' => $error_code,'error_msg' => $error_msg); } else { stream_set_blocking($fp,0);//开启了手册上说的非阻塞模式 stream_set_timeout($fp,1);//设置超时 
 $header = "GET $path HTTP/1.1\r"; $header.="Host: $host\r"; $header.="Connection: close\r\r";//长连接关闭 fwrite($fp, $header); usleep(1000); // 这一句也是关键，如果没有这延时，可能在nginx服务器上就无法执行成功 fclose($fp); return array('error_code' => 0); }
}
while(1) { if(file_exists('switch')) { sock_get('your_corn_url'); sleep(60); }
}

这是参考php手册中实现的一个非阻塞模式的实现方法，不过，其中需要注意的一个地方是usleep(1000);实际上，这一句是不应该出现的，加上这一句，函数仍然会挂起0.1秒，就不是非阻塞模式了，但是，为了兼容一些情况，这里仍然加上它，但是，这和抓取接口数据，得到结果相比，只需要发出请求所消耗的时间可谓少之又少。

同步、异步和阻塞、非阻塞的区别

同步、异步形容的是调用的形式，阻塞、非阻塞形容的是调用的状态。一般同步和阻塞比较容易令人混淆，为了区分这两组概念，我们通过对同一段代码的不同角度来看的方式进行阐述。

先看上文的第二段代码，从send()函数的调用来看，调用send()函数的形式我们采用同步调用，而在程式执行过程中，send()函数必须返回结果才能继续往下执行，在执行send()函数的过程中调用mail()函数，线程是挂起的，我们称这种进程状态为阻塞模式，而这种调用也可以成为阻塞调用，因此可以看出，同步强调的是怎么调用（形式），而阻塞强调调用状态。

再看上文提到的支付包SDK支付的例子。从功能的实现形式来看，它是异步调用，但是从程式的状态来看，它则是阻塞模式，因为在支付的时候，必须得到支付宝服务器端的返回数据，我们的服务器才能知道支付是否成功，进而做下一步判断。再看jquery中的$.ajax()，从调用形式上看，它的异步调用，无需立即得到结果，而是通过回调函数来执行异步得到结果时的动作；从程式的状态来看，它是非阻塞模式，在程式执行过程中，无论$.ajax是否得到结果，其下方的代码都会立即执行。

PHP中进程分支

首先，什么是进程分支，它要解决什么问题？

分支的概念，在我们了解git的之后，应该都是理解的。进程分支就是和这种分支概念是一样的，但是在操作上并没有那么复杂。php中本身是没有这种进程分支的，因此要我们自己来设计。它和多进程是不同的两种思路，多进程是指多管齐下，而且各个进程之间可以相互通信。但是进程分支强调的是，从一个主进程分出一个支进程，完成特定的任务，在必要的情况下，又重新合并到主进程，主进程和支进程之间可能存在一定的数据依赖关系。

上图描述的是一种特殊的进程分支状态，用来回答进程分支可以解决什么问题。在我们以往所有的php异步实现中，必须依赖两段几乎完全分离的代码来实现，异步回调都是必须新起一段代码，无论是在同一个php文件中通过url参数来进行判断，还是另外写一个新的php文件。而进程分支，主要解决的，就是php的异步回调问题。

php多进程和多线程

首先，简单区分一下进程和线程。

进程是一个程序赖以存在与内存中的基础，一个程序启动了，就会在内存中划分内存区域，保存一些变量之类的，它可能还要依赖系统环境，其他应用程序，以及cpu，这一系列的系统资源消耗的总和，被称为进程。但是，一个应用程序可以是多进程应用。单进程应用你只能开启一次，比如qq客户端，Photoshop等，而有些应用可以同时开多个，比如记事本、浏览器等，但是这并不意味着它是多进程应用，它仅仅是开启多个独立的进程来支撑其每个独立窗口的运行而已，多进程应用的意思是，开启应用之后，它会启用多个进程进行处理，也就是同一时间存在多个进程。

线程是比进程更小的单位，它是某个指令相关的一组联系较为紧密的系统资源的集合，包括该指令相关的指针、栈、寄存器、私有数据区。

一个进程可以包含多个线程，多个线程组成一个进程，进程与进程之间互不干扰（可以通信），线程与线程之间（同一进程）可以互用资源，不同进程之间的线程没有半毛钱关系。

其次，php的进程和线程。

php也是应用程序，它本身无需依赖apache或php-fpm才能运行，直接使用php也能运行我们撰写好的php文件。对于这个应用程序而言，它是单线程的，这就意味着，每一个php进程内只有一个线程。

但是，不幸的是，我们的web服务器按照自己的设定来调用php应用执行php代码，实际上，php的进程是和web服务器，apache或php-fpm等的调用来控制的。当一个用户访问url时，web服务器决定开启多少进程来执行php，一般而言，都只有一个，所以最终，httpd或php-fpm的进程数量也就变成了服务器提供的响应进程数量，也就是说后端php到底多少进程数，对于服务器而言没有多大的意义，相反httpd或php-fpm的进程数，则决定了消耗多少系统资源。

最后，php的多进程和多线程。

据了解，在php中，也有一些工具可以实现php的多进程和多线程，下面简单讨论一下。

pcntl_fork简捷的实现子进程

需要通过phpize安装pcntl模块，它可以创建子进程，并且可以根据进程情况执行不同的代码：

$pid = pcntl_fork();
if($pid > 0){ //父进程代码
  exit(0);
}
elseif($pid == 0) { //子进程代码
  exit(0);
}

这种情况下，你会发现httpd或php-fpm的进程会增加，也就是说，pcntl其实是通过重新开启php进程，并通过其他机制实现进程之间的通信的。

proc_open，popen也是利用httpd来实现多进程

$proc=proc_open("echo foo", array(  
  array("pipe","r"),  
  array("pipe","w"),  
  array("pipe","w")
), $pipes);  
print stream_get_contents($pipes[1]);

利用socket来实现多线程

前面的两种都是利用第三方组件来实现，在大多数虚拟主机上是实现不了的。而大部分主机可以实现socket，简单的说就是通过php代码来再发起一个非阻塞模式的（url）请求，相当于在访客访问你写的php页面的同时，你的这个php文件中，也有一个新的访问，从而在目标页面执行另外一个任务，这也可以被认为是多进程。实际上，这个时候，也是会增加httpd或php-fpm的进程数，与上面的方法殊途同归。

多线程

PHP官方没有提供多线程的扩展，pecl中有一个pthreads扩展提供了多线程的特性，关于pthreads，可以在php官方文档具体去了解。

php异步回调

使用场景：我创建了一个自动备份的脚本，自动备份有这么几个步骤：查询数据库，并把查询结果备份为.sql文件；把这些.sql文件压缩为一个.zip；通过接口，将该.zip文件上传到云盘保存。

这个过程很消耗服务器资源，每一步都面临服务器资源耗尽而被抛出500以上的服务器错误，导致备份失败。有没有一种方法，在程序执行过程中，可以不要立即去执行上面的步骤，而是一步一步的完成，每一步基于上一步的结果，但是不在同一个进程中全部执行完，而是分阶段执行，每一个步骤执行完之后，可以释放掉内存，从而可以节省服务器资源。

如果是用户操作界面，我们可以通过javascript来控制，通过$.ajax的回调来实现。通过ajax去请求第一个步骤所在的页面，得到结果后，在回调函数中继续去请求第二个步骤所在的页面，在得到结果后，再在回调函数中去请求第三个步骤所在的页面，如此写下去。每一个ajax请求仅会调起一个php进程，上一个进程会被释放，因此执行时间仅算一个进程的，内存也会被释放掉，服务器压力就小了很多。

可是我们无法通过服务器本身来触发页面内的$.ajax请求，而php本身没有ajax的回调函数类似的操作。这才是我们本文的最终核心点，我们试图构建一个模型，可以实现类似$.ajax的回调函数一样的代码模型。

事件、监听和回调

首先，让我们通过jquery来先梳理一下事件、监听和回调的一些场景。

事件：名词，导致状态发生变化的触发。进程中任何一次变化，都有可能是事件，关键在于我们如何定义我们需要的事件。例如在jquery中click mouseenter blur scroll等等，都是事件。

监听：动词，主动监测事件是否发生。进程中的所有事件一旦发生，一定会引起一些变化，而能够监测到这些事件是否发生，需要通过我们手工去写代码来实现。例如jquery中，当click事件发生时，浏览器会得到该事件，并由jquery库中的一段代码来判断该事件是否发生。

回调：动词，当监听到事件发生时，所采取的行为。一般而言，回调通过函数实现，通过传入一个函数给监听作为参数，即可在监听到该事件时，执行该回调函数。

让我们来看下jquery中的经典代码：

$(document).ready(function(){
  $('a').on('click',function(){
    $(this).attr('target','_blank');
  });
});

上面这段jquery代码，是给a标签绑定一个事件监听的过程，其中，要监听的事件为click，当click事件发生时，执行function中的代码，而绑定使用了on(event,call_fun)来实现。

php中的事件绑定和监听

从上面这节的叙述来看，实际上，我们真正需要事件的，是事件的绑定和监听两个动作。我们来举一个例子，假如存在下面这种php代码：

<?php
$Event->on('post','call_fun');
function call_fun($post_data) { // $post_data是接收到的$_POST数据
  foreach($post_data as &$data) { 
    // 对每个值进行处理
  }
  return $post_data;
}

从上面的分析我们可以这么认为：绑定了一个对post事件的监听，当post事件发生时，使用call_fun作为回调函数。

php中的钩子机制

在很多php框架中加入了钩子机制(hook)，也就是在原始的完整的代码流程中，加入一些挂载点，通过在这些挂载点加入一些处理函数，实现在代码流程中自由的增加新功能。比如wordpress中的add_action和add_filter，比如thinkphp中的\Think\Hook。而这种钩子机制，完全可以实现我们上面所提出来的监听绑定和回调。

php的回调函数，可以参考这篇文章。

php进程分支的最终实现

但是，最最最大的问题，在于，我们无法做到在这种钩子机制中异步回调。这是我们本文最大的问题，核心问题和终极目标。

我们仍然要回到jquery的$.ajax，我们即使有了php的钩子机制，仍然无法做到像jquery那样，非阻塞的实现异步回调。我们究竟如何来实现这个过程呢？

我专门写了一个项目，来实现这个过程，你可以在github上fork这个项目通过里面的代码来了解我的实现方法，该方法不需要特殊的服务器配置，甚至可以在大部分虚拟主机上跑。

我们来看下一个延时操作是怎么实现的：

<?php

require 'Events.php';
require 'EventListener.class.php';

$EventListener = new EventListener('timeout');
$EventListener->add('timeout','setTimeout');

function setTimeout() {
  sleep(10);
  file_put_contents('./log.txt','延时回调成功，现在时间：'.date('Y-m-d H:i:s'),FILE_APPEND);
}

// 你自己的代码流程

file_put_contents('./log.txt','延时操作开始，现在时间：'.date('Y-m-d H:i:s')."\r",LOCK_EX);
$EventListener->run('timeout');

// 你自己的代码流程

用上面这段代码，即可在单个php文件内部实现回调操作，而无需另外写php文件来实现，这和javascript实现setTimeout()的效果是一样的（虽机制不同）。

2016-02-18 7026

唐霜的博客

PHP进程分支设计