PHP进程分支设计

PHP是一门适合WEB的快速编程语言,之所以目前PHP能够占据web的半壁江山,和它的便捷离不开,对于使用者而言,不必过多的去纠结它的实现,而只需要告诉程序做什么即可。比如,在Java中this很复杂,内存很复杂,而在php中,我们很少用到和内存、指针相关的东西,对于程序而言,不同的去指引它完成目标即可。

问题的产生

但是,当基于php的大型项目出现的时候,程式化的php编程就显得在一些方面显得不足,性能上比较弱,内存管理上的不足,以及最坑的是不支持多线程。

我们来看一段javascript代码:

var time = 300;
var timer = setInterval(function(){
    if(time <= 0)
        clearInterval(timer);
    console.log(time);
    time --;
},1000);

// 其他代码

上面这段代码,可以确保从300秒开始倒计时,最终time为0时停止。

但setInterval里面的function并不会马上执行,而是等上1秒以后在执行,而注释处的其他代码并不会等这一秒钟过去后再执行,而是执行完setInterval之后立即执行。

在php内,有一个sleep()函数,可以让程序等上1秒后再执行,但是其后的所有的代码,都必须等上这1秒。这种执行方式,被成为阻塞式。

同步、异步

首先,我们来看下同步、异步的概念。

同步:所谓同步,就是在发出一个功能调用时,在没有得到结果之前,该调用就不返回。

异步:发出一个功能调用时,不必得到结果,继续往下处理。当一个异步过程调用发出后,调用者不会立刻得到结果。实际处理这个调用的部件是在调用发出后,通过状态、通知来通知调用者,或通过回调函数处理这个调用。

我们下面用代码来演示一下:

/* 同步 */
function send() {
    $result = mail('mail_to','subject','content'); // 调用,当mail函数没有得到结果时,不会执行下面的return
    return $result;
}
send(); // 调用,当send()函数没有得到结果时,不会执行下面的while
while(1) {}

可以看到,同步这种编程机制是大部分程序的一种机制,因为后面的代码往往依赖于前面的代码结果,所以同步也是我们最常遇见的一种编程机制。下面我们用javascript来演示一下异步的情况:

/* 异步,基于jquery */
var ajax;
ajax = $.ajax({ // 调用,并不会立即执行内部调用,而是发出请求,发出完请求后不用得到url返回的结果,就会立即往下执行while
    url : 'url',
    type : 'post',
    success : function(result) {}, // 回调,当得到结果时,通过传入一个回调函数,再对返回的结果进行处理,其发生的时间与发出ajax请求的时间没有严格的先后顺序,也就是说如果机子性能OK的话,在下面的while循环过程中,如果ajax请求得到的最终数据结果,那么会执行这个函数内的动作
    error : function(s,x) {},
    complate : function() {}
});
whie(1) {}

可以看到,异步操作有几个特点:1. 在时间上,异步调用仅消耗发出请求的时间,请求发出后这个操作在时间上就结束。2. 必须有回调。

我们在php开发的时候也有异步操作,但是一般都是通过url回调实现的。举一个实际中的开发案例,当我们使用支付宝SDK进行支付相关开发时,通过SDK中的一些类构建支付信息,并将该信息提交到支付宝服务器(发出请求),不过这个时候,支付宝服务器会返回一个提交成功的信息给自己的服务器,你就可以继续往下操作。在这个过程中没有异步发生。当你的用户支付了这个订单,支付宝服务器就会请求你提交的回调地址,而你则通过这个回调url所支持的php,实现回调操作。这整个过程中,你的支付过程并没有要求必须得到支付成功(或失败)的结果数据,而是通过回调地址来接收结果数据。因此,这个场景也是一个异步操作。只不过,这不是由一段程序完成的,而是多个php程序协同完成的,而且在程序设计中,必须考虑用户的操作习惯和耐心。

阻塞、非阻塞

阻塞和非阻塞,是对于程式而言的一种机制。

阻塞:一个调用未得到结果时,该线程被挂起,直到得到结果时再往下执行。

非阻塞:一个调用无论是否得到结果,该线程不受影响,程序继续执行。

我们用代码来进行演示:

/* 阻塞 */
function curl_get($url) {
    $ch = curl_init($url) ;  
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, true) ;
    curl_setopt($ch, CURLOPT_BINARYTRANSFER, true) ;
    $result = curl_exec($ch) ;
    return $result;
}
$data = curl_get('your_api_url');
$data = json_decode($data);
// ...

上面这段代码中,使用curl获取api接口返回的数据,当程式进展到获取数据这个位置的时候,线程被挂起,直到获取api接口返回数据,并被赋值给$data,才继续往下执行。

/* 非阻塞 */
function sock_get($url) {
  $host = parse_url($url,PHP_URL_HOST);
  $port = parse_url($url,PHP_URL_PORT);
  $port = $port ? $port : 80;
  $scheme = parse_url($url,PHP_URL_SCHEME);
  $path = parse_url($url,PHP_URL_PATH);
  $query = parse_url($url,PHP_URL_QUERY);
  if($query) $path .= '?'.$query;
  if($scheme == 'https') {
    $host = 'ssl://'.$host;
  }

  $fp = fsockopen($host,$port,$error_code,$error_msg,1);
  if(!$fp) {
    return array('error_code' => $error_code,'error_msg' => $error_msg);
  }
  else {
    stream_set_blocking($fp,0);//开启了手册上说的非阻塞模式
    stream_set_timeout($fp,1);//设置超时
    $header = "GET $path HTTP/1.1\r\n";
    $header.="Host: $host\r\n";
    $header.="Connection: close\r\n\r\n";//长连接关闭
    fwrite($fp, $header);
    usleep(1000); // 这一句也是关键,如果没有这延时,可能在nginx服务器上就无法执行成功
    fclose($fp);
    return array('error_code' => 0);
  }
}
while(1) {
    if(file_exists('switch')) {
        sock_get('your_corn_url');
        sleep(60);
    }
}

这是参考php手册中实现的一个非阻塞模式的实现方法,不过,其中需要注意的一个地方是usleep(1000);实际上,这一句是不应该出现的,加上这一句,函数仍然会挂起0.1秒,就不是非阻塞模式了,但是,为了兼容一些情况,这里仍然加上它,但是,这和抓取接口数据,得到结果相比,只需要发出请求所消耗的时间可谓少之又少。

同步、异步和阻塞、非阻塞的区别

同步、异步形容的是调用的形式,阻塞、非阻塞形容的是调用的状态。一般同步和阻塞比较容易令人混淆,为了区分这两组概念,我们通过对同一段代码的不同角度来看的方式进行阐述。

先看上文的第二段代码,从send()函数的调用来看,调用send()函数的形式我们采用同步调用,而在程式执行过程中,send()函数必须返回结果才能继续往下执行,在执行send()函数的过程中调用mail()函数,线程是挂起的,我们称这种进程状态为阻塞模式,而这种调用也可以成为阻塞调用,因此可以看出,同步强调的是怎么调用(形式),而阻塞强调调用状态。

再看上文提到的支付包SDK支付的例子。从功能的实现形式来看,它是异步调用,但是从程式的状态来看,它则是阻塞模式,因为在支付的时候,必须得到支付宝服务器端的返回数据,我们的服务器才能知道支付是否成功,进而做下一步判断。再看jquery中的$.ajax(),从调用形式上看,它的异步调用,无需立即得到结果,而是通过回调函数来执行异步得到结果时的动作;从程式的状态来看,它是非阻塞模式,在程式执行过程中,无论$.ajax是否得到结果,其下方的代码都会立即执行。

PHP中进程分支

首先,什么是进程分支,它要解决什么问题?

分支的概念,在我们了解git的之后,应该都是理解的。进程分支就是和这种分支概念是一样的,但是在操作上并没有那么复杂。php中本身是没有这种进程分支的,因此要我们自己来设计。它和多进程是不同的两种思路,多进程是指多管齐下,而且各个进程之间可以相互通信。但是进程分支强调的是,从一个主进程分出一个支进程,完成特定的任务,在必要的情况下,又重新合并到主进程,主进程和支进程之间可能存在一定的数据依赖关系,如下图:

主分支
|
| \
|   \
|     \
|      支进程
|        |
|    得到数据
|       /
|    /
| /
|
主进程

上图描述的是一种特殊的进程分支状态,用来回答进程分支可以解决什么问题。在我们以往所有的php异步实现中,必须依赖两段几乎完全分离的代码来实现,异步回调都是必须新起一段代码,无论是在同一个php文件中通过url参数来进行判断,还是另外写一个新的php文件。而进程分支,主要解决的,就是php的异步回调问题。

php多进程和多线程

首先,简单区分一下进程和线程。

进程是一个程序赖以存在与内存中的基础,一个程序启动了,就会在内存中划分内存区域,保存一些变量之类的,它可能还要依赖系统环境,其他应用程序,以及cpu,这一系列的系统资源消耗的总和,被称为进程。但是,一个应用程序可以是多进程应用。单进程应用你只能开启一次,比如qq客户端,Photoshop等,而有些应用可以同时开多个,比如记事本、浏览器等,但是这并不意味着它是多进程应用,它仅仅是开启多个独立的进程来支撑其每个独立窗口的运行而已,多进程应用的意思是,开启应用之后,它会启用多个进程进行处理,也就是同一时间存在多个进程。

线程是比进程更小的单位,它是某个指令相关的一组联系较为紧密的系统资源的集合,包括该指令相关的指针、栈、寄存器、私有数据区。

一个进程可以包含多个线程,多个线程组成一个进程,进程与进程之间互不干扰(可以通信),线程与线程之间(同一进程)可以互用资源,不同进程之间的线程没有半毛钱关系。

其次,php的进程和线程。

php也是应用程序,它本身无需依赖apache或php-fpm才能运行,直接使用php也能运行我们撰写好的php文件。对于这个应用程序而言,它是单线程的,这就意味着,每一个php进程内只有一个线程。

但是,不幸的是,我们的web服务器按照自己的设定来调用php应用执行php代码,实际上,php的进程是和web服务器,apache或php-fpm等的调用来控制的。当一个用户访问url时,web服务器决定开启多少进程来执行php,一般而言,都只有一个,所以最终,httpd或php-fpm的进程数量也就变成了服务器提供的响应进程数量,也就是说后端php到底多少进程数,对于服务器而言没有多大的意义,相反httpd或php-fpm的进程数,则决定了消耗多少系统资源。

最后,php的多进程和多线程。

据了解,在php中,也有一些工具可以实现php的多进程和多线程,下面简单讨论一下。

pcntl_fork简捷的实现子进程

需要通过phpize安装pcntl模块,它可以创建子进程,并且可以根据进程情况执行不同的代码:

$pid = pcntl_fork();
if($pid > 0){
    //父进程代码
    exit(0);
} elseif($pid == 0) {
    //子进程代码
    exit(0);
}

这种情况下,你会发现httpd或php-fpm的进程会增加,也就是说,pcntl其实是通过重新开启php进程,并通过其他机制实现进程之间的通信的。

proc_open,popen也是利用httpd来实现多进程

$proc=proc_open("echo foo",  
   array(  
   array("pipe","r"),  
   array("pipe","w"),  
   array("pipe","w")  
 ),  
 $pipes);  
print stream_get_contents($pipes[1]);

利用socket来实现多线程

前面的两种都是利用第三方组件来实现,在大多数虚拟主机上是实现不了的。而大部分主机可以实现socket,简单的说就是通过php代码来再发起一个非阻塞模式的(url)请求,相当于在访客访问你写的php页面的同时,你的这个php文件中,也有一个新的访问,从而在目标页面执行另外一个任务,这也可以被认为是多进程。实际上,这个时候,也是会增加httpd或php-fpm的进程数,与上面的方法殊途同归。

多线程

PHP官方没有提供多线程的扩展,pecl中有一个pthreads扩展提供了多线程的特性,关于pthreads,可以在php官方文档具体去了解。

php异步回调

使用场景:我创建了一个自动备份的脚本,自动备份有这么几个步骤:查询数据库,并把查询结果备份为.sql文件;把这些.sql文件压缩为一个.zip;通过接口,将该.zip文件上传到云盘保存。

这个过程很消耗服务器资源,每一步都面临服务器资源耗尽而被抛出500以上的服务器错误,导致备份失败。有没有一种方法,在程序执行过程中,可以不要立即去执行上面的步骤,而是一步一步的完成,每一步基于上一步的结果,但是不在同一个进程中全部执行完,而是分阶段执行,每一个步骤执行完之后,可以释放掉内存,从而可以节省服务器资源。

如果是用户操作界面,我们可以通过javascript来控制,通过$.ajax的回调来实现。通过ajax去请求第一个步骤所在的页面,得到结果后,在回调函数中继续去请求第二个步骤所在的页面,在得到结果后,再在回调函数中去请求第三个步骤所在的页面,如此写下去。每一个ajax请求仅会调起一个php进程,上一个进程会被释放,因此执行时间仅算一个进程的,内存也会被释放掉,服务器压力就小了很多。

可是我们无法通过服务器本身来触发页面内的$.ajax请求,而php本身没有ajax的回调函数类似的操作。这才是我们本文的最终核心点,我们试图构建一个模型,可以实现类似$.ajax的回调函数一样的代码模型。

事件、监听和回调

首先,让我们通过jquery来先梳理一下事件、监听和回调的一些场景。

事件:名词,导致状态发生变化的触发。进程中任何一次变化,都有可能是事件,关键在于我们如何定义我们需要的事件。例如在jquery中click mouseenter blur scroll等等,都是事件。

监听:动词,主动监测事件是否发生。进程中的所有事件一旦发生,一定会引起一些变化,而能够监测到这些事件是否发生,需要通过我们手工去写代码来实现。例如jquery中,当click事件发生时,浏览器会得到该事件,并由jquery库中的一段代码来判断该事件是否发生。

回调:动词,当监听到事件发生时,所采取的行为。一般而言,回调通过函数实现,通过传入一个函数给监听作为参数,即可在监听到该事件时,执行该回调函数。

让我们来看下jquery中的经典代码:

$(document).ready(function(){
    $('a').on('click',function(){
        $(this).attr('target','_blank');
    });
});

上面这段jquery代码,是给a标签绑定一个事件监听的过程,其中,要监听的事件为click,当click事件发生时,执行function中的代码,而绑定使用了on(event,call_fun)来实现。

php中的事件绑定和监听

从上面这节的叙述来看,实际上,我们真正需要事件的,是事件的绑定和监听两个动作。我们来举一个例子,假如存在下面这种php代码:

<?php
$Event->on('post','call_fun');
function call_fun($post_data) { // $post_data是接收到的$_POST数据
    foreach($post_data as &$data) {
        // 对每个值进行处理
    }
    return $post_data;
}

从上面的分析我们可以这么认为:绑定了一个对post事件的监听,当post事件发生时,使用call_fun作为回调函数。

php中的钩子机制

在很多php框架中加入了钩子机制(hook),也就是在原始的完整的代码流程中,加入一些挂载点,通过在这些挂载点加入一些处理函数,实现在代码流程中自由的增加新功能。比如wordpress中的add_action和add_filter,比如thinkphp中的\Think\Hook。而这种钩子机制,完全可以实现我们上面所提出来的监听绑定和回调。

php的回调函数,可以参考这篇文章

php进程分支的最终实现

但是,最最最大的问题,在于,我们无法做到在这种钩子机制中异步回调。这是我们本文最大的问题,核心问题和终极目标。

我们仍然要回到jquery的$.ajax,我们即使有了php的钩子机制,仍然无法做到像jquery那样,非阻塞的实现异步回调。我们究竟如何来实现这个过程呢?

我专门写了一个项目,来实现这个过程,你可以在github上fork这个项目通过里面的代码来了解我的实现方法,该方法不需要特殊的服务器配置,甚至可以在大部分虚拟主机上跑。

我们来看下一个延时操作是怎么实现的:

<?php

require 'Events.php';
require 'EventListener.class.php';
$EventListener = new EventListener('timeout');
$EventListener->add('timeout','setTimeout');
function setTimeout() {
    sleep(10);
    file_put_contents('./log.txt','延时回调成功,现在时间:'.date('Y-m-d H:i:s'),FILE_APPEND);
}

// 你自己的代码流程
file_put_contents('./log.txt','延时操作开始,现在时间:'.date('Y-m-d H:i:s')."\r\n",LOCK_EX);
$EventListener->run('timeout');
// 你自己的代码流程

用上面这段代码,即可在单个php文件内部实现回调操作,而无需另外写php文件来实现,这和javascript实现setTimeout()的效果是一样的(虽机制不同)。

2016-02-18