無標題文檔

PHP 的八卦两则

PHP5.3 的 goto 语句

PHP5.3 的正式发布 ,又重新关注起其语言本身。细心的朋友可能发现,PHP5.3 增加了 goto 语句,这在结构化语言今天似乎是有点不可思议的事情。

按照官方的说法 ,其实这和我们传统理解的 goto 还是有所差别。PHP 5.3 中的 goto 语句只能在脚本文件以及上下文中跳转,因此它无法从某函数或方法跳到其他的函数或者方法 -- 这不得不让我怀疑是否是「妥协」的结果。

看来 PHP 语言的设计者对 goto 语句应用是方便从从多重循环体中跳出(在其文档中的例子也说明了这点)。但其实这功能的本身也引发了不少的争议,个人也隐约的闻到了潘多拉身上的香水味。

其实「好事者」 早在 2007 年就开始「期待」这项「新功能」 ,相信他现在会很开心。不过有趣的是这篇文章的留言给原作者泼了盆冷水。的确,goto 语句所能完成的功能,其实善用 switch 也能做到,而且更有可读性。

不过不管怎么样,语言本身仅仅是工具而已。从程序的本身角度考虑(不仅仅是 PHP),如果有过多的循环等的语块嵌套,那就说明这段代码必须需要优化了。到底应不应该使用 goto 语句,其实本人和其他的 PHP 人员也有过讨论。

最终,大家较为统一的观点就是,避免使用。

「PHP 的 10 宗罪」

老外较起真来真的非常让人受不了, 这不又有好事者总结了 PHP 语言本身语法的 「10 宗罪」 。其实,我个人这与其称为「Mistake」,还说是 PHP 提供的「美丽的陷阱」。

例如,文中提到的有关单引号和双引号的变量转义问题。其实这一争论的声音从学 PHP 起就在耳畔充斥。甚至记得当年还有道经典的面试题,就是考单引号和双引号的的速度孰快 -- 回过头来看,这论点就犹如此道面试题一样,是没有任何的意义的。

但这不代表文中的些「Mistake」都可以当作笑谈,有些是的确需要注意的。例如

$i = 0;
while($i < 20); {
    //some code here
    $i++;
}

这样的写法。对应的其实还有 for 语句,我们可能「手残」多写了个分号(不要不承认),那么就只能祈祷 set_time_limit 的数字小些了 :^)

文中指出的其他些问题,也是我们需要纳入思考的范围中,例如数据库存取的缓存问题。为何 PHP 为何至今没有数据池这样的概念,其实这需要从 PHP 这门语言本身的设计哲学出发了。从此问题其实可以引申争为何 PHP 没有走向 Java 的套路,好吧这问题又可以争论一番了。

文中还有其他类似的条目,都非常的具有争议(也许搞不好这就是作者的初衷),但无论怎么说,其提出的几个问题都是值得我们去思考的。

深夜杂谈随想,乱语之处众位见笑了,欢迎发表您的看法。

我们的繁体用户怎么办?

今天遇到的这件事情让我感到无奈,甚至是羞辱。

作为淘宝的员工,也偶尔在淘宝处理我的闲置物品,这种既为开发人员又是用户的双重身份让人颇具有玩味。

卖了件闲置物品给在香港的同胞,什么都聊好的情况下,照常打开「我的淘宝」查看发货信息,傻眼了。

https://friable.rocks/_/2009_11_05/027227b188aa.jpg

这到好,连码都不用打了,买家的收货信息基本属于「火星文」,手动更换了页面的编码信息,问题还是依旧。回头再联系此买家,发现那家伙下线了,看来只能周一再沟通了。

正如本文开头所说的,我甚至感到羞辱。

羞的是我们众多的开发、测试人员历练了每个产品的每项功能,连基本的字符编码都没有处理好。

辱的是在淘宝那么长时间、经历了那么多的项目,发现我们竟然忽略了繁体版的用户。

回想起来,繁体中文用户使用淘宝其实很不容易,首先他们使用支付宝必须要有张大陆的人民币结算卡,然后他们的系统必须安装简体中文的语言包。

还有阿里旺旺,从 我们的下载页面 中可以得知有繁体版,但让人困扰的是繁体版与简体版的下载链接是同样的,我不知道这位用户下载的文件是否和我的一致。

周一我必须要做两件事情,一件就是询问此买家的收货地址,并说明延迟发货的原因;另外件,就是向我们的开发人员提个醒,我们需要更慎重的测试繁体版的功能。

无论怎么说,这种事情都不希望再次发生。这次卖给我们的香港同胞虽是偶然,但毕竟每天是他们在使用繁体中文。

连基本的信息传递都无法完成,那么所谓的用户体验更是无从谈起。

-- Split --

感谢各位以及 Solidot 等的关注,但我明显感到了来自不同方向的压力。评论中的很多朋友都指出了目前线上的诸多问题,我也逐一的汇报给了个产品线的负责人,但这里显然不是汇报 Bug 的地方。

所以,请允许我冒昧得将此篇文章的评论关闭,并谢绝任何形式的转载阿里的信条之一就是「客户第一」 ,因此我们有理由相信这一情况会逐渐改善的。

PHP Tokenizer 学习笔记

简述

在某个项目中需要分析 PHP 代码,分离出对应的函数调用(以及源代码对应的位置)。虽然这使用正则也可以实现,但无论从效率还是代码复杂度方面考虑,这都不是最优的方式。

查询了 PHP 手册,发现其实 PHP 已经内置解析器的接口,那就是 PHP Tokenizer ,这工具正是我想要的。使用 PHP Tokenizer 能简单、高效、准确的分析出 PHP 源代码的组成。

实例

官方站点对 Tokenizer 的文档很少,不过这不影响我们理解它。Tokenizer 组件仅仅包含两个函数: token_get_all 以及 token_name ,它们分别用于分析 PHP 代码以及获取代码对应的标识符名称。

下面是个简单的实例,说明如何使用这两个函数:

$code = '<?php echo "string1"."string2"; ?>';
$tokens = token_get_all($code);
foreach ($tokens as $token) {
    if (is_array($token)) {
        // 行号、标识符字面量、对应内容
        printf("%d - %s\t%s\n", $token[2], token_name($token[0]), $token[1]);
    }
}

对应的输出为

1 - T_OPEN_TAG    <?php 
1 - T_ECHO    echo
1 - T_WHITESPACE     
1 - T_CONSTANT_ENCAPSED_STRING    "string1"
1 - T_CONSTANT_ENCAPSED_STRING    "string2"
1 - T_WHITESPACE     
1 - T_CLOSE_TAG    ?>

这里顺便说明下,$token 如果为数组,那么分别对应的三个数组成员为 token 标识符(可以用 token_name 获得字面量)、对应的源代码内容、以及对应的行号。

还有中情况就是 $token 为字符串,这可能的情况之一就是为 T_CONSTANT_ENCAPSED_STRING 等常量,在分析代码时要注意。如果对这点很在意,可以考虑使用 这里的代码

是的,调用方式非常的简单,我们的野心当然远远要比写个简单的循环要大得多。我们可以利用这个组件做写实事,例如下面的代码用于「压缩」 PHP 代码,去除不不要的换行、空白以及注释

/**
 * 「压缩」PHP 源代码
 *
 * @see http://c7y.phparch.com/c/entry/1/art,practical_uses_tokenizer
 */
class CompactCode
{
    static protected $out;
    static protected $tokens;

    static public function compact($source)
    {
        // 解析 PHP 源代码
        self::$tokens = token_get_all($source);   
        self::$out = '';

        reset(self::$tokens);

        // 递归判断每个标记符的类型
        while ($t = current(self::$tokens)) {
            if (is_array($t)) {
                // 过滤空白、注释
                if ($t[0] == T_WHITESPACE || $t[0] == T_DOC_COMMENT || $t[0] == T_COMMENT) {
                    self::skipWhiteAndComments();
                    continue;
                }       
                self::$out .= $t[1];
            } else {
                self::$out .= $t;
            }

            next(self::$tokens);
        }

        return self::$out;
    }

    static private function skipWhiteAndComments()
    {
        // 增加个空格,用于分割关键字
        self::$out .= ' ';
        while ($t = current(self::$tokens)) {
            // 再次贪婪查找
            if (is_array($t) && ($t[0] == T_WHITESPACE || $t[0] == T_DOC_COMMENT || $t[0] == T_COMMENT)) {
                next(self::$tokens);
            } else {
                return;
            }
        }
    }
}

调用方式很简单,只需要使用

CompactCode::compact($source_code);

即可,返回的字符串就是压缩以后的内容。在这里还有更多使用 Tokenizer 的实例, 推荐阅读

我的照片

嗨!我叫「明城」,八零后、码农、宁波佬,现居杭州。除了这里,同时也欢迎您关注我的 GitHubTwitterInstagram 等。

这个 Blog 原先的名字叫 Gracecode.com 、现在叫 「無標題文檔」 。 要知道作为码农取名是件很难的事情,所以不想在取名这事情上太费心思。

作为八零后,自认为还仅存点点可能不怎么被理解的幽默感,以及对平淡生活的追求和向往。 为了避免不必要的麻烦,声明本站所输出的内容以及观点仅代表个人,不代表自己所服务公司或组织的任何立场。

如果您想联系我,可以发我邮件 `echo bWluZ2NoZW5nQG91dGxvb2suY29tCg== | base64 -d`

分类

搜索

文章