比较discuz和ecshop的截取字符串函数php版
发布时间:2020-12-13 06:09:42 所属栏目:PHP教程 来源:网络整理
导读:下面先给出两个版本函数的源代码以及简单测试,最后我会给出一个实用性更强的字符串截取函数。需要注意的是:这里讨论的字符串截取问题都是针对UTF-8编码的中文字符串。 discuz版本 div class="codetitle" a style="CURSOR: pointer" data="74781" class="co
下面先给出两个版本函数的源代码以及简单测试,最后我会给出一个实用性更强的字符串截取函数。需要注意的是:这里讨论的字符串截取问题都是针对UTF-8编码的中文字符串。 discuz版本<div class="codetitle"><a style="CURSOR: pointer" data="74781" class="copybut" id="copybut74781" onclick="doCopy('code74781')"> 代码如下:<div class="codebody" id="code74781"> / [discuz] 基于PHP没有安装 mb_substr 等扩展截取字符串,如果截取中文字则按2个字符计算 @param $string 要截取的字符串 @param $length 要截取的字符数 @param $dot 替换截掉部分的结尾字符串 @return 返回截取后的字符串 / function cutstr($string,$length,$dot = '...') { // 如果字符串小于要截取的长度则直接返回 // 此处使用strlen获取字符串长度有很大的弊病,比如对字符串“新年快乐”要截取4个中文字符, // 那么必须知道这4个中文字符的字节数,否则返回的字符串可能会是“新年快乐...” if (strlen($string) <= $length) { return $string; } // 转换原字符串中htmlspecialchars $pre = chr(1); $end = chr(1); $string = str_replace ( array ('&','"','<','>' ),array ($pre . '&' . $end,$pre . '"' . $end,$pre . '<' . $end,$pre . '>' . $end ),$string ); $strcut = ''; // 初始化返回值 // 如果是utf-8编码(这个判断有点不全,有可能是utf8) if (strtolower ( CHARSET ) == 'utf-8') { // 初始连续循环指针$n,最后一个字位数$tn,截取的字符数$noc $n = $tn = $noc = 0; while ( $n < strlen ( $string ) ) { $t = ord ( $string [$n] ); if ($t == 9 || $t == 10 || (32 <= $t && $t <= 126)) { // 如果是英语半角符号等,$n指针后移1位,$tn最后字是1位 $tn = 1; $n++; $noc++; } elseif (194 <= $t && $t <= 223) { // 如果是二字节字符$n指针后移2位,$tn最后字是2位 $tn = 2; $n += 2; $noc += 2; } elseif (224 <= $t && $t <= 239) { // 如果是三字节(可以理解为中字词),$n后移3位,$tn最后字是3位 $tn = 3; $n += 3; $noc += 2; } elseif (240 <= $t && $t <= 247) { $tn = 4; $n += 4; $noc += 2; } elseif (248 <= $t && $t <= 251) { $tn = 5; $n += 5; $noc += 2; } elseif ($t == 252 || $t == 253) { $tn = 6; $n += 6; $noc += 2; } else { $n++; } // 超过了要取的数就跳出连续循环 if ($noc >= $length) { break; } } // 这个地方是把最后一个字去掉,以备加$dot if ($noc > $length) { $n -= $tn; } $strcut = substr ( $string,$n ); } else { // 并非utf-8编码的全角就后移2位 for ($i = 0; $i < $length; $i ++) { $strcut .= ord ( $string [$i] ) > 127 ? $string [$i] . $string [++ $i] : $string [$i]; } } // 再还原最初的htmlspecialchars $strcut = str_replace( array ($pre . '&' . $end,array ('&',$strcut ); $pos = strrpos ( $strcut,chr ( 1 ) ); if ($pos !== false) { $strcut = substr ( $strcut,$pos ); } return $strcut . $dot; // 最后把截取加上$dot输出 } discuz版本的最大缺陷在于使用 strlen 获取原始字符串的长度,并用来和传入的要截取长度参数(字节数)进行比较,由于UTF-8的中文字符的字节数是不固定的,所以就会面临这样的窘境:如果要截取4个中文字符应该指定多大的截取长度呢?8字节还是12字节呢?。。。这是无法预计的,也正是因为这个问题discuz的cutstr实际是有bug的,通过下面的测试结果能看出: <div class="codetitle"><a style="CURSOR: pointer" data="66495" class="copybut" id="copybut66495" onclick="doCopy('code66495')"> 代码如下:<div class="codebody" id="code66495"> $str1 = "欲穷千里目"; echo my_cutstr($str1,10,"...")."n"; // 输出:欲穷千里目... [这是一个bug,想想是什么原因导致?] echo my_cutstr($str1,15,"...")."n"; // 输出:欲穷千里目 导致上述bug的原因在与cutstr函数在截取字符的时候是将一个中文字按2个字符算,那么5个中文字就是10字符,而原始字符串的长度是15字节,所以cutstr认为“成功地”从15字符的串上截取了10个字符,然后加上了“尾巴”。要解决这个bug只要在判断一下返回的子串是否和原始串相同,如果相同就不加“尾巴”。 ecshop版<div class="codetitle"><a style="CURSOR: pointer" data="44469" class="copybut" id="copybut44469" onclick="doCopy('code44469')"> 代码如下:<div class="codebody" id="code44469"> / [ecshop] 基于PHP的 mb_substr,iconv_substr 这两个扩展来截取字符串,中文字符都是按1个字符长度计算; 该函数仅适用于utf-8编码的中文字符串。 @param $str 原始字符串 @param $length 截取的字符数 @param $append 替换截掉部分的结尾字符串 @return 返回截取后的字符串 / function sub_str($str,$length = 0,$append = '...') { $str = trim($str); $strlength = strlen($str); if ($length == 0 || $length >= $strlength) { return $str; } elseif ($length < 0) { $length = $strlength + $length; if ($length < 0) { $length = $strlength; } } if ( function_exists('mb_substr') ) { $newstr = mb_substr($str,'utf-8'); } elseif ( function_exists('iconv_substr') ) { $newstr = iconv_substr($str,'utf-8'); } else { //$newstr = trim_right(substr($str,$length)); $newstr = substr($str,$length); } if ($append && $str != $newstr) { $newstr .= $append; } return $newstr; } ecshop版的特点和缺点都在于将中文字符算作一个字符,如果原始字符串中不含中文,比如:abcd1234,如果本意是要截取4个中文字符或者8个英文字符,那么使用ecshop的版本就得不到期望的结果,返回值的是:abcd。下面是简单的测试结果: <div class="codetitle"><a style="CURSOR: pointer" data="83990" class="copybut" id="copybut83990" onclick="doCopy('code83990')"> 代码如下:<div class="codebody" id="code83990"> $str1 = "白日依山尽,黄河入海流"; echo $str1."n"; echo my_sub_str($str1,4,"...")."n"; // 输出:白日依山... $str2 = "白1日2依3山4"; echo $str2."n"; echo my_sub_str($str2,"...")."n"; // 输出:白1日2... 优化版 截取中文字符串的大部分应用场景是“原始字符串可以是中文、英文、数字混杂的,中文字按2个字符算,英文数字按1个字符算”,针对这个需求下面给出一个实现版本: <div class="codetitle"><a style="CURSOR: pointer" data="65427" class="copybut" id="copybut65427" onclick="doCopy('code65427')"> 代码如下:<div class="codebody" id="code65427"> /* 字符串截取,中文字符按2个字符计算,同时支持GBK和UTF-8编码 @param $string 要截取的字符串 @param $length 要截取的字符数 @param $append 添加到子串后的尾巴 @return 返回截取后的字符串 */ function substring($string,$append = false) { if ( $length <= 0 ) { return ''; } // 检测原始字符串是否为UTF-8编码 $is_utf8 = false; $str1 = @iconv("UTF-8","GBK",$string); $str2 = @iconv("GBK","UTF-8",$str1); if ( $string == $str2 ) { $is_utf8 = true; // 如果是UTF-8编码,则使用GBK编码的 $string = $str1; } $newstr = ''; for ($i = 0; $i < $length; $i ++) { $newstr .= ord ($string[$i]) > 127 ? $string[$i] . $string[++$i] : $string[$i]; } if ( $is_utf8 ) { $newstr = @iconv("GBK",$newstr); } if ($append && $newstr != $string) { $newstr .= $append; } return $newstr; } 测试结果见下(GBK和UTF-8的结果一致): <div class="codetitle"><a style="CURSOR: pointer" data="47673" class="copybut" id="copybut47673" onclick="doCopy('code47673')"> 代码如下:<div class="codebody" id="code47673"> $str1 = "白日依山尽,黄河入海流"; echo substring($str1,"...")."n"; // 输出:白日... echo substring($str1,5,"...")."n"; // 输出:白日依... $str2 = "12白34日56依78山"; echo substring($str2,"...")."n"; // 输出:12白... echo substring($str2,"...")."n"; // 输出:12白3... 作者:edwardlost' blog (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |