phputf8截取_php 截取utf-8格式的字符串实例代码

⑴ php截取字符串之截取utf8或gbk编码的中英文字符串示例

php中自带strlen是返回的字节数，对于utf8编码的中文返回时3个，不满足需求,下面给大家提供一个方法来完成这样的功能
微博的发言有字数限制，其计数方式是，中文算2个，英文算1个，全角字符算2个，半角字符算1个。
php中自带strlen是返回的字节数，对于utf8编码的中文返回时3个，不满足需求。
mb_strlen
可以根据字符集计算长度，比如utf8的中文计数为1，但这不符合微博字数限制需求，中文必须计算为2才可以。
google了下，找到一个discuz中截取各种编码字符的类，改造了下，已经测试通过.其中参数$charset
只支持gbk与utf-8。

代码如下:
$a
=
"s＠@你好";
var_mp(strlen_weibo($a,'utf-8'));

结果输出为8，其中字母s计数为1，全角＠计数为2，半角@计数为1，两个中文计数为4。源码如下：

代码如下:
function
strlen_weibo($string,
$charset='utf-8')
{

$n
=
$count
=
0;

$length
=
strlen($string);

if
(strtolower($charset)
==
'utf-8')

{

while
($n
<
$length)

{

$currentByte
=
ord($string[$n]);

if
($currentByte
==
9
||

$currentByte
==
10
||

(32
<=
$currentByte
&&
$currentByte
<=
126))

{

$n++;

$count++;

}
elseif
(194
<=
$currentByte
&&
$currentByte
<=
223)

{

$n
+=
2;

$count
+=
2;

}
elseif
(224
<=
$currentByte
&&
$currentByte
<=
239)

{

$n
+=
3;

$count
+=
2;

}
elseif
(240
<=
$currentByte
&&
$currentByte
<=
247)

{

$n
+=
4;

$count
+=
2;

}
elseif
(248
<=
$currentByte
&&
$currentByte
<=
251)

{

$n
+=
5;

$count
+=
2;

}
elseif
($currentByte
==
252
||
$currentByte
==
253)

{

$n
+=
6;

$count
+=
2;

}
else

{

$n++;

$count++;

}

if
($count
>=
$length)

{

break;

}

}

return
$count;

}
else

{

for
($i
=
0;
$i
<
$length;
$i++)

{

if
(ord($string[$i])
>
127)

{

$i++;

$count++;

}

$count++;

}

return
$count;

}
}

⑵ php中解决中文和英文截取编码问题。

我一直用这个

function CutStr($string, $sublen, $start = 0, $code = 'UTF-8'){
if($code == 'UTF-8'){
$pa = "/[\x01-\x7f]|[\xc2-\xdf][\x80-\xbf]|\xe0[\xa0-\xbf][\x80-\xbf]|[\xe1-\xef][\x80-\xbf][\x80-\xbf]|\xf0[\x90-\xbf][\x80-\xbf][\x80-\xbf]|[\xf1-\xf7][\x80-\xbf][\x80-\xbf][\x80-\xbf]/";
preg_match_all($pa, $string, $t_string);
if(count($t_string[0]) - $start > $sublen) return join('', array_slice($t_string[0], $start, $sublen))."...";
return join('', array_slice($t_string[0], $start, $sublen));
}
else
{
$start = $start*2;
$sublen = $sublen*2;
$strlen = strlen($string);
$tmpstr = '';
for($i=0; $i<$strlen; $i++)
{
if($i>=$start && $i<($start+$sublen))
{
if(ord(substr($string, $i, 1))>129) $tmpstr.= substr($string, $i, 2);
else $tmpstr.= substr($string, $i, 1);
}
if(ord(substr($string, $i, 1))>129) $i++;
}
if(strlen($tmpstr)<$strlen ) $tmpstr.= "...";
return $tmpstr;
}
}

⑶ php 截取utf-8格式的字符串实例代码

php
截取utf-8格式的字符串
php中，我们经常需要截取字符串。英文字符占用一个字节，中文字符占用两个字节，但中文字符占用两个字节是相对于GBK编码而言但是在时下国际流行的UTF8编码中，一个中文字符占用3个字节。本文章向大家介绍一个php
截取utf-8格式字符串的函数。
举例说明：
function
truncate_utf8_string($string,
$length,
$etc
=
'...')
{
$result
=
'';
$string
=
html_entity_decode
(
trim
(
strip_tags
(
$string
)
),
ENT_QUOTES,
'UTF-8'
);
$strlen
=
strlen
(
$string
);
for($i
=
0;
(($i
<
$strlen)
&&
($length
>
0));
$i
++)
{
if
($number
=
strpos
(
str_pad
(
decbin
(
ord
(
substr
(
$string,
$i,
1
)
)
),
8,
'0',
STR_PAD_LEFT
),
'0'
))
{
if
($length
<
1.0)
{
break;
}
$result
.=
substr
(
$string,
$i,
$number
);
$length
-=
1.0;
$i
+=
$number
-
1;
}
else
{
$result
.=
substr
(
$string,
$i,
1
);
$length
-=
0.5;
}
}
$result
=
htmlspecialchars
(
$result,
ENT_QUOTES,
'UTF-8'
);
if
($i
<
$strlen)
{
$result
.=
$etc;
}
return
$result;
}
如果需要截取utf-8格式的字符串，直接调用这个函数即可。
<?php
$str="如果需要截取utf-8格式的字符串，直接调用这个函数即可。";
echo
truncate_utf8_string($str,10);//输出结果：如果需要截取utf-8格...
?>
感谢阅读，希望能帮助到大家，谢谢大家对本站的支持！

⑷ PHP如何获取中文字符串长度 utf8

PHP对中文字符串的处理一直困扰于刚刚接触PHP开发的新手程序员。下面简要的剖析一下PHP对中文字符串长度的处理：

PHP自带的函数如strlen()、mb_strlen()都是通过计算字符串所占字节数来统计字符串长度的，一个英文字符占1字节。例：

$enStr = ‘Hello,China!’;
echo strlen($enStr); // 输出：12

而中文则不然，做中文网站一般会选择两种编码：gbk/gb2312或是utf-8。utf-8能兼容更多的字符，所以受到很多站长的喜爱。gbk与utf-8对中文的编码不同，导致中文在gbk与utf-8编码下所占字节也有差异。

gbk编码下每个中文字符所占字节为2，例：

$zhStr = ‘您好，中国！’;
echo strlen($zhStr); // 输出：12

utf-8编码下每个中文字符所占字节为3，例：

$zhStr = ‘您好，中国！’;
echo strlen($zhStr); // 输出：18

那么如何计算这组中文字符串的长度呢？有人可能会说gbk下获取中文字符串长度除以2，utf-8编码下除以3不就行了吗？但是您要考虑字符串并不老实，99%的情况会以中英混合的情况出现。

这是WordPress中的一段代码，主要思想就是先用正则将字符串分解为个体单元，然后再计算单元的个数即字符串的长度，代码如下（只能处理utf-8编码下的字符串）：

$zhStr = ‘您好，中国！’;
$str = ‘Hello,中国！’;

// 计算中文字符串长度
function utf8_strlen($string = null) {
// 将字符串分解为单元
preg_match_all(“/./us”, $string, $match);
// 返回单元个数
return count($match[0]);
}

echo utf8_strlen($zhStr); // 输出：6
echo utf8_strlen($str); // 输出：9

⑸ PHP里截取替换utf-8的网页里的中文文字时，为什么替换不了

如果你的PHP文件是UTF-8就应该正常，如果不是就需要iconv进行转换，例如PHP文件是GBK编码的时侯，代码应该这样写：
$pat=iconv('GBK','UTF-8',"/口碑网([\s\S]*?)购站之一/");
$HTML=preg_replace($pat,"",$HTML);

⑹ PHP截取UTF8字符串如何应用

这个不是判断语句--！
直接输出，或赋值给变量
<?php
$str = '原始字符串数据'
$str2 = subString2($str,$start,$length);
echo $str2;
?>
$str 是你要截取的字符串
$start 是开始位置，一般为0
$length 是截取长度

⑺ php 中文字符串截取问题

preg_split()函数的意思。（意思为通过一个正则表达式分隔给定字符串）
array_splice() 函数与 array_slice() 函数类似，选择数组中的一系列元素，但不返回，而是删除它们并用其它值代替。
join() 方法用于把数组中的所有元素放入一个字符串。
<?php
$str = 'hypertext language programming';
$chars = preg_split('/ /', $str, -1, PREG_SPLIT_OFFSET_CAPTURE);
print_r($chars);
?>
会输出
Array(
[0] => Array (
[0] => hypertext
[1] => 0
)
[1] => Array (
[0] => language
[1] => 10
)
[2] => Array (
[0] => programming
[1] => 19
)
)

⑻ php 截取UTF-8中文字符串问题

substr()函数可以分割文字，但要分割的文字如果包括中文字符往往会遇到问题，这时可以用mb_substr()/mb_strcut这个函数，mb_substr() /mb_strcut的用法与substr()相似，只是在mb_substr()/mb_strcut最后要加入多一个参数，以设定字符串的编码，但是一般的服务器都没打开php_mbstring.dll，需要在php.ini在把php_mbstring.dll打开。
mb_substr是按字来切分字符，而mb_strcut是按字节来切分字符，但是都不会产生半个字符的现象……

所以，把$str=substr($text,0,$k);替换为 $str=mb_substr($text,0,$k,'UTF-8');就ok了

⑼ PHP 截取UTF8字符串乱码 --在线急等

/**********************************
* 截取字符串(UTF-8)
*
* @param string $str 原始字符串
* @param $position 开始截取位置
* @param $length 需要截取的偏移量
* @return string 截取的字符串
* $type=1 等于1时末尾加'...'不然不加
*********************************/
function utfSubstr($str, $position, $length,$type=1){
$startPos = strlen($str);
$startByte = 0;
$endPos = strlen($str);
$count = 0;
for($i=0; $i<strlen($str); $i++){
if($count>=$position && $startPos>$i){
$startPos = $i;
$startByte = $count;
}
if(($count-$startByte) >= $length) {
$endPos = $i;
break;
}
$value = ord($str[$i]);
if($value > 127){
$count++;
if($value>=192 && $value<=223) $i++;
elseif($value>=224 && $value<=239) $i = $i + 2;
elseif($value>=240 && $value<=247) $i = $i + 3;
else return self::raiseError("\"$str\" Not a UTF-8 compatible string", 0, __CLASS__, __METHOD__, __FILE__, __LINE__);
}
$count++;

}
if($type==1 && ($endPos-6)>$length){
return substr($str, $startPos, $endPos-$startPos)."...";
}else{
return substr($str, $startPos, $endPos-$startPos);
}

}

⑽ PHP 如何截取标题长度（utf-8编码）

你可以查询出完整标题，然后用 CSS 的 overflow指定超出部分不显示，在标题中含有中英、数字混合的情况，很难做到字符串排版的宽度一致。

还有最坏的情况，用截断的方法，把实际完整的标题断开，破坏了原义，对SEO是无比的伤害。

用css控制显示长度才是最好的做法。

导航:首页 > 编程语言 > phputf8截取

phputf8截取

与phputf8截取相关的资料