在字符截取时常会因为html格式发生意外,asp是,php(做为现在的主流开发语言)也是,如果是可预见的简单html格式用replace就行了,对于文章正文这一类里面可能包含所有的html格式,想高效点还是用下面的的,已测试
$search = array (’’si, // 去掉 javascript
’]*?>’si, // 去掉 html 标记
’([rn])[s]+’, // 去掉空白字符
’&(quot|#34);’i, // 替换 html 实体
’&(amp|#38);’i,
’&(lt|#60);’i,
’&(gt|#62);’i,
’&(nbsp|#160);’i,
’&(iexcl|#161);’i,
’&(cent|#162);’i,
’&(pound|#163);’i,
’&(copy|#169);’i,
’(d+);’e); // 作为 php(做为现在的主流开发语言) 代码运行
$replace = array (,
,
1,
,
&,
>,
,
chr(161),
chr(162),
chr(163),
chr(169),
chr(1));
//$document为需要处理字符串,如果来源为文件可以$document = file_get_contents($filename);
//$text = preg_replace($search, $replace, $document);
http://www.bkjia.com/phpjc/509162.htmlwww.bkjia.comtruehttp://www.bkjia.com/phpjc/509162.htmltecharticle在字符截取时常会因为html格式发生意外,asp是,php (做为现在的主流开发语言) 也是,如果是可预见的简单html格式用replace就行了,对于文章...