火车采集器官方博客
Html实体字符转换
post by:小文 2010-8-28 12:45

有时,我们采集的数据类似 "你好", 这些字符在源代码中是这个样子,但在网页中确是正常显示为中文.这类代码叫做html实体 ,我们可以通过PHP的内置函数,对其进行转换,以方便查阅.

php代码如下:

echo mb_convert_encoding("你好", "gb2312", "HTML-ENTITIES"); //输出:你好

mb_convert_encoding 用法可以参考http://cn.php.net/manual/zh/function.mb-convert-encoding.php

如果您使用php插件,可能需要添加 php_mbstring.dll 扩展.火车采集器中PHP插件的扩展添加方法请查看文章 http://board.locoy.com/?post=34

评论:
小文
2010-10-10 15:18 回复
@gucci:这种的话可以实现,使用插件就可以了.
gucci
2010-10-10 14:17 回复
我想问问,&#20320 这些字符的转换,火车能否提供一个工具?我发现用这些字符做伪原创,效果很好,引擎也能识别。
发表评论:
昵称

邮件地址 (选填)

个人主页 (选填)

内容