个人工具
名字空间
变换
操作

CMSware采集的转码和结束

来自站长百科
跳转到: 导航, 搜索

导航:返回上一页

  • 采集的结束

设置好以后,点击“开始采集”采集即开始,此时先点击“采集管理”,然后点击“刷新显示”列表里会列出已经采集到的内容。点击最上方系统导航栏的"信息查看"--"查看状态窗口"可以看到具体的采集状态。要想结束采集,点击这里的"stop"就可以了。

  • 采集的转码

现在程序有utf-8gbk等多种系统编码,用他们去采集其它编码的网站比如用utf-8系统编码的程序去采集gbk或big5编码的网站时必须要转码才能采集,推荐转码方法如下:

写个采集函数的转码加进/setting/crawler.ini.php 的末尾,函数为

function crawler_gb2312_to_utf8 ($str) {
$str = iconv("GB2312","UTF-8",$str);
return $str;
}

再在要转码的采集字段上加上这个函数调用,例如:

title字段: <h1>{DATA}</h1>==>[gb2312_to_utf8]
content字段: <!--content begin-->{DATA}<!--content end-->==>[clearRubbish]==>[gb2312_to_utf8]

注意:该方案要求你的php必须挂载iconv库



参考来源

留言