我自己制作了20余个采集规则,从不了解到了解,也有了一点点的经验,想给大家分享一下。
首先,你要把采集规则的录像好好的看,由于速度快,你可以用鼠标选择逐祯看,并随时暂停,然后自己做。
其次,你必须反复地练习,才能使采集的成功率得到提高。我刚开始的时候,成功率只是30%左右,一天后可以达到90%
在你选择采集页面的时候尽量选择新闻列表工整、一致的页面。一般采集新闻只需要新闻链接、新闻标题、新闻内容三项。关于新闻链接,一般没问题,注意代码,如果你只是选择“< a href="" ”容易出现问题,因为在采集页面会有很多“< a href="" ”,容易发生问题。很多时候新闻标题的链接代码一般链接代码属性不一样,如果一样,你必须增加一些内容,如在“< a href="" ”前加上“·”因为大多数新闻列表中的新闻标题前都有此符号 。
新闻标题出现问题最多。经常出现“无标题不添加”的问题。解决的办法是在选择代码时不可过长,也不可过短。你可以打开几个详细新闻页面查看源文件,比较标题代码的共性。
关于新闻内容,不要在新闻文字的开头和结尾选择代码。而要认真查看源文件,找出正文真正开始和结束的地方。
下面副几个我做的采集规则,大家做参考。
国际新闻——国际观察:
upload/06061723372085.rar
神州校园——教育新闻:
upload/06061723376620.rar
娱乐新闻——娱乐资讯:
upload/06061723372813.rar
体育新闻——国际足坛: