百分百源码网-让建站变得如此简单! 登录 注册 签到领金币!

主页 | 如何升级VIP | TAG标签

当前位置: 主页>网站教程>织梦CMS教程> dedecms织梦火车头采集文章列表地址列表错误URL没有协议头
分享文章到:

dedecms织梦火车头采集文章列表地址列表错误URL没有协议头

发布时间:02/15 来源:未知 浏览: 关键词:

今天打开火车头采集器需要更新下织梦网站,可是点了开始后发现错误了重新修改了列表采集规则。没仔细看等抓完300多个连接导入数据库时发生错了,仔细一看该目标站的文章列表页将文章url地址做了处理。

织梦火车头采集文章列表地址列表错误URL没有协议头是//解决方法

   表现:

   常规的文章列表文章URL应该是  <a  href="https://www.dede58.com/URL.html">才对,而该站处理成了<a  href="//www.dede58.com/URL.html">,就是把协议头https或者http给取消了,这个 在一定程度上是可以防范很多采集程序,软件,爬虫的。采集后的地址列表会多一层网址,就成了https://www.dede58.com/www.dede58.com/URL.html,这样的话就无法正确采集内容了。

   

解决方法:

   在网址获取选项里点选“手动填写链接地址规则”,

   右侧脚本规则填写【a class="item" href="[参数]" title="(*)" target="_blank">】这里的参数就是原始目前的不带协议头的网址。

    实际连接:填写【http:[参数1]】如果该网站是https的这里就填写【https:[参数1]】

   结果:

   以上操作后点获取网址测试正确,从采集,入库等都OK了。

    PS:

    这个网址问题以前看到过,用DEDECMS织梦采集就是网址错误,今天在火车头上总算是解决了。

 
打赏

打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,你说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

百分百源码网 建议打赏1~10元,土豪随意,感谢您的阅读!

相关文章

共有67人阅读,期待你的评论!发表评论
昵称: 网址: 验证码: 点击我更换图片
最新评论

本文标签

广告赞助

能出一分力是一分吧!

订阅获得更多模板

本文标签

广告赞助

订阅获得更多模板