百分百源码网-让建站变得如此简单! 登录 注册 签到领金币!

主页 | 如何升级VIP | TAG标签

当前位置: 主页>网站教程>网页制作> 十分钟带你理解PHP实现爬虫的历程
分享文章到:

十分钟带你理解PHP实现爬虫的历程

发布时间:09/01 来源:未知 浏览: 关键词:

文字信息

我们尝试猎取表的信息,这里,我们就用某校的课表来代替:

0ecc9cfea85a341809c2bdd29f38956.png

接下来我们就上代码:

a.php

 <?php  header( "Content-type:text/html;Charset=utf-8" ); 
$ch = curl_init();        $url ="表的链接";
        curl_setopt ( $ch , CURLOPT_USERAGENT ,"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.113 Safari/537.36" );
        curl_setopt($ch,CURLOPT_URL,$url);
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);        $content=curl_exec($ch);
        preg_match_all("/<td rowspan=\"\d\">(.*?)<\/td>\n<td rowspan=\"\d\">(.*?)<\/td><td rowspan=\"\d\" align=\"\w+\">(.*?)<\/td><td rowspan=\"\d\" align=\"\w+\">(.*?)<\/td><td>(.*?)<\/td>\n<td>(.*?)<\/td><td>(.*?)<\/td>/",$content,$matchs,PREG_SET_ORDER);//匹配该表所用的正则
        var_dump($matchs);

然后咱们就运转一下:

86be9358af8f31f62aff6c5f0ecdf2c.png

成功猎取到课表;

图片猎取

绝对链接

我们以baidu图库的首页为例
这里写图片描述
b.php

  <?php  header( "Content-type:text/html;Charset=utf-8" );  


    $ch = curl_init();    $url="http://image.baidu.com/";
    curl_setopt ( $ch , CURLOPT_USERAGENT ,"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.113 Safari/537.36" );
    curl_setopt($ch,CURLOPT_URL,$url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);    $content=curl_exec($ch);    $string=file_get_contents($url); 
    preg_match_all("/<img([^>]*)\s*src=('|\")([^'\"]+)('|\")/", 
                    $string,$matches);    $new_arr=array_unique($matches[3]);     foreach($new_arr as $key){ 
        echo "<img src=$key>";
     }

然后,我们就获得了下面的页面:
48a346477b12991947057f19787aacd.png

相对链接

baidu图库的图片的链接大部分是绝对链接,那么当我们碰到网页图片为相对链接的时候,我们该如何处置呢?其实很简便,我们只需要将轮回那部分改为
e90d1406e7367a25cb1e67578c3d8a8.png

那么我们就可以一样在阅读器中输出图片了;

感激大家的阅读,但愿大家有所收益。

引荐教程:《php教程》

以上就是十分钟带你理解PHP实现爬虫的历程的具体内容,更多请关注百分百源码网其它相关文章!

打赏

打赏

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,你说多少就多少

打开支付宝扫一扫,即可进行扫码打赏哦

百分百源码网 建议打赏1~10元,土豪随意,感谢您的阅读!

共有152人阅读,期待你的评论!发表评论
昵称: 网址: 验证码: 点击我更换图片
最新评论

本文标签

广告赞助

能出一分力是一分吧!

订阅获得更多模板

本文标签

广告赞助

订阅获得更多模板