专题课程
今天分享给小伙伴一篇爬虫教程,文章比较详细,适合刚上手的小白,老读者可以酌情加速阅读
文中涉及的代码已经测试过,可以正常跑通,文章案例的所有数据也已经成功爬取。
今天要分享的教程是爬取我国“211”大学都在哪里。全国名校众多,最常听说的是“985工程”高校、“211工程”高校。除此之外还有“双一流”高校的说法,“211”工程,即面向21世纪、重点建设100所左右的高等学校和一批重点学科的建设工程,新中国成立以来由国家立项在高等教育领域进行的规模最大、层次最高的重点建设工作,是中国政府实施“科教兴国”战略的重大举措,211大学在社会上认可度也极高,虽说只是100所,但是到了今天已经发展成了116所,目前已经不接受申报了。那么这116所211大学都在哪里呢?我们用Python动态图来盘点一下吧!
实践代码如下:
<?php // 要访问的目标页面 $url = "http://www.cnur.com/"; $urls = "http://www.cnur.com/"; // 代理服务器(产品官网 www.16yun.cn) define("PROXY_SERVER", "tcp://t.16yun.cn:31111"); // 代理身份信息 define("PROXY_USER", "username"); define("PROXY_PASS", "password"); $proxyAuth = base64_encode(PROXY_USER . ":" . PROXY_PASS); // 设置 Proxy tunnel $tunnel = rand(1,10000); $headers = implode("\\r\\n", [ "Proxy-Authorization: Basic {$proxyAuth}", "Proxy-Tunnel: ${tunnel}", ]); $sniServer = parse_url($urls, PHP_URL_HOST); $options = [ "http" => [ "proxy" => PROXY_SERVER, "header" => $headers, "method" => "GET", 'request_fulluri' => true, ], 'ssl' => array( 'SNI_enabled' => true, // Disable SNI for https over http proxies 'SNI_server_name' => $sniServer ) ]; print($url); $context = stream_context_create($options); $result = file_get_contents($url, false, $context); var_dump($result); // 访问 HTTPS 页面 print($urls); $context = stream_context_create($options); $result = file_get_contents($urls, false, $context); var_dump($result); ?>
有兴趣的小伙伴可以实践一下,获取到数据分析后和大家交流交流。