比较郁闷就是某些「小气」的网站,会加上防盗链的功能(特别本人在看 Google Reader 时)。其实防盗链这个技术并不复杂,目前基本就是在服务器端判断 HTTP_REFERER 的位置,如果不是来自本站自身,则拒绝输出( 详细 )。
那么如果考虑突破防盗链的措施,就需要考虑在 HTTP_REFERER 上面做手脚了。PHP 脚本中对应的变量是 $_SERVER['HTTP_REFERER'] ,它存储了 HTTP_REFERER 的值。
由于直接访问目标 URL 资源已经被上述防盗链的措施给屏蔽,所以我们需要个类似网关的玩意去获取。说白了就是编写已经包装过的 HTTP 头的 PHP 脚本。
下面是简单的函数实现:
function getRemoteFile($url, $refer = '') {
$option = array(
'http' => array(
'header' => "Referer:$refer")
);
$context = stream_context_create($option);
return file_get_contents($url, false, $context);
}
这是个比较简单的函数,其功能就是伪造 Referer (使用 stream_context_create 函数 )然后获取对方的数据(使用 file_get_contents,需要开启 allow_url_fopen )。
如果想「复杂」一点,可以使用 sockets 扩展 ,这不在这里的讨论范围以内。
另外,再提供个获取主机名的正则函数
function getHost($url) {
$result = preg_match('/^http:\/\/([\d|\w|\.]+)\//', $url, $matches);
if (sizeof($matches) >= 2) {
return $matches[1];
} else {
return null;
}
}
再进一步的扩展,可以封装成脚本,然后譬如调用
http://127.0.0.1/proxy.php?url=http://i.am/img
就可以获取那些开启防盗链措施的链接了(再发挥下,使用 Javascript 将图片链接全部替换)。