‘壹’ 用php的Snoopy如何抓取网页的验证码呢
curl就可以了
<?php
header('Content-Type:image/png');
$url="图片链接";//图片链接
$ch=curl_init();
//Cookie:PHPSESSID=
curl_setopt($ch,CURLOPT_URL,$url);
curl_setopt($ch,CURLOPT_COOKIE,'这里是你的cookies');
curl_setopt($ch,CURLOPT_RETURNTRANSFER,0);
curl_setopt($ch,CURLOPT_TIMEOUT,0);//忽略超时
curl_setopt($ch,CURLOPT_NOBODY,false);
$str=curl_exec($ch);
curl_close($ch);
‘贰’ PHP如何突破防采集
function get_resource($url)
{
$c = curl_init();
curl_setopt($c, CURLOPT_URL, $url);
curl_setopt($c, CURLOPT_RETURNTRANSFER, 1);
echo $sourse = curl_exec($c);
curl_close($c);
return $sourse;
}
输入你想采集的网站就行了
‘叁’ !高手速来拿高分!!关于php采集:有的网站为什么无法采集。(cookie agent referer 全都设置了也不行)
$url='218.57.139.24/shandong/secimg';
$cu=curl_init();
curl_setopt ($cu, CURLOPT_USERAGENT, 'Mozilla/5.0');
curl_setopt($cu,CURLOPT_RETURNTRANSFER,1);
curl_setopt($cu,CURLOPT_HEADER,0);
curl_setopt($cu,CURLOPT_URL,$url);
$rst=curl_exec($cu);
curl_close($cu);
file_put_contents('D:\\abc.jpg',$rst);
‘肆’ 关于php中的snoopy问题。高手请进
我运行了一下,你这程序是可以运行的。
snoopy类不是phpstudy带的,更不是php自身就有的,它是第三方编写的一个类文件。你在网上下载一个snoopy.class.php,放在你这个程序的目录下就可以了。
‘伍’ 如何用php采集新浪财经
给您提供一下思想,希望能够帮您解决。fopen("tmp.htm","r"); //只读打开
$str=str_replace("{title}",$title,$str);
$str=str_replace("{content}",$content,$str);//替换内容
fclose($fp);简单的采集常用函数。,您也可以用强大的snoopy采集类。彩集新浪财经,需要查看/分析源代码,然后用正则表达式,匹配要采集的代码然后重新组织数据结构。
‘陆’ php伪造ip获取网页内容,求高手
伪造IP是不可能的,HTTP协议是机遇TCP,你发送GET命令过去必须留有准确的IP地址,否则对方无法把结果发给你,你与服务器xxx.xxx.xx的通讯相当于写信,你匿名写信只能攻击,要获取返回的东西必须提交真实的地址。
无论使用CURL还是别的方法,都要受前面的基本规则限制。
编程上已经没有办法可走了,你可以考虑使用代理,通过代理服务器去获取数据,查封就换个代理服务器。不过现在代理服务器是很难找的。
‘柒’ 高手速来拿高分!!【php采集:浏览器能打开,php却无法采集。】 刚才不小心关闭了。再开!
经测试,可以打开啊,是一个90X41像素的验证码,请问环境是什么,框架用的什么?
‘捌’ Snoopy采集,thinkphp使用snoopy采集数据
呵呵。这种情况,看看是不是程序那里有错误了吧。
一般情况不会出现这么大内存需求的。
另外,如果你开启的是snoopy的多线程测试,可以考虑把线程数量减少。
还有就是循环执行时间,也可以适当减少再试试。
‘玖’ 有没有办法实现PHP代理抓取网页内容
可以呀。
用snoopy的类,网上有snoopy.class.php,你自行网络查找。
snoopy的类可以设置$proxy_host参数,设置代理主机,$proxy_port是代理主机端口。你下载一个下来,网上的教程很多,看看应该明白。
至于调用proxy.txt,轮换ip的问题,我觉得可用代理不是很多的话,可以设置成随机选择代理就好了。你采集的那个网站记录的是你代理服务器的ip