php抓数据_php抓取数据

‘壹’ php怎样抓取网页代码中动态显示的数据

你是想抓别人网页上ajax动态载入的数据吧？

1、要找到它的ajax载入的URL地址

2、利用PHP的file_get_contents($url)函数读取那个url地址。

3、对抓取到的内容进行分析或正则过滤。

‘贰’ php正则表达式怎么抓取网页数据

会用正则就会抓取。
不会正则，一时半会也教不错。
不过，推荐你使用phpQuery这个框架，用jQuery的使用器来抓取数据。

‘叁’ phpstudy怎么抓取网页数据

什么网页数据？

是打开本地网页还是打开网上网页

如果是本地网页的话在浏览器上输入127.0.0.1或者localhost进行访问

如果是外网我理解的是你要获取外网的一个网页，可以用代码或者程序来实现

（一般称为采集程序，或者小偷程序）

//个人认为curl好一点，因为curl可以模拟浏览器，有的网站会过滤机器人

//1.php代码
//把网页读入一个字符串
$contone=file_get_contents('url');
print_r($contone);
//curl采集
#初始化curl（true/false）
$ch=curl_init();
#请求url地址
$params[CURLOPT_URL]='网址';
#是否返回响应头信息
$params[CURLOPT_HEADER]=true;
#是否将结果返回
$params[CURLOPT_RETURNTRANSFER]=true;
#是否重定向
$params[CURLOPT_FOLLOWLOCATION]=true;
#伪造浏览器
$params[CURLOPT_USERAGENT]='Mozilla/5.0(WindowsNT5.1;rv:9.0.1)Gecko/20100101Firefox/9.0.1';
curl_setopt_array($ch,$params);
$content=curl_exec($ch);
//输出网页内容
print_r($content);

//下面是整个curl采集类
classCurl{
#采集的地址
public$url;
#匹配的正则
public$preg;
#模拟登录需要的用户名
public$username;
#模拟登录需要的密码;
public$pwd;
#cookie存储的路径
private$cookie_path;
#采集数据的字符集
public$charset;

/**
*构造方法，初始化采集基本信息
*@param$url采集的url
*@param$preg匹配的正则
*@paramstring$username用户名
*@paramstring$pwd密码
*@paramstring$charset字符集
*/
publicfunction__construct($info){
extract($info);
$this->url=$url;
$this->preg=$preg;
if(isset($charset)){
header("content-type:text/html;charset=".$this->charset);
}else{
header("content-type:text/html;charset=utf-8");
}
if(isset($username)){
$this->username=$username;
}
if(isset($pwd)){
$this->pwd=$pwd;
}
}
/*
*采集数据，非表单提交方式，直接采集的
*/
publicfunctionget_info(){
#初始化curl
$ch=curl_init();
#请求url地址
$params[CURLOPT_URL]=$this->url;
#是否返回响应头信息
$params[CURLOPT_HEADER]=true;
#是否将结果返回
$params[CURLOPT_RETURNTRANSFER]=true;
#是否重定向
$params[CURLOPT_FOLLOWLOCATION]=true;
#伪造浏览器
$params[CURLOPT_USERAGENT]='Mozilla/5.0(WindowsNT5.1;rv:9.0.1)Gecko/20100101Firefox/9.0.1';
//判断是否有cookie,有的话直接使用
//if(isset($_COOKIE['cookie_jar'])&&($_COOKIE['cookie_jar']||is_file($_COOKIE['cookie_jar']))){
//$params[CURLOPT_COOKIEFILE]=$_COOKIE['cookie_jar'];//这里判断cookie
//}else{
//$cookie_jar=tempnam($this->cookie_path,'cookie');//产生一个cookie文件
//$params[CURLOPT_COOKIEJAR]=$cookie_jar;//写入cookie信息
//setcookie('cookie_jar',$cookie_jar);//保存cookie路径
//}
#开始发送请求，传入curl参数
curl_setopt_array($ch,$params);
$content=curl_exec($ch);
preg_match_all($this->preg,$content,$arr);
return$arr;
}

/**
*采集远程图片
*@param$img图片路径是一个数组
*@param$save_path图片保存在你本地的路径
*@returnbool
*/
publicfunctionget_img($img,$save_path){
for($i=0;$i<count($img);$i++){
$res=@file_get_contents($img[$i]);
$img_type=substr($img[$i],strrpos($img[$i],"."));
$path=$save_path.time().rand(1,9999999).mt_rand().$img_type;
$img[$i]=$path;
file_put_contents($path,$res);
}
return$img;
}

//登录后采集
publicfunctionregister_info(){
//采集的信息需要先登录的就要先模拟登录
//设置cookie保存路径
$ch=curl_init();

//组装用户名和密码
$info['username']=$this->username;
$info['password']=$this->pwd;
//模拟表单提交
$params[CURLOPT_URL]=$this->url;//请求url地址
$params[CURLOPT_HEADER]=true;//是否返回响应头信息
$params[CURLOPT_RETURNTRANSFER]=true;//是否将结果返回
$params[CURLOPT_FOLLOWLOCATION]=true;//是否重定向
$params[CURLOPT_USERAGENT]='Mozilla/5.0(WindowsNT5.1;rv:9.0.1)Gecko/20100101Firefox/9.0.1';
$postfields='';
//将表单要提交的数据编程URL拼接方式
foreach($infoas$key=>$value){
$postfields.=urlencode($key).'='.urlencode($value).'&';
}
$params[CURLOPT_POST]=true;
$params[CURLOPT_POSTFIELDS]=$postfields;
//判断是否有cookie,有的话直接使用
if(isset($_COOKIE['cookie_jar'])&&($_COOKIE['cookie_jar']||is_file($_COOKIE['cookie_jar']))){
$params[CURLOPT_COOKIEFILE]=$_COOKIE['cookie_jar'];//这里判断cookie
}else{
$cookie_jar=tempnam($this->cookie_path,'cookie');//产生一个cookie文件
$params[CURLOPT_COOKIEJAR]=$cookie_jar;//写入cookie信息
setcookie('cookie_jar',$cookie_jar);//保存cookie路径
}
curl_setopt_array($ch,$params);//传入curl参数
$content=curl_exec($ch);//执行
return$content;
}
}

‘肆’ php每天抓取数据并更新新

以前我用过querylist插件抓数据，服务器写和定时器，每天固定时间去运行脚本。朝这个方式试试
高并发下数据的更新，应该 update table xxx set num = num - 1 的方式，这种方式可以保证数据的正确性。
但是会出现 num 为负数的问题，如果库存为负数，显然是不合理的。
于是，需要将 num 字段设置为无符号整型，这样就不会出现负数了，因为，如果减到负数，就会更新失败。
但是这种依然会造成很多无用的更新语句的执行，是不合理的。
于是，update table xxx set num = num - 1 where num > 0，
这样当 num 等于0之后就不会去更新数据库了，减少了很多无用的开销。
这种方式被称作“乐观锁”
此外，对于抢红包这种非整数的操作，我们应该转换为整数的操作。
关于抢购超卖的控制
一般抢购功能是一个相对于正常售卖系统来说独立的子系统，这样既可以防止抢购时的高并发影响到正常系统，
也可以做到针对于抢购业务的特殊处理。
在后台设计一些功能，可以就昂正常的商品加入到抢购活动中并编辑成为抢购商品，写入到抢购商品表，当然
也可以把抢购商品表写入redis而不是数据表。并且在原商品表写入一个同样的商品（id相同，用于订单查看，
此商品不可购买）
如果是数据表，为了控制超卖，需要对表进行行锁，更新的时候带上 where goods_amount > 0。
如果是redis，使用 hincrby 一个负数来减库存，并且 hincrby 会返回改变后的值，再来判断返回值是否大于0，
因为redis每个命令都是原子性的，这样不用锁表就可控制超卖。

‘伍’ php中如何提取数据

有很多方法的呀，
1)字符串截取，$result
=
substr($whole,
0,
4);
2)用空格分割字符串到数组中：$ary
=
explode('
',
$whole);
$result
=
$ary[0]

‘陆’ php抓取数据

像这样采集的程序一般把循环的速度搞一下，如果太快，一个网速跟不上，一是服务器设置了防采集或是防CC攻击等，如果你每5分钟采集一次，这样，肯定不会受到限制，如果你一分钟采集100或是更多次这服务器会限制你访问，认为你是恶意攻击，明白？就像网络或google 机器人一样，如果不做限制采集过多，会把服务器拉死。

‘柒’ 怎么用php采集网站数据

简单的分了几个步骤：
1、确定采集目标
2、获取目标远程页面内容（curl、file_get_contents）
3、分析页面html源码，正则匹配你需要的内容（preg_match、preg_match_all），这一步最为重要，不同页面正则匹配规则不一样
4、入库

‘捌’ 如何利用php抓取网站动态产生的数据

$url = "网站地址目录";
$queryServer = curl_init();
curl_setopt($queryServer, CURLOPT_URL, $url);
curl_setopt($queryServer, CURLOPT_HEADER, 0);
curl_setopt($queryServer, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($queryServer, CURLOPT_RETURNTRANSFER, true);
curl_setopt($queryServer, CURLOPT_CONNECTTIMEOUT, 10);
curl_setopt($queryServer, CURLOPT_TIMEOUT, 30);
$html = curl_exec($queryServer);
$html = iconv('UTF-8','GBK//IGNORE',$html); //如果你需要是的数据是utf-8编码的,这一行可以注销，如果需要gbk编码的,请保留.如果出现乱码，就是一行的问题，你自己调着试吧
//echo $holder;exit; 此处可以输出来测试.
$html = str_replace(array("\n","\r","\t"),"",$html);
$preg = '/<table\s+width=\"800\"[^>]+>(.*?)<\/table>/';
preg_match_all($preg,$html,$out);
//匹配每行
preg_match_all('/<tr[^>]+>(.*?)<\/tr>/',$out[1][0],$tr);
//匹配每个td
$result = array();
$match = '/<td.+>([^<]+)<\/td>/U';
foreach( $tr[0] as $key => $value ){
preg_match_all($match,$value,$arr);
$result[] = $arr[1];
}
//输出测试,$result就是你要的数据，至于你要怎么输出显示格式，那就随心调就好了。
foreach( $result as $key => $value ){
echo implode("\t",$value);
echo "<br>";
}
exit;

导航:首页 > 编程语言 > php抓数据

php抓数据

与php抓数据相关的资料