導航:首頁 > 編程語言 > php採集整個頁面

php採集整個頁面

發布時間:2022-09-03 23:33:57

php採集網頁中指定的內容

你如果是單個頁面的話不需要正規表達式,只要找到自己需要的部分看看前面和後面有什麼唯一性的標識,截取出來就可以了。

㈡ php獲得網頁源代碼抓取網頁內容的幾種方法

最簡單的是用 file(URL); 函數,把整個網頁讀入到一個數組中。還可以用 file_get_contents(URL); 函數,把整個網頁讀成一個字元串。

㈢ php獲取網頁源碼內容有哪些辦法

可以參考以下幾種方法:

方法一: file_get_contents獲取

<span style="white-space:pre"></span>$url="http://www..com/";

<span style="white-space:pre"></span>$fh= file_get_contents

('http://www.hxfzzx.com/news/fzfj/');<span style="white-space:pre"></span>echo $fh;

拓展資料

PHP(外文名:PHP: Hypertext Preprocessor,中文名:「超文本預處理器」)是一種通用開源腳本語言。語法吸收了C語言、Java和Perl的特點,利於學習,使用廣泛,主要適用於Web開發領域。PHP 獨特的語法混合了C、Java、Perl以及PHP自創的語法。它可以比CGI或者Perl更快速地執行動態網頁。

用PHP做出的動態頁面與其他的編程語言相比,PHP是將程序嵌入到HTML(標准通用標記語言下的一個應用)文檔中去執行,執行效率比完全生成HTML標記的CGI要高許多;PHP還可以執行編譯後代碼,編譯可以達到加密和優化代碼運行,使代碼運行更快。

㈣ PHP 如何獲取到一個網頁的內容

1.file_get_contents
PHP代碼

復制代碼 代碼如下:

<?php
$url = "http://www.jb51.net";
$contents = file_get_contents($url);
//如果出現中文亂碼使用下面代碼
//$getcontent = iconv("gb2312", "utf-8",$contents);
echo $contents;
?>

2.curl
PHP代碼

復制代碼 代碼如下:

<?php
$url = "http://www.jb51.net";
$ch = curl_init();
$timeout = 5;
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
//在需要用戶檢測的網頁里需要增加下面兩行
//curl_setopt($ch, CURLOPT_HTTPAUTH, CURLAUTH_ANY);
//curl_setopt($ch, CURLOPT_USERPWD, US_NAME.":".US_PWD);
$contents = curl_exec($ch);
curl_close($ch);
echo $contents;
?>

3.fopen->fread->fclose
PHP代碼

復制代碼 代碼如下:

<?php
$handle = fopen ("http://www.jb51.net", "rb");
$contents = "";
do {
$data = fread($handle, 1024);
if (strlen($data) == 0) {
break;
}
$contents .= $data;
} while(true);
fclose ($handle);
echo $contents;
?>

註:
1.
使用file_get_contents和fopen必須空間開啟allow_url_fopen。方法:編輯php.ini,設置
allow_url_fopen = On,allow_url_fopen關閉時fopen和file_get_contents都不能打開遠程文件。
2.使用curl必須空間開啟curl。方法:windows下修改php.ini,將extension=php_curl.dll前面的分
號去掉,而且需要拷貝ssleay32.dll和libeay32.dll到C:\WINDOWS\system32下;Linux下要安裝curl擴
展。

㈤ PHP採集網頁部分數據的問題

這個網址的空格轉換一下:
http://sale.gb168.cn/Saleagent/Customer/Shopping/StandardDetails.aspx?StandNo=GB/T%2020819.1-2007

㈥ php的採集程序,怎麼截取網頁中的鏈接及標題

首先用fopen或者file_get_contents或者curl獲取整個網頁的內容

然後使用正則表達式來獲取網頁的特定內容,也可以使用其他方法,具體你搜索下吧.

也可以使用Document Object Model ,用法自己去搜索吧,這里重復感覺沒必要

提醒:最好是將鏈接和標題的區域從整個網頁提取出來,到時候更容易處理 可以使用substr來提取

㈦ php curl 大量數據採集

這個需要配合js,打開一個html頁面,首先js用ajax請求頁面,返回第一個頁面信息確定處理完畢(ajax有強制同步功能),ajax再訪問第二個頁面。(或者根據伺服器狀況,你可以同時提交幾個URL,跑幾個相同的頁面)
參數可以由js產生並傳遞url,php後台頁面根據URL抓頁面。然後ajax通過php,在資料庫或者是哪裡設一個標量,標明檢測到哪裡。由於前台的html頁面執行多少時候都沒問題,這樣php的內存限制和執行時間限制就解決了。
因為不會浪費大量的資源用一個頁面來跑一個瞬間500次的for循環了。(你的500次for循環死了原因可能是獲取的數據太多,大過了php限制的內存)
不過印象中curl好像也有強制同步的選項,就是等待一個抓取後再執行下一步。但是這個500次都是用一個頁面線程處理,也就是說肯定會遠遠大於30秒的默認執行時間。

㈧ 用JS翻頁的網頁如何用PHP實現採集

最簡單的辦法就是在你的所有中文頁面上,一般在導航位置加一個英文頁面首頁的超鏈接。這樣用戶點英文那個鏈接就進入英文頁面了。同樣的,在所有的英文頁面導航位置都加一個中文首頁鏈接。推薦你用圖片做這兩個鏈接,這樣不會因為用戶沒有裝對應的語言系統而出現奇怪字元。比如歐美用戶一般是不會裝中文系統的,頁面上有中文字元的時候必然顯示為亂碼。
網站目錄當然要為中文和英文各建一個獨立的目錄,裡面放置各自的頁面了。

如果使用資料庫的話,則思路是一樣的。

閱讀全文

與php採集整個頁面相關的資料

熱點內容
海南壓縮機在哪裡 瀏覽:487
電腦文件夾清晰的文件結構 瀏覽:837
如何把蘋果手機的app轉到安卓 瀏覽:303
java同步並發 瀏覽:249
fw壓縮圖片 瀏覽:256
淘寶申請源碼靠譜嗎 瀏覽:872
androidupdater 瀏覽:635
c2d游戲源碼大全可復製版 瀏覽:771
電腦怎樣重置網關命令 瀏覽:411
winftplinux 瀏覽:335
推特app界面如何設置成中文 瀏覽:452
太空工程師轉子編程屬性 瀏覽:32
windowscmd關機命令 瀏覽:342
雲桌面只要伺服器裝一套軟體 瀏覽:247
電腦右鍵按到什麼導致文件夾全屏 瀏覽:454
我的世界如何製造伺服器主城 瀏覽:365
linuxssh連不上 瀏覽:297
永宏plc用什麼編程電纜 瀏覽:371
win激活命令行 瀏覽:886
新手學電腦編程語言 瀏覽:893