導航:首頁 > 編程語言 > php網頁數據採集

php網頁數據採集

發布時間:2022-04-13 03:28:42

php curl 大量數據採集

這個需要配合js,打開一個html頁面,首先js用ajax請求頁面,返回第一個頁面信息確定處理完畢(ajax有強制同步功能),ajax再訪問第二個頁面。(或者根據伺服器狀況,你可以同時提交幾個URL,跑幾個相同的頁面)
參數可以由js產生並傳遞url,php後台頁面根據URL抓頁面。然後ajax通過php,在資料庫或者是哪裡設一個標量,標明檢測到哪裡。由於前台的html頁面執行多少時候都沒問題,這樣php的內存限制和執行時間限制就解決了。
因為不會浪費大量的資源用一個頁面來跑一個瞬間500次的for循環了。(你的500次for循環死了原因可能是獲取的數據太多,大過了php限制的內存)
不過印象中curl好像也有強制同步的選項,就是等待一個抓取後再執行下一步。但是這個500次都是用一個頁面線程處理,也就是說肯定會遠遠大於30秒的默認執行時間。

❷ php採集數據怎麼做啊

用fopen/file/file_get_contents/curl之類的函數將遠程頁面獲得內容, 採用正則或過濾之類的獲得自己所需要的東西, 最好寫入相應的資料庫保存起來。

❸ php使用3種方法實現數據採集 什麼叫採集

下面的php代碼可以將HTML表格的每行每列轉為數組,採集表格數據
<?php function get_td_array($table) { $table = preg_replace("'<table[^>]*?>'si","",$table); $table = preg_replace("'<tr[^>]*?>'si","",$table); $table = preg_replace("'<td[^>]*?>'si","",$table); $table = str_replace("</tr>","{tr}",$table); $table = str_replace("</td>","{td}",$table); //去掉 HTML 標記 $table = preg_replace("'<[/!]*?[^<>]*?>'si","",$table); //去掉空白字元 $table = preg_replace("'([rn])[s]+'","",$table); $table = str_replace(" ","",$table); $table = str_replace(" ","",$table); $table = explode('{tr}', $table); array_pop($table); foreach ($table as $key=>$tr) { $td = explode('{td}', $tr); array_pop($td); $td_array[] = $td; } return $td_array; } ?>

❹ PHP採集網頁部分數據的問題

這個網址的空格轉換一下:
http://sale.gb168.cn/Saleagent/Customer/Shopping/StandardDetails.aspx?StandNo=GB/T%2020819.1-2007

❺ php獲取網頁源碼內容有哪些辦法

可以參考以下幾種方法:

方法一: file_get_contents獲取

<span style="white-space:pre"></span>$url="http://www..com/";

<span style="white-space:pre"></span>$fh= file_get_contents

('http://www.hxfzzx.com/news/fzfj/');<span style="white-space:pre"></span>echo $fh;

拓展資料

PHP(外文名:PHP: Hypertext Preprocessor,中文名:「超文本預處理器」)是一種通用開源腳本語言。語法吸收了C語言、Java和Perl的特點,利於學習,使用廣泛,主要適用於Web開發領域。PHP 獨特的語法混合了C、Java、Perl以及PHP自創的語法。它可以比CGI或者Perl更快速地執行動態網頁。

用PHP做出的動態頁面與其他的編程語言相比,PHP是將程序嵌入到HTML(標准通用標記語言下的一個應用)文檔中去執行,執行效率比完全生成HTML標記的CGI要高許多;PHP還可以執行編譯後代碼,編譯可以達到加密和優化代碼運行,使代碼運行更快。

❻ 用JS翻頁的網頁如何用PHP實現採集

最簡單的辦法就是在你的所有中文頁面上,一般在導航位置加一個英文頁面首頁的超鏈接。這樣用戶點英文那個鏈接就進入英文頁面了。同樣的,在所有的英文頁面導航位置都加一個中文首頁鏈接。推薦你用圖片做這兩個鏈接,這樣不會因為用戶沒有裝對應的語言系統而出現奇怪字元。比如歐美用戶一般是不會裝中文系統的,頁面上有中文字元的時候必然顯示為亂碼。
網站目錄當然要為中文和英文各建一個獨立的目錄,裡面放置各自的頁面了。

如果使用資料庫的話,則思路是一樣的。

❼ php如何採集網站數據

curl+正則
網路 php小偷程序

❽ 用PHP獲取網頁部分數據

如果你要

之間的所有源碼,用 preg_match 就可以,不用preg_match_all ,如果你要裡面的所有的

標簽中的內容,可以用preg_match_all //提取所有代碼 $pattern = '/
(.+?)
/is'; preg_match($pattern, $string, $match); //$match[0] 即為

之間的所有源碼 echo $match[0]; //然後再提取

之間的內容 $pattern = '/(.+?)li>/is'; preg_match_all($pattern, $match[0], $results); $new_arr=array_unique($results[0]); foreach($new_arr as $kkk){ echo $kkk; }

❾ php網頁採集(採集js延遲載入的數據)

可以用狐火看下網路請求,模擬相應網路請求,取數據。

❿ 怎麼用php採集網站數據

簡單的分了幾個步驟:
1、確定採集目標
2、獲取目標遠程頁面內容(curl、file_get_contents)
3、分析頁面html源碼,正則匹配你需要的內容(preg_match、preg_match_all),這一步最為重要,不同頁面正則匹配規則不一樣
4、入庫

閱讀全文

與php網頁數據採集相關的資料

熱點內容
ios程序員簡歷模板 瀏覽:735
給我推薦一些解壓 瀏覽:328
泰山pdf 瀏覽:400
程序員與需求分析員 瀏覽:461
安卓手機cfg用什麼軟體打開 瀏覽:663
51單片機嵌入式系統 瀏覽:818
什麼app可以買正品書 瀏覽:568
程序員對游戲的評價 瀏覽:465
測睡眠的app哪個好 瀏覽:900
塔科夫現在什麼俄服伺服器能玩 瀏覽:803
cad2012快捷命令 瀏覽:633
雙機命令 瀏覽:884
android默認語言設置在哪 瀏覽:783
淑女鞋命令 瀏覽:387
相冊怎麼樣加密碼下載 瀏覽:881
python做前端開發 瀏覽:892
網吧怎麼租伺服器 瀏覽:276
ansys畫圓命令流 瀏覽:774
騰訊雲盤伺服器地址 瀏覽:762
無損壓縮可以壓文檔嘛 瀏覽:115