秀人網爬蟲源碼_python怎麼看源碼進行網路爬蟲

❶ 爬蟲，爬取的網頁源碼為啥中間一部分缺失

獲取不到動態載入的內容，除非內容直接在html頁面了，這就是為什麼動態載入的內容，js動態生成的內容不利於seo的原因

❷ 關於爬蟲爬不到源碼的問題

這是用javascript執行的頁面。一般爬蟲讀不到HTML源碼,也不能填入表格。
可以在Chrome或Firefox設置Live HTTP Header，啟動後，手工填入表格。 Live HTTP Header會顯示這頁面如何透過javascript把資料傳給隱藏的php頁面。然後用curl的POST執行就可。
谷歌搜索 using-php-to-scrape-javascript-jquery-json-websites 看看。

❸ python爬蟲怎麼獲取動態的網頁源碼

一個月前實習導師布置任務說通過網路爬蟲獲取深圳市氣象局發布的降雨數據，網頁如下：

心想，爬蟲不太難的，當年跟zjb爬煎蛋網無（mei）聊（zi）圖的時候，多麼清高。由於接受任務後的一個月考試加作業一大堆，導師也不催，自己也不急。

但是，導師等我一個月都得讓我來寫意味著這東西得有多難吧。。。今天打開一看的確是這樣。網站是基於Ajax寫的，數據動態獲取，所以無法通過下載源代碼然後解析獲得。

從某不良少年寫的抓取淘寶mm的例子中收到啟發，對於這樣的情況，一般可以同構自己搭建瀏覽器實現。phantomJs，CasperJS都是不錯的選擇。

導師的要求是獲取過去一年內深圳每個區每個站點每小時的降雨量，執行該操作需要通過如上圖中的歷史查詢實現，即通過一個時間來查詢，而這個時間存放在一個hidden類型的input標簽里，當然可以通過js語句將其改為text類型，然後執行send_keys之類的操作。然而，我失敗了。時間可以修改設置，可是結果如下圖。

為此，僅抓取實時數據。選取python的selenium，模擬搭建瀏覽器，模擬人為的點擊等操作實現數據生成和獲取。selenium的一大優點就是能獲取網頁渲染後的源代碼，即執行操作後的源代碼。普通的通過 url解析網頁的方式只能獲取給定的數據，不能實現與用戶之間的交互。selenium通過獲取渲染後的網頁源碼，並通過豐富的查找工具，個人認為最好用的就是find_element_by_xpath("xxx")，通過該方式查找到元素後可執行點擊、輸入等事件，進而向伺服器發出請求，獲取所需的數據。

[python]view plain

#coding=utf-8
fromtestStringimport*
fromseleniumimportwebdriver
importstring
importos
fromselenium.webdriver.common.keysimportKeys
importtime
importsys
default_encoding='utf-8'
ifsys.getdefaultencoding()!=default_encoding:
reload(sys)
sys.setdefaultencoding(default_encoding)
district_navs=['nav2','nav1','nav3','nav4','nav5','nav6','nav7','nav8','nav9','nav10']
district_names=['福田區','羅湖區','南山區','鹽田區','寶安區','龍崗區','光明新區','坪山新區','龍華新區','大鵬新區']
flag=1
while(flag>0):
driver=webdriver.Chrome()
driver.get("hianCe/")
#選擇降雨量
driver.find_element_by_xpath("//span[@id='fenqu_H24R']").click()
filename=time.strftime("%Y%m%d%H%M",time.localtime(time.time()))+'.txt'
#創建文件
output_file=open(filename,'w')
#選擇行政區
foriinrange(len(district_navs)):
driver.find_element_by_xpath("//div[@id='"+district_navs[i]+"']").click()
#printdriver.page_source
timeElem=driver.find_element_by_id("time_shikuang")
#輸出時間和站點名
output_file.write(timeElem.text+',')
output_file.write(district_names[i]+',')
elems=driver.find_elements_by_xpath("//span[@onmouseover='javscript:changeTextOver(this)']")
#輸出每個站點的數據，格式為：站點名，一小時降雨量，當日累積降雨量
foreleminelems:
output_file.write(AMonitorRecord(elem.get_attribute("title"))+',')
output_file.write(' ')
output_file.close()
driver.close()
time.sleep(3600)
文件中引用的文件testString只是修改輸出格式，提取有效數據。

[python]view plain

#Encoding=utf-8
defOnlyCharNum(s,oth=''):
s2=s.lower()
fomart=',.'
forcins2:
ifnotcinfomart:
s=s.replace(c,'')
returns
defAMonitorRecord(str):
str=str.split(":")
returnstr[0]+","+OnlyCharNum(str[1])

一小時抓取一次數據，結果如下：

❹ 求java實現網路爬蟲的原理（源代碼更好）

復雜的方法就是自己用java的相關類來模擬瀏覽器下載網頁頁面，然後使用DOM等技術從下載的網頁中獲取自己需要的內容。不過強烈建議你使用HttpClient和HttpParse框架來方便地實現網路爬蟲功能。其中HttpClient框架主要實現從WEB伺服器下載網頁數據，功能極其強大。而HttpParse框架則是從網頁文件中獲取不同標簽的內容，功能也很強大，而且使用十分方便，強烈推薦。

❺ 求網路爬蟲源代碼VC++編寫的

爬蟲類的程序最好用C#或C++/CLI完全用C++實現的要做大量Http協議和Html解析的東西，使用 .Net類庫的Http下載和正則表達式可以非常方便地做這些東西。

❻ Java源碼實現網路爬蟲

//Java爬蟲demo

importjava.io.File;
importjava.net.URL;
importjava.net.URLConnection;
importjava.nio.file.Files;
importjava.nio.file.Paths;
importjava.util.Scanner;
importjava.util.UUID;
importjava.util.regex.Matcher;
importjava.util.regex.Pattern;

publicclassDownMM{
publicstaticvoidmain(String[]args)throwsException{
//out為輸出的路徑,注意要以\結尾
Stringout="D:\JSP\pic\java\";
try{
Filef=newFile(out);
if(!f.exists()){
f.mkdirs();
}
}catch(Exceptione){
System.out.println("no");
}

Stringurl="http://www.mzitu.com/share/comment-page-";
Patternreg=Pattern.compile("<imgsrc="(.*?)"");
for(intj=0,i=1;i<=10;i++){
URLuu=newURL(url+i);
URLConnectionconn=uu.openConnection();
conn.setRequestProperty("User-Agent","Mozilla/5.0(WindowsNT6.3;WOW64;Trident/7.0;rv:11.0)likeGecko");
Scannersc=newScanner(conn.getInputStream());
Matcherm=reg.matcher(sc.useDelimiter("\A").next());
while(m.find()){
Files.(newURL(m.group(1)).openStream(),Paths.get(out+UUID.randomUUID()+".jpg"));
System.out.println("已下載:"+j++);
}
}
}
}

❼ python怎麼看源碼進行網路爬蟲

在我們日常上網瀏覽網頁的時候，經常會看到一些好看的圖片，我們就希望把這些圖片保存下載，或者用戶用來做桌面壁紙，或者用來做設計的素材。
我們最常規的做法就是通過滑鼠右鍵，選擇另存為。但有些圖片滑鼠右鍵的時候並沒有另存為選項，還有辦法就通過就是通過截圖工具截取下來，但這樣就降低圖片的清晰度。好吧～！其實你很厲害的，右鍵查看頁面源代碼。
我們可以通過python 來實現這樣一個簡單的爬蟲功能，把我們想要的代碼爬取到本地。下面就看看如何使用python來實現這樣一個功能。

一，獲取整個頁面數據

首先我們可以先獲取要下載圖片的整個頁面信息。
getjpg.py

#coding=utf-8
import urllib

def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html

html = getHtml("http://tieba..com/p/2738151262")

print html

Urllib 模塊提供了讀取web頁面數據的介面，我們可以像讀取本地文件一樣讀取www和ftp上的數據。首先，我們定義了一個getHtml()函數:
urllib.urlopen()方法用於打開一個URL地址。
read()方法用於讀取URL上的數據，向getHtml()函數傳遞一個網址，並把整個頁面下載下來。執行程序就會把整個網頁列印輸出。

二，篩選頁面中想要的數據

Python 提供了非常強大的正則表達式，我們需要先要了解一點python 正則表達式的知識才行。
http://www.cnblogs.com/fnng/archive/2013/05/20/3089816.html

假如我們網路貼吧找到了幾張漂亮的壁紙，通過到前段查看工具。找到了圖片的地址，如：src=」https://gss0..com/70cFfyinKgQFm2e88IuM_a/forum......jpg」pic_ext=」jpeg」

修改代碼如下：

import re
import urllib

def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html

def getImg(html):
reg = r'src="(.+?\.jpg)" pic_ext'
imgre = re.compile(reg)
imglist = re.findall(imgre,html)
return imglist

html = getHtml("http://tieba..com/p/2460150866")
print getImg(html)

我們又創建了getImg()函數，用於在獲取的整個頁面中篩選需要的圖片連接。re模塊主要包含了正則表達式：
re.compile() 可以把正則表達式編譯成一個正則表達式對象.
re.findall() 方法讀取html 中包含 imgre（正則表達式）的數據。
運行腳本將得到整個頁面中包含圖片的URL地址。

三，將頁面篩選的數據保存到本地

把篩選的圖片地址通過for循環遍歷並保存到本地，代碼如下：

#coding=utf-8
import urllib
import re

def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html

def getImg(html):
reg = r'src="(.+?\.jpg)" pic_ext'
imgre = re.compile(reg)
imglist = re.findall(imgre,html)
x = 0
for imgurl in imglist:
urllib.urlretrieve(imgurl,'%s.jpg' % x)
x+=1

html = getHtml("http://tieba..com/p/2460150866")

print getImg(html)

這里的核心是用到了urllib.urlretrieve()方法，直接將遠程數據下載到本地。
通過一個for循環對獲取的圖片連接進行遍歷，為了使圖片的文件名看上去更規范，對其進行重命名，命名規則通過x變數加1。保存的位置默認為程序的存放目錄。
程序運行完成，將在目錄下看到下載到本地的文件。

❽ 誰有java網路爬蟲抓取圖片的源代碼

大部分網路抓圖都是網頁上帶的有圖片url的那種。高級的網路抓圖支持部分Javascript ，其實原理和抓取html頁面的一樣，解析並拼接javascript中的圖片地址，然後批量抓齲

❾ 跪求一份java網路爬蟲的源代碼急用！！

希望能幫到你 . . . 這個可以解決你的問題但是沒有樣式的.只是爬了源代碼

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileOutputStream;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.net.HttpURLConnection;
import java.net.URL;
public class WebPageSource {
public static void main(String args[]){
URL url;
int responsecode;
HttpURLConnection urlConnection;
BufferedReader reader;
BufferedWriter writer;
String line;
try{
//生成一個URL對象，要獲取源代碼的網頁地址為：http://www.sina.com.cn
url=new URL("http://www.sina.com.cn");
//打開URL
urlConnection = (HttpURLConnection)url.openConnection();
//獲取伺服器響應代碼
responsecode=urlConnection.getResponseCode();
if(responsecode==200){
//得到輸入流，即獲得了網頁的內容
reader=new BufferedReader(new InputStreamReader(urlConnection.getInputStream(),"GBK"));
writer = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(new File("d://test.txt"))));
while((line=reader.readLine())!=null){
writer.write(line);
writer.newLine();
}
}
else{
System.out.println("獲取不到網頁的源碼，伺服器響應代碼為："+responsecode);
}
}
catch(Exception e){
System.out.println("獲取不到網頁的源碼,出現異常："+e);
}
}
}

導航:首頁 > 源碼編譯 > 秀人網爬蟲源碼

秀人網爬蟲源碼

與秀人網爬蟲源碼相關的資料