❶ 有一個任務,說是用java編程,編一個類似網路爬蟲的東西,可以將網頁上的文字小說提取出來變為txt文檔。
如果單線程來實現,就是一個主程序去爬,不斷遍歷。很簡單的。
如果多線程,就主程序控制多線程去進行遍歷。最好用一個線程池來進行管理,否則會隨著遍歷系統資源消耗過大的。
❷ ajax框架的原理,以及怎樣用爬蟲程序來進行框架識別,最好有ajax爬蟲的源代碼。
1、AJAX理解:
非同步的javascript 與xml
包含的主要技術點:非同步;javascript;xml
2、AJAX的技術組成:
AJAX不是一種技術,而是多種傳統技術的組合
HTML 和 CSS
JavaScript
XML和XSLT
DOM
XMLHttpRequest對象
3、AJAX的工作原理:
傳統的b/s操作,客戶端執行的是與伺服器端的同步操作,必須等待伺服器有返回信息後才能在客戶端顯示出來,而是客戶端有明確的刷新過程。
在AJAX的工作中,在傳統的瀏覽器端,伺服器端的基礎上,添加了一個稱為AJAX引擎的中間層,來實現非同步的數據傳輸。
AJAX引擎,主要是通過一個XMLHttpRequest對象實現的。
4、XMLHttpRequest對象
通過XMLHttpRequest,AJAX可以像桌面應用程序一樣,只同伺服器進行數據層面的交互,而不用每次都刷新頁面。這樣,即減輕了伺服器的負擔,又加快了響應速度,縮短了用戶等待的時間。
XMLHttpRequest是AJAX中最重要的一個對象。
XMLHttpRequest在IE5中,就已經實現了,而且在不同瀏覽器中是兼容的。所以,在開發中可以通過固定的方法來獲得
5、AJAX的核心工作機制
(1)初始化XMLHttpRequest對象
(2)客戶端發送請求
(3)伺服器接收請求並進行處理
(4)伺服器返回響應數據
(5)客戶端接受響應數據
(6)根據響應數據在客戶端進行顯示
根據以上流程,可形成初步的AJAX的開發框架
<script language="javascript">
var XMLHttpReq;
//創建XMLHttpRequest對象
function createXMLHttpRequest() {
if(window.XMLHttpRequest) { //Mozilla 瀏覽器
XMLHttpReq = new XMLHttpRequest();
}
else if (window.ActiveXObject) { // IE瀏覽器
try {
XMLHttpReq = new ActiveXObject("Msxml2.XMLHTTP");
} catch (e) {
try {
XMLHttpReq = new ActiveXObject("Microsoft.XMLHTTP");
} catch (e) {}
}
}
}
或者是函數如下:
var XMLHttpReq;
function createXMLHttpRequest() {
if(window.ActiveXObject){
XMLHttpReq = new ActiveXObject("Microsoft.XMLHTTP");
}else{
XMLHttpReq = new XMLHttpRequest();
}
}
//發送請求函數
function sendRequest(url) {
createXMLHttpRequest();
XMLHttpReq.open("GET", url, true);
XMLHttpReq.onreadystatechange = processResponse;//指定響應函數
XMLHttpReq.send(null); // 發送請求
}
// 處理返回信息函數
function processResponse() {
if (XMLHttpReq.readyState == 4) { // 判斷對象狀態
if (XMLHttpReq.status == 200) { // 信息已經成功返回,開始處理信息
var res=XMLHttpReq.responseXML.getElementsByTagName("res")[0].firstChild.data;
window.alert(res);
} else { //頁面不正常
window.alert("您所請求的頁面有異常。");
}
}
}
//實現自己功能的函數,在此函數中根據需要調用請求發送的函數sendRequest
❸ 求網路視頻爬蟲的程序源代碼,用java開發的
apache上有個Lucence項目,是開源的搜索引擎。
你可以下載一份源代碼。
中國還有一個中文網站,還有像Lucence In Action 這本書到處都可以下載
估計www.xunlei.com上就有
❹ 如何使用python爬蟲jfinal
一、gzip/deflate支持
現在的網頁普遍支持gzip壓縮,這往往可以解決大量傳輸時間,以VeryCD的主頁為例,未壓縮版本247K,壓縮了以後45K,為原來的1/5。這就意味著抓取速度會快5倍。
然而python的urllib/urllib2默認都不支持壓縮,要返回壓縮格式,必須在request的header裡面寫明』accept-
encoding』,然後讀取response後更要檢查header查看是否有』content-encoding』一項來判斷是否需要解碼,很繁瑣瑣
碎。如何讓urllib2自動支持gzip, defalte呢?其實可以繼承BaseHanlder類,然後build_opener的方式來處理:
import urllib2
from gzip import GzipFile
from StringIO import StringIO
class ContentEncodingProcessor(urllib2.BaseHandler):
"""A handler to add gzip capabilities to urllib2 requests """
# add headers to requests
def http_request(self, req):
req.add_header("Accept-Encoding", "gzip, deflate")
return req
# decode
def http_response(self, req, resp):
old_resp = resp
# gzip
if resp.headers.get("content-encoding") == "gzip":
gz = GzipFile(
fileobj=StringIO(resp.read()),
mode="r"
)
resp = urllib2.addinfourl(gz, old_resp.headers, old_resp.url, old_resp.code)
resp.msg = old_resp.msg
# deflate
if resp.headers.get("content-encoding") == "deflate":
gz = StringIO( deflate(resp.read()) )
resp = urllib2.addinfourl(gz, old_resp.headers, old_resp.url, old_resp.code) # 'class to add info() and
resp.msg = old_resp.msg
return resp
# deflate support
import zlib
def deflate(data): # zlib only provides the zlib compress format,not the deflate format;
try: # so on top of all there's this workaround:
return zlib.decompress(data, -zlib.MAX_WBITS)
except zlib.error:
return zlib.decompress(data)然後就簡單了,
encoding_support = ContentEncodingProcessor
opener = urllib2.build_opener( encoding_support, urllib2.HTTPHandler )
#直接用opener打開網頁,如果伺服器支持gzip/defalte則自動解壓縮
content = opener.open(url).read()二、更方便地多線程
總結一文的確提及了一個簡單的多線程模板,但是那個東東真正應用到程序裡面去只會讓程序變得支離破碎,不堪入目。在怎麼更方便地進行多線程方面我也動了一番腦筋。先想想怎麼進行多線程調用最方便呢?
1、用twisted進行非同步I/O抓取
事實上更高效的抓取並非一定要用多線程,也可以使用非同步I/O法:直接用twisted的getPage方法,然後分別加上非同步I/O結束時的callback和errback方法即可。例如可以這么干:
from twisted.web.client import getPage
from twisted.internet import reactor
links = [ 'http://www.verycd.com/topics/%d/'%i for i in range(5420,5430) ]
def parse_page(data,url):
print len(data),url
def fetch_error(error,url):
print error.getErrorMessage(),url
# 批量抓取鏈接
for url in links:
getPage(url,timeout=5)
.addCallback(parse_page,url) #成功則調用parse_page方法
.addErrback(fetch_error,url) #失敗則調用fetch_error方法
reactor.callLater(5, reactor.stop) #5秒鍾後通知reactor結束程序
reactor.run()twisted人如其名,寫的代碼實在是太扭曲了,非正常人所能接受,雖然這個簡單的例子看上去還好;每次寫twisted的程序整個人都扭曲了,累得不得了,文檔等於沒有,必須得看源碼才知道怎麼整,唉不提了。
如果要支持gzip/deflate,甚至做一些登陸的擴展,就得為twisted寫個新的HTTPClientFactory類諸如此類,我這眉頭真是大皺,遂放棄。有毅力者請自行嘗試。
這篇講怎麼用twisted來進行批量網址處理的文章不錯,由淺入深,深入淺出,可以一看。
2、設計一個簡單的多線程抓取類
還是覺得在urllib之類python「本土」的東東裡面折騰起來更舒服。試想一下,如果有個Fetcher類,你可以這么調用
f = Fetcher(threads=10) #設定下載線程數為10
for url in urls:
f.push(url) #把所有url推入下載隊列
while f.taskleft(): #若還有未完成下載的線程
content = f.pop() #從下載完成隊列中取出結果
do_with(content) # 處理content內容這么個多線程調用簡單明了,那麼就這么設計吧,首先要有兩個隊列,用Queue搞定,多線程的基本架構也和「技巧總結」一文類似,push方法和
pop方法都比較好處理,都是直接用Queue的方法,taskleft則是如果有「正在運行的任務」或者」隊列中的任務」則為是,也好辦,於是代碼如
下:import urllib2
from threading import Thread,Lock
from Queue import Queue
import time
class Fetcher:
def __init__(self,threads):
self.opener = urllib2.build_opener(urllib2.HTTPHandler)
self.lock = Lock() #線程鎖
self.q_req = Queue() #任務隊列
self.q_ans = Queue() #完成隊列
self.threads = threads
for i in range(threads):
t = Thread(target=self.threadget)
t.setDaemon(True)
t.start()
self.running = 0
def __del__(self): #解構時需等待兩個隊列完成
time.sleep(0.5)
self.q_req.join()
self.q_ans.join()
def taskleft(self):
return self.q_req.qsize()+self.q_ans.qsize()+self.running
def push(self,req):
self.q_req.put(req)
def pop(self):
return self.q_ans.get()
def threadget(self):
while True:
req = self.q_req.get()
with self.lock: #要保證該操作的原子性,進入critical area
self.running += 1
try:
ans = self.opener.open(req).read()
except Exception, what:
ans = ''
print what
self.q_ans.put((req,ans))
with self.lock:
self.running -= 1
self.q_req.task_done()
time.sleep(0.1) # don't spam
if __name__ == "__main__":
links = [ 'http://www.verycd.com/topics/%d/'%i for i in range(5420,5430) ]
f = Fetcher(threads=10)
for url in links:
f.push(url)
while f.taskleft():
url,content = f.pop()
print url,len(content)
❺ 爬蟲獲取和DOM中類似的源碼有什麼方法
jslang
jslang
天際的海浪 T10
Blank Blank Blank
在控制台DOM中看到的代碼是當前頁面中正在顯示的內容,這包含由js程序動態創建和修改的部分,並且會根據用戶操作執行js程序修改頁面而實時更新
❻ 如何利用python寫爬蟲程序
利用python寫爬蟲程序的方法:
1、先分析網站內容,紅色部分即是網站文章內容div。
❼ 跪求一份java網路爬蟲的源代碼急用!!
希望能幫到你 . . . 這個可以解決你的問題 但是沒有樣式的.只是爬了源代碼
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileOutputStream;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.net.HttpURLConnection;
import java.net.URL;
public class WebPageSource {
public static void main(String args[]){
URL url;
int responsecode;
HttpURLConnection urlConnection;
BufferedReader reader;
BufferedWriter writer;
String line;
try{
//生成一個URL對象,要獲取源代碼的網頁地址為:http://www.sina.com.cn
url=new URL("http://www.sina.com.cn");
//打開URL
urlConnection = (HttpURLConnection)url.openConnection();
//獲取伺服器響應代碼
responsecode=urlConnection.getResponseCode();
if(responsecode==200){
//得到輸入流,即獲得了網頁的內容
reader=new BufferedReader(new InputStreamReader(urlConnection.getInputStream(),"GBK"));
writer = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(new File("d://test.txt"))));
while((line=reader.readLine())!=null){
writer.write(line);
writer.newLine();
}
}
else{
System.out.println("獲取不到網頁的源碼,伺服器響應代碼為:"+responsecode);
}
}
catch(Exception e){
System.out.println("獲取不到網頁的源碼,出現異常:"+e);
}
}
}
❽ 求一個網路爬蟲的完整代碼,需要能自動遞歸爬取站內頁面
importjava.net.*;
importjava.io.*;
importjava.util.regex.*;
//搜索Web爬行者
{
/*
*disallowListCache緩存robot不允許搜索的URL。Robot協議在Web站點的根目錄下設置一個robots.txt文件,
*規定站點上的哪些頁面是限制搜索的。搜索程序應該在搜索過程中跳過這些區域,下面是robots.txt的一個例子:#robots.txtfor
*http://somehost.com/User-agent:*Disallow:/cgi-bin/Disallow:
*/registration#/:/login
*/
privateHashMap<String,ArrayList<String>>disallowListCache=newHashMap<String,ArrayList<String>>();
ArrayList<String>errorList=newArrayList<String>();//錯誤信息
ArrayList<String>result=newArrayList<String>();//搜索到的結果
StringstartUrl;//開始搜索的起點
intmaxUrl;//最大處理的url數
StringsearchString;//要搜索的字元串(英文)
booleancaseSensitive=false;//是否區分大小寫
booleanlimitHost=false;//是否在限制的主機內搜索
publicSearchCrawler(StringstartUrl,intmaxUrl,StringsearchString){
this.startUrl=startUrl;
this.maxUrl=maxUrl;
this.searchString=searchString;
}
publicArrayList<String>getResult(){
returnresult;
}
publicvoidrun(){//啟動搜索線程
crawl(startUrl,maxUrl,searchString,limitHost,caseSensitive);
}
//檢測URL格式
privateURLverifyUrl(Stringurl){
//只處理HTTPURLs.
if(!url.toLowerCase().startsWith("http://"))
returnnull;
URLverifiedUrl=null;
try{
verifiedUrl=newURL(url);
}catch(Exceptione){
returnnull;
}
returnverifiedUrl;
}
//檢測robot是否允許訪問給出的URL.
privatebooleanisRobotAllowed(URLurlToCheck){
Stringhost=urlToCheck.getHost().toLowerCase();//獲取給出url的主機
//System.out.println("主機="+host);
//獲取主機不允許搜索的URL緩存
ArrayList<String>disallowList=disallowListCache.get(host);
//如果還沒有緩存,下載並緩存。
if(disallowList==null){
disallowList=newArrayList<String>();
try{
URLrobotsFileUrl=newURL("http://"+host+"/robots.txt");
BufferedReaderreader=newBufferedReader(
newInputStreamReader(robotsFileUrl.openStream()));
//讀robot文件,創建不允許訪問的路徑列表。
Stringline;
while((line=reader.readLine())!=null){
if(line.indexOf("Disallow:")==0){//是否包含"Disallow:"
StringdisallowPath=line.substring("Disallow:"
.length());//獲取不允許訪問路徑
//檢查是否有注釋。
intcommentIndex=disallowPath.indexOf("#");
if(commentIndex!=-1){
disallowPath=disallowPath.substring(0,
commentIndex);//去掉注釋
}
disallowPath=disallowPath.trim();
disallowList.add(disallowPath);
}
}
//緩存此主機不允許訪問的路徑。
disallowListCache.put(host,disallowList);
}catch(Exceptione){
returntrue;//web站點根目錄下沒有robots.txt文件,返回真
}
}
Stringfile=urlToCheck.getFile();
//System.out.println("文件getFile()="+file);
for(inti=0;i<disallowList.size();i++){
Stringdisallow=disallowList.get(i);
if(file.startsWith(disallow)){
returnfalse;
}
}
returntrue;
}
privateStringdownloadPage(URLpageUrl){
try{
//OpenconnectiontoURLforreading.
BufferedReaderreader=newBufferedReader(newInputStreamReader(
pageUrl.openStream()));
//Readpageintobuffer.
Stringline;
StringBufferpageBuffer=newStringBuffer();
while((line=reader.readLine())!=null){
pageBuffer.append(line);
}
returnpageBuffer.toString();
}catch(Exceptione){
}
returnnull;
}
//從URL中去掉"www"
privateStringremoveWwwFromUrl(Stringurl){
intindex=url.indexOf("://www.");
if(index!=-1){
returnurl.substring(0,index+3)+url.substring(index+7);
}
return(url);
}
//解析頁面並找出鏈接
privateArrayList<String>retrieveLinks(URLpageUrl,StringpageContents,
HashSetcrawledList,booleanlimitHost){
//用正則表達式編譯鏈接的匹配模式。
Patternp=Pattern.compile("<a\s+href\s*=\s*"?(.*?)["|>]",
Pattern.CASE_INSENSITIVE);
Matcherm=p.matcher(pageContents);
ArrayList<String>linkList=newArrayList<String>();
while(m.find()){
Stringlink=m.group(1).trim();
if(link.length()<1){
continue;
}
//跳過鏈到本頁面內鏈接。
if(link.charAt(0)=='#'){
continue;
}
if(link.indexOf("mailto:")!=-1){
continue;
}
if(link.toLowerCase().indexOf("javascript")!=-1){
continue;
}
if(link.indexOf("://")==-1){
if(link.charAt(0)=='/'){//處理絕對地
link="http://"+pageUrl.getHost()+":"
+pageUrl.getPort()+link;
}else{
Stringfile=pageUrl.getFile();
if(file.indexOf('/')==-1){//處理相對地址
link="http://"+pageUrl.getHost()+":"
+pageUrl.getPort()+"/"+link;
}else{
Stringpath=file.substring(0,
file.lastIndexOf('/')+1);
link="http://"+pageUrl.getHost()+":"
+pageUrl.getPort()+path+link;
}
}
}
intindex=link.indexOf('#');
if(index!=-1){
link=link.substring(0,index);
}
link=removeWwwFromUrl(link);
URLverifiedLink=verifyUrl(link);
if(verifiedLink==null){
continue;
}
/*如果限定主機,排除那些不合條件的URL*/
if(limitHost
&&!pageUrl.getHost().toLowerCase()
.equals(verifiedLink.getHost().toLowerCase())){
continue;
}
//跳過那些已經處理的鏈接.
if(crawledList.contains(link)){
continue;
}
linkList.add(link);
}
return(linkList);
}
//搜索下載Web頁面的內容,判斷在該頁面內有沒有指定的搜索字元串
(StringpageContents,
StringsearchString,booleancaseSensitive){
StringsearchContents=pageContents;
if(!caseSensitive){//如果不區分大小寫
searchContents=pageContents.toLowerCase();
}
Patternp=Pattern.compile("[\s]+");
String[]terms=p.split(searchString);
for(inti=0;i<terms.length;i++){
if(caseSensitive){
if(searchContents.indexOf(terms[i])==-1){
returnfalse;
}
}else{
if(searchContents.indexOf(terms[i].toLowerCase())==-1){
returnfalse;
}
}
}
returntrue;
}
//執行實際的搜索操作
publicArrayList<String>crawl(StringstartUrl,intmaxUrls,
StringsearchString,booleanlimithost,booleancaseSensitive){
System.out.println("searchString="+searchString);
HashSet<String>crawledList=newHashSet<String>();
LinkedHashSet<String>toCrawlList=newLinkedHashSet<String>();
if(maxUrls<1){
errorList.add("InvalidMaxURLsvalue.");
System.out.println("InvalidMaxURLsvalue.");
}
if(searchString.length()<1){
errorList.add("MissingSearchString.");
System.out.println("MissingsearchString");
}
if(errorList.size()>0){
System.out.println("err!!!");
returnerrorList;
}
//從開始URL中移出www
startUrl=removeWwwFromUrl(startUrl);
toCrawlList.add(startUrl);
while(toCrawlList.size()>0){
if(maxUrls!=-1){
if(crawledList.size()==maxUrls){
break;
}
}
//GetURLatbottomofthelist.
Stringurl=toCrawlList.iterator().next();
//RemoveURLfromthetocrawllist.
toCrawlList.remove(url);
//ConvertstringurltoURLobject.
URLverifiedUrl=verifyUrl(url);
//.
if(!isRobotAllowed(verifiedUrl)){
continue;
}
//增加已處理的URL到crawledList
crawledList.add(url);
StringpageContents=downloadPage(verifiedUrl);
if(pageContents!=null&&pageContents.length()>0){
//從頁面中獲取有效的鏈接
ArrayList<String>links=retrieveLinks(verifiedUrl,
pageContents,crawledList,limitHost);
toCrawlList.addAll(links);
if(searchStringMatches(pageContents,searchString,
caseSensitive)){
result.add(url);
System.out.println(url);
}
}
}
returnresult;
}
//主函數
publicstaticvoidmain(String[]args){
if(args.length!=3){
System.out
.println("Usage:");
return;
}
intmax=Integer.parseInt(args[1]);
SearchCrawlercrawler=newSearchCrawler(args[0],max,args[2]);
Threadsearch=newThread(crawler);
System.out.println("Startsearching...");
System.out.println("result:");
search.start();
}
}
參考:http://www.cnblogs.com/tjsquall/archive/2007/12/22/1010831.html
❾ 你好,我有個JAVA的爬蟲代碼,txt的,但是不知道怎麼使用它爬網路上的數據。可不可以指點下
你有的是代碼(源碼)?如果是源碼,請把它另存為.java文件,然後使用jdk編譯成class文件,然後用java命令執行試試。