怎麼利用爬蟲編譯出小程序的源碼_求網路視頻爬蟲的程序源代碼用java開發的

❶ 有一個任務，說是用java 編程，編一個類似網路爬蟲的東西，可以將網頁上的文字小說提取出來變為txt文檔。

如果單線程來實現，就是一個主程序去爬，不斷遍歷。很簡單的。
如果多線程，就主程序控制多線程去進行遍歷。最好用一個線程池來進行管理，否則會隨著遍歷系統資源消耗過大的。

❷ ajax框架的原理，以及怎樣用爬蟲程序來進行框架識別，最好有ajax爬蟲的源代碼。

1、AJAX理解：
非同步的javascript 與xml
包含的主要技術點：非同步；javascript;xml
2、AJAX的技術組成：
AJAX不是一種技術，而是多種傳統技術的組合
HTML 和 CSS
JavaScript
XML和XSLT
DOM
XMLHttpRequest對象
3、AJAX的工作原理：
傳統的b/s操作，客戶端執行的是與伺服器端的同步操作，必須等待伺服器有返回信息後才能在客戶端顯示出來，而是客戶端有明確的刷新過程。
在AJAX的工作中，在傳統的瀏覽器端，伺服器端的基礎上，添加了一個稱為AJAX引擎的中間層，來實現非同步的數據傳輸。
AJAX引擎，主要是通過一個XMLHttpRequest對象實現的。
4、XMLHttpRequest對象
通過XMLHttpRequest，AJAX可以像桌面應用程序一樣，只同伺服器進行數據層面的交互，而不用每次都刷新頁面。這樣，即減輕了伺服器的負擔，又加快了響應速度，縮短了用戶等待的時間。
XMLHttpRequest是AJAX中最重要的一個對象。
XMLHttpRequest在IE5中，就已經實現了，而且在不同瀏覽器中是兼容的。所以，在開發中可以通過固定的方法來獲得
5、AJAX的核心工作機制
（1）初始化XMLHttpRequest對象
（2）客戶端發送請求
（3）伺服器接收請求並進行處理
（4）伺服器返回響應數據
（5）客戶端接受響應數據
（6）根據響應數據在客戶端進行顯示
根據以上流程，可形成初步的AJAX的開發框架
<script language="javascript">
var XMLHttpReq;
//創建XMLHttpRequest對象
function createXMLHttpRequest() {
if(window.XMLHttpRequest) { //Mozilla 瀏覽器
XMLHttpReq = new XMLHttpRequest();
}
else if (window.ActiveXObject) { // IE瀏覽器
try {
XMLHttpReq = new ActiveXObject("Msxml2.XMLHTTP");
} catch (e) {
try {
XMLHttpReq = new ActiveXObject("Microsoft.XMLHTTP");
} catch (e) {}
}
}
}
或者是函數如下：
var XMLHttpReq;
function createXMLHttpRequest() {
if(window.ActiveXObject){
XMLHttpReq = new ActiveXObject("Microsoft.XMLHTTP");
}else{
XMLHttpReq = new XMLHttpRequest();
}
}
//發送請求函數
function sendRequest(url) {
createXMLHttpRequest();
XMLHttpReq.open("GET", url, true);
XMLHttpReq.onreadystatechange = processResponse;//指定響應函數
XMLHttpReq.send(null); // 發送請求
}
// 處理返回信息函數
function processResponse() {
if (XMLHttpReq.readyState == 4) { // 判斷對象狀態
if (XMLHttpReq.status == 200) { // 信息已經成功返回，開始處理信息
var res=XMLHttpReq.responseXML.getElementsByTagName("res")[0].firstChild.data;
window.alert(res);
} else { //頁面不正常
window.alert("您所請求的頁面有異常。");
}
}
}
//實現自己功能的函數，在此函數中根據需要調用請求發送的函數sendRequest

❸ 求網路視頻爬蟲的程序源代碼，用java開發的

apache上有個Lucence項目，是開源的搜索引擎。
你可以下載一份源代碼。
中國還有一個中文網站，還有像Lucence In Action 這本書到處都可以下載
估計www.xunlei.com上就有

❹ 如何使用python爬蟲jfinal

一、gzip/deflate支持
現在的網頁普遍支持gzip壓縮，這往往可以解決大量傳輸時間，以VeryCD的主頁為例，未壓縮版本247K，壓縮了以後45K，為原來的1/5。這就意味著抓取速度會快5倍。
然而python的urllib/urllib2默認都不支持壓縮，要返回壓縮格式，必須在request的header裡面寫明』accept-
encoding』，然後讀取response後更要檢查header查看是否有』content-encoding』一項來判斷是否需要解碼，很繁瑣瑣
碎。如何讓urllib2自動支持gzip, defalte呢？
其實可以繼承BaseHanlder類，然後build_opener的方式來處理：
import urllib2
from gzip import GzipFile
from StringIO import StringIO
class ContentEncodingProcessor(urllib2.BaseHandler):
"""A handler to add gzip capabilities to urllib2 requests """

# add headers to requests
def http_request(self, req):
req.add_header("Accept-Encoding", "gzip, deflate")
return req

# decode
def http_response(self, req, resp):
old_resp = resp
# gzip
if resp.headers.get("content-encoding") == "gzip":
gz = GzipFile(
fileobj=StringIO(resp.read()),
mode="r"
)
resp = urllib2.addinfourl(gz, old_resp.headers, old_resp.url, old_resp.code)
resp.msg = old_resp.msg
# deflate
if resp.headers.get("content-encoding") == "deflate":
gz = StringIO( deflate(resp.read()) )
resp = urllib2.addinfourl(gz, old_resp.headers, old_resp.url, old_resp.code) # 'class to add info() and
resp.msg = old_resp.msg
return resp

# deflate support
import zlib
def deflate(data): # zlib only provides the zlib compress format,not the deflate format;
try: # so on top of all there's this workaround:
return zlib.decompress(data, -zlib.MAX_WBITS)
except zlib.error:
return zlib.decompress(data)
然後就簡單了，
encoding_support = ContentEncodingProcessor
opener = urllib2.build_opener( encoding_support, urllib2.HTTPHandler )

#直接用opener打開網頁，如果伺服器支持gzip/defalte則自動解壓縮
content = opener.open(url).read()
二、更方便地多線程
總結一文的確提及了一個簡單的多線程模板，但是那個東東真正應用到程序裡面去只會讓程序變得支離破碎，不堪入目。在怎麼更方便地進行多線程方面我也動了一番腦筋。先想想怎麼進行多線程調用最方便呢？
1、用twisted進行非同步I/O抓取
事實上更高效的抓取並非一定要用多線程，也可以使用非同步I/O法：直接用twisted的getPage方法，然後分別加上非同步I/O結束時的callback和errback方法即可。例如可以這么干：
from twisted.web.client import getPage
from twisted.internet import reactor

links = [ 'http://www.verycd.com/topics/%d/'%i for i in range(5420,5430) ]

def parse_page(data,url):
print len(data),url

def fetch_error(error,url):
print error.getErrorMessage(),url

# 批量抓取鏈接
for url in links:
getPage(url,timeout=5)
.addCallback(parse_page,url) #成功則調用parse_page方法
.addErrback(fetch_error,url) #失敗則調用fetch_error方法

reactor.callLater(5, reactor.stop) #5秒鍾後通知reactor結束程序
reactor.run()
twisted人如其名，寫的代碼實在是太扭曲了，非正常人所能接受，雖然這個簡單的例子看上去還好；每次寫twisted的程序整個人都扭曲了，累得不得了，文檔等於沒有，必須得看源碼才知道怎麼整，唉不提了。
如果要支持gzip/deflate，甚至做一些登陸的擴展，就得為twisted寫個新的HTTPClientFactory類諸如此類，我這眉頭真是大皺，遂放棄。有毅力者請自行嘗試。
這篇講怎麼用twisted來進行批量網址處理的文章不錯，由淺入深，深入淺出，可以一看。
2、設計一個簡單的多線程抓取類
還是覺得在urllib之類python「本土」的東東裡面折騰起來更舒服。試想一下，如果有個Fetcher類，你可以這么調用
f = Fetcher(threads=10) #設定下載線程數為10
for url in urls:
f.push(url) #把所有url推入下載隊列
while f.taskleft(): #若還有未完成下載的線程
content = f.pop() #從下載完成隊列中取出結果
do_with(content) # 處理content內容
這么個多線程調用簡單明了，那麼就這么設計吧，首先要有兩個隊列，用Queue搞定，多線程的基本架構也和「技巧總結」一文類似，push方法和
pop方法都比較好處理，都是直接用Queue的方法，taskleft則是如果有「正在運行的任務」或者」隊列中的任務」則為是，也好辦，於是代碼如
下：
import urllib2
from threading import Thread,Lock
from Queue import Queue
import time

class Fetcher:
def __init__(self,threads):
self.opener = urllib2.build_opener(urllib2.HTTPHandler)
self.lock = Lock() #線程鎖
self.q_req = Queue() #任務隊列
self.q_ans = Queue() #完成隊列
self.threads = threads
for i in range(threads):
t = Thread(target=self.threadget)
t.setDaemon(True)
t.start()
self.running = 0

def __del__(self): #解構時需等待兩個隊列完成
time.sleep(0.5)
self.q_req.join()
self.q_ans.join()

def taskleft(self):
return self.q_req.qsize()+self.q_ans.qsize()+self.running

def push(self,req):
self.q_req.put(req)

def pop(self):
return self.q_ans.get()

def threadget(self):
while True:
req = self.q_req.get()
with self.lock: #要保證該操作的原子性，進入critical area
self.running += 1
try:
ans = self.opener.open(req).read()
except Exception, what:
ans = ''
print what
self.q_ans.put((req,ans))
with self.lock:
self.running -= 1
self.q_req.task_done()
time.sleep(0.1) # don't spam

if __name__ == "__main__":
links = [ 'http://www.verycd.com/topics/%d/'%i for i in range(5420,5430) ]
f = Fetcher(threads=10)
for url in links:
f.push(url)
while f.taskleft():
url,content = f.pop()
print url,len(content)

❺ 爬蟲獲取和DOM中類似的源碼有什麼方法

jslang
jslang
天際的海浪 T10
Blank Blank Blank

在控制台DOM中看到的代碼是當前頁面中正在顯示的內容，這包含由js程序動態創建和修改的部分，並且會根據用戶操作執行js程序修改頁面而實時更新

❻ 如何利用python寫爬蟲程序

利用python寫爬蟲程序的方法：

1、先分析網站內容，紅色部分即是網站文章內容div。

❼ 跪求一份java網路爬蟲的源代碼急用！！

希望能幫到你 . . . 這個可以解決你的問題但是沒有樣式的.只是爬了源代碼

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileOutputStream;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.net.HttpURLConnection;
import java.net.URL;
public class WebPageSource {
public static void main(String args[]){
URL url;
int responsecode;
HttpURLConnection urlConnection;
BufferedReader reader;
BufferedWriter writer;
String line;
try{
//生成一個URL對象，要獲取源代碼的網頁地址為：http://www.sina.com.cn
url=new URL("http://www.sina.com.cn");
//打開URL
urlConnection = (HttpURLConnection)url.openConnection();
//獲取伺服器響應代碼
responsecode=urlConnection.getResponseCode();
if(responsecode==200){
//得到輸入流，即獲得了網頁的內容
reader=new BufferedReader(new InputStreamReader(urlConnection.getInputStream(),"GBK"));
writer = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(new File("d://test.txt"))));
while((line=reader.readLine())!=null){
writer.write(line);
writer.newLine();
}
}
else{
System.out.println("獲取不到網頁的源碼，伺服器響應代碼為："+responsecode);
}
}
catch(Exception e){
System.out.println("獲取不到網頁的源碼,出現異常："+e);
}
}
}

❽ 求一個網路爬蟲的完整代碼，需要能自動遞歸爬取站內頁面



importjava.net.*;
importjava.io.*;
importjava.util.regex.*;

//搜索Web爬行者
{

	/*
	*disallowListCache緩存robot不允許搜索的URL。Robot協議在Web站點的根目錄下設置一個robots.txt文件,
	*規定站點上的哪些頁面是限制搜索的。搜索程序應該在搜索過程中跳過這些區域,下面是robots.txt的一個例子:#robots.txtfor
	*http://somehost.com/User-agent:*Disallow:/cgi-bin/Disallow:
	*/registration#/:/login
	*/

	privateHashMap<String,ArrayList<String>>disallowListCache=newHashMap<String,ArrayList<String>>();
	ArrayList<String>errorList=newArrayList<String>();//錯誤信息
	ArrayList<String>result=newArrayList<String>();//搜索到的結果
	StringstartUrl;//開始搜索的起點
	intmaxUrl;//最大處理的url數
	StringsearchString;//要搜索的字元串(英文)
	booleancaseSensitive=false;//是否區分大小寫
	booleanlimitHost=false;//是否在限制的主機內搜索

	publicSearchCrawler(StringstartUrl,intmaxUrl,StringsearchString){
		this.startUrl=startUrl;
		this.maxUrl=maxUrl;
		this.searchString=searchString;
	}

	publicArrayList<String>getResult(){
		returnresult;
	}

	publicvoidrun(){//啟動搜索線程

		crawl(startUrl,maxUrl,searchString,limitHost,caseSensitive);
	}

	//檢測URL格式
	privateURLverifyUrl(Stringurl){
		//只處理HTTPURLs.
		if(!url.toLowerCase().startsWith("http://"))
			returnnull;

		URLverifiedUrl=null;
		try{
			verifiedUrl=newURL(url);
		}catch(Exceptione){
			returnnull;
		}

		returnverifiedUrl;
	}

	//檢測robot是否允許訪問給出的URL.
	privatebooleanisRobotAllowed(URLurlToCheck){
		Stringhost=urlToCheck.getHost().toLowerCase();//獲取給出url的主機
		//System.out.println("主機="+host);

		//獲取主機不允許搜索的URL緩存
		ArrayList<String>disallowList=disallowListCache.get(host);

		//如果還沒有緩存,下載並緩存。
		if(disallowList==null){
			disallowList=newArrayList<String>();
			try{
				URLrobotsFileUrl=newURL("http://"+host+"/robots.txt");
				BufferedReaderreader=newBufferedReader(
						newInputStreamReader(robotsFileUrl.openStream()));

				//讀robot文件，創建不允許訪問的路徑列表。
				Stringline;
				while((line=reader.readLine())!=null){
					if(line.indexOf("Disallow:")==0){//是否包含"Disallow:"
						StringdisallowPath=line.substring("Disallow:"
								.length());//獲取不允許訪問路徑

						//檢查是否有注釋。
						intcommentIndex=disallowPath.indexOf("#");
						if(commentIndex!=-1){
							disallowPath=disallowPath.substring(0,
									commentIndex);//去掉注釋
						}

						disallowPath=disallowPath.trim();
						disallowList.add(disallowPath);
					}
				}

				//緩存此主機不允許訪問的路徑。
				disallowListCache.put(host,disallowList);
			}catch(Exceptione){
				returntrue;//web站點根目錄下沒有robots.txt文件,返回真
			}
		}

		Stringfile=urlToCheck.getFile();
		//System.out.println("文件getFile()="+file);
		for(inti=0;i<disallowList.size();i++){
			Stringdisallow=disallowList.get(i);
			if(file.startsWith(disallow)){
				returnfalse;
			}
		}

		returntrue;
	}

	privateStringdownloadPage(URLpageUrl){
		try{
			//OpenconnectiontoURLforreading.
			BufferedReaderreader=newBufferedReader(newInputStreamReader(
					pageUrl.openStream()));

			//Readpageintobuffer.
			Stringline;
			StringBufferpageBuffer=newStringBuffer();
			while((line=reader.readLine())!=null){
				pageBuffer.append(line);
			}

			returnpageBuffer.toString();
		}catch(Exceptione){
		}

		returnnull;
	}

	//從URL中去掉"www"
	privateStringremoveWwwFromUrl(Stringurl){
		intindex=url.indexOf("://www.");
		if(index!=-1){
			returnurl.substring(0,index+3)+url.substring(index+7);
		}

		return(url);
	}

	//解析頁面並找出鏈接
	privateArrayList<String>retrieveLinks(URLpageUrl,StringpageContents,
			HashSetcrawledList,booleanlimitHost){
		//用正則表達式編譯鏈接的匹配模式。
		Patternp=Pattern.compile("<a\s+href\s*=\s*"?(.*?)["|>]",
				Pattern.CASE_INSENSITIVE);
		Matcherm=p.matcher(pageContents);

		ArrayList<String>linkList=newArrayList<String>();
		while(m.find()){
			Stringlink=m.group(1).trim();

			if(link.length()<1){
				continue;
			}

			//跳過鏈到本頁面內鏈接。
			if(link.charAt(0)=='#'){
				continue;
			}

			if(link.indexOf("mailto:")!=-1){
				continue;
			}

			if(link.toLowerCase().indexOf("javascript")!=-1){
				continue;
			}

			if(link.indexOf("://")==-1){
				if(link.charAt(0)=='/'){//處理絕對地
					link="http://"+pageUrl.getHost()+":"
							+pageUrl.getPort()+link;
				}else{
					Stringfile=pageUrl.getFile();
					if(file.indexOf('/')==-1){//處理相對地址
						link="http://"+pageUrl.getHost()+":"
								+pageUrl.getPort()+"/"+link;
					}else{
						Stringpath=file.substring(0,
								file.lastIndexOf('/')+1);
						link="http://"+pageUrl.getHost()+":"
								+pageUrl.getPort()+path+link;
					}
				}
			}

			intindex=link.indexOf('#');
			if(index!=-1){
				link=link.substring(0,index);
			}

			link=removeWwwFromUrl(link);

			URLverifiedLink=verifyUrl(link);
			if(verifiedLink==null){
				continue;
			}

			/*如果限定主機，排除那些不合條件的URL*/
			if(limitHost
					&&!pageUrl.getHost().toLowerCase()
							.equals(verifiedLink.getHost().toLowerCase())){
				continue;
			}

			//跳過那些已經處理的鏈接.
			if(crawledList.contains(link)){
				continue;
			}

			linkList.add(link);
		}

		return(linkList);
	}

	//搜索下載Web頁面的內容，判斷在該頁面內有沒有指定的搜索字元串

	(StringpageContents,
			StringsearchString,booleancaseSensitive){
		StringsearchContents=pageContents;
		if(!caseSensitive){//如果不區分大小寫
			searchContents=pageContents.toLowerCase();
		}

		Patternp=Pattern.compile("[\s]+");
		String[]terms=p.split(searchString);
		for(inti=0;i<terms.length;i++){
			if(caseSensitive){
				if(searchContents.indexOf(terms[i])==-1){
					returnfalse;
				}
			}else{
				if(searchContents.indexOf(terms[i].toLowerCase())==-1){
					returnfalse;
				}
			}
		}

		returntrue;
	}

	//執行實際的搜索操作
	publicArrayList<String>crawl(StringstartUrl,intmaxUrls,
			StringsearchString,booleanlimithost,booleancaseSensitive){

		System.out.println("searchString="+searchString);
		HashSet<String>crawledList=newHashSet<String>();
		LinkedHashSet<String>toCrawlList=newLinkedHashSet<String>();

		if(maxUrls<1){
			errorList.add("InvalidMaxURLsvalue.");
			System.out.println("InvalidMaxURLsvalue.");
		}

		if(searchString.length()<1){
			errorList.add("MissingSearchString.");
			System.out.println("MissingsearchString");
		}

		if(errorList.size()>0){
			System.out.println("err!!!");
			returnerrorList;
		}

		//從開始URL中移出www
		startUrl=removeWwwFromUrl(startUrl);

		toCrawlList.add(startUrl);
		while(toCrawlList.size()>0){

			if(maxUrls!=-1){
				if(crawledList.size()==maxUrls){
					break;
				}
			}

			//GetURLatbottomofthelist.
			Stringurl=toCrawlList.iterator().next();

			//RemoveURLfromthetocrawllist.
			toCrawlList.remove(url);

			//ConvertstringurltoURLobject.
			URLverifiedUrl=verifyUrl(url);

			//.
			if(!isRobotAllowed(verifiedUrl)){
				continue;
			}

			//增加已處理的URL到crawledList
			crawledList.add(url);
			StringpageContents=downloadPage(verifiedUrl);

			if(pageContents!=null&&pageContents.length()>0){
				//從頁面中獲取有效的鏈接
				ArrayList<String>links=retrieveLinks(verifiedUrl,
						pageContents,crawledList,limitHost);

				toCrawlList.addAll(links);

				if(searchStringMatches(pageContents,searchString,
						caseSensitive)){
					result.add(url);
					System.out.println(url);
				}
			}

		}
		returnresult;
	}

	//主函數
	publicstaticvoidmain(String[]args){
		if(args.length!=3){
			System.out
					.println("Usage:");
			return;
		}
		intmax=Integer.parseInt(args[1]);
		SearchCrawlercrawler=newSearchCrawler(args[0],max,args[2]);
		Threadsearch=newThread(crawler);
		System.out.println("Startsearching...");
		System.out.println("result:");
		search.start();

	}
}

參考：http://www.cnblogs.com/tjsquall/archive/2007/12/22/1010831.html

❾ 你好，我有個JAVA的爬蟲代碼，txt的，但是不知道怎麼使用它爬網路上的數據。可不可以指點下

你有的是代碼（源碼）？如果是源碼，請把它另存為.java文件，然後使用jdk編譯成class文件，然後用java命令執行試試。

導航:首頁 > 源碼編譯 > 怎麼利用爬蟲編譯出小程序的源碼

怎麼利用爬蟲編譯出小程序的源碼

與怎麼利用爬蟲編譯出小程序的源碼相關的資料