㈠ java獲取html內的內容
簡單實現:
HtmlRequest類的內容:
[java] view plain
package com.capinfotech.net;
import java.io.ByteArrayOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.net.HttpURLConnection;
import java.net.URL;
public class HtmlRequest {
public static void main(String[] args) throws IOException {
URL url = new URL("http://www.163.com/");
HttpURLConnection conn = (HttpURLConnection)url.openConnection();
InputStream inputStream = conn.getInputStream(); //通過輸入流獲得網站數據
byte[] getData = readInputStream(inputStream); //獲得網站的二進制數據
String data = new String(getData, "gb2312");
System.out.println(data);
}
public static byte[] readInputStream(InputStream inputStream) throws IOException {
byte[] buffer = new byte[1024];
int len = 0;
ByteArrayOutputStream bos = new ByteArrayOutputStream();
while((len = inputStream.read(buffer)) != -1) {
bos.write(buffer, 0, len);
}
bos.close();
return bos.toByteArray();
}
}
這樣就能獲得http://www.163.com的內容,在控制台會列印輸出
㈡ java怎樣讀取html文件
FileReader 類。讀取文件內容
㈢ 請教如何使用java從html內容中提取指定信息
File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "IP");
看看這個代碼,調用 doc.text() 方法即可。
㈣ 如何使用Java提取html表單元素
用HttpServletRequest的 getParamer方法
㈤ java爬蟲 怎麼動態的獲取html
很多網站是用js或Jquery 生成數據的,到後台獲取到數據以後,用 document.write()或者("#id").html="" 的方式 寫到頁面中,這個時候用瀏覽器查看源碼是看不到數據的。
HttpClient是不行的,看網上說HtmlUnit,說 可以獲取後台js載入完後的完整頁面
不過並沒什麼用