㈠ java获取html内的内容
简单实现:
HtmlRequest类的内容:
[java] view plain
package com.capinfotech.net;
import java.io.ByteArrayOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.net.HttpURLConnection;
import java.net.URL;
public class HtmlRequest {
public static void main(String[] args) throws IOException {
URL url = new URL("http://www.163.com/");
HttpURLConnection conn = (HttpURLConnection)url.openConnection();
InputStream inputStream = conn.getInputStream(); //通过输入流获得网站数据
byte[] getData = readInputStream(inputStream); //获得网站的二进制数据
String data = new String(getData, "gb2312");
System.out.println(data);
}
public static byte[] readInputStream(InputStream inputStream) throws IOException {
byte[] buffer = new byte[1024];
int len = 0;
ByteArrayOutputStream bos = new ByteArrayOutputStream();
while((len = inputStream.read(buffer)) != -1) {
bos.write(buffer, 0, len);
}
bos.close();
return bos.toByteArray();
}
}
这样就能获得http://www.163.com的内容,在控制台会打印输出
㈡ java怎样读取html文件
FileReader 类。读取文件内容
㈢ 请教如何使用java从html内容中提取指定信息
File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "IP");
看看这个代码,调用 doc.text() 方法即可。
㈣ 如何使用Java提取html表单元素
用HttpServletRequest的 getParamer方法
㈤ java爬虫 怎么动态的获取html
很多网站是用js或Jquery 生成数据的,到后台获取到数据以后,用 document.write()或者("#id").html="" 的方式 写到页面中,这个时候用浏览器查看源码是看不到数据的。
HttpClient是不行的,看网上说HtmlUnit,说 可以获取后台js加载完后的完整页面
不过并没什么用