导航:首页 > 编程语言 > java提取html

java提取html

发布时间:2022-06-04 07:55:10

java获取html内的内容

简单实现:
HtmlRequest类的内容:
[java] view plain
package com.capinfotech.net;

import java.io.ByteArrayOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.net.HttpURLConnection;
import java.net.URL;

public class HtmlRequest {

public static void main(String[] args) throws IOException {
URL url = new URL("http://www.163.com/");
HttpURLConnection conn = (HttpURLConnection)url.openConnection();
InputStream inputStream = conn.getInputStream(); //通过输入流获得网站数据
byte[] getData = readInputStream(inputStream); //获得网站的二进制数据
String data = new String(getData, "gb2312");
System.out.println(data);

}

public static byte[] readInputStream(InputStream inputStream) throws IOException {
byte[] buffer = new byte[1024];
int len = 0;
ByteArrayOutputStream bos = new ByteArrayOutputStream();
while((len = inputStream.read(buffer)) != -1) {
bos.write(buffer, 0, len);
}

bos.close();
return bos.toByteArray();
}

}
这样就能获得http://www.163.com的内容,在控制台会打印输出

㈡ java怎样读取html文件

FileReader 类。读取文件内容

㈢ 请教如何使用java从html内容中提取指定信息

File input = new File("/tmp/input.html");
Document doc = Jsoup.parse(input, "UTF-8", "IP");
看看这个代码,调用 doc.text() 方法即可。

㈣ 如何使用Java提取html表单元素

用HttpServletRequest的 getParamer方法

㈤ java爬虫 怎么动态的获取html

很多网站是用js或Jquery 生成数据的,到后台获取到数据以后,用 document.write()或者("#id").html="" 的方式 写到页面中,这个时候用浏览器查看源码是看不到数据的。

HttpClient是不行的,看网上说HtmlUnit,说 可以获取后台js加载完后的完整页面
不过并没什么用

阅读全文

与java提取html相关的资料

热点内容
服务器的应用镜像是什么 浏览:149
命令行的使用方法 浏览:509
怎么让图片左右压缩 浏览:651
白鹿原pdf 浏览:429
人民币怎么算法 浏览:754
什么app可以听懂刺猬说话 浏览:596
安卓机内存小如何扩大 浏览:125
粉丝服务器怎么和安卓手机通信 浏览:398
初中数学竞赛pdf 浏览:568
linux自定义安装 浏览:188
fpic要在每个编译文件 浏览:866
编译原理广义推导的定义 浏览:911
怎么在已有的压缩文件里加密码 浏览:517
安卓手机怎么设置系统软件 浏览:766
php前端java后端 浏览:794
数据框转换为矩阵python 浏览:74
单片机程序反汇编 浏览:853
编程和实物不一样 浏览:880
天官赐福小说什么app可看 浏览:208
原车空调改压缩机 浏览:103