Ⅰ java根據url抓取html頁面內容,怎麼解析chunked 方式
先獲取頁面
String html = getContent(url, Constants.ENCODING_UTF8);
解析頁面 Document doc=Jsoup.parse(html);
然後你獲取相應的標簽String tag =doc.getElementsByTag("title").first().text();
如果標簽很多不一樣你就得判斷了,還有看看有什麼相同的地方吧,我抓取網頁數據的時候最煩的就是格式不一樣的,好多標簽不一樣的,只能判斷,找到共同點,個別的單個處理,
Ⅱ java程序怎麼讀取html網頁
步驟:
一、使用java.net包下的URL類,可以將一個網頁(鏈接)封裝成一個URL對象。
二、URL對象有一個openStream()方法,使用該方法可以獲取該網頁的輸入流,我們可以通過讀取輸入流的方式獲得網頁的內容,並通過輸出流寫入HTML文件中。