信息抽取的演算法_網頁正文及內容圖片提取演算法

1. 網頁正文及內容圖片提取演算法

備份自： http://blog.rainy.im/2015/09/02/web-content-and-main-image-extractor/

問題： 如何提取任意（尤其是新聞、資訊類）網頁的正文內容，提取與文章內容相關的圖片，源碼可見： extractor.py 。

抓取單個網站網頁內容時通常採用正則匹配的方式，但不同網站之間結構千奇百怪，很難用統一的正則表達式進行匹配。《基於行塊分布函數的通用網頁正文抽取演算法》的作者總結了一般從網頁中提取文章正文的方法，提出基於行塊分布的正文抽取演算法，並給出了 PHP 、Java 等實現。這一演算法的主要原理基於兩點：

演算法步驟如下：

以上演算法基本可以應對大部分（中文）網頁正文的提取，針對有些網站正文圖片多於文字的情況，可以採用保留 <img> 標簽中圖片鏈接的方法，增加正文密度。目前少量測試發現的問題有：1）文章分頁或動態載入的網頁；2）評論長度過長喧賓奪主的網頁。

熱點內容

ubuntu壓縮zip 發布：2025-08-24 08:12:28 瀏覽：2

vigenere演算法的方法是什麼發布：2025-08-24 08:12:26 瀏覽：666

pdf保護破解發布：2025-08-24 07:56:28 瀏覽：341

仿微信聊天系統源碼廣州公司發布：2025-08-24 07:09:11 瀏覽：106

怎麼查看我的世界伺服器日誌發布：2025-08-24 07:04:52 瀏覽：430

怎麼從程序員走到成功發布：2025-08-24 06:34:42 瀏覽：824

把軟體放入文件夾中如何移出發布：2025-08-24 06:14:48 瀏覽：209

紅包源碼企業即時聊天軟體發布：2025-08-24 06:14:44 瀏覽：581

xp安裝python 發布：2025-08-24 06:13:26 瀏覽：10

西門子參數編程讀取半徑值發布：2025-08-24 06:03:11 瀏覽：403

洗首飾解壓小視頻發布：2025-08-24 05:57:01 瀏覽：966

01背包問題的演算法解決發布：2025-08-24 05:35:58 瀏覽：373

sd卡放哪個文件夾發布：2025-08-24 05:33:55 瀏覽：301

解釋器模式java 發布：2025-08-24 05:30:18 瀏覽：104

android垂直自動滾動條發布：2025-08-24 05:10:03 瀏覽：153

計算器java小程序發布：2025-08-24 04:56:22 瀏覽：27

java的簡稱發布：2025-08-24 04:40:35 瀏覽：68

雲伺服器公網ip地址發布：2025-08-24 04:37:36 瀏覽：581

php對資料庫操作發布：2025-08-24 04:36:11 瀏覽：237

java爬圖片發布：2025-08-24 04:26:47 瀏覽：866

信息抽取的演算法