导航:首页 > 源码编译 > 信息抽取的算法

信息抽取的算法

发布时间:2023-05-30 08:52:11

1. 网页正文及内容图片提取算法

备份自: http://blog.rainy.im/2015/09/02/web-content-and-main-image-extractor/

问题: 如何提取任意(尤其是新闻、资讯类)网页的正文内容,提取与文章内容相关的图片,源码可见: extractor.py 。

抓取单个网站网页内容时通常采用正则匹配的方式,但不同网站之间结构千奇百怪,很难用统一的正则表达式进行匹配。 《基于行块分布函数的通用网页正文抽取算法》 的作者总结了一般从网页中提取文章正文的方法,提出基于行块分布的正文抽取算法,并给出了 PHP 、Java 等实现。这一算法的主要原理基于两点:

算法步骤如下:

以上算法基本可以应对大部分(中文)网页正文的提取,针对有些网站正文图片多于文字的情况,可以采用保留 <img> 标签中图片链接的方法,增加正文密度。目前少量测试发现的问题有:1)文章分页或动态加载的网页;2)评论长度过长喧宾夺主的网页。

阅读全文

与信息抽取的算法相关的资料

热点内容
汽车小压缩机拆解 浏览:825
云桌面卡是因为服务器的原因吗 浏览:377
qd123压缩机 浏览:969
pn532读取加密门禁卡 浏览:85
win10文件夹属性里无法加密 浏览:34
比特币加密的条件 浏览:848
求购现成影视app源码 浏览:572
wdsecurity加密版 浏览:813
云服务器和云丰云 浏览:188
服务器如何设置独立ip 浏览:857
tar命令打包文件夹 浏览:1000
删除linux用户和组 浏览:548
小米的程序员都用什么笔记本 浏览:703
字节三面算法题 浏览:971
服务器保护有什么好处 浏览:894
全部下载完后进行统一解压 浏览:393
远嫁的程序员妈妈 浏览:555
1024程序员节安全攻防挑战赛 浏览:786
怎么解除txt加密 浏览:772
javahttp流 浏览:656