⑴ 用java编写 网络爬虫求代码和流程 急
import java.awt.*;
import java.awt.event.*;
import java.io.*;
import java.net.*;
import java.util.*;
import java.util.regex.*;
import javax.swing.*;
import javax.swing.table.*;//一个Web的爬行者(注:爬行在这里的意思与抓取,捕获相同)
public class SearchCrawler extends JFrame{
//最大URL保存值
private static final String[] MAX_URLS={"50","100","500","1000"};
//缓存robot禁止爬行列表
private HashMap disallowListCache=new HashMap();
//搜索GUI控件
private JTextField startTextField;
private JComboBox maxComboBox;
private JCheckBox limitCheckBox;
private JTextField logTextField;
private JTextField searchTextField;
private JCheckBox caseCheckBox;
private JButton searchButton;
//搜索状态GUI控件
private JLabel crawlingLabel2;
private JLabel crawledLabel2;
private JLabel toCrawlLabel2;
private JProgressBar progressBar;
private JLabel matchesLabel2;
//搜索匹配项表格列表
private JTable table;
//标记爬行机器是否正在爬行
private boolean crawling;
//写日志匹配文件的引用
private PrintWriter logFileWriter;
//网络爬行者的构造函数
public SearchCrawler(){
//设置应用程序标题栏
setTitle("搜索爬行者");
//设置窗体大小
setSize(600,600);
//处理窗体关闭事件
addWindowListener(new WindowAdapter(){
public void windowClosing(WindowEvent e){
actionExit();
}
});
//设置文件菜单
JMenuBar menuBar=new JMenuBar();
JMenu fileMenu=new JMenu("文件");
fileMenu.setMnemonic(KeyEvent.VK_F);
JMenuItem fileExitMenuItem=new JMenuItem("退出",KeyEvent.VK_X);
fileExitMenuItem.addActionListener(new ActionListener(){
public void actionPerformed(ActionEvent e){
actionExit();
}
});
fileMenu.add(fileExitMenuItem);
menuBar.add(fileMenu);
setJMenuBar(menuBar);
⑵ python爬虫程序要用到哪些知识和技术
1.对网页结构需要有一个基本的了解和认知。
我们平时上网浏览网页,信息展现在浏览器里面的页面中,但我们用爬虫要抓取的信息是放在网页源代码里面的。(图1为我们看到的页面,图2
为页面对应的网页源代码)
在浏览器中使用快捷键F12来调出该界面,这个界面称为开发者模式
2.知道如何去找到我们需要的信息在网页源代码的那个位置。
一般来说信息可能直接存在于网页的html页面中,但是有一些动态加载的信息可能存在于js页面中。有一些网站,它的数据价值比较高,总会有竞争对手去抓取它的数据,所以它就会有比较厉害的反抓取措施,一般新手很难应付这种反抓取措施。一般的静态网页要求你对浏览器的开发者模式很熟悉,能够利用这个工具去定位自己需要的信息在网页源代码中的那个位置,网上有相关教程,搜一下就能找到,更复杂的动态网页,就需要你对动态加载的网页有点研究才行。这些知识点和技能,都是需要自己动手去尝试才能学会的。
3.知道用什么python程序库去完成网页源代码的下载,解析,数据提取,存储。
python是一门很简单的编程语言,一方面是因为python的语法简洁,另一方面是因为在python社区,已经有很多很多的人为我们贡献了很多很多开源的程序库,我们在编写程序的时候,直接调用这些程序库,就能够省下很多很多工作量。
⑶ 如何编写一个简易网络爬虫
运行下这段代码看看效果 这是最简单的爬虫了
importurllib.request
url='http://www.mafengwo.cn/group/s.php'
fp=urllib.request.urlopen(url)
mybytes=fp.read()
mystr=mybytes.decode("utf8")#说明接收的数据是UTF-8格式(这样子可以解析和显示中文)
fp.close()
print(mystr)
⑷ 你好,我有个JAVA的爬虫代码,txt的,但是不知道怎么使用它爬网络上的数据。可不可以指点下
你有的是代码(源码)?如果是源码,请把它另存为.java文件,然后使用jdk编译成class文件,然后用java命令执行试试。
⑸ 求网络爬虫源代码VC++编写的
爬虫类的程序最好用C#或C++/CLI完全用C++实现的要做大量Http协议和Html解析的东西,使用 .Net类库的Http下载和正则表达式可以非常方便地做这些东西。
⑹ python爬虫简单代码怎么写
import requests
import you_get
# 系统模块包
import sys
import json
url = '视频的播放地址'
path = './shipin'
def downloadshipin(url,path):
'''
#:param url: 视频播放的地址
#:param path: 视频下载保存的路径
#:return:
'''
# 调用cmd指令
sys.argv = ['you_get','-o',path,url]
you_get.main()
def Extractshipin():
'''
提取网页当中的视频播放地址
:return:
'''
urls = ''
headers = {
'user-agent':''
}
response = requests.get(urls,headers=headers).text
json_data = json.loads(response[37:-1])
data = json_data['result']
for i in data:
shipin_url = i['arcurl']
path = './shipin'
downloadshipin(shipin_url,path)
Extractshipin()
⑺ 跪求一份java网络爬虫的源代码急用!!
希望能帮到你 . . . 这个可以解决你的问题 但是没有样式的.只是爬了源代码
import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.File;
import java.io.FileOutputStream;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.net.HttpURLConnection;
import java.net.URL;
public class WebPageSource {
public static void main(String args[]){
URL url;
int responsecode;
HttpURLConnection urlConnection;
BufferedReader reader;
BufferedWriter writer;
String line;
try{
//生成一个URL对象,要获取源代码的网页地址为:http://www.sina.com.cn
url=new URL("http://www.sina.com.cn");
//打开URL
urlConnection = (HttpURLConnection)url.openConnection();
//获取服务器响应代码
responsecode=urlConnection.getResponseCode();
if(responsecode==200){
//得到输入流,即获得了网页的内容
reader=new BufferedReader(new InputStreamReader(urlConnection.getInputStream(),"GBK"));
writer = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(new File("d://test.txt"))));
while((line=reader.readLine())!=null){
writer.write(line);
writer.newLine();
}
}
else{
System.out.println("获取不到网页的源码,服务器响应代码为:"+responsecode);
}
}
catch(Exception e){
System.out.println("获取不到网页的源码,出现异常:"+e);
}
}
}
⑻ 用java编写 网络爬虫(又称网络蜘蛛)程序,即一个网络搜索引擎。寻求代码!急!
建议你自己写一个程序, 原理如下:
1)用程序调用 IE 或 Firefox 去打开网页。
2)用浏览器提供的 API 去取网页里面的资源。
3)根据需要再解释网页里面的 URL ,然后再调用1)的步骤继续。
以上就是网络爬虫(又称网络蜘蛛)程序的做法。
⑼ java 网络爬虫怎么实现
以爬取豆瓣《红海行动》的所有评论为例,目标是爬取所有评论以及发表评论的用户名。
getHtml()类,首先是URL url1=new URL(url);模拟在网页输入网址,接着 URLConnection uc=url1.openConnection();模拟敲回车键打开该网址页面,后面的看注释应该能看懂了。bf.readLine()是依次每行读取页面的源码,
/**
* 下载HTML页面源码
* @author yangjianxin
* @return string @author yangjianxin
* @time 2018-03-09
*/
public static String getHtml(String url,String encoding) {
StringBuffer sb=new StringBuffer();
BufferedReader bf = null;
InputStreamReader isr = null;
try {
//创建网络连接
URL url1=new URL(url);
//打开网络
URLConnection uc=url1.openConnection();
uc.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");
//建立文件输入流
isr=new InputStreamReader(uc.getInputStream(),encoding);
//高效率读取
bf=new BufferedReader(isr);
//下载页面源码
String temp=null;
while((temp=bf.readLine())!=null) {
sb.append(temp+"\n");
}
//System.out.println(sb.toString());
} catch (MalformedURLException e) {
System.out.println("网页打开失败,请重新输入网址。");
e.printStackTrace();
}catch (IOException e) {
System.out.println("网页打开失败,请检查网络。");
e.printStackTrace();
}finally {
if(bf!=null) {try {
bf.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
if(isr!=null) {
try {
isr.close();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
}
return sb.toString();
}
getGoalDate()类,Document document=Jsoup.parse(html),运用Jsoup.parse()解析网页源码,接着就是开始确定自己需要爬取的东西在网页里的位置,这需要我们对html有点了解,能看、读懂网页标签,可以看出当前页面的所有评论都在id为"content"的大盒子里,每条评论都在class名为"main review-item"的小盒子里, for(Element el:elments)是指对象el在当前页面循环去小盒子"main review-item"查找我们要爬取的东西,也就是用户名和评论, String name=el.getElementsByClass("name").text()中的“name”可以在当前盒子里查找到用户名,用.text()将它赋予给变量name,同理评论也是这样抓取,如果不用将它存入磁盘,则可以后面那段文件操作删除,只打印就行
⑽ 求一个网络爬虫的完整代码,需要能自动递归爬取站内页面
importjava.net.*;
importjava.io.*;
importjava.util.regex.*;
//搜索Web爬行者
{
/*
*disallowListCache缓存robot不允许搜索的URL。Robot协议在Web站点的根目录下设置一个robots.txt文件,
*规定站点上的哪些页面是限制搜索的。搜索程序应该在搜索过程中跳过这些区域,下面是robots.txt的一个例子:#robots.txtfor
*http://somehost.com/User-agent:*Disallow:/cgi-bin/Disallow:
*/registration#/:/login
*/
privateHashMap<String,ArrayList<String>>disallowListCache=newHashMap<String,ArrayList<String>>();
ArrayList<String>errorList=newArrayList<String>();//错误信息
ArrayList<String>result=newArrayList<String>();//搜索到的结果
StringstartUrl;//开始搜索的起点
intmaxUrl;//最大处理的url数
StringsearchString;//要搜索的字符串(英文)
booleancaseSensitive=false;//是否区分大小写
booleanlimitHost=false;//是否在限制的主机内搜索
publicSearchCrawler(StringstartUrl,intmaxUrl,StringsearchString){
this.startUrl=startUrl;
this.maxUrl=maxUrl;
this.searchString=searchString;
}
publicArrayList<String>getResult(){
returnresult;
}
publicvoidrun(){//启动搜索线程
crawl(startUrl,maxUrl,searchString,limitHost,caseSensitive);
}
//检测URL格式
privateURLverifyUrl(Stringurl){
//只处理HTTPURLs.
if(!url.toLowerCase().startsWith("http://"))
returnnull;
URLverifiedUrl=null;
try{
verifiedUrl=newURL(url);
}catch(Exceptione){
returnnull;
}
returnverifiedUrl;
}
//检测robot是否允许访问给出的URL.
privatebooleanisRobotAllowed(URLurlToCheck){
Stringhost=urlToCheck.getHost().toLowerCase();//获取给出url的主机
//System.out.println("主机="+host);
//获取主机不允许搜索的URL缓存
ArrayList<String>disallowList=disallowListCache.get(host);
//如果还没有缓存,下载并缓存。
if(disallowList==null){
disallowList=newArrayList<String>();
try{
URLrobotsFileUrl=newURL("http://"+host+"/robots.txt");
BufferedReaderreader=newBufferedReader(
newInputStreamReader(robotsFileUrl.openStream()));
//读robot文件,创建不允许访问的路径列表。
Stringline;
while((line=reader.readLine())!=null){
if(line.indexOf("Disallow:")==0){//是否包含"Disallow:"
StringdisallowPath=line.substring("Disallow:"
.length());//获取不允许访问路径
//检查是否有注释。
intcommentIndex=disallowPath.indexOf("#");
if(commentIndex!=-1){
disallowPath=disallowPath.substring(0,
commentIndex);//去掉注释
}
disallowPath=disallowPath.trim();
disallowList.add(disallowPath);
}
}
//缓存此主机不允许访问的路径。
disallowListCache.put(host,disallowList);
}catch(Exceptione){
returntrue;//web站点根目录下没有robots.txt文件,返回真
}
}
Stringfile=urlToCheck.getFile();
//System.out.println("文件getFile()="+file);
for(inti=0;i<disallowList.size();i++){
Stringdisallow=disallowList.get(i);
if(file.startsWith(disallow)){
returnfalse;
}
}
returntrue;
}
privateStringdownloadPage(URLpageUrl){
try{
//OpenconnectiontoURLforreading.
BufferedReaderreader=newBufferedReader(newInputStreamReader(
pageUrl.openStream()));
//Readpageintobuffer.
Stringline;
StringBufferpageBuffer=newStringBuffer();
while((line=reader.readLine())!=null){
pageBuffer.append(line);
}
returnpageBuffer.toString();
}catch(Exceptione){
}
returnnull;
}
//从URL中去掉"www"
privateStringremoveWwwFromUrl(Stringurl){
intindex=url.indexOf("://www.");
if(index!=-1){
returnurl.substring(0,index+3)+url.substring(index+7);
}
return(url);
}
//解析页面并找出链接
privateArrayList<String>retrieveLinks(URLpageUrl,StringpageContents,
HashSetcrawledList,booleanlimitHost){
//用正则表达式编译链接的匹配模式。
Patternp=Pattern.compile("<a\s+href\s*=\s*"?(.*?)["|>]",
Pattern.CASE_INSENSITIVE);
Matcherm=p.matcher(pageContents);
ArrayList<String>linkList=newArrayList<String>();
while(m.find()){
Stringlink=m.group(1).trim();
if(link.length()<1){
continue;
}
//跳过链到本页面内链接。
if(link.charAt(0)=='#'){
continue;
}
if(link.indexOf("mailto:")!=-1){
continue;
}
if(link.toLowerCase().indexOf("javascript")!=-1){
continue;
}
if(link.indexOf("://")==-1){
if(link.charAt(0)=='/'){//处理绝对地
link="http://"+pageUrl.getHost()+":"
+pageUrl.getPort()+link;
}else{
Stringfile=pageUrl.getFile();
if(file.indexOf('/')==-1){//处理相对地址
link="http://"+pageUrl.getHost()+":"
+pageUrl.getPort()+"/"+link;
}else{
Stringpath=file.substring(0,
file.lastIndexOf('/')+1);
link="http://"+pageUrl.getHost()+":"
+pageUrl.getPort()+path+link;
}
}
}
intindex=link.indexOf('#');
if(index!=-1){
link=link.substring(0,index);
}
link=removeWwwFromUrl(link);
URLverifiedLink=verifyUrl(link);
if(verifiedLink==null){
continue;
}
/*如果限定主机,排除那些不合条件的URL*/
if(limitHost
&&!pageUrl.getHost().toLowerCase()
.equals(verifiedLink.getHost().toLowerCase())){
continue;
}
//跳过那些已经处理的链接.
if(crawledList.contains(link)){
continue;
}
linkList.add(link);
}
return(linkList);
}
//搜索下载Web页面的内容,判断在该页面内有没有指定的搜索字符串
(StringpageContents,
StringsearchString,booleancaseSensitive){
StringsearchContents=pageContents;
if(!caseSensitive){//如果不区分大小写
searchContents=pageContents.toLowerCase();
}
Patternp=Pattern.compile("[\s]+");
String[]terms=p.split(searchString);
for(inti=0;i<terms.length;i++){
if(caseSensitive){
if(searchContents.indexOf(terms[i])==-1){
returnfalse;
}
}else{
if(searchContents.indexOf(terms[i].toLowerCase())==-1){
returnfalse;
}
}
}
returntrue;
}
//执行实际的搜索操作
publicArrayList<String>crawl(StringstartUrl,intmaxUrls,
StringsearchString,booleanlimithost,booleancaseSensitive){
System.out.println("searchString="+searchString);
HashSet<String>crawledList=newHashSet<String>();
LinkedHashSet<String>toCrawlList=newLinkedHashSet<String>();
if(maxUrls<1){
errorList.add("InvalidMaxURLsvalue.");
System.out.println("InvalidMaxURLsvalue.");
}
if(searchString.length()<1){
errorList.add("MissingSearchString.");
System.out.println("MissingsearchString");
}
if(errorList.size()>0){
System.out.println("err!!!");
returnerrorList;
}
//从开始URL中移出www
startUrl=removeWwwFromUrl(startUrl);
toCrawlList.add(startUrl);
while(toCrawlList.size()>0){
if(maxUrls!=-1){
if(crawledList.size()==maxUrls){
break;
}
}
//GetURLatbottomofthelist.
Stringurl=toCrawlList.iterator().next();
//RemoveURLfromthetocrawllist.
toCrawlList.remove(url);
//ConvertstringurltoURLobject.
URLverifiedUrl=verifyUrl(url);
//.
if(!isRobotAllowed(verifiedUrl)){
continue;
}
//增加已处理的URL到crawledList
crawledList.add(url);
StringpageContents=downloadPage(verifiedUrl);
if(pageContents!=null&&pageContents.length()>0){
//从页面中获取有效的链接
ArrayList<String>links=retrieveLinks(verifiedUrl,
pageContents,crawledList,limitHost);
toCrawlList.addAll(links);
if(searchStringMatches(pageContents,searchString,
caseSensitive)){
result.add(url);
System.out.println(url);
}
}
}
returnresult;
}
//主函数
publicstaticvoidmain(String[]args){
if(args.length!=3){
System.out
.println("Usage:");
return;
}
intmax=Integer.parseInt(args[1]);
SearchCrawlercrawler=newSearchCrawler(args[0],max,args[2]);
Threadsearch=newThread(crawler);
System.out.println("Startsearching...");
System.out.println("result:");
search.start();
}
}
参考:http://www.cnblogs.com/tjsquall/archive/2007/12/22/1010831.html