python爬虫导入excel_Python爬取网站信息（随便一个网站就行）并导入Excel中应该如何操作

‘壹’ python如何导入excel文件数据

python处理数据文件第一步是要读取数据,文件类型主要包括文本文件(csv、txt等)、excel文件、数据库文件、api等.下面整理下python有哪些方式可以读取数据文件.1. python内置方法(read、readline、readline

‘贰’ Python爬取网站信息（随便一个网站就行），并导入Excel中，应该如何操作

使用的python的request、csv模块

importreques
importre
importcsv

_re=requests.get(url)
re_text=re.findall(str,_re.text,re.S)#str正则
withopen('1.csv','wb')asf:
csv.writer(f).writerow(re_text)

‘叁’ 如何用python将网页上的表格导入excel

excel上有从网站上导入数据的功能。点击数据，点击自网站，输入网址就可以。

‘肆’ 新手学习Python，求教Python中如何导入excel数据

读excel要用到xlrd模块，官网安装（http://pypi.python.org/pypi/xlrd）。然后就可以跟着里面的例子稍微试一下就知道怎么用了。大概的流程是这样的：
1、导入模块

import xlrd

2、打开Excel文件读取数据

data = xlrd.open_workbook('excel.xls')

3、获取一个工作表
① table = data.sheets()[0] #通过索引顺序获取
② table = data.sheet_by_index(0) #通过索引顺序获取
③ table = data.sheet_by_name(u'Sheet1')#通过名称获取
4、获取整行和整列的值（返回数组）
table.row_values(i)
table.col_values(i)

5、获取行数和列数

table.nrows
table.ncols

6、获取单元格

table.cell(0,0).value
table.cell(2,3).value

就我自己使用的时候觉得还是获取cell最有用，这就相当于是给了你一个二维数组，余下你就可以想怎么干就怎么干了。得益于这个十分好用的库代码很是简洁。但是还是有若干坑的存在导致话了一定时间探索。现在列出来供后人参考吧：

1、首先就是我的统计是根据姓名统计各个表中的信息的，但是调试发现不同的表中各个名字貌似不能够匹配，开始怀疑过编码问题，不过后来发现是因为空格。因为在excel中输入的时候很可能会顺手在一些名字后面加上几个空格或是tab键，这样看起来没什么差别，但是程序处理的时候这就是两个完全不同的串了。我的解决方法是给每个获取的字符串都加上strip（）处理一下。效果良好
2、还是字符串的匹配，在判断某个单元格中的字符串（中文）是否等于我所给出的的时候发现无法匹配，并且各种unicode也不太奏效，网络过一些解决方案，但是都比较复杂或是没用。最后我采用了一个比较变通的方式：直接从excel中获取我想要的值再进行比较，效果是不错就是通用行不太好，个呢不能问题还没解决。
二、写excel表
写excel表要用到xlwt模块，官网下载（http://pypi.python.org/pypi/xlwt）。大致使用流程如下：
1、导入模块

复制代码代码如下:
import xlwt

2、创建workbook（其实就是excel，后来保存一下就行）

复制代码代码如下:
workbook = xlwt.Workbook(encoding = 'ascii')

3、创建表

复制代码代码如下:
worksheet = workbook.add_sheet('My Worksheet')

4、往单元格内写入内容

复制代码代码如下:
worksheet.write(0, 0, label = 'Row 0, Column 0 Value')

5、保存

复制代码代码如下:
workbook.save('Excel_Workbook.xls')

‘伍’ python脚本中导入excel用单元格数据作为判断条件

可以。
见的生成方法有两种，第一种是导入外部数据，第二种是直接写入数据Excel中的文件菜单中提供了获取外部数据的功能，支持数据库和文本文件和页面的多种数据源导入。
Python是一种跨平台的计算机程序设计语言是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言最初被设计用于编写自动化脚本(shell)，随着版本的不断更新和语言新功能的添加，越多被用于独立的、大型项目的开发Python的应用领域还是非常广泛的，因为Python是一种解释型脚本语言，所以可以应用的领域就非常的丰富，比如：Web和Internet开发，科学计算和统计，人工智能，桌面界面开发，软件开发，后端开发。

‘陆’ 如何把excel导入python并读取内容

读取excel的库很多pd库、xlrd库都可以。
例如

import xlrdfrom xlrd import xldate_as_tupleimport datetime'''xlrd中单元格的数据类型数字一律按浮点型输出，日期输出成一串小数，布尔型输出0或1，所以我们必须在程序中做判断处理转换成我们想要的数据类型0 empty,1 string, 2 number, 3 date, 4 boolean, 5 error'''class ExcelData(): # 初始化方法 def __init__(self, data_path, sheetname): #定义一个属性接收文件路径 self.data_path = data_path # 定义一个属性接收工作表名称 self.sheetname = sheetname # 使用xlrd模块打开excel表读取数据 self.data = xlrd.open_workbook(self.data_path) # 根据工作表的名称获取工作表中的内容（方式①） self.table = self.data.sheet_by_name(self.sheetname) # 根据工作表的索引获取工作表的内容（方式②） # self.table = self.data.sheet_by_name(0) # 获取第一行所有内容,如果括号中1就是第二行，这点跟列表索引类似 self.keys = self.table.row_values(0) # 获取工作表的有效行数 self.rowNum = self.table.nrows # 获取工作表的有效列数 self.colNum = self.table.ncols # 定义一个读取excel表的方法 def readExcel(self): # 定义一个空列表 datas = [] for i in range(1, self.rowNum): # 定义一个空字典 sheet_data = {} for j in range(self.colNum): # 获取单元格数据类型 c_type = self.table.cell(i,j).ctype # 获取单元格数据 c_cell = self.table.cell_value(i, j) if c_type == 2 and c_cell % 1 == 0: # 如果是整形 c_cell = int(c_cell) elif c_type == 3: # 转成datetime对象 date = datetime.datetime(*xldate_as_tuple(c_cell,0)) c_cell = date.strftime('%Y/%d/%m %H:%M:%S') elif c_type == 4: c_cell = True if c_cell == 1 else False sheet_data[self.keys[j]] = c_cell # 循环每一个有效的单元格，将字段与值对应存储到字典中 # 字典的key就是excel表中每列第一行的字段 # sheet_data[self.keys[j]] = self.table.row_values(i)[j] # 再将字典追加到列表中 datas.append(sheet_data) # 返回从excel中获取到的数据：以列表存字典的形式返回 return datasif __name__ == "__main__": data_path = "ttt.xlsx" sheetname = "Sheet1" get_data = ExcelData(data_path, sheetname) datas = get_data.readExcel() print(datas)

‘柒’ 如何将网站数据导入到excel

网页数据如何导入到Excel表格并同步更新

很多时候，有些数据是来自于网页的，如果我们要收集网页数据并用Excel来分析的话，是不是需要把网页上的数据一个一个的输入到Excel中呢?其实有一个非常方便的方法，那就是使用Excel 2013自带的工具---从网页获取数据，不仅能够快速的获取数据，并且还能够做到与网页内容同步更新。下面为详细的操作方法。

1、首先打开Excel，在菜单栏中点击：数据--自网站。

‘捌’ 如何利用Python爬虫爬取招聘信息并存为Excel

可以使用pandas里的dataframe，这个很方便处理数据。我举个例子

importpandasaspd
data=pd.DataFrame(...)#...为招聘信息储存的变量（或者列、行等等）
data.to_excel('D:/recruit.xls')

很方便，即使招聘信息有很多，也可以1秒内完成转换

‘玖’ 如何在python中制作爬虫并娴絜xcel中

第一步：分析网站的请求过程
我们在查看拉勾网上的招聘信息的时候，搜索Python，或者是PHP等等的岗位信息，其实是向服务器发出相应请求，由服务器动态的响应请求，将我们所需要的内容通过浏览器解析，呈现在我们的面前。

可以看到我们发出的请求当中，FormData中的kd参数，就代表着向服务器请求关键词为Python的招聘信息。
分析比较复杂的页面请求与响应信息，推荐使用Fiddler，对于分析网站来说绝对是一大杀器。不过比较简单的响应请求用浏览器自带的开发者工具就可以，比如像火狐的FireBug等等，只要轻轻一按F12，所有的请求的信息都会事无巨细的展现在你面前。
经由分析网站的请求与响应过程可知，拉勾网的招聘信息都是由XHR动态传递的。

我们发现，以POST方式发出的请求有两个，分别是companyAjax.json和positionAjax.json，它们分别控制当前显示的页面和页面中包含的招聘信息。

可以看到，我们所需要的信息包含在positionAjax.json的Content->result当中，其中还包含了一些其他参数信息，包括总页面数（totalPageCount），总招聘登记数（totalCount）等相关信息。
第二步：发送请求，获取页面
知道我们所要抓取的信息在哪里是最为首要的，知道信息位置之后，接下来我们就要考虑如何通过Python来模拟浏览器，获取这些我们所需要的信息。
def read_page(url, page_num, keyword): # 模仿浏览器post需求信息，并读取返回后的页面信息
page_headers = {
'Host': 'www.lagou.com',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
'Connection': 'keep-alive'
}
if page_num == 1:
boo = 'true'
else:
boo = 'false'
page_data = parse.urlencode([ # 通过页面分析，发现浏览器提交的FormData包括以下参数
('first', boo),
('pn', page_num),
('kd', keyword)
])
req = request.Request(url, headers=page_headers)
page = request.urlopen(req, data=page_data.encode('utf-8')).read()
page = page.decode('utf-8')
return page
其中比较关键的步骤在于如何仿照浏览器的Post方式，来包装我们自己的请求。
request包含的参数包括所要抓取的网页url，以及用于伪装的headers。urlopen中的data参数包括FormData的三个参数(first、pn、kd)
包装完毕之后，就可以像浏览器一样访问拉勾网，并获得页面数据了。
第三步：各取所需，获取数据
获得页面信息之后，我们就可以开始爬虫数据中最主要的步骤：抓取数据。
抓取数据的方式有很多，像正则表达式re，lxml的etree，json，以及bs4的BeautifulSoup都是python3抓取数据的适用方法。大家可以根据实际情况，使用其中一个，又或多个结合使用。
def read_tag(page, tag):
page_json = json.loads(page)
page_json = page_json['content']['result']
# 通过分析获取的json信息可知，招聘信息包含在返回的result当中，其中包含了许多其他参数
page_result = [num for num in range(15)] # 构造一个容量为15的占位list，用以构造接下来的二维数组
for i in range(15):
page_result[i] = [] # 构造二维数组
for page_tag in tag:
page_result[i].append(page_json[i].get(page_tag)) # 遍历参数，将它们放置在同一个list当中
page_result[i][8] = ','.join(page_result[i][8])
return page_result # 返回当前页的招聘信息
第四步：将所抓取的信息存储到excel中
获得原始数据之后，为了进一步的整理与分析，我们有结构有组织的将抓取到的数据存储到excel中，方便进行数据的可视化处理。
这里我用了两个不同的框架，分别是老牌的xlwt.Workbook、以及xlsxwriter。
def save_excel(fin_result, tag_name, file_name):
book = Workbook(encoding='utf-8')
tmp = book.add_sheet('sheet')
times = len(fin_result)+1
for i in range(times): # i代表的是行,i+1代表的是行首信息
if i == 0:
for tag_name_i in tag_name:
tmp.write(i, tag_name.index(tag_name_i), tag_name_i)
else:
for tag_list in range(len(tag_name)):
tmp.write(i, tag_list, str(fin_result[i-1][tag_list]))
book.save(r'C:\Users\Administrator\Desktop\%s.xls' % file_name)

‘拾’ python爬虫数据怎么排列好后存储到本地excel

以使用csv，这个比较简单.

如果必须 excel 的话，建议使用XlsxWriter

语法也很简单

# Write some simple text.
worksheet.write('A1', 'Hello')

# Text with formatting.
worksheet.write('A2', 'World', bold)

# Write some numbers, with row/column notation.
worksheet.write(2, 0, 123)
worksheet.write(3, 0, 123.456)

根据你的数据：

dataset = [['豆一', '2', '3', '4']]
for i in range(len(dataset)):
for j in range(len(dataset[i])):
worksheet.write(i, j, dataset[i][j])

导航:首页 > 编程语言 > python爬虫导入excel

python爬虫导入excel

与python爬虫导入excel相关的资料