python爬蟲導入excel_Python爬取網站信息（隨便一個網站就行）並導入Excel中應該如何操作

『壹』 python如何導入excel文件數據

python處理數據文件第一步是要讀取數據,文件類型主要包括文本文件(csv、txt等)、excel文件、資料庫文件、api等.下面整理下python有哪些方式可以讀取數據文件.1. python內置方法(read、readline、readline

『貳』 Python爬取網站信息（隨便一個網站就行），並導入Excel中，應該如何操作

使用的python的request、csv模塊

importreques
importre
importcsv

_re=requests.get(url)
re_text=re.findall(str,_re.text,re.S)#str正則
withopen('1.csv','wb')asf:
csv.writer(f).writerow(re_text)

『叄』如何用python將網頁上的表格導入excel

excel上有從網站上導入數據的功能。點擊數據，點擊自網站，輸入網址就可以。

『肆』新手學習Python，求教Python中如何導入excel數據

讀excel要用到xlrd模塊，官網安裝（http://pypi.python.org/pypi/xlrd）。然後就可以跟著裡面的例子稍微試一下就知道怎麼用了。大概的流程是這樣的：
1、導入模塊

import xlrd

2、打開Excel文件讀取數據

data = xlrd.open_workbook('excel.xls')

3、獲取一個工作表
① table = data.sheets()[0] #通過索引順序獲取
② table = data.sheet_by_index(0) #通過索引順序獲取
③ table = data.sheet_by_name(u'Sheet1')#通過名稱獲取
4、獲取整行和整列的值（返回數組）
table.row_values(i)
table.col_values(i)

5、獲取行數和列數

table.nrows
table.ncols

6、獲取單元格

table.cell(0,0).value
table.cell(2,3).value

就我自己使用的時候覺得還是獲取cell最有用，這就相當於是給了你一個二維數組，餘下你就可以想怎麼干就怎麼幹了。得益於這個十分好用的庫代碼很是簡潔。但是還是有若干坑的存在導致話了一定時間探索。現在列出來供後人參考吧：

1、首先就是我的統計是根據姓名統計各個表中的信息的，但是調試發現不同的表中各個名字貌似不能夠匹配，開始懷疑過編碼問題，不過後來發現是因為空格。因為在excel中輸入的時候很可能會順手在一些名字後面加上幾個空格或是tab鍵，這樣看起來沒什麼差別，但是程序處理的時候這就是兩個完全不同的串了。我的解決方法是給每個獲取的字元串都加上strip（）處理一下。效果良好
2、還是字元串的匹配，在判斷某個單元格中的字元串（中文）是否等於我所給出的的時候發現無法匹配，並且各種unicode也不太奏效，網路過一些解決方案，但是都比較復雜或是沒用。最後我採用了一個比較變通的方式：直接從excel中獲取我想要的值再進行比較，效果是不錯就是通用行不太好，個呢不能問題還沒解決。
二、寫excel表
寫excel表要用到xlwt模塊，官網下載（http://pypi.python.org/pypi/xlwt）。大致使用流程如下：
1、導入模塊

復制代碼代碼如下:
import xlwt

2、創建workbook（其實就是excel，後來保存一下就行）

復制代碼代碼如下:
workbook = xlwt.Workbook(encoding = 'ascii')

3、創建表

復制代碼代碼如下:
worksheet = workbook.add_sheet('My Worksheet')

4、往單元格內寫入內容

復制代碼代碼如下:
worksheet.write(0, 0, label = 'Row 0, Column 0 Value')

5、保存

復制代碼代碼如下:
workbook.save('Excel_Workbook.xls')

『伍』 python腳本中導入excel用單元格數據作為判斷條件

可以。
見的生成方法有兩種，第一種是導入外部數據，第二種是直接寫入數據Excel中的文件菜單中提供了獲取外部數據的功能，支持資料庫和文本文件和頁面的多種數據源導入。
Python是一種跨平台的計算機程序設計語言是一個高層次的結合了解釋性、編譯性、互動性和面向對象的腳本語言最初被設計用於編寫自動化腳本(shell)，隨著版本的不斷更新和語言新功能的添加，越多被用於獨立的、大型項目的開發Python的應用領域還是非常廣泛的，因為Python是一種解釋型腳本語言，所以可以應用的領域就非常的豐富，比如：Web和Internet開發，科學計算和統計，人工智慧，桌面界面開發，軟體開發，後端開發。

『陸』如何把excel導入python並讀取內容

讀取excel的庫很多pd庫、xlrd庫都可以。
例如

import xlrdfrom xlrd import xldate_as_tupleimport datetime'''xlrd中單元格的數據類型數字一律按浮點型輸出，日期輸出成一串小數，布爾型輸出0或1，所以我們必須在程序中做判斷處理轉換成我們想要的數據類型0 empty,1 string, 2 number, 3 date, 4 boolean, 5 error'''class ExcelData(): # 初始化方法 def __init__(self, data_path, sheetname): #定義一個屬性接收文件路徑 self.data_path = data_path # 定義一個屬性接收工作表名稱 self.sheetname = sheetname # 使用xlrd模塊打開excel表讀取數據 self.data = xlrd.open_workbook(self.data_path) # 根據工作表的名稱獲取工作表中的內容（方式①） self.table = self.data.sheet_by_name(self.sheetname) # 根據工作表的索引獲取工作表的內容（方式②） # self.table = self.data.sheet_by_name(0) # 獲取第一行所有內容,如果括弧中1就是第二行，這點跟列表索引類似 self.keys = self.table.row_values(0) # 獲取工作表的有效行數 self.rowNum = self.table.nrows # 獲取工作表的有效列數 self.colNum = self.table.ncols # 定義一個讀取excel表的方法 def readExcel(self): # 定義一個空列表 datas = [] for i in range(1, self.rowNum): # 定義一個空字典 sheet_data = {} for j in range(self.colNum): # 獲取單元格數據類型 c_type = self.table.cell(i,j).ctype # 獲取單元格數據 c_cell = self.table.cell_value(i, j) if c_type == 2 and c_cell % 1 == 0: # 如果是整形 c_cell = int(c_cell) elif c_type == 3: # 轉成datetime對象 date = datetime.datetime(*xldate_as_tuple(c_cell,0)) c_cell = date.strftime('%Y/%d/%m %H:%M:%S') elif c_type == 4: c_cell = True if c_cell == 1 else False sheet_data[self.keys[j]] = c_cell # 循環每一個有效的單元格，將欄位與值對應存儲到字典中 # 字典的key就是excel表中每列第一行的欄位 # sheet_data[self.keys[j]] = self.table.row_values(i)[j] # 再將字典追加到列表中 datas.append(sheet_data) # 返回從excel中獲取到的數據：以列表存字典的形式返回 return datasif __name__ == "__main__": data_path = "ttt.xlsx" sheetname = "Sheet1" get_data = ExcelData(data_path, sheetname) datas = get_data.readExcel() print(datas)

『柒』如何將網站數據導入到excel

網頁數據如何導入到Excel表格並同步更新

很多時候，有些數據是來自於網頁的，如果我們要收集網頁數據並用Excel來分析的話，是不是需要把網頁上的數據一個一個的輸入到Excel中呢?其實有一個非常方便的方法，那就是使用Excel 2013自帶的工具---從網頁獲取數據，不僅能夠快速的獲取數據，並且還能夠做到與網頁內容同步更新。下面為詳細的操作方法。

1、首先打開Excel，在菜單欄中點擊：數據--自網站。

『捌』如何利用Python爬蟲爬取招聘信息並存為Excel

可以使用pandas里的dataframe，這個很方便處理數據。我舉個例子

importpandasaspd
data=pd.DataFrame(...)#...為招聘信息儲存的變數（或者列、行等等）
data.to_excel('D:/recruit.xls')

很方便，即使招聘信息有很多，也可以1秒內完成轉換

『玖』如何在python中製作爬蟲並嫻絜xcel中

第一步：分析網站的請求過程
我們在查看拉勾網上的招聘信息的時候，搜索Python，或者是PHP等等的崗位信息，其實是向伺服器發出相應請求，由伺服器動態的響應請求，將我們所需要的內容通過瀏覽器解析，呈現在我們的面前。

可以看到我們發出的請求當中，FormData中的kd參數，就代表著向伺服器請求關鍵詞為Python的招聘信息。
分析比較復雜的頁面請求與響應信息，推薦使用Fiddler，對於分析網站來說絕對是一大殺器。不過比較簡單的響應請求用瀏覽器自帶的開發者工具就可以，比如像火狐的FireBug等等，只要輕輕一按F12，所有的請求的信息都會事無巨細的展現在你面前。
經由分析網站的請求與響應過程可知，拉勾網的招聘信息都是由XHR動態傳遞的。

我們發現，以POST方式發出的請求有兩個，分別是companyAjax.json和positionAjax.json，它們分別控制當前顯示的頁面和頁面中包含的招聘信息。

可以看到，我們所需要的信息包含在positionAjax.json的Content->result當中，其中還包含了一些其他參數信息，包括總頁面數（totalPageCount），總招聘登記數（totalCount）等相關信息。
第二步：發送請求，獲取頁面
知道我們所要抓取的信息在哪裡是最為首要的，知道信息位置之後，接下來我們就要考慮如何通過Python來模擬瀏覽器，獲取這些我們所需要的信息。
def read_page(url, page_num, keyword): # 模仿瀏覽器post需求信息，並讀取返回後的頁面信息
page_headers = {
'Host': 'www.lagou.com',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
'Connection': 'keep-alive'
}
if page_num == 1:
boo = 'true'
else:
boo = 'false'
page_data = parse.urlencode([ # 通過頁面分析，發現瀏覽器提交的FormData包括以下參數
('first', boo),
('pn', page_num),
('kd', keyword)
])
req = request.Request(url, headers=page_headers)
page = request.urlopen(req, data=page_data.encode('utf-8')).read()
page = page.decode('utf-8')
return page
其中比較關鍵的步驟在於如何仿照瀏覽器的Post方式，來包裝我們自己的請求。
request包含的參數包括所要抓取的網頁url，以及用於偽裝的headers。urlopen中的data參數包括FormData的三個參數(first、pn、kd)
包裝完畢之後，就可以像瀏覽器一樣訪問拉勾網，並獲得頁面數據了。
第三步：各取所需，獲取數據
獲得頁面信息之後，我們就可以開始爬蟲數據中最主要的步驟：抓取數據。
抓取數據的方式有很多，像正則表達式re，lxml的etree，json，以及bs4的BeautifulSoup都是python3抓取數據的適用方法。大家可以根據實際情況，使用其中一個，又或多個結合使用。
def read_tag(page, tag):
page_json = json.loads(page)
page_json = page_json['content']['result']
# 通過分析獲取的json信息可知，招聘信息包含在返回的result當中，其中包含了許多其他參數
page_result = [num for num in range(15)] # 構造一個容量為15的佔位list，用以構造接下來的二維數組
for i in range(15):
page_result[i] = [] # 構造二維數組
for page_tag in tag:
page_result[i].append(page_json[i].get(page_tag)) # 遍歷參數，將它們放置在同一個list當中
page_result[i][8] = ','.join(page_result[i][8])
return page_result # 返回當前頁的招聘信息
第四步：將所抓取的信息存儲到excel中
獲得原始數據之後，為了進一步的整理與分析，我們有結構有組織的將抓取到的數據存儲到excel中，方便進行數據的可視化處理。
這里我用了兩個不同的框架，分別是老牌的xlwt.Workbook、以及xlsxwriter。
def save_excel(fin_result, tag_name, file_name):
book = Workbook(encoding='utf-8')
tmp = book.add_sheet('sheet')
times = len(fin_result)+1
for i in range(times): # i代表的是行,i+1代表的是行首信息
if i == 0:
for tag_name_i in tag_name:
tmp.write(i, tag_name.index(tag_name_i), tag_name_i)
else:
for tag_list in range(len(tag_name)):
tmp.write(i, tag_list, str(fin_result[i-1][tag_list]))
book.save(r'C:\Users\Administrator\Desktop\%s.xls' % file_name)

『拾』 python爬蟲數據怎麼排列好後存儲到本地excel

以使用csv，這個比較簡單.

如果必須 excel 的話，建議使用XlsxWriter

語法也很簡單

# Write some simple text.
worksheet.write('A1', 'Hello')

# Text with formatting.
worksheet.write('A2', 'World', bold)

# Write some numbers, with row/column notation.
worksheet.write(2, 0, 123)
worksheet.write(3, 0, 123.456)

根據你的數據：

dataset = [['豆一', '2', '3', '4']]
for i in range(len(dataset)):
for j in range(len(dataset[i])):
worksheet.write(i, j, dataset[i][j])

導航:首頁 > 編程語言 > python爬蟲導入excel

python爬蟲導入excel

與python爬蟲導入excel相關的資料