導航:首頁 > 編程語言 > python爬蟲導入excel

python爬蟲導入excel

發布時間:2022-05-27 15:40:37

『壹』 python如何導入excel文件數據

python處理數據文件第一步是要讀取數據,文件類型主要包括文本文件(csv、txt等)、excel文件、資料庫文件、api等.下面整理下python有哪些方式可以讀取數據文件.1. python內置方法(read、readline、readline

『貳』 Python爬取網站信息(隨便一個網站就行),並導入Excel中,應該如何操作

使用的python的request、csv模塊

importreques
importre
importcsv

_re=requests.get(url)
re_text=re.findall(str,_re.text,re.S)#str正則
withopen('1.csv','wb')asf:
csv.writer(f).writerow(re_text)

『叄』 如何用python將網頁上的表格導入excel

excel上有從網站上導入數據的功能。點擊數據,點擊自網站,輸入網址就可以。

『肆』 新手學習Python,求教Python中如何導入excel數據

讀excel要用到xlrd模塊,官網安裝(http://pypi.python.org/pypi/xlrd)。然後就可以跟著裡面的例子稍微試一下就知道怎麼用了。大概的流程是這樣的:
1、導入模塊

import xlrd

2、打開Excel文件讀取數據

data = xlrd.open_workbook('excel.xls')

3、獲取一個工作表
① table = data.sheets()[0] #通過索引順序獲取
② table = data.sheet_by_index(0) #通過索引順序獲取
③ table = data.sheet_by_name(u'Sheet1')#通過名稱獲取
4、獲取整行和整列的值(返回數組)
table.row_values(i)
table.col_values(i)

5、獲取行數和列數

table.nrows
table.ncols

6、獲取單元格

table.cell(0,0).value
table.cell(2,3).value

就我自己使用的時候覺得還是獲取cell最有用,這就相當於是給了你一個二維數組,餘下你就可以想怎麼干就怎麼幹了。得益於這個十分好用的庫代碼很是簡潔。但是還是有若干坑的存在導致話了一定時間探索。現在列出來供後人參考吧:

1、首先就是我的統計是根據姓名統計各個表中的信息的,但是調試發現不同的表中各個名字貌似不能夠匹配,開始懷疑過編碼問題,不過後來發現是因為空格。因為在excel中輸入的時候很可能會順手在一些名字後面加上幾個空格或是tab鍵,這樣看起來沒什麼差別,但是程序處理的時候這就是兩個完全不同的串了。我的解決方法是給每個獲取的字元串都加上strip()處理一下。效果良好
2、還是字元串的匹配,在判斷某個單元格中的字元串(中文)是否等於我所給出的的時候發現無法匹配,並且各種unicode也不太奏效,網路過一些解決方案,但是都比較復雜或是沒用。最後我採用了一個比較變通的方式:直接從excel中獲取我想要的值再進行比較,效果是不錯就是通用行不太好,個呢不能問題還沒解決。
二、寫excel表
寫excel表要用到xlwt模塊,官網下載(http://pypi.python.org/pypi/xlwt)。大致使用流程如下:
1、導入模塊

復制代碼代碼如下:
import xlwt

2、創建workbook(其實就是excel,後來保存一下就行)

復制代碼代碼如下:
workbook = xlwt.Workbook(encoding = 'ascii')

3、創建表

復制代碼代碼如下:
worksheet = workbook.add_sheet('My Worksheet')

4、往單元格內寫入內容

復制代碼代碼如下:
worksheet.write(0, 0, label = 'Row 0, Column 0 Value')

5、保存

復制代碼代碼如下:
workbook.save('Excel_Workbook.xls')

『伍』 python腳本中導入excel用單元格數據作為判斷條件

可以。
見的生成方法有兩種,第一種是導入外部數據,第二種是直接寫入數據Excel中的文件菜單中提供了獲取外部數據的功能,支持資料庫和文本文件和頁面的多種數據源導入。
Python是一種跨平台的計算機程序設計語言是一個高層次的結合了解釋性、編譯性、互動性和面向對象的腳本語言最初被設計用於編寫自動化腳本(shell),隨著版本的不斷更新和語言新功能的添加,越多被用於獨立的、大型項目的開發Python的應用領域還是非常廣泛的,因為Python是一種解釋型腳本語言,所以可以應用的領域就非常的豐富,比如:Web和Internet開發,科學計算和統計,人工智慧,桌面界面開發,軟體開發,後端開發。

『陸』 如何把excel導入python並讀取內容

讀取excel的庫很多pd庫、xlrd庫都可以。
例如

import xlrdfrom xlrd import xldate_as_tupleimport datetime'''xlrd中單元格的數據類型數字一律按浮點型輸出,日期輸出成一串小數,布爾型輸出0或1,所以我們必須在程序中做判斷處理轉換成我們想要的數據類型0 empty,1 string, 2 number, 3 date, 4 boolean, 5 error'''class ExcelData(): # 初始化方法 def __init__(self, data_path, sheetname): #定義一個屬性接收文件路徑 self.data_path = data_path # 定義一個屬性接收工作表名稱 self.sheetname = sheetname # 使用xlrd模塊打開excel表讀取數據 self.data = xlrd.open_workbook(self.data_path) # 根據工作表的名稱獲取工作表中的內容(方式①) self.table = self.data.sheet_by_name(self.sheetname) # 根據工作表的索引獲取工作表的內容(方式②) # self.table = self.data.sheet_by_name(0) # 獲取第一行所有內容,如果括弧中1就是第二行,這點跟列表索引類似 self.keys = self.table.row_values(0) # 獲取工作表的有效行數 self.rowNum = self.table.nrows # 獲取工作表的有效列數 self.colNum = self.table.ncols # 定義一個讀取excel表的方法 def readExcel(self): # 定義一個空列表 datas = [] for i in range(1, self.rowNum): # 定義一個空字典 sheet_data = {} for j in range(self.colNum): # 獲取單元格數據類型 c_type = self.table.cell(i,j).ctype # 獲取單元格數據 c_cell = self.table.cell_value(i, j) if c_type == 2 and c_cell % 1 == 0: # 如果是整形 c_cell = int(c_cell) elif c_type == 3: # 轉成datetime對象 date = datetime.datetime(*xldate_as_tuple(c_cell,0)) c_cell = date.strftime('%Y/%d/%m %H:%M:%S') elif c_type == 4: c_cell = True if c_cell == 1 else False sheet_data[self.keys[j]] = c_cell # 循環每一個有效的單元格,將欄位與值對應存儲到字典中 # 字典的key就是excel表中每列第一行的欄位 # sheet_data[self.keys[j]] = self.table.row_values(i)[j] # 再將字典追加到列表中 datas.append(sheet_data) # 返回從excel中獲取到的數據:以列表存字典的形式返回 return datasif __name__ == "__main__": data_path = "ttt.xlsx" sheetname = "Sheet1" get_data = ExcelData(data_path, sheetname) datas = get_data.readExcel() print(datas)

『柒』 如何將網站數據導入到excel

網頁數據如何導入到Excel表格並同步更新

很多時候,有些數據是來自於網頁的,如果我們要收集網頁數據並用Excel來分析的話,是不是需要把網頁上的數據一個一個的輸入到Excel中呢?其實有一個非常方便的方法,那就是使用Excel 2013自帶的工具---從網頁獲取數據,不僅能夠快速的獲取數據,並且還能夠做到與網頁內容同步更新。下面為詳細的操作方法。

1、首先打開Excel,在菜單欄中點擊:數據--自網站。

『捌』 如何利用Python爬蟲爬取招聘信息並存為Excel

可以使用pandas里的dataframe,這個很方便處理數據。我舉個例子

importpandasaspd
data=pd.DataFrame(...)#...為招聘信息儲存的變數(或者列、行等等)
data.to_excel('D:/recruit.xls')

很方便,即使招聘信息有很多,也可以1秒內完成轉換

『玖』 如何在python中製作爬蟲並嫻絜xcel中

第一步:分析網站的請求過程
我們在查看拉勾網上的招聘信息的時候,搜索Python,或者是PHP等等的崗位信息,其實是向伺服器發出相應請求,由伺服器動態的響應請求,將我們所需要的內容通過瀏覽器解析,呈現在我們的面前。

可以看到我們發出的請求當中,FormData中的kd參數,就代表著向伺服器請求關鍵詞為Python的招聘信息。
分析比較復雜的頁面請求與響應信息,推薦使用Fiddler,對於分析網站來說絕對是一大殺器。不過比較簡單的響應請求用瀏覽器自帶的開發者工具就可以,比如像火狐的FireBug等等,只要輕輕一按F12,所有的請求的信息都會事無巨細的展現在你面前。
經由分析網站的請求與響應過程可知,拉勾網的招聘信息都是由XHR動態傳遞的。

我們發現,以POST方式發出的請求有兩個,分別是companyAjax.json和positionAjax.json,它們分別控制當前顯示的頁面和頁面中包含的招聘信息。

可以看到,我們所需要的信息包含在positionAjax.json的Content->result當中,其中還包含了一些其他參數信息,包括總頁面數(totalPageCount),總招聘登記數(totalCount)等相關信息。
第二步:發送請求,獲取頁面
知道我們所要抓取的信息在哪裡是最為首要的,知道信息位置之後,接下來我們就要考慮如何通過Python來模擬瀏覽器,獲取這些我們所需要的信息。
def read_page(url, page_num, keyword): # 模仿瀏覽器post需求信息,並讀取返回後的頁面信息
page_headers = {
'Host': 'www.lagou.com',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
'Connection': 'keep-alive'
}
if page_num == 1:
boo = 'true'
else:
boo = 'false'
page_data = parse.urlencode([ # 通過頁面分析,發現瀏覽器提交的FormData包括以下參數
('first', boo),
('pn', page_num),
('kd', keyword)
])
req = request.Request(url, headers=page_headers)
page = request.urlopen(req, data=page_data.encode('utf-8')).read()
page = page.decode('utf-8')
return page
其中比較關鍵的步驟在於如何仿照瀏覽器的Post方式,來包裝我們自己的請求。
request包含的參數包括所要抓取的網頁url,以及用於偽裝的headers。urlopen中的data參數包括FormData的三個參數(first、pn、kd)
包裝完畢之後,就可以像瀏覽器一樣訪問拉勾網,並獲得頁面數據了。
第三步:各取所需,獲取數據
獲得頁面信息之後,我們就可以開始爬蟲數據中最主要的步驟:抓取數據。
抓取數據的方式有很多,像正則表達式re,lxml的etree,json,以及bs4的BeautifulSoup都是python3抓取數據的適用方法。大家可以根據實際情況,使用其中一個,又或多個結合使用。
def read_tag(page, tag):
page_json = json.loads(page)
page_json = page_json['content']['result']
# 通過分析獲取的json信息可知,招聘信息包含在返回的result當中,其中包含了許多其他參數
page_result = [num for num in range(15)] # 構造一個容量為15的佔位list,用以構造接下來的二維數組
for i in range(15):
page_result[i] = [] # 構造二維數組
for page_tag in tag:
page_result[i].append(page_json[i].get(page_tag)) # 遍歷參數,將它們放置在同一個list當中
page_result[i][8] = ','.join(page_result[i][8])
return page_result # 返回當前頁的招聘信息
第四步:將所抓取的信息存儲到excel中
獲得原始數據之後,為了進一步的整理與分析,我們有結構有組織的將抓取到的數據存儲到excel中,方便進行數據的可視化處理。
這里我用了兩個不同的框架,分別是老牌的xlwt.Workbook、以及xlsxwriter。
def save_excel(fin_result, tag_name, file_name):
book = Workbook(encoding='utf-8')
tmp = book.add_sheet('sheet')
times = len(fin_result)+1
for i in range(times): # i代表的是行,i+1代表的是行首信息
if i == 0:
for tag_name_i in tag_name:
tmp.write(i, tag_name.index(tag_name_i), tag_name_i)
else:
for tag_list in range(len(tag_name)):
tmp.write(i, tag_list, str(fin_result[i-1][tag_list]))
book.save(r'C:\Users\Administrator\Desktop\%s.xls' % file_name)

『拾』 python爬蟲數據怎麼排列好後存儲到本地excel

以使用csv,這個比較簡單.

如果必須 excel 的話,建議使用XlsxWriter

語法也很簡單

# Write some simple text.
worksheet.write('A1', 'Hello')

# Text with formatting.
worksheet.write('A2', 'World', bold)

# Write some numbers, with row/column notation.
worksheet.write(2, 0, 123)
worksheet.write(3, 0, 123.456)

根據你的數據:

dataset = [['豆一', '2', '3', '4']]
for i in range(len(dataset)):
for j in range(len(dataset[i])):
worksheet.write(i, j, dataset[i][j])

閱讀全文

與python爬蟲導入excel相關的資料

熱點內容
qt下編譯生成mqtt庫 瀏覽:541
南京中興招收專科程序員嗎 瀏覽:297
代理商php源碼 瀏覽:983
蘋果手機怎麼解壓軟體app 瀏覽:650
游戲資源被編譯 瀏覽:152
代碼編譯後黑屏 瀏覽:8
程序員情侶寫真 瀏覽:505
python3孿生素數 瀏覽:36
計算楊輝三角Python 瀏覽:404
linux目錄重命名 瀏覽:196
演算法設計的最終形態是代碼 瀏覽:262
程序員社團招新橫幅 瀏覽:238
拖鞋解壓視頻大全 瀏覽:887
租伺服器主機鏈接軟體叫什麼 瀏覽:856
交叉編譯工具的linux版本號 瀏覽:156
python開發應用軟體 瀏覽:32
hdl綜合器與c編譯器的區別 瀏覽:899
編譯原理最左推導代碼 瀏覽:702
加密三 瀏覽:131
通過編譯鏈接後形成的可執行程序 瀏覽:680