Python爬虫抓取汽车之家论坛

import urllib.request
import re
from bs4 import BeautifulSoup
from openpyxl import Workbook
wb = Workbook()
ws = wb[“Sheet”]
ws.title=”comments”
ws.sheet_properties.tabColor = “1072BA”
ws.cell(row=1,column=1).value=”Floor”
ws.cell(row=1,column=2).value=”Content”
i=2
for pagenum in range(1,18):
strpagenum = str(pagenum) #页数的str表示

print(“Getting data for Page ” +strpagenum) #shell里面显示的,表示已爬到多少页

urls = “http://club.autohome.com.cn/bbs/thread-c-3556-58291413-“+ strpagenum +”.html” #网址
url=urllib.request.urlopen(urls) #获取网页

soup=BeautifulSoup(url,”lxml”) #用BeautifulSoup解析网页
for x in soup.find_all(‘div’,class_=”clearfix contstxt outer-section”): #遍历每块内容区域
a=x.find(‘a’,class_=”rightbutlz”,href=”#”).text #取楼层
if len(x.find_all(‘div’,class_=”yy_reply_cont”))>0: #如果是回复只抓取回复
b=x.find(‘div’,class_=”yy_reply_cont”).text
elif len(x.find_all(‘div’,class_=”w740″))>0:
b=x.find(‘div’,class_=”w740″).text #不是回复时正常抓取
else:
b=””
ws.cell(row=i,column=1).value=a #写入excel楼层
ws.cell(row=i,column=2).value=b #写入excel评论
i=i+1

wb.save(‘comment.xlsx’)

发表评论

电子邮件地址不会被公开。 必填项已用*标注