Python爬虫爬取当当网

当当网是中国最大的综合性网上购物商城之一，拥有丰富的商品种类和海量的商品信息。本文将介绍如何使用Python编写爬虫程序，从当当网上爬取商品信息。

一、安装必要的库

在开始编写爬虫程序之前，我们需要安装一些必要的Python库。其中，最常用的库是Requests和BeautifulSoup。

import requests from bs4 import BeautifulSoup

二、发送HTTP请求

爬虫程序的第一步是发送HTTP请求，获取网页的HTML代码。我们可以使用Requests库发送GET请求，并将响应的内容保存到一个变量中。

url = 'https://www.dangdang.com' # 当当网首页的URL headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36'} response = requests.get(url, headers=headers) html = response.text

三、解析HTML代码

使用BeautifulSoup库可以方便地解析HTML代码，提取所需的信息。我们可以使用CSS选择器或XPath表达式来定位HTML元素。

soup = BeautifulSoup(html, 'html.parser') products = soup.select('.h3 a') # 获取所有商品链接 for product in products: print(product['href'], product.text) # 输出链接和标题

四、分页爬取

当当网的商品信息通常分布在多个页面上，因此需要实现分页爬取功能。我们可以通过修改URL的参数，实现翻页功能，并循环发送HTTP请求和解析HTML代码。

for i in range(1, 6): # 爬取前5页的商品信息 url = f'https://category.dangdang.com/pg{i}' response = requests.get(url, headers=headers) html = response.text soup = BeautifulSoup(html, 'html.parser') products = soup.select('.h3 a') for product in products: print(product['href'], product.text)

五、保存数据

爬虫程序可以将获取的数据保存到本地文件或数据库中，以供后续分析和使用。

import csv with open('products.csv', 'w', encoding='utf-8', newline='') as file: writer = csv.writer(file) writer.writerow(['链接', '标题']) for product in products: writer.writerow([product['href'], product.text])

六、处理反爬机制

为了防止被网站封禁IP或限制访问频率，我们可以使用代理IP和伪装请求头等方法来处理反爬机制。

proxies = {'http': 'http://127.0.0.1:8888', 'https': 'http://127.0.0.1:8888'} headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36'} response = requests.get(url, headers=headers, proxies=proxies)