以下是一个用于爬取某个网站的新闻标题和链接,并将结果保存到文本文件中的Python爬虫案例:
import requests
from bs4 import BeautifulSoup
# 网站链接
url = 'https://www.example.com/news/'
# 发送请求
response = requests.get(url)
# 解析HTML
soup = BeautifulSoup(response.text, 'html.parser')
# 获取新闻标题和链接
news_list = []
for news in soup.find_all('div', class_='news-item'):
title = news.find('a').text.strip()
link = news.find('a')['href']
news_list.append((title, link))
# 将结果保存到文本文件
with open('news.txt', 'w', encoding='utf-8') as f:
for title, link in news_list:
f.write(f'{title}\t{link}\n')
说明:
1. 使用requests库发送GET请求获取网页内容。
2. 使用BeautifulSoup库解析HTML文档。
3. 使用find_all()方法查找所有class属性为’news-item’的div标签,然后分别从中获取新闻标题和链接。
4. 将结果保存到文本文件中,每条新闻标题和链接之间用制表符分隔,每条新闻之间用换行符分隔。
未经允许不得转载:445IT之家 » 一个python爬虫小案例(超简单)
