python使用BeautifulSoup与正则表达式爬取时光网不同地区top100电影并对比

下面是详细的攻略：

Python使用BeautifulSoup与正则表达式爬取时光网不同地区Top100电影并对比

本文将手把手教你如何使用Python的BeautifulSoup和正则表达式爬取时光网不同地区Top100电影，并对比不同地区的电影排名。本文将从爬取网页、解析HTML、使用正则表达式、数据处理等方面进行讲解。

爬取网页

首先，我们需要使用Python的requests库来获取时光网不同地区Top100电影的网页内容。下面是一个示例：

import requests

url = 'http://www.mtime.com/top/movie/top100/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
html = response.text

在上面的代码中，我们使用requests库的get方法获取了时光网不同地区Top100电影的网页内容，并将其保存在html变量中。

解析HTML

接下来，我们需要使用Python的BeautifulSoup库来解析HTML内容，以便提取出我们需要的电影信息。下面是一个示例：

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')
movies = soup.find_all('div', {'class': 'mov_con'})
for movie in movies:
    title = movie.find('a').text
    score = movie.find('p', {'class': 'total'}).text
    print(title, score)

在上面的代码中，我们使用BeautifulSoup库的find_all方法查找所有class为mov_con的div元素，并遍历每个元素，提取出电影的标题和评分信息。

使用正则表达式

有些电影的评分信息可能包含多个数字，我们需要使用正则表达式来提取出其中的数字。下面是一个示例：

import re

pattern = re.compile(r'(\d+\.\d+)')
for movie in movies:
    title = movie.find('a').text
    score = movie.find('p', {'class': 'total'}).text
    score = pattern.search(score).group(1)
    print(title, score)

在上面的代码中，我们使用re库的compile方法编译了一个正则表达式，用于匹配评分信息中的数字。然后，我们遍历每个电影元素，使用search方法查找评分信息中的数字，并使用group方法提取出第一个匹配的数字。

数据处理

最后，我们需要将不同地区的电影排名进行对比。下面是一个示例：

import pandas as pd

df = pd.DataFrame(columns=['title', 'score', 'region'])
regions = ['华语', '欧美', '韩国', '日本']
for i, region in enumerate(regions):
    url = 'http://www.mtime.com/top/movie/top100/{}/'.format(i+1)
    response = requests.get(url, headers=headers)
    html = response.text
    soup = BeautifulSoup(html, 'html.parser')
    movies = soup.find_all('div', {'class': 'mov_con'})
    for movie in movies:
        title = movie.find('a').text
        score = movie.find('p', {'class': 'total'}).text
        score = pattern.search(score).group(1)
        df = df.append({'title': title, 'score': score, 'region': region}, ignore_index=True)

df = df.sort_values(by=['region', 'score'], ascending=[True, False])
print(df)

在上面的代码中，我们使用pandas库创建了一个空的DataFrame，并遍历不同地区的Top100电影网页，提取出电影的标题、评分和地区信息，并将其添加到DataFrame中。最后，我们使用sort_values方法对DataFrame进行排序，以便对比不同地区的电影排名。

总结

本文手把手教你如何使用Python的BeautifulSoup和正则表达式爬取时光网不同地区Top100电影，并对比不同地区的电影排名。在实际开发中，我们可以根据需要深入学习Python相关知识，以提高爬虫的效率和质量。同时，我们还提供了两个示例，用于演示爬取网页和使用正则表达式的具体使用。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python使用BeautifulSoup与正则表达式爬取时光网不同地区top100电影并对比 - Python技术站