python简单爬虫

2023年4月12日下午10:43 • 爬虫

"""
请求连接：https://maoyan.com/board/4
第二页：https://maoyan.com/board/4?offset=10

"""
import requests
import re


class myspider():
    
    def __init__(self,base_url,headers):
        self.base_url = base_url
        self.headers = headers
    
    #获取第一页数据
    def get_data(self,start_num):
        url = self.base_url.format(start_num)
        response = requests.get(url = url,headers = self.headers)
        #判断状态码
        if response.status_code == 200:
            
            return response.content.decode('utf8')
        else:
            return None
    #解析数据
    def parse_onepage(self,html):
        pattern = re.compile('<dd>.*?board-index.*?>(\d+).*?movie-item-info.*?>.*?<a.*?title="(.*?)".*?>.*?</dd>',re.S)
        result = re.findall(pattern,html)
        return result
    #保存数据
    def save_data(self,data):
        for value in data:
            list1 = []
            for valuedate in value:
                list1.append(valuedate)
                
            #列表拼接成字符串
            movestr = " ".join(list1)+'\n'
            
            with open('./movestr.txt','a',encoding='utf-8') as f:
                f.write(movestr)
    
    


if __name__ == "__main__":
    
    #连接参数
    base_url = "https://maoyan.com/board/4?offset={}"
    
    #请求头
    headers = {
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36"

    }
    
    my_spider = myspider(base_url, headers)
    html = my_spider.get_data(0)
    value = my_spider.parse_onepage(html)
    my_spider.save_data(value)

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python简单爬虫 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

c# WPF——完成一个简单的百度贴吧爬虫客户端

上一篇 2023年4月12日

防止网页被搜索引擎爬虫和网页采集器收录的方法汇总

下一篇 2023年4月12日

python实现知乎高颜值图片爬取

下面是“python实现知乎高颜值图片爬取”的完整攻略：知乎高颜值图片爬取 1. 确认目标在开始爬取之前，我们需要明确自己需要爬取的内容。本次爬取的目标是知乎上发布的高颜值图片，例如：https://www.zhihu.com/question/350483283/answer/1015350064 2. 获取网页源代码为了能够得到该问题下所有的回答，…

python 2023年5月14日
000
Python-Selenium自动化爬虫

让我们来讲一下Python-Selenium自动化爬虫的完整攻略。 1. 简介 Selenium是一个自动化测试工具，可以模拟人类的行为来自动化测试网站。Python-Selenium是Selenium的一个Python语言的封装库，将Selenium集成到Python中，使得我们可以使用Python来编写自动化测试脚本。在爬虫方面，Python-Selen…

python 2023年5月14日
000
对python抓取需要登录网站数据的方法详解

对Python抓取需要登录网站数据的方法详解 1. 确定所需网站的登录方式在开始抓取网站数据之前，我们需要确定该网站的登录方式。大多数网站都有两种类型的登录方式：基于表单的登录和基于cookie的登录。基于表单的登录涉及到填写表单字段，如用户名和密码，向服务器发送POST请求来登录。如果登录成功，服务器将会响应一些cookie，这些cookie将被存储在…

python 2023年5月14日
000
网络爬虫（5）–小实战

到目前为止，我们学习了如何访问远程网站，如何解析页面内容，是时候开始应用一下了。在这里，我们以通过http://www.heibanke.com/lesson/crawler_ex00/为例，这个网站会告诉我们爬虫应该向哪里链接，直到爬到通过为止。首先我们需要查看网页的源代码，确定我们需要的信息在哪里。通过查看源代码，我们可以…

爬虫 2023年4月13日
000
爬虫学习笔记：创建随机User-Agent池

一、背景介绍 User-Agent 即用户代理，简称 UA 。它是一个特殊字符串，使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器版本、浏览器渲染引擎、浏览器语言、浏览器插件等。具备反爬措施的网站，通过判断 UA 的合理性，来响应请求，判断请求是否合法。 UA 的标准格式为：浏览器标识（操作系统标识；加密等级标识；浏览器语言）渲染引擎标识…

爬虫 2023年4月13日
000
scrapy框架下爬虫实现详情页抓取

以爬取阳光阳光热线问政平台网站为例，进行详情页的爬取。 1 # -*- coding: utf-8 -*- 2 import scrapy 3 from yanguang.items import YanguangItem 4 5 class SunSpider(scrapy.Spider): 6 name = ‘sun’ 7 allowed_domai…

爬虫 2023年4月10日
000
01_爬虫伪装成浏览器的四种方法

好多网站对于爬虫中没有进行浏览器伪装的会进行反爬，以糗事百科网站为例下面提供了三种方法添加headers，使爬虫能够伪装成浏览器访问。备注：方法二和方法三中省略了 import urllib.request url = ‘http://www.qiushibaike.com/’ 方法一：通过opener添加header 1 # 方法一：通过ope…

爬虫 2023年4月11日
001
爬虫

网络爬虫流程总结

网络爬虫的大体流程其实就是解析网页，爬取网页，保存数据。三个方法，就完成了对网页的爬取，并不是很困难。以下是自己对流程的一些理解和总结，如有错误，欢迎指正。一、解析网页，获取网页源代码首先，我们要了解我们要爬取的网页，以豆瓣为例，我们要了解模拟浏览器头部信息，来伪装成浏览器。以及爬取的内容是什么，方便我们在后面爬取的过程中用正则表达式匹配内容，以便爬取。…

2023年4月8日
000

合作推广

合作推广

返回顶部