爬虫 Archives - Page 96 of 133

Python 爬虫实战（二）：使用 requests-html

Python 爬虫实战（一）：使用 requests 和 BeautifulSoup，我们使用了 requests 做网络请求，拿到网页数据再用 BeautifulSoup 解析，就在前不久，requests 作者 kennethreitz 出了一个新库 requests-html，Pythonic HTML Parsing for Humans™，它可以用…

爬虫 2023年4月11日

000

scrapy crawl itcast -o teachers.json 爬虫案列

spider.py文件配置 1 2 # -*- coding: utf-8 -*- 3 import scrapy 4 from itTeachers.items import ItteachersItem 5 6 7 class ItcastSpider(scrapy.Spider): 8 name = ‘itcast’ 9 allowed_domains…

爬虫 2023年4月11日

000

Python 爬虫使用固定代理IP

购买的固定代理IP一般都需要账号密码，在网上找了几个使用方法，但是都报错，所以，就想了这个笨办法，如有好办法希望大家指点。 import requests from requests.auth import HTTPBasicAuth proxy = { ‘http’: ‘http://ip:port’, ‘https’: ‘https://ip:port…

爬虫 2023年4月11日

000

爬虫

爬虫框架设计

最近的一个项目是写一个爬虫框架，这个框架主要采用Master-Slave的结构，Master负责管理要爬取的Url和已经爬取过的Url，Slave可以有多个，主要负责爬取网页内容，以及对爬取下来的网页内容进行持久化的工作。整个项目用Thrift作为RPC通信框架。 1. 爬虫流程如果是一个单机版的爬虫，其实代码非常简单： Initialize: UrlsD…

2023年4月11日

000

python 3.x 爬虫基础—正则表达式

python 3.x 爬虫基础—http headers详解 python 3.x 爬虫基础—Urllib详解 python 3.x 爬虫基础—Requersts,BeautifulSoup4（bs4） python 3.x 爬虫基础—正则表达式前言　　正则表达式是对字符串的一种逻辑公式，用事先定义好的一些特定字符、及这些特定字符的组合，…

爬虫 2023年4月11日

000

新闻类网站的通用爬虫–GNE

GNE（GeneralNewsExtractor）是一个通用新闻网站正文抽取模块，输入一篇新闻网页的 HTML，输出正文内容、标题、作者、发布时间、正文中的图片地址和正文所在的标签源代码。GNE在提取今日头条、网易新闻、游民星空、观察者网、凤凰网、腾讯新闻、ReadHub、新浪新闻等数百个中文新闻网站上效果非常出色，几乎能够达到100%的准确率。使…

爬虫 2023年4月11日

000

Python爬虫利器三之Xpath语法与lxml库的用法

前面我们介绍了 BeautifulSoup 的用法，这个已经是非常强大的库了，不过还有一些比较流行的解析库，例如 lxml，使用的是 Xpath 语法，同样是效率比较高的解析方法。如果大家对 BeautifulSoup 使用不太习惯的话，可以尝试下 Xpath。参考来源 lxml用法源自 lxml python 官方文档，更多内容请直接参阅官方文档，本文对…

爬虫 2023年4月11日

000

python3下scrapy爬虫(第八卷:循环爬取网页多页数据）

之前我们做的数据爬取都是单页的现在我们来讲讲多页的一般方式有两种目标URL循环抓取另一种在主页连接上找规律，现在我用的案例网址就是通过点击下一页的方式获取多页资源话不多说全在代码里（因为刚才写这篇文章时电脑出现点问题所以没存下来，所以这一版本不会那么详细）来看下结果522*35条连接页面的数据爬取：是不是很爽

爬虫 2023年4月11日

000

爬虫-jsoup解析

我们抓取到页面之后，还需要对页面进行解析。可以使用字符串处理工具解析页面，也可以使用正则表达式，但是这些方法都会带来很大的开发成本，所以我们需要使用一款专门解析html页面的技术。 1.1. jsoup介绍 jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于j…

爬虫 2023年4月11日

000

爬虫学习（八）——带cookie的网页进行爬取

# 前提：# # 通常，很多网站需要登录才能进行浏览，所以在爬取这些网站时，也需要进行登录，并拿取登录时的cookie# # 登录网页，服务器会给客户端一个牌子cookie# # 访问登录页面时，带着牌子进行请求才能返回响应# # 登录界面的爬取# 做法： # 找到牌子，带着牌子进行请求 # cookie有的在请求头里# 如下是在登录后的页面中找到请求头里的…

爬虫 2023年4月11日

000