基于apache —HttpClient的小爬虫获取网页内容

2023年4月13日下午9:20 • 爬虫

　　今天（17-03-31）忙了一下午研究webmagic,发现自己还太年轻，对于这样难度的框架（类库）

还是难以接受，还是从基础开始吧，因为相对基础的东西教程相多一些，于是乎我找了apache其下的

HttpClient,根据前辈们发的教程自己也简单写了一下，感觉还好。

下面实现的是单个页面的获取：

import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.client.HttpClient;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;

import java.io.IOException;

public class Main {

    public static void main(String[] args) throws IOException{
        try {
            //创建client实例
            HttpClient client= HttpClients.createDefault();
            //创建httpget实例
            HttpGet httpGet=new HttpGet("http://www.btba.com.cn");
            //执行 get请求
            HttpResponse response=client.execute(httpGet);
            //返回获取实体
            HttpEntity entity=response.getEntity();
            //获取网页内容，指定编码
            String web= EntityUtils.toString(entity,"UTF-8");
            //输出网页
            System.out.println(web);

        } catch (IOException e) {
            e.printStackTrace();
        }


    }
}

部分截图展示：

基于apache —HttpClient的小爬虫获取网页内容

基于apache —HttpClient的小爬虫获取网页内容

下面提供了HttpClient的下载： http://hc.apache.org/downloads.cgi

webmagic基于HttpClient、Jsoup 所以，现将这两个学会了、学懂了在去尝试啃webmagic吧

下一篇讲Jsoup对于本篇下载网页的简单解析处理。。。

本人还是小白一只，以上有什么不足或者不对之处请指出，非常感谢个位。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：基于apache —HttpClient的小爬虫获取网页内容 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

爬虫–cheerio

上一篇 2023年4月13日

基于HttpClient、Jsoup的爬虫获取指定网页内容

下一篇 2023年4月13日

Python爬虫实例

环境介绍 python3.9mysql5.7目标网址：https://www.gushiwen.cn/另外，需要什么类，自己pip安装目录结构： gushiwen.py文件代码： import os from fake_useragent import UserAgent import requests from requests import Respon…

爬虫 2023年4月13日
000
Python爬虫后获取重定向url的两种方法

一、背景在编写Python爬虫时，我们通常需要对网站上的URL进行重定向处理。重定向是指当我们访问一个网站的URL时，服务器会把我们的请求重定向到另一个URL上。例如，当我们访问 https://www.google.com 时，服务器会把我们的请求重定向到 https://www.google.com.hk 上。在爬虫中，我们需要获取重定向URL的最终…

python 2023年5月14日
000
【scrapy网络爬虫】之四日志等级和请求传参【python网络爬虫】之requests相关模块

一.Scrapy的日志等级　　- 在使用scrapy crawl spiderFileName运行程序时，在终端里打印输出的就是scrapy的日志信息。　　- 日志信息的种类：　　　　　　　　ERROR ：一般错误　　　　　　　　WARNING : 警告　　　　　　　　INFO : 一般的信息　　　　　　　　DEBUG ：调试信息　　　　　…

爬虫 2023年4月12日
000
python爬虫筛选工作实例讲解

关于 “Python爬虫筛选工作实例讲解” 的完整攻略，以下是详细说明。爬虫筛选工作实例的攻略 1. 准备工作在开始爬虫筛选之前，需要做一些准备工作。主要包括安装Python环境、安装相关的爬虫库（如requests、beautifulsoup等）、了解HTTP请求和响应以及HTML页面结构基础等内容。 2. 分析页面结构在开始爬虫之前，需要对目标网站…

python 2023年5月14日
000
python登录并爬取淘宝信息代码示例

让我来为你详细讲解一下“Python登录并爬取淘宝信息代码示例”的完整攻略。为了登录淘宝并爬取商品信息，我们需要用到以下几个工具和库： Chrome浏览器：作为我们启动并使用selenium的浏览器。 ChromeDriver：作为我们与Chrome浏览器进行交互的工具。 selenium库：用于模拟浏览器动作，如输入、点击等操作。 re库：用于正则表达式…

python 2023年5月14日
000
python实现博客文章爬虫示例

Python实现博客文章爬虫示例简介爬虫是指自动获取网站内容的一个程序或脚本，本文将介绍使用Python编写一个简单的博客文章爬虫。本文使用Python3.x版本。准备工作在编写爬虫之前，先了解几个Python库： requests：用于处理HTTP/HTTPS请求； BeautifulSoup：用于从HTML或XML文档中提取数据的Python库；…

python 2023年5月14日
000
python | 爬虫笔记（七）- 动态渲染页面抓取Selenium

JavaScript 动态渲染的页面不止 Ajax 这一种另外有的ajax渲染接口含有很多加密参数，难以直接找出其规律通过模拟浏览器运行的方式来实现，Selenium、Splash、PyV8、Ghost 等 7.1 Selenium的使用自动化测试工具，支持多种浏览器。爬虫中主要用来解决js渲染问题用 Selenium 来驱动浏览器加载网页的话，可以…

爬虫 2023年4月8日
000
简单的抓取淘宝图片的Python爬虫

下面我会介绍一下“简单的抓取淘宝图片的Python爬虫”的完整攻略。攻略概述抓取淘宝商品图片需要用到 Python 爬虫技术。爬虫的实现流程一般为：根据淘宝商品链接，获取商品页面 HTML 源代码。从 HTML 源代码中提取出图片链接。根据图片链接，请求图片并保存到本地。实现步骤步骤1：获取商品页面 HTML 源代码使用 requests 库…

python 2023年5月14日
000

合作推广

合作推广

返回顶部