爬虫小例子

2023年4月16日下午9:18 • 爬虫

package com.textPa.two;

import java.io.BufferedWriter;
import java.io.File;
import java.io.FileWriter;
import java.nio.charset.Charset;

import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;

public class RetrivePage {
    
    public static void main(String[] args) {
        CloseableHttpClient httpClient = HttpClients.createDefault();
//        HttpGet getHttp = new HttpGet("http://www.baidu.com");
        HttpGet getHttp = new HttpGet("http://club.news.sohu.com/zz0578/thread/4bqnexpi3no");
        String content = null;
        BufferedWriter writer = null;
        
        HttpResponse response;
        try {
            response = httpClient.execute(getHttp);
            HttpEntity entity = response.getEntity();
            
            if(entity!=null){
                content = EntityUtils.toString(entity,Charset.forName("GBK"));
                System.out.println(content);
                File file = new File("d:\\baidu.html");
                writer = new BufferedWriter(new FileWriter(file));
                writer.write(content);
                writer.flush();
                writer.close();
                System.out.println("创建成功");
            }
        }catch (Exception e) {
            // TODO: handle exception
        }
    }
    
}

所需要的两个jar包我后面会贴出来

http://pan.baidu.com/s/1nuFuDUL

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：爬虫小例子 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

Java正则表达式—小应用—简易爬虫

上一篇 2023年4月16日

scrapy使用selenium时在爬虫类中关闭浏览器的方法

下一篇 2023年4月16日

爬虫防盗链处理

在爬虫过程中我们可能遇到这样，或者这样, 其实这两种万变不离其宗，关键就是headers中的“referer” 字段（referer有时写作Referer，注意观察）所以我们可以在代码中依据原网站referer设置规则构造请求headers

爬虫 2023年4月10日
000
python3使用requests模块爬取页面内容的实战演练

当我们想要爬取网页数据时，Python的requests模块可以说是必不可少的一个工具。下面是使用Python3中requests模块爬取页面内容的实战演练的完整攻略。 1. 准备工作首先，我们需要安装Python的requests模块。在命令行中输入以下命令进行安装： pip3 install requests 在这里，我们还需要一个网站，作为我们的爬取…

python 2023年5月14日
000
python爬虫爬取网易云音乐（超详细教程，附源码）

一、前言先说结论，目前无法下载无损音乐，也无法下载vip音乐。此代码模拟web网页js加密的过程，向api接口发送参数并获取数据，仅供参考学习，如果需要下载网易云音乐，不如直接在客户端下载，客户端还可以下载无损音乐。代码还是半成品，打算再做个音乐播放器，直接打包成exe，等有时间做好了再传到github上去，现在先把解析过程记录下来发布。至于音乐搜索器，…

爬虫 2023年4月12日
001
基于python实现的抓取腾讯视频所有电影的爬虫

基于Python实现的抓取腾讯视频所有电影的爬虫爬虫目标本次爬虫的目标是抓取腾讯视频中所有的电影信息，包括电影名、演员、导演、上映时间等。爬虫思路确定爬虫目标及所需数据分析腾讯视频电影页面的结构并确定爬取方式编写Python爬虫程序运行程序并保存数据确定爬虫目标及所需数据在这个步骤中，我们需要确定需要爬取的数据及其可用性。在本次爬虫中，我们…

python 2023年5月14日
000
Python网络爬虫(认识爬虫)

一、什么是爬虫爬虫就是通过编写程序模拟浏览器上网，然后让其去互联网上抓取数据的过程。二、哪些语言可以实现爬虫 1.php：可以实现爬虫。php被号称是全世界最优美的语言（当然是其自己号称的，就是王婆卖瓜的意思），但是php在实现爬虫中支持多线程和多进程方面做的不好。 2.java：可以实现爬虫。java可以非常好的处理和实现爬虫，是唯一可以与pyt…

爬虫 2023年4月12日
000
Python爬虫入门教程：爬取boss直聘招聘数据并做可视化展示

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。基本开发环境 Python 3.8 Pycharm 相关模块的使用 from selenium import webdriver import csv 安装Python并添加到环境变量，pip安装需要的相关模块即可。如图所示，通过 Py…

爬虫 2023年4月11日
000
python 爬虫保存文件的几种方法

import os os.makedirs(‘./img/’, exist_ok=True) IMAGE_URL = “https://morvanzhou.github.io/static/img/description/learning_step_flowchart.png” def urllib_download(): from urllib.requ…

爬虫 2023年4月10日
000
如何设置Python爬虫定时任务

记得以前的Windows任务定时是可以正常使用的，今天试了下，发现不能正常使用了，任务计划总是挂起。接下来记录下Python爬虫定时任务的几种解决方法。方法一、while True 首先最容易的是while true死循环挂起，不废话，直接上代码： import os import time import sys from datetime import …

爬虫 2023年4月11日
000

合作推广

合作推广

返回顶部