Java正则表达式—小应用—简易爬虫

2023年4月16日下午9:18 • 爬虫

在上一篇中，学习了正则表达式的四个功能。即匹配、分割、替换、获取。

利用获取功能，可以实现简单的网页爬虫。

4，获取:将字符串中的符合规则的子串取出。

获取功能的操作步骤：

1，将正则表达式封装成对象。
2，让正则对象和要操作的字符串相关联。
3，关联后，获取正则匹配引擎。
4，通过引擎对符合规则的子串进行操作，比如取出。

举例如下：

package com.packageTemp;

/*
网页爬虫(蜘蛛)
*/
import java.io.*;
import java.util.regex.*;
import java.net.*;
public class RegexTest2 
{
	public static void main(String[] args) throws Exception
	{
		getMails_1();

	}


	public static void getMails_1()throws Exception
	{
		URL url = new URL("http://sports.sina.com.cn/nba/");

		URLConnection conn = url.openConnection();

		BufferedReader bufIn = new BufferedReader(new InputStreamReader(conn.getInputStream()));
		
		String line = null;

//		String mailreg = "\\w+[html]\\w+(\\.\\w+)+";
		String mailreg = "[a-zA-Z][1-9]\\d{3,10}";
//		String mailreg = "1[3-9]\\D\\d\\w{2,12}";
		Pattern p = Pattern.compile(mailreg);
		

		

		while((line=bufIn.readLine())!=null)
		{
			Matcher m = p.matcher(line);
			while(m.find())
			{
				System.out.println(m.group());
			}
		}
	}

}

可以自定义正则表达式，即所谓的规则，确定自己想要取出的内容。实现了简单的网页爬虫。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Java正则表达式—小应用—简易爬虫 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

selenium 无界面模式下反爬虫解决方案

上一篇 2023年4月16日

爬虫小例子

下一篇 2023年4月16日

爬虫遇到取到网页为reload的问题

有的网站防采集，会在页面加上this.window.location.reload(),这时候你就会得到如下代码： <html> <head> <meta http-equiv=”Content-Type” content=”text/html; charset=UTF-8″> </head>…

爬虫 2023年4月11日
000
python 爬虫实现增量去重和定时爬取实例

Python爬虫：实现增量去重和定时爬取实例 1. 增量去重（Incremental Scraping）在进行爬取时，我们可能会遇到已经爬取过的网页，但是网页内容并没有更新的情况。这时，如果我们还对这些页面进行爬取，不仅会浪费时间和资源，而且会导致重复的数据。针对这种情况，我们可以使用增量去重技术，即只爬取新产生的数据，跳过已经存在的数据，达到提高效率和…

python 2023年5月14日
000
Python爬虫实战（二）

本来晚上是准备写贴吧爬虫的，但是在分析页面时就遇到了大麻烦！选取了某个帖子，在爬取的时候，发现正则匹配不全..很尴尬！！先来看看吧， 1 #!/usr/bin/env python 2 # -*- coding:utf-8 -*- 3 __author__ = ‘ziv·chan’ 4 5 6 import requests 7 import re 8 9 …

爬虫 2023年4月13日
000
java_爬虫_获取经过js渲染后的网页源码

md 弄了一天了……（这个月不会在摸爬虫了，浪费生命）进入正题: 起初是想写一个爬虫来爬一个网站的视频，但是怎么爬取都爬取不到，分析了下源代码之后，发现源代码中并没有视频的dom 但是在浏览器检查元素的时候又是有的，这就让我很难过了百度了一大天，发现是因为普通方法获取的只是服务器端本地的静态资源，也就是第一手资源而浏览器检查元素的资源是经过js渲染…

爬虫 2023年4月11日
000
Python爬虫爬虫必备—BeautifulSoup

1. python3中只要记住：urllib , requests 两个库 GET一个URL >>> import urllib.request >>> with urllib.request.urlopen(‘http://www.python.org/’) as f: … print(f.read(300))…

爬虫 2023年4月13日
000
爬虫笔记（二）——浏览器的模拟（Headers属性）

有的时候，我们无法爬取一些网页，会出现403错误，因为这些网页为了防止别人恶意采集其信息所以进行了一些反爬虫的设置。那么如果我们向爬取这些网页的信息，应该怎么办呢？可以设置一些Headers信息，模拟成浏览器去访问这些网站，此时，就能够解决这个问题了。接下来我们来找找自己浏览器的Headers属性。 1.首先打开任意网页，按…

爬虫 2023年4月11日
000
爬虫

Scrapy项目 – 源码工程 – 实现豆瓣 Top250 电影信息爬取的爬虫设计

一、项目目录结构 spiders文件夹内包含doubanSpider.py文件，对于项目的构建以及结构逻辑，详见环境搭建篇。二、项目源码 1.doubanSpider.py # -*- coding: utf-8 -*- import scrapy from douban.items import DoubanItem #创建爬虫类 class Douba…

2023年4月10日
000
python爬虫—单线程+多任务的异步协程,selenium爬虫模块的使用

一丶单线程+多任务的异步协程特殊函数 # 如果一个函数的定义被async修饰后，则该函数就是一个特殊的函数 async def get_request(url): print(‘正在请求~~’, url) await asyncio.sleep(2) print(‘请求结束!!’, url) 协程对象 # – 对象: 特殊函数被调用后，函数内部的实现语句不…

爬虫 2023年4月11日
000

合作推广

合作推广

返回顶部