python爬虫实验

2023年4月11日上午2:25 • 爬虫

那天在新浪微博上看到北北出的题目，由于最近也在做类似的爬虫研究，所以就有了这个实验。

后来在QQ上和北北说了下，要求是啥都抓，就抓乌云的。。。

然后就开始了。。

第一个版本如下，后续不断改进直到满足需求：

import urllib2;
from sgmllib import SGMLParser;

class CatCh(SGMLParser):
   def reset(self):
      self.url=[]
      SGMLParser.reset(self)
   def  start_a(self,attrs):
      href = [v for k, v in attrs if k == 'href']
      if href:
         self.url.extend(href)

content = urllib2.urlopen("http://wooyun.org/").read()
catch=CatCh()
catch.feed(content)
for item in catch.url:
      print item

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python爬虫实验 - Python技术站

爬虫

0 0 打赏

微信扫一扫

支付宝扫一扫

scrapy爬虫笔记(三)——写入源文件的爬取

上一篇 2023年4月11日

Python 爬虫：煎蛋网妹子图

下一篇 2023年4月11日

爬虫—使用Requests

一，安装　　pip install requests 二，基本用法 1.简单示例 import requests res = requests.get(‘https://www.baidu.com’) print(type(res)) print(res.status_code) print(res.text) print(type(res.text)) …

爬虫 2023年4月13日
000
python实现提取百度搜索结果的方法

下面是“python实现提取百度搜索结果的方法”的完整攻略。 1. 确定用到的库和工具首先需要导入一些库和工具，来实现提取百度搜索结果的操作。这些库和工具包括： requests：用于发送HTTP请求 BeautifulSoup：用于解析HTML代码 lxml：解析器，用于解析HTML代码 2. 爬取搜索结果页面通过requests发送HTTP GET请…

python 2023年5月14日
000
爬虫

爬虫中遇到的问题汇总

——————3.10———————- 关于爬取时，网页编码不是utf-8，而导致 lxml 输出中文时乱码的解决办法用requests.get拿到response，response.content是bytes的内容，所以可以直接传给 lxml， body = etree.HTML(response.co…

2023年4月11日
000
j网络爬虫之WebMagic

WebMagic官网：http://webmagic.io/ 注意： 1、在自定义PageProcessor中使用System.out.println(“str”),Spider.create(new myPageProcessor()).start()爬虫启动后，console并不会输出 spider.addPipeline(new ConsolePipe…

爬虫 2023年4月13日
000
Python爬虫模拟登录带验证码网站

当我们需要从需要登录认证的网站获取数据时，就需要通过模拟登录来获取数据。以下是基于Python的爬虫模拟登录带验证码的完整攻略。选择合适的登录方式网站的登录方式有多种，包括用户名密码登录、短信验证码、第三方认证等等。基于不同的登录方式，我们需要使用不同的模拟登录方式。例如，如果是用户名密码登录，我们可以使用requests库发送POST请求实现模拟登录；…

python 2023年5月14日
000
爬虫（四）-大众点评，css+svg

地址：http://www.dianping.com/shop/9964442 好多字没了，替代的是<x class=”xxx”></x>这种css标签定位到位置找到文字 SVG svg可以写字，xy是相对svg标签的坐标，单位px textPath 用xlink:href标记文字路径，就是文字排列方向，文字按方…

爬虫 2023年4月11日
000
Python爬虫scrapy-redis分布式实例（一）

目标任务：将之前新浪网的Scrapy爬虫项目，修改为基于RedisSpider类的scrapy-redis分布式爬虫项目，将数据存入redis数据库。一、item文件，和之前项目一样不需要改变 # -*- coding: utf-8 -*- import scrapyimport sysreload(sys)sys.setdefaultencoding…

爬虫 2023年4月11日
000
爬虫

(参考)爬虫5-爬取中国大学排名情况

最好大学网 2018大学排名功能描述：输入：大学排名url链接输出：大学排名信息的屏幕输出（排名，大学名称，总分）技术路线：requests库和bs4库定向爬虫：仅对输入的URL进行爬取，不扩展爬取步骤： 1、输入url网址，查看源代码，发现信息都在HTML文件中 2、打开http://www.zuihaodaxue.cn/robots.tx…

2023年4月8日
000

合作推广

返回顶部

python爬虫实验

相关文章