爬虫之一：爬补天厂商数据（爬虫）

2023年4月13日上午12:07 • 爬虫

#coding:utf-8
import re,urllib

def gethtml(url):
  page = urllib.urlopen(url)
  html=page.read()
  return html

def getlink(html):

  link = re.findall(r'<td  align="left" style="padding-left:20px;">(.*?)</td>',html)
  #linklist = re.findall(link,html)
  return link

def save(links):
  f=open('360.txt','a')
  for i in links:
    f.write(i+"\n")
    #f.close()
    #print 'ok'  

for page in range(11, 200):
  url = "https://butian.360.cn/company/lists/page/" +str(page)
  html = gethtml(url)
  print str(page)+"ye"
  links = getlink(html)
  print links
  save(links)

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：爬虫之一：爬补天厂商数据（爬虫） - Python技术站

爬虫

0 0 打赏

微信扫一扫

支付宝扫一扫

node.js+mongodb 爬虫

上一篇 2023年4月13日

step3: 创建jobbole爬虫

下一篇 2023年4月13日

一个简单的python爬虫，以豆瓣妹子“http://www.dbmeizi.com/category/2?p= ”为例

本想抓取网易摄影上的图，但发现查看html源代码时找不到图片的url，但firebug却能定位得到。(不知道为什么？？？) 目标是抓取前50页的爆乳图，代码如下： import urllib2,urllib,re,os ”’ http://www.dbmeizi.com/category/2?p=% ”’ def get_url_from_douban(…

爬虫 2023年4月13日
000
Python实现简单的获取图片爬虫功能示例

标题：Python实现简单的获取图片爬虫功能示例攻略背景介绍随着互联网的发展，人们需要从互联网上获取各种信息。其中获取图片是一个非常常见的需求。本文将介绍如何使用Python实现简单的获取图片爬虫功能。这种爬虫可以从指定的网站上获取所有的图片，并将这些图片下载到本地。环境准备本文所使用的开发环境为Python 3.x。请确保您的计算机上已经安装了Py…

python 2023年5月14日
000
网络爬虫之JSOUP

JSOUP中文文档：http://www.open-open.com/jsoup/推荐博客：http://www.cnblogs.com/jycboy/p/jsoupdoc.html 从一个URL加载一个Document Document doc = Jsoup.connect(“http://example.com”) .data(“query”, “Ja…

爬虫 2023年4月13日
000
Python爬虫框架Scrapy实战之批量抓取招聘信息

Python爬虫框架Scrapy实战之批量抓取招聘信息本文旨在详细讲解如何使用Python爬虫框架Scrapy来批量抓取招聘信息网站上的信息。整个流程可以分为如下几个步骤：制定爬虫计划及定义Item 编写Spider 编写Item Pipeline 运行爬虫 1. 制定爬虫计划及定义Item 在开始编写Spider之前，我们需要先确定我们要抓取哪些信息。…

python 2023年5月14日
000
简单的爬虫程序以及使用PYQT进行界面设计（包含源码解析）

　　由于这个是毕业设计的内容，而且还是跨专业的。爬虫程序肯定是很简单的，就是调用Yahoo的API进行爬取图片。这篇博客主要讲的是基础的界面设计。放上源码，然后分部解析一下重要的地方。注：flickrapi需要FQ 　　代码复制的时候可能掉几个字母或者符号，不建议复制代码，如需复制请自行检查是否有拼写错误　　可以使用pip install 来安装fli…

爬虫 2023年4月11日
000
python爬虫实验

那天在新浪微博上看到北北出的题目，由于最近也在做类似的爬虫研究，所以就有了这个实验。后来在QQ上和北北说了下，要求是啥都抓，就抓乌云的。。。然后就开始了。。第一个版本如下，后续不断改进直到满足需求： import urllib2; from sgmllib import SGMLParser; class CatCh(SGMLParser): def …

爬虫 2023年4月11日
000
爬虫之selenium使用

详细使用链接: 点击链接 selenium介绍： selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种常见的浏览器 from seleniu…

爬虫 2023年4月13日
000
python爬虫入门（九）Scrapy框架之数据库保存

豆瓣电影TOP 250爬取–>>>数据保存到MongoDB 豆瓣电影TOP 250网址要求： 1.爬取豆瓣top 250电影名字、演员列表、评分和简介 2.设置随机UserAgent和Proxy 3.爬取到的数据保存到MongoDB数据库 items.py # -*- coding: utf-8 -*- import scrapy c…

爬虫 2023年4月13日
000

合作推广

返回顶部

爬虫之一：爬补天厂商数据（爬虫）

相关文章