爬虫 Archives - Page 93 of 133

爬虫

Python项目之我的第一个爬虫—-爬取豆瓣图书网，统计图书数量

今天，花了一个晚上的时间边学边做，搞出了我的第一个爬虫。学习Python有两个月了，期间断断续续，但是始终放弃，今天搞了一个小项目，有种丰收的喜悦。废话不说了，直接附上我的全部代码。 1 # -*- coding:utf-8 -*- 2 __author__ = ‘Young’ 3 4 import re,urllib #urllib : 网页访问，…

2023年4月11日

000

python_爬虫_使用终端运行爬报错：No such file or directory

终端：mac 错误描述：pycharm写完的爬虫项目，需要将爬取内容存储至指定文件夹的json文件内，终端运行时报错: FileNotFoundError: [Errno 2] No such file or directory: … 查询原因：指定位置可能未建立文件夹（已建立），不成立 f = open(‘data/mmonly.json’,’a’) …

爬虫 2023年4月11日

000

python_爬虫_multiprocessing.dummy以及multiprocessing

”’ # 代码范本任务添加函数、任务执行函数；进程、线程切换函数；进、线程开启函数； ”’ from multiprocessing import Pool as processPoll from multiprocessing.dummy import Pool as ThreadPool def get_page(): # 任务执行 pass de…

爬虫 2023年4月11日

000

python_爬虫_爬取7*24小时财经新闻

import requests import timefrom bs4 import BeautifulSoup def sina(): is_first = True task_q = [] # 本地存储新闻 task_time = [] while True: data_list = getNews() if is_first: task_q = dat…

爬虫 2023年4月11日

000

网络爬虫与web之间的访问授权协议——Robots

网站的管理者们通常会有这样一种心态：一方面期待百度、Google这样的搜索引擎来抓取网站的内容，另一方面又很厌恶其他来路不明的网络爬虫抓取自己的信息。正是因为这样，才有“好爬虫”、“坏爬虫”这样的说法。提到“好爬虫”，就不得不提网络爬虫与web之间的访问授权协议——Robots协议了。 Robots协议的定义Robots协议（也称为爬虫协议、机器人协议等）…

爬虫 2023年4月11日

000

.Net HttpWebRequest 爬虫核心爬取

1 爬虫，爬虫攻防 2 下载html 3 xpath解析html，获取数据和深度抓取（和正则匹配） 4 多线程抓取熟悉http协议提供两个方法Post和Get public static string HttpGet(string url, Encoding encoding = null, Dictionary<string,string>…

爬虫 2023年4月11日

000

爬虫入门urlib,urlib2的基本使用和进阶

python2中的urlib和urlib2 1.分分钟扒一个网页下来怎样扒网页呢？其实就是根据URL来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段HTML代码，加 JS、CSS，如果把网页比作一个人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。所以最重要的部分是存在于HT…

爬虫 2023年4月11日

000

Python爬虫b站视频弹幕并生成词云图分析

爬虫：requests，beautifulsoup 词云：wordcloud，jieba 代码加注释： 1 # -*- coding: utf-8 -*- 2 import xlrd#读取excel 3 import xlwt#写入excel 4 import requests 5 import linecache 6 import wordcloud 7 …

爬虫 2023年4月11日

000

简单的爬虫

from requests_html import HTMLSession session = HTMLSession() r = session.get(‘https://movie.douban.com/subject/1292052/’) print(r.text) 二、提取网页中所需的内容　　2.1使用使用CSS 选择器来提取网页中有价值的信息-…

爬虫 2023年4月11日

000

Python 爬虫入门之爬取妹子图

Python 爬虫入门之爬取妹子图来源：李英杰链接： https://segmentfault.com/a/1190000015798452 听说你写代码没动力？本文就给你动力，爬取妹子图。如果这也没动力那就没救了。 GitHub 地址: https://github.com/injetlee/Python/blob/master/%E7%8…

爬虫 2023年4月11日

000