# python_project **Repository Path**: python_org_1/python_project ## Basic Information - **Project Name**: python_project - **Description**: 主要Python基础+Python爬虫 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-09-26 - **Last Updated**: 2025-10-25 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README 爬虫核心: 1、爬整个网页 2、解析数据 3、爬虫与反爬虫 用途: 1、数据分析 2、社交软件冷启动: 3、舆情监控 通用爬虫:抓取的数据都是无用的 聚焦爬虫: 设计思路: 1、确定要爬的url 2、模拟浏览器通过http协议访问url,获取服务器返回的html代码 3、解析html 反爬手段: 1、User-Agent:它是一个特殊学符串头,使得服务器能够识别客户使用的操作系统及版 本、CPU类型、浏览器及版本、浏览器染引擎、浏览器语言、浏览器插件等 2、代理IP: 西次代理、快代理 什么是高圈名、名和送透明代理?它们有什么区别? 1.使用透明代理,对方服务器可以知道你使用了代理,并且也知道你的真实IP。 2.使用匿名代理,对方服务器可以知道你使用了代理,但不知道你的真实IP。 3.使用高匿名代理,对方服务器不知道你使用了代理,更不知道你的真实IP 3、验证码访问: 打码平台 云打码平台 4、动态加载网页: 网页返回的是js数据,不是网页的真实数据 5、数据加密 分析js代码 urllib库使用: