# python_project

**Repository Path**: python_org_1/python_project

## Basic Information

- **Project Name**: python_project
- **Description**: 主要Python基础+Python爬虫
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-09-26
- **Last Updated**: 2025-10-25

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

爬虫核心：
    1、爬整个网页
    2、解析数据
    3、爬虫与反爬虫

用途：
    1、数据分析
    2、社交软件冷启动：
    3、舆情监控

通用爬虫：抓取的数据都是无用的
聚焦爬虫：
    设计思路：
    1、确定要爬的url
    2、模拟浏览器通过http协议访问url，获取服务器返回的html代码
    3、解析html

反爬手段：
    1、User-Agent：它是一个特殊学符串头，使得服务器能够识别客户使用的操作系统及版
本、CPU类型、浏览器及版本、浏览器染引擎、浏览器语言、浏览器插件等
    2、代理IP：
        西次代理、快代理
        什么是高圈名、名和送透明代理？它们有什么区别？
        1.使用透明代理，对方服务器可以知道你使用了代理，并且也知道你的真实IP。
        2.使用匿名代理，对方服务器可以知道你使用了代理，但不知道你的真实IP。
        3.使用高匿名代理，对方服务器不知道你使用了代理，更不知道你的真实IP
    3、验证码访问：
        打码平台
        云打码平台
    4、动态加载网页：
        网页返回的是js数据，不是网页的真实数据
    5、数据加密
        分析js代码

urllib库使用：