# PracticeSpider **Repository Path**: SteveRocket/practice_spider ## Basic Information - **Project Name**: PracticeSpider - **Description**: scrapy、pyspider、appium、beautiful soup、selenium、uiautomator2等爬虫技术。漏洞信息、威胁情报、舆情分析、自媒体平台信息、电商平台商品信息等爬虫。 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: https://mp.weixin.qq.com/s/V5Axn-ZWi22ubh5Jiocb9g - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2023-10-09 - **Last Updated**: 2023-10-20 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # ABOUT **【关于我们】** * [Articulate v1.0](https://mp.weixin.qq.com/s/0yqGBPbOI6QxHqK17WxU8Q) * [Articulate v2.0](https://mp.weixin.qq.com/s/V5Axn-ZWi22ubh5Jiocb9g) [![](https://img.shields.io/badge/GitHub-zrf--rocket-blue?logo=gitpod)](https://github.com/zrf-rocket) [![](https://img.shields.io/badge/Gitee-SteveRocket-pink)](https://gitee.com/SteveRocket/) ![CTO Plus](https://img.shields.io/badge/微信公众号:CTO%20Plus-8A2BE2) 🥰 ## Contact ![微信公众号](./static/wechat.png) **< 微信公众号 >** ![QQ技术交流群](./static/qq_link.png) **< QQ技术交流群 >** ![联系作者](./static/wechat.jpg) **< 联系作者 >** ## **【代码工程系列】** * [Python和Go的设计模式](https://github.com/zrf-rocket/DesignPattern) * GitHub:https://github.com/zrf-rocket/DesignPattern * Gitee:https://gitee.com/SteveRocket/design_pattern * [Python、Go的编码技巧cookbook](https://github.com/zrf-rocket/CookBook) * GitHub:https://github.com/zrf-rocket/CookBook * Gitee:https://gitee.com/SteveRocket/cook-book * [Go代码示例](https://github.com/zrf-rocket/PracticeGo) * GitHub:https://github.com/zrf-rocket/PracticeGo * Gitee:https://gitee.com/SteveRocket/practice_go * [Python代码示例](https://github.com/zrf-rocket/PracticePython) * GitHub:https://github.com/zrf-rocket/PracticePython * Gitee:https://gitee.com/SteveRocket/practice_python * [Python Web框架的示例代码](https://github.com/zrf-rocket/PythonFramework) * GitHub:https://github.com/zrf-rocket/PythonFramework * Gitee:https://gitee.com/SteveRocket/python_framework * Django:https://github.com/zrf-rocket/PythonFramework/tree/master/django_framework * Flask:https://github.com/zrf-rocket/PythonFramework/tree/master/flask_framework * [Python 爬虫框架和技术](https://github.com/zrf-rocket/PracticeSpider) * GitHub:https://github.com/zrf-rocket/PracticeSpider * Gitee:https://gitee.com/SteveRocket/practice_spider * [Rust代码示例](https://github.com/zrf-rocket/PracticeRust) * GitHub:https://github.com/zrf-rocket/PracticeRust * Gitee:https://gitee.com/SteveRocket/practice_rust * [Vue代码示例](https://github.com/zrf-rocket/PracticeVue) * GitHub:https://github.com/zrf-rocket/PracticeVue * Gitee:https://gitee.com/SteveRocket/practice_vue * [前端代码示例](https://github.com/zrf-rocket/PracticeFronted) * GitHub:https://github.com/zrf-rocket/PracticeFronted * Gitee:https://gitee.com/SteveRocket/practice_fronted * [Python自动化测试框架](https://github.com/zrf-rocket/PythonTestAutomationFramework) * GitHub:https://github.com/zrf-rocket/PythonTestAutomationFramework * Gitee:https://gitee.com/SteveRocket/python_test_automation_framework * [Python和Go的算法代码示例](https://github.com/zrf-rocket/Algorithms) * GitHub:https://github.com/zrf-rocket/Algorithms * Gitee:https://gitee.com/SteveRocket/Algorithms * [Python和Go的数据结构代码示例](https://github.com/zrf-rocket/DataStructure) * GitHub:https://github.com/zrf-rocket/DataStructure * Gitee:https://gitee.com/SteveRocket/data_structure * [编码规范](https://github.com/zrf-rocket/DevGuide) * GitHub:https://github.com/zrf-rocket/DevGuide * Gitee:https://gitee.com/SteveRocket/develop_guide * [编码安全规范](https://github.com/zrf-rocket/SecGuide) * GitHub:https://github.com/zrf-rocket/SecGuide * Gitee:https://gitee.com/SteveRocket/security_guide ## **【产品系列】** * [主机监控系统-日志收集与报警管理系统(SIEM)](https://github.com/zrf-rocket/SIEM) * GitHub:https://github.com/zrf-rocket/SIEM * Gitee:https://gitee.com/SteveRocket/siem * [安全运营中心(SOC)-终端侦测与响应系统(EDR)](https://github.com/zrf-rocket/EDR_SOC) * GitHub:https://github.com/zrf-rocket/EDR_SOC * Gitee:https://gitee.com/SteveRocket/edr_soc * [安全运营中心(SOC)-信息资产采集与安全评估系统(ICSA)](https://github.com/zrf-rocket/SOC_ICSA) * GitHub:https://github.com/zrf-rocket/SOC_ICSA * Gitee:https://gitee.com/SteveRocket/SOC_ICSA * [DevSecTestOps-SDLC-自动化研发安全测试运维一体化平台(DevSecTestOps)](https://github.com/zrf-rocket/DevSecOps-SDLC) * GitHub:https://github.com/zrf-rocket/DevSecOps-SDLC * Gitee:https://gitee.com/SteveRocket/dev-sec-ops-sdlc * [Penetration Test-自动化渗透测试平台(PT)](https://github.com/zrf-rocket/PenetrationTest) * GitHub:https://github.com/zrf-rocket/PenetrationTest * Gitee:https://gitee.com/SteveRocket/penetration_test * [cicd-持续集成持续部署系统(CI/CD)](https://github.com/zrf-rocket/CICD) * GitHub:https://github.com/zrf-rocket/CICD * Gitee:https://gitee.com/SteveRocket/cicd * [AI图像识别-智能缺陷检测系统]() * [基于AI图像识别的工业缺陷检测应用系统(GPU&FPGA)](https://mp.weixin.qq.com/s/04qefQFg-Pg1Gcqq1vBLQQ) * [基于AI图像识别的智能缺陷检测系统,在钢铁行业的应用-技术方案](https://mp.weixin.qq.com/s/dSHbnuOwQZzE4CvPr1JYjg) # Spider(爬虫) scrapy、pyspider、appium、beautiful soup、selenium、uiautomator2等爬虫技术。漏洞信息、威胁情报、舆情分析、自媒体平台信息、电商平台商品信息等爬虫。 ## 目录结构 * spider_framework(爬虫框架和技术) * [pyspider_framework](spider_framework/README_pyspider.md) pyspider使用的爬虫脚本 * [scrapy_framework](spider_framework/README_Scrapy.md) scrapy框架使用的爬虫项目 * [appium_framework](spider_framework/appium_framework) * [beautiful_soup_framework](spider_framework/beautiful_soup_framework) * [selenium__framework](spider_framework/selenium__framework) * [uiautomator2_framework](spider_framework/uiautomator2_framework/) * [spider_vulnerability(爬取漏洞信息、威胁情报信息)](spider_vulnerability/) * [spider_production(爬取竞品信息)](spider_production/) * [spider_media(爬取各大自媒体平台信息)](spider_media/) 1. 各大自媒体平台模拟登录、破解登录验证码。 2. 一键自动发布图文消息、自动化回复。 3. 抓取短视频的评论信息、图文的评论。 4. 抖音、小红书、B站、视频号。 5. 数据趋势统计。 * libs 开发过程依赖库 * static 开发过程静态文件 ## 爬虫技术 ### IP代理池技术 ### 反爬技术 ### 浏览器采集技术 ### API或者爬虫获取数据 ### XML/HTML数据解析和分析 ## Spider框架和技术 39. [Scrapy](https://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html) 是Python的一个开源网络爬虫框架,用于抓取互联网上的数据,提取结构性数据而编写的应用框架。 40. [PySpider](http://docs.pyspider.org/en/latest/Quickstart/) 是Python的一个开源功能强大的网络爬虫框架,可轻松编写爬取逻辑,支持分布式爬取,同时提供了web界面管理工具。能在浏览器界面上进行脚本的编写。 41. [Crawley](http://project.crawley-cloud.com/) * 是Python的一个开源高效爬虫框架,提供了编写爬虫逻辑的API,支持多线程与分布式爬取。 * 支持关系和非关系数据库,数据可以导出为JSON、XML等。 42. [Portia](http://tingyun.site/2017/06/29/Portia-%E4%B8%80%E6%AC%BE%E5%BC%80%E6%BA%90%E5%8F%AF%E8%A7%86%E5%8C%96%E7%88%AC%E8%99%AB%E5%B7%A5%E5%85%B7/) 是Scrapy的一个可视化爬虫工具,通过简单地拖拽和点击,即可完成HTML页面模板和数据解析规则的创建,不需要任何编程知识。 43. Beautiful Soup 是Python的一个开源库,用于解析HTML/XML等结构化的文本数据,广泛应用于Web爬虫和数据抓取应用中。 45. Requests 是Python的一个HTTP库,用于向Web服务器发送HTTP请求并获取响应。 46. Selenium 是Python的一个开源自动化测试工具,可用于模拟用户在浏览器上的操作并生成脚本,如点击、输入等,同时支持多种浏览器。 47. PyQuery 是Python的一个解析HTML/XML的库,提供了类似jQuery的语法,可快速定位、解析和操作HTML/XML文档,并从中提取数据。 48. Pyspide 是Python的一个分布式网络爬虫框架,使用WebSocket进行通信,支持JavaScript渲染页面,同时提供web界面管理工具。 49. urllib 是Python的一个标准库,包含了发送HTTP请求、处理HTTP响应等功能。 用于在Web浏览器和服务器之间共享数据。 50. MechanicalSoup 是Python的一个库,用于模拟网页的交互操作,自动提交表单、点击按钮等。 自动化Web浏览器和交互式Web程序。它构建在Beautiful Soup之上,提供了自动填充表单和点击按钮等功能。 51. lxml 是Python的一个开源库,可用于解析HTML/XML等结构化的文本数据,性能较Beautiful Soup更快,支持XPath表达式。 它可以解析大量数据,并支持XPath和CSS选择器来查找和提取数据。 52. Grab 是Python的一个开源网络爬虫框架,提供了类似jQuery的语法,支持多线程和分布式爬取,同时支持cookie、代理等功能。 ,可以支持HTTP和FTP协议,提供了强大的过滤和解析功能。