# vbird_linux **Repository Path**: yfljx/vbird_linux ## Basic Information - **Project Name**: vbird_linux - **Description**: 爬取linux教程 - **Primary Language**: Python - **License**: GPL-3.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2020-12-22 - **Last Updated**: 2021-06-16 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # vbird_linux 版本:0.1.0 这个项目适合爬网vbird linux教程,它也是一个异步项目,我会把解析和请求分开,希望它能更快。 它主要使用以下库:requests、aiohttp、asyncio等。 像我以前做的项目一样,将已爬网的html转换为wphtmltopdf转换为pdf。 但他仍有以下问题; 1. 首先,由于网络问题,我无法很顺利地连接到vbird博客;有时请求失败,但这不是大问题。 2. 不幸的是,我必须处理图像路径问题。我试图在本地获取所有图像,但网络上的请求连接非常麻烦,速度太慢。所以我在wkhtmltoppdf中使用了它,但这似乎没有帮助。 3. 最后,由于很多vbird教程的格式不同,我只对他的基本教程进行了爬网,你可以使用源代码来实现。 4. 会封禁ip,如果请求过多。 #### 更新: 2019/12/19 版本:0.2.0 优化了代码爬取速度,尽可能避免被封禁ip,优化代码结构并爬取所有教程。 PS: 由于wkhtmltopdf转换时字体缺失,我使用了在线请求CSS,JavaScript,但图片放在本地。 #### 2020/9/11 删掉了自己不喜欢的东东~ ![image-20191219231637977](image-20191219231637977.png) 如果您喜欢此项目或觉得还不错,欢迎star...