csdn 文章批量转换markdown格式下载至本地 您所在的位置:网站首页 英文散文下载 csdn 文章批量转换markdown格式下载至本地

csdn 文章批量转换markdown格式下载至本地

2023-08-11 02:33| 来源: 网络整理| 查看: 265

文章目录 1. 背景2. 功能3. 下载4. 配置5. 代码5. 演示6. 技术7. 参考

1. 背景

最近准备搭建新博客,所以想把所有csdn的文章下载下来,但实在太多,不可能一篇一篇去导出,所以写了一个批量导出脚本,尽管csdn的在线编辑、发布、专栏、自定义模块、模板等比较成熟,但实在没有一点美感,这一点令人比较失望,一开始我比较在意在线编辑速度快,笔记更新方便,检索也还算可以,前几天阿里云开发者社区、infoQ中国社区运营人员相继邀请我去他们平台发布文章,但我更想尝试本地利用Obsidian工具编写笔记试试,并同步github或gitee仓库存储,博客也许会以github page依托利用hexo、Jekyll等工具发布,如果还可以同步notion或云雀就更完美。

2. 功能 通过传入id确立个人用户主页;创建个人博客目录,专栏目录;获取专栏URL、名称、篇数量;依靠专栏URL获取对应的多页文章URL、标题;遍历文章URL通过cookie获取文章内容并转换markdown格式。 3. 下载 $ git clone https://github.com/Ghostwritten/csdn_to_md.git 4. 配置

chrome浏览器登陆csdn平台,按"F12"找到自己网页cookie,选择部分cookie内容复制至csdn_to_md.py脚本109行。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CPYqwJNL-1651508805129)(https://github.com/Ghostwritten/csdn_to_md/blob/main/cookie.png)]

5. 代码

github仓库:csdn_to_md

#!/usr/bin/env python # -*- coding: utf-8 -*- import json import os import uuid import time import requests import datetime import argparse import re from bs4 import BeautifulSoup def request_blog_column(id): headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.75 Safari/537.36' } urls = 'https://blog.csdn.net/' + id reply = requests.get(url=urls,headers=headers) parse = BeautifulSoup(reply.content, "lxml") spans = parse.find_all('a', attrs={'class':'special-column-name'}) blog_columns = [] for span in spans: href = re.findall(r'href=\"(.*?)\".*?',str(span),re.S) href = ''.join(href) headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.75 Safari/537.36' } blog_column_reply = requests.get(url=href,headers=headers) blogs_num = re.findall(r'


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有