csdn 文章批量转换markdown格式下载至本地

2023-08-11 02:33| 来源: 网络整理| 查看: 265

文章目录 1. 背景2. 功能3. 下载4. 配置5. 代码5. 演示6. 技术7. 参考

1. 背景

最近准备搭建新博客,所以想把所有csdn的文章下载下来，但实在太多，不可能一篇一篇去导出，所以写了一个批量导出脚本，尽管csdn的在线编辑、发布、专栏、自定义模块、模板等比较成熟,但实在没有一点美感,这一点令人比较失望，一开始我比较在意在线编辑速度快，笔记更新方便，检索也还算可以,前几天阿里云开发者社区、infoQ中国社区运营人员相继邀请我去他们平台发布文章，但我更想尝试本地利用Obsidian工具编写笔记试试，并同步github或gitee仓库存储,博客也许会以github page依托利用hexo、Jekyll等工具发布，如果还可以同步notion或云雀就更完美。

2. 功能通过传入id确立个人用户主页；创建个人博客目录，专栏目录；获取专栏URL、名称、篇数量；依靠专栏URL获取对应的多页文章URL、标题；遍历文章URL通过cookie获取文章内容并转换markdown格式。 3. 下载 $ git clone https://github.com/Ghostwritten/csdn_to_md.git 4. 配置

chrome浏览器登陆csdn平台，按"F12"找到自己网页cookie,选择部分cookie内容复制至csdn_to_md.py脚本109行。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CPYqwJNL-1651508805129)(https://github.com/Ghostwritten/csdn_to_md/blob/main/cookie.png)]

5. 代码

github仓库：csdn_to_md

#!/usr/bin/env python # -*- coding: utf-8 -*- import json import os import uuid import time import requests import datetime import argparse import re from bs4 import BeautifulSoup def request_blog_column(id): headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.75 Safari/537.36' } urls = 'https://blog.csdn.net/' + id reply = requests.get(url=urls,headers=headers) parse = BeautifulSoup(reply.content, "lxml") spans = parse.find_all('a', attrs={'class':'special-column-name'}) blog_columns = [] for span in spans: href = re.findall(r'href=\"(.*?)\".*?',str(span),re.S) href = ''.join(href) headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.75 Safari/537.36' } blog_column_reply = requests.get(url=href,headers=headers) blogs_num = re.findall(r'

【本文地址】

公司简介

联系我们