老K博客 - 一个源码和技术分享的博客

如何将html转换markdown

老K博客
2024-05-14 / 0 评论 / 38 阅读 / 正在检测是否收录...
广告

有时候我们需要将网页上的文档转成markdown格式以方便我们二次开发。因为网上的文章都是html格式的。而我们一般写作都习惯markdown。这时候就需要用到Turndown

什么是Turndown

Turndown 是一个开源的JavaScript库,它允许开发者将Markdown格式的文本转换为HTML。Markdown是一种轻量级的标记语言,它允许人们使用易读易写的纯文本格式编写文档,然后转换成结构化的HTML页面。 Turndown 库的主要特点和用途包括:

  • Markdown 转 HTML:Turndown 可以将Markdown格式的文本转换为HTML代码,这使得编写和维护网站内容变得更加方便和快捷。
  • 兼容性:由于Markdown的广泛使用,Turndown 使得开发者能够轻松地将现有的Markdown文档集成到Web应用中,或者在不同的平台和编辑器之间迁移Markdown内容。
  • 定制化:Turndown 提供了一系列的选项和插件,允许开发者定制转换规则,以满足特定的需求或样式要求。
  • 跨平台:作为一个JavaScript库,Turndown 可以在浏览器端和Node.js环境中运行,这为在不同环境中处理Markdown提供了灵活性。
  • 开源:Turndown 是开源的,这意味着开发者可以自由地使用、修改和分发它,同时也能够贡献代码来改进这个库。
    使用Turndown,开发者可以创建强大的在线Markdown编辑器、静态站点生成器或其他需要Markdown支持的Web应用。通过Turndown,Markdown的简洁和强大得以在Web应用中得到充分发挥。

如果在有node环境的情况下要使用 Turndown,首先需要将它添加到你的项目中。可以使用 npm 或 yarn 安装 Turndown,如下所示:

使用 npm 安装:

npm install turndown

使用 yarn 安装:

yarn add turndown

或者html文件直接引入:

<script src="https://unpkg.com/turndown/dist/turndown.js"></script>

安装完成,可以在项目中使用它。以下是一个简单的示例:

import TurndownService from 'turndown';

const turndownService = new TurndownService();

const html = '<h1>Hello, World!</h1><p>This is a <em>sample</em> HTML document.</p>';
const markdown = turndownService.turndown(html);

console.log(markdown);

无需安装,直接在html文件使用:

<!DOCTYPE html>
<html lang="en">
<head>
  <meta charset="UTF-8">
  <meta http-equiv="X-UA-Compatible" content="IE=edge">
  <meta name="viewport" content="width=device-width, initial-scale=1.0">
  <!-- 引入 Turndown 库 -->
  <script src="https://cdn.jsdelivr.net/npm/turndown@7.1.3/dist/turndown.js"></script>

  <title>Document</title>
</head>
<body>
  <script>
    // 创建 TurndownService 实例
    const turndownService = new TurndownService();
  
    // 要转换的 HTML 内容
    const htmlContent = '<h1>Hello, World!</h1><p>This is a <em>sample</em> HTML document.</p>';
  
    // 使用 Turndown 进行转换
    const markdown = turndownService.turndown(htmlContent);
  
    // 输出 Markdown
    console.log(markdown);
  </script>
  
</body>
</html>

参数

Turndown 提供了一些参数和配置选项,以便更精细地控制 HTML 到 Markdown 的转换过程。以下是一些常用的参数和配置选项:

headingStyle (标题样式): 用于指定生成的 Markdown 标题的样式。可选值包括 "setext" (默认值)和 "atx""setext" 样式使用下划线或等号来表示标题级别,而 "atx" 样式使用井号的数量表示标题级别。

const turndownService = new TurndownService({ headingStyle: 'atx' });

hr (水平分隔线): 用于指定生成的 Markdown 水平分隔线的样式。默认是 * * *

const turndownService = new TurndownService({ hr: '- - -' });

bulletListMarker (无序列表标记): 用于指定生成的 Markdown 无序列表的标记。默认是 "*"

const turndownService = new TurndownService({ bulletListMarker: '-' });

codeBlockStyle (代码块样式): 用于指定生成的 Markdown 代码块的样式。默认是三个反引号 "`"

const turndownService = new TurndownService({ codeBlockStyle: '```' });

fence (代码块标记): 用于指定生成的 Markdown 代码块的标记。默认是 ~~~

const turndownService = new TurndownService({ fence: '```' });

emDelimiter (强调/斜体标记): 用于指定生成的 Markdown 强调(斜体)的标记。默认是 "_"

const turndownService = new TurndownService({ emDelimiter: '*' });

strongDelimiter (粗体标记): 用于指定生成的 Markdown 粗体的标记。默认是 "**"

const turndownService = new TurndownService({ strongDelimiter: '__' });
本文共 737 个字数,平均阅读时长 ≈ 2分钟
广告
0

海报

正在生成.....

评论 (0)

语录
取消
CC BY-NC-ND