微软开源!Office 文档轻松转 Markdown!

大家好,我是 Java陈序员

今天,给大家介绍一款微软开源的文档转 Markdown 工具。

关注微信公众号:【Java陈序员】,获取开源项目分享、AI副业分享、超200本经典计算机电子书籍等。

项目介绍

MarkItDown —— 微软开源的 Python 工具,能够将多种常见的文件格式(如 PDF、PowerPoint、Word、Excel、图像、音频和 HTML 等)转换为 Markdown 格式。

功能特色

  • 支持将常用的 Office 文档转换为 Markdown 格式
  • 提供了简单易用的 Python API 和 REST API
  • 一键安装、转换

安装使用

Pip 一键安装

1、使用 Pip 一键安装

在 Windows 中,可以使用 Pip 一键安装 MarkItDown, 需先安装 Python 环境。

```bash
pip install markitdown
```

2、一键转换

安装好 MarkItDown 后,打开命令行窗口 输入命令即可对文件进行转换。

如将 Excel 文件 test.xlsx 进行转换:

微软开源!Office 文档轻松转 Markdown!

在命令行窗口输入如下命令:

```bash
markitdown test.xlsx > test.md
```

或者使用 -o 指定输出文件:

```bash
markitdown test.xlxs -o test.md
```

转换后的 Markdown 文件 test.md:
微软开源!Office 文档轻松转 Markdown!

Python API

MarkItDown 支持在 Python 中使用,可通过如下代码实现文件转换功能:

```python
from markitdown import MarkItDown

# 初始化 MarkItDown 对象
markitdown = MarkItDown()

# 转换 Excel 文件为 Markdown 格式
result = markitdown.convert("test.xlsx")

# 打印转换后的 Markdown 内容
print(result.text_content)
```

Docker 部署

1、运行 Docker 容器

```bash
docker run -d --name markitdown -p 8000:8000 pig4cloud/markitdown
```

2、容器启动成功后,访问 API 文档

```bash
http://{ip/域名}:8000/docs
```

微软开源!Office 文档轻松转 Markdown!

3、REST API 调试

  • 使用在线 Swagger 文档调试

微软开源!Office 文档轻松转 Markdown!

  • 使用 Postman 进行调试

微软开源!Office 文档轻松转 Markdown!

  • Curl 命令调试

    bash
    curl -X 'POST' 
     'http://localhost:8000/upload/' 
     -H 'Content-Type: multipart/form-data' 
     -F 'file=@test.xlxs'

REST API 返回的 Markdown 格式文本,可以直接嵌入到 Markdown 文档中,或者通过其他工具进行 ETL 进一步处理。

总结

MarkItDown 不仅仅支持常用的文档转换,还支持与大模型进行集成,具体的使用可参考项目文档。

尽管 MarkItDown 实现了大部分文件格式转换为 Markdown 的功能,但是对于一些格式较为复杂的报表文件,转换效果可能不太理想,期待后续版本迭代优化。

如果你在日常生活中,需要将文件转换为 Markdown, 不妨试试 MarkItDown.

```
项目地址:https://github.com/microsoft/markitdown
```

最后

推荐的开源项目已经收录到 GitHub 项目,欢迎 Star

```
https://github.com/chenyl8848/great-open-source-project
```

或者访问网站,进行在线浏览:

```
https://chencoding.top:8090/#/
```

微软开源!Office 文档轻松转 Markdown!

大家的点赞、收藏和评论都是对作者的支持,如文章对你有帮助还请点赞转发支持下,谢谢!


文章整理自互联网,只做测试使用。发布者:Lomu,转转请注明出处:https://www.it1024doc.com/6524.html

(0)
LomuLomu
上一篇 2025 年 1 月 15 日 下午7:16
下一篇 2025 年 1 月 15 日 下午10:47

相关推荐

  • Java:IO流详解

    文章目录 基础流 1、IO概述 1.1 什么是IO 1.2 IO的分类 1.3 顶级父类们 2、字节流 2.1 一切皆为字节 2.2 字节输出流 OutputStream 2.3 FileOutputStream类 2.3.1 构造方法 2.3.2 写出字节数据 2.3.3 数据追加续写 2.3.4 写出换行 2.4 字节输入流 InputStream 2.…

    未分类 2025 年 5 月 13 日
    17300
  • 新版 Cursor 把其他 AI 编程工具按在地上摩擦了!

    大家好,我是汤师爷~ AI编程助手Cursor背后的Anysphere公司刚刚完成了1亿美元的B轮融资,估值直接飙升至26亿美元。 四个月前,这家公司刚拿下6000万美元,估值还只有4亿美元。如今,增长6.5倍,这速度,简直让人怀疑开挂了。 Anysphere不仅融资拿到手软,收入增长更是逆天。 公司从4月的年收入400万美元,短短六个月后,10月的月收入竟…

    2025 年 1 月 12 日
    61900
  • 用 Cursor 写出第一个程序

    大家好,我是汤师爷 最近几个月,Cursor迅速走红,成为一款强大的编程助手。Cursor不仅使用简单,而且通过集成各种大模型技术,编程能力一流。 Cursor是什么? Cursor是一个类似VSCode的编辑器,集成了GPT-4、Claude 3.5等LLM模型。它本质上是在VSCode的基础上添加了AI辅助编程功能。 从界面布局到操作方式都与VSCode…

    2025 年 1 月 6 日
    40300
  • 使用 gt-checksum 迁移表结构到 GreatSQL

    将数据库表结构迁移至 GreatSQL 的实践指南 引言 本文旨在指导用户如何利用 gt-checksum 工具,将数据库表结构从 ORACLE 平台平滑迁移至 GreatSQL。以下是详细的操作步骤和配置说明。 工具介绍:gt-checksum gt-checksum 是由 GreatSQL 社区开发的开源静态数据库校验与修复工具,广泛支持包括 MySQL…

    未分类 2024 年 12 月 27 日
    34200
  • 全网最适合入门的面向对象编程教程:60 Python面向对象综合实例-传感器数据实时绘图器

    全网最适合入门的面向对象编程教程:60 Python 面向对象综合实例-传感器数据实时绘图器 摘要: 本文将结合之前内容实现模拟一个传感器系统软件,包括三个线程:传感器线程生成数据并通过串口发送给主机进程;主机进程通过串口接收指令,进行数据滤波和处理后,将处理结果发送给绘图线程;绘图线程负责接收数据并绘制更新数据曲线。 原文链接: FreakStudio的博…

    2024 年 12 月 24 日
    26800

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信