微软开源!Office 文档轻松转 Markdown!

大家好,我是 Java陈序员

今天,给大家介绍一款微软开源的文档转 Markdown 工具。

关注微信公众号:【Java陈序员】,获取开源项目分享、AI副业分享、超200本经典计算机电子书籍等。

项目介绍

MarkItDown —— 微软开源的 Python 工具,能够将多种常见的文件格式(如 PDF、PowerPoint、Word、Excel、图像、音频和 HTML 等)转换为 Markdown 格式。

功能特色

  • 支持将常用的 Office 文档转换为 Markdown 格式
  • 提供了简单易用的 Python API 和 REST API
  • 一键安装、转换

安装使用

Pip 一键安装

1、使用 Pip 一键安装

在 Windows 中,可以使用 Pip 一键安装 MarkItDown, 需先安装 Python 环境。

```bash
pip install markitdown
```

2、一键转换

安装好 MarkItDown 后,打开命令行窗口 输入命令即可对文件进行转换。

如将 Excel 文件 test.xlsx 进行转换:

微软开源!Office 文档轻松转 Markdown!

在命令行窗口输入如下命令:

```bash
markitdown test.xlsx > test.md
```

或者使用 -o 指定输出文件:

```bash
markitdown test.xlxs -o test.md
```

转换后的 Markdown 文件 test.md:
微软开源!Office 文档轻松转 Markdown!

Python API

MarkItDown 支持在 Python 中使用,可通过如下代码实现文件转换功能:

```python
from markitdown import MarkItDown

# 初始化 MarkItDown 对象
markitdown = MarkItDown()

# 转换 Excel 文件为 Markdown 格式
result = markitdown.convert("test.xlsx")

# 打印转换后的 Markdown 内容
print(result.text_content)
```

Docker 部署

1、运行 Docker 容器

```bash
docker run -d --name markitdown -p 8000:8000 pig4cloud/markitdown
```

2、容器启动成功后,访问 API 文档

```bash
http://{ip/域名}:8000/docs
```

微软开源!Office 文档轻松转 Markdown!

3、REST API 调试

  • 使用在线 Swagger 文档调试

微软开源!Office 文档轻松转 Markdown!

  • 使用 Postman 进行调试

微软开源!Office 文档轻松转 Markdown!

  • Curl 命令调试

    bash
    curl -X 'POST' 
     'http://localhost:8000/upload/' 
     -H 'Content-Type: multipart/form-data' 
     -F 'file=@test.xlxs'

REST API 返回的 Markdown 格式文本,可以直接嵌入到 Markdown 文档中,或者通过其他工具进行 ETL 进一步处理。

总结

MarkItDown 不仅仅支持常用的文档转换,还支持与大模型进行集成,具体的使用可参考项目文档。

尽管 MarkItDown 实现了大部分文件格式转换为 Markdown 的功能,但是对于一些格式较为复杂的报表文件,转换效果可能不太理想,期待后续版本迭代优化。

如果你在日常生活中,需要将文件转换为 Markdown, 不妨试试 MarkItDown.

```
项目地址:https://github.com/microsoft/markitdown
```

最后

推荐的开源项目已经收录到 GitHub 项目,欢迎 Star

```
https://github.com/chenyl8848/great-open-source-project
```

或者访问网站,进行在线浏览:

```
https://chencoding.top:8090/#/
```

微软开源!Office 文档轻松转 Markdown!

大家的点赞、收藏和评论都是对作者的支持,如文章对你有帮助还请点赞转发支持下,谢谢!


文章整理自互联网,只做测试使用。发布者:Lomu,转转请注明出处:https://www.it1024doc.com/6019.html

(0)
LomuLomu
上一篇 2025 年 1 月 12 日 下午1:48
下一篇 2025 年 1 月 12 日 下午2:48

相关推荐

  • 如何用串口调试助手ComTone调试串口?附安装包

    前言 大家好,我是小徐啊。我们在调试应用的时候,有时候是需要进行串口通信的。但并不是每次都有实时的串口数据供我们去测试,这个时候就需要一个模拟生成串口数据的工具来帮助我们了。今天,小徐就来介绍下串口调试助手ComTone的用法。文末附获取方式。 如何使用串口调试助手ComTone 首先,需要选择对应的端口号,这个必须是能联通的串口号,然后点击打开串口按钮,如…

    2025 年 1 月 11 日
    26600
  • 深入解析Java中的JSONObject操作指南

    文章大纲 Java中JSONObject的全面解析 第一部分:概述 第二部分:JSONObject的基础应用 1、初始化JSONObject 2、数据插入方法 3、数值提取技巧 第三部分:JSONObject进阶功能 1、对象遍历实现 2、字符串转换JSON 3、JSONArray协同操作 4、数据修改与移除 第四部分:异常处理机制 1. 键值验证 2. 安…

    2025 年 5 月 19 日
    7200
  • Java刷题常见的集合类,各种函数的使用以及常见的类型转化等等

    目录 前言 集合类 ArrayList 1. 创建和初始化 ArrayList 2.添加元素 add 3.获取元素 get 4.删除元素 remove 5.检查元素 6.遍历 ArrayList LinkedList Stack 1. 创建Stack对象 2. 压入元素 (push) 3. 弹出元素 (pop) 4. 查看栈顶元素 (peek) 5. 检查栈…

    2025 年 1 月 6 日
    27200
  • 常见的图形库对比 Echarts Highcharts AntV

    图形库 图形库 特点 图表类型 适用场景 依赖项 官网/文档 ECharts 功能丰富,支持大规模数据,交互性强 折线图、柱状图、饼图、地图、雷达图、散点图、热力图等 复杂数据可视化 无 https://echarts.apache.org/ Chart.js 简单易用,轻量级,支持响应式设计 折线图、柱状图、饼图、雷达图、散点图等 简单图表,快速开发 无 …

    未分类 2025 年 1 月 13 日
    21500
  • [华为OD机考 – 密语传递 – 基于深度优先搜索的Java实现(2025 A卷 200分)]

    华为2025届OD机考A卷试题库持续更新中,专项练习 _ 戳此进入_ 专题导览 本系列试题已编入《华为OD机考Java真题全集(A/B/C/D/E卷)》。练习频次与中签率正相关, 添加哪吒微信,备注”华为OD备考”,加入专属刷题群 ,每道题配备:解题思路解析、完整代码实现、多组测试数据、算法选择依据、应用场景说明,题库实时更新,24小时在线答疑。 题目要求 …

    2025 年 5 月 12 日
    6500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信