已浏览 2003 次

文档解析之Markitdown安装及使用

文档解析是AI本地化落地的关键支撑环节,它能将企业内部海量异构文档转化为AI可理解的结构化数据,避免敏感数据外发风险,同时为本地化大模型提供高质量训练素材与推理依据,大幅提升AI在知识检索、智能问答等场景的响应效率与准确率。

Markitdown作为微软开源的文档转换工具,专为AI应用优化,其核心优势在于:一是全格式覆盖,支持PDF、Office、音视频等20+种文件类型,适配企业多样化文档场景;二是结构化保留,精准还原标题、表格、列表等逻辑层次,让AI能理解文档内在关联;三是轻量高效,转换后Token消耗可降低80%,且支持插件扩展与企业级服务集成,为AI本地化部署提供低成本、高适配的文档预处理方案。

一、参考文档:

腾讯说明:https://cloud.tencent.com/developer/article/2483571

官网文档:https://github.com/microsoft/markitdown

二、安装步骤

  1. 安装Python

Python下载官网:https://www.python.org/downloads/

选择3.10.x +的版本进行下载,然后在本地进行安装

  1. 验证安装结果

cmd中输入python可以看到输出结果

  1. 安装markitdown

在cmd中输入命令:pip install markitdown[all] 进行markitdown的全量安装

安装效果如图:

若安装过程提示需要更新python则根据提示命令进行更新即可

  1. Markitdown MCP安装

在cmd中输入命令:pip install markitdown-mcp[all] 进行安装

在C:\Python\Python313\Lib\site-packages\mcp\server\streamable_http.py(默认安装目录)中加入以下代码实现文档大小自定义:MAXIMUM_MESSAGE_SIZE = int(os.environ.get(‘MAX_CONTENT_LENGTH’, 0))

需要同步修改C:\Python\Python313\Lib\site-packages\markitdown_mcp\__main__.py中加入对max-upload-size参数的接收和向os加入此参数功能

安装成功后,使用命令,启动mcp服务,端口可自定义,档案大小可自定义

python -m markitdown_mcp –http –host 0.0.0.0 –port 8888 –max-upload-size 100

可以通过 pip show pip 查看文件路径,目前Markitdown-mcp安装目录为:C:\Python\Python313\Lib\site-packages\markitdown_mcp

通过 http://localhost:8888/mcp 访问测试

  1. 安装FFmpeg

参考:https://blog.csdn.net/fcclzydouble/article/details/151793177

三、使用方式

  1. pdf转档测试

将PDF复制到服务器,cmd命令切换到PDF目录下,输入命令:markitdown path-to-file.pdf > document.md 待转换完成查看结果:

如果有图片则需要安装FFmpeg工具

Markitdown MCP API调用

url:http://127.0.0.1:8888/mcp 
method:post 
Headers:Accept=text/event-stream,application/json 
Body: {  "jsonrpc": "2.0",         "id": "1",         "method": "tools/call",      "params": {                     "name": "convert_to_markdown",                    "arguments": {                       // uri 服务器文件、文件url、文件二进制:                     // Supported schemes are: file:\\, data:, http:, https:                           // "uri": "file:\\D:/markitdown/VHB30BCMRT-TW.pdf"                     "uri": "http://localhost/img/VHB30BCMRT/doc/VHB300.pdf"             }          }
}