文档解析是AI本地化落地的关键支撑环节,它能将企业内部海量异构文档转化为AI可理解的结构化数据,避免敏感数据外发风险,同时为本地化大模型提供高质量训练素材与推理依据,大幅提升AI在知识检索、智能问答等场景的响应效率与准确率。
Markitdown作为微软开源的文档转换工具,专为AI应用优化,其核心优势在于:一是全格式覆盖,支持PDF、Office、音视频等20+种文件类型,适配企业多样化文档场景;二是结构化保留,精准还原标题、表格、列表等逻辑层次,让AI能理解文档内在关联;三是轻量高效,转换后Token消耗可降低80%,且支持插件扩展与企业级服务集成,为AI本地化部署提供低成本、高适配的文档预处理方案。
一、参考文档:
腾讯说明:https://cloud.tencent.com/developer/article/2483571
官网文档:https://github.com/microsoft/markitdown
二、安装步骤
- 安装Python
Python下载官网:https://www.python.org/downloads/
选择3.10.x +的版本进行下载,然后在本地进行安装
- 验证安装结果
cmd中输入python可以看到输出结果

- 安装markitdown
在cmd中输入命令:pip install markitdown[all] 进行markitdown的全量安装
安装效果如图:

若安装过程提示需要更新python则根据提示命令进行更新即可
- Markitdown MCP安装
在cmd中输入命令:pip install markitdown-mcp[all] 进行安装
在C:\Python\Python313\Lib\site-packages\mcp\server\streamable_http.py(默认安装目录)中加入以下代码实现文档大小自定义:MAXIMUM_MESSAGE_SIZE = int(os.environ.get(‘MAX_CONTENT_LENGTH’, 0))
需要同步修改C:\Python\Python313\Lib\site-packages\markitdown_mcp\__main__.py中加入对max-upload-size参数的接收和向os加入此参数功能
安装成功后,使用命令,启动mcp服务,端口可自定义,档案大小可自定义
python -m markitdown_mcp –http –host 0.0.0.0 –port 8888 –max-upload-size 100
可以通过 pip show pip 查看文件路径,目前Markitdown-mcp安装目录为:C:\Python\Python313\Lib\site-packages\markitdown_mcp
通过 http://localhost:8888/mcp 访问测试
- 安装FFmpeg
参考:https://blog.csdn.net/fcclzydouble/article/details/151793177
三、使用方式
- pdf转档测试
将PDF复制到服务器,cmd命令切换到PDF目录下,输入命令:markitdown path-to-file.pdf > document.md 待转换完成查看结果:

如果有图片则需要安装FFmpeg工具
Markitdown MCP API调用
url:http://127.0.0.1:8888/mcp
method:post
Headers:Accept=text/event-stream,application/json
Body: { "jsonrpc": "2.0", "id": "1", "method": "tools/call", "params": { "name": "convert_to_markdown", "arguments": { // uri 服务器文件、文件url、文件二进制: // Supported schemes are: file:\\, data:, http:, https: // "uri": "file:\\D:/markitdown/VHB30BCMRT-TW.pdf" "uri": "http://localhost/img/VHB30BCMRT/doc/VHB300.pdf" } }
}

