Skip to content

Latest commit

 

History

History
 
 

pdf2markdown

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 

pdf2markdown

介绍

对gptpdf进行二次开发,使用版面分析模型替换原项目中对pdf的处理逻辑,标记出表格和图片,通过多模态大模型生成markdown格式内容。

使用方法

1、将代码中的模型路径换成自己的本地路径

2、运行pdf2markdown.py文件

注意

由于vllm和lmdeploy等大模型加速框架暂未集成qwen2-vl-7b模型,所以需要直接从本地加载模型,没有对大模型做加速处理,速度会较慢。此外,由于暂时无法通过openai接口形式启动多模态大模型(vllm和lmdeploy暂未支持该模型),所以对原项目中的模型推理代码做了相应修改。