Name		Name	Last commit message	Last commit date
parent directory ..
configs		configs
shell		shell
README.md		README.md
app.py		app.py
ppdocbee_finetune.py		ppdocbee_finetune.py
ppdocbee_infer.py		ppdocbee_infer.py

README.md

PP-DocBee

1. 简介

PP-DocBee 是一款专注于文档理解的多模态大模型，在中文文档理解任务上具有卓越表现。该模型基于Qwen/Qwen2-VL-2BInstruct架构，通过近 500 万条文档理解类多模态数据和精选的纯文本数据进行微调优化。

本仓库支持的模型权重:

Model
PaddleMIX/PPDocBee-2B-1129

2. 环境要求

python >= 3.10
paddlepaddle-gpu 要求3.0.0b2或版本develop

# develop版安装示例
python -m pip install paddlepaddle-gpu==0.0.0.post118 -f https://www.paddlepaddle.org.cn/whl/linux/gpu/develop.html

paddlenlp == 3.0.0b3

# 安装示例
python -m pip install paddlenlp==3.0.0b3

注：(默认开启flash_attn)使用flash_attn 要求A100/A800显卡或者H20显卡。V100请用float16推理。

3. 在线体验和部署

3.1 在线体验

ppdocbee.mp4

我们提供了在线体验环境，您可以通过AI Studio快速体验 PP-DocBee 的功能。

3.2 本地gradio部署

# 安装gradio
pip install gradio==5.6.0
# 运行gradio
python paddlemix/examples/ppdocbee/app.py

3.3 OpenAI服务部署

我们提供了基于OpenAI服务部署的代码，您可以通过阅读服务部署文档快速搭建服务。

4. 使用指南

4.1 模型推理

下面展示了一个表格识别的示例：

python paddlemix/examples/ppdocbee/ppdocbee_infer.py \
  --model_path "PaddleMIX/PPDocBee-2B-1129" \
  --image_file "paddlemix/demo_images/medal_table.png" \
  --question "识别这份表格的内容"

输出示例：

| 名次 | 国家/地区 | 金牌 | 银牌 | 铜牌 | 奖牌总数 |
| --- | --- | --- | --- | --- | --- |
| 1 | 中国（CHN） | 48 | 22 | 30 | 100 |
| 2 | 美国（USA） | 36 | 39 | 37 | 112 |
| 3 | 俄罗斯（RUS） | 24 | 13 | 23 | 60 |
| 4 | 英国（GBR） | 19 | 13 | 19 | 51 |
| 5 | 德国（GER） | 16 | 11 | 14 | 41 |
| 6 | 澳大利亚（AUS） | 14 | 15 | 17 | 46 |
| 7 | 韩国（KOR） | 13 | 11 | 8 | 32 |
| 8 | 日本（JPN） | 9 | 8 | 8 | 25 |
| 9 | 意大利（ITA） | 8 | 9 | 10 | 27 |
| 10 | 法国（FRA） | 7 | 16 | 20 | 43 |
| 11 | 荷兰（NED） | 7 | 5 | 4 | 16 |
| 12 | 乌克兰（UKR） | 7 | 4 | 11 | 22 |
| 13 | 肯尼亚（KEN） | 6 | 4 | 6 | 16 |
| 14 | 西班牙（ESP） | 5 | 11 | 3 | 19 |
| 15 | 牙买加（JAM） | 5 | 4 | 2 | 11 |

4.2 模型微调

4.2.1 小型示例数据集

PaddleMIX团队整理了chartqa数据集作为小型的示例数据集，下载链接为：

wget https://paddlenlp.bj.bcebos.com/models/community/paddlemix/benchmark/playground.tar # 1.0G

playground/目录下包括了图片目录data/chartqa/和标注目录opensource_json/，详见paddlemix/examples/ppdocbee/configs/demo_chartqa_500.json。

4.2.2 大型公开数据集

PP-DocBee模型的SFT训练数据集，包括了众多文档类的指令微调数据集，例如：dvqa、chartqa、ai2d、docvqa、geoqa+、synthdog_en、LLaVA-OneVision系列以及内部合成数据集，部分公开数据集详见paddlemix/examples/ppdocbee/configs/ppdocbee_public_dataset.json，内部合成数据集暂时不对外开放。

PaddleMIX团队整理后的下载链接为：

wget https://paddlenlp.bj.bcebos.com/datasets/paddlemix/playground.tar # 50G
wget https://paddlenlp.bj.bcebos.com/datasets/paddlemix/playground/opensource_json.tar

注意：若先下载了示例数据集的playground.tar解压了，此处需删除后，再下载公开数据集的playground.tar并解压，opensource_json.tar需下载解压在playground/目录下，opensource_json 里是数据标注的json格式文件。

PaddleMIX团队整理后的LLaVA-OneVision系列数据集待开放下载链接，请关注后续更新。

4.3 微调命令

注意：此微调训练为语言模型微调，冻结视觉编码器而放开LLM训练，2B模型全量微调训练的显存大小约为30G。

# 2B
sh paddlemix/examples/ppdocbee/shell/ppdocbee_sft.sh

# 2B lora
sh paddlemix/examples/ppdocbee/shell/ppdocbee_lora.sh

注意：默认是公开数据集训练的配置，若需使用示例数据集，请在ppdocbee_sft.sh或ppdocbee_lora.sh中修改--meta_path为paddlemix/examples/ppdocbee/configs/demo_chartqa_500.json。

4.4 微调后使用

只需将paddlemix/examples/ppdocbee/ppdocbee_infer.py中的--model_path参数修改为微调后的模型路径即可。

python paddlemix/examples/ppdocbee/ppdocbee_infer.py \
  --model_path "your_trained_model_path" \
  --image_file "paddlemix/demo_images/medal_table.png" \
  --question "识别这份表格的内容"

5. 性能评测

5.1 精度评测

Benchamrk	Params	DocVQA-val	ChartQA-test	InfoVQA-val	TextVQA-val	OCRBench	ChineseOCRBench	内部中文场景评估集
GPT-4V	Closed Model	87.2(test)	78.1	75.1(test)	78.0	64.5	-	-
GPT-4o	Closed Model	92.8(test)	85.7	79.2(test)	77.4	73.6	-	-
Claude 3.5 Sonnet	Closed Model	95.2(test)	90.8	74.1(test)	74.1	78.8	-	-
Gemini-1.5-Pro	Closed Model	93.1(test)	87.2	80/1(test)	78.7	75.4	-	-
MiniCPM-V 2.0	2.43B	71.9(test)	-	-	74.1	60.5	-	-
SmolVLM	2.25B	81.6(test)	-	-	72.7	-	-	-
Aquila-VL-2B	2.18B	85.0(test)	76.5	58.3(test)	76.4	77.2	-	-
Mini-Monkey-2B	2.21B	87.4(test)	76.5	60.1(test)	76.0	79.4	-	-
InternVL2-2B	2.21B	86.9(test)	76.2	58.9(test)	73.4	78.1	-	44.1
InternVL2.5-2B	2.21B	88.7(test)	79.2	60.9(test)	74.3	80.4	-	-
DeepSeek-VL2-Tiny	*1.0B	88.9(test)	81.0	66.1(test)	80.7	80.9	-	-
Qwen2-VL-2B	2.21B	89.2	73.5	64.1	79.7	79.4	76.1	52.8
PPDocBee-2B-1129	2.21B	90.1	74.6	65.4	81.2	82.8	80.2	60.3

注意：

1.我们在评估DocVQA和InfoVQA时默认采用了val验证集上的指标，标(test)的是竞品模型公布的测试集上的指标。

2.ChineseOCRBench是3410张图像和3410条问答数据，均来自ReCTS和ESTVQA数据集。

3.内部中文场景评估集包括了财报、法律法规、理工科论文、说明书、文科论文、合同、研报等场景，暂时未有计划公开。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

ppdocbee

ppdocbee

README.md

PP-DocBee

PP-DocBee

1. 简介

2. 环境要求

3. 在线体验和部署

3.1 在线体验

3.2 本地gradio部署

3.3 OpenAI服务部署

4. 使用指南

4.1 模型推理

4.2 模型微调

4.2.1 小型示例数据集

4.2.2 大型公开数据集

4.3 微调命令

4.4 微调后使用

5. 性能评测

5.1 精度评测

参考文献

Files

ppdocbee

Directory actions

More options

Directory actions

More options

Latest commit

History

ppdocbee

Folders and files

parent directory

README.md

PP-DocBee

PP-DocBee

1. 简介

2. 环境要求

3. 在线体验和部署

3.1 在线体验

3.2 本地gradio部署

3.3 OpenAI服务部署

4. 使用指南

4.1 模型推理

4.2 模型微调

4.2.1 小型示例数据集

4.2.2 大型公开数据集

4.3 微调命令

4.4 微调后使用

5. 性能评测

5.1 精度评测

参考文献