ThinkSSL🔒 一键申购 5分钟快速签发 30天无理由退款 购买更放心 广告
[TOC] > [github](https://github.com/clovaai/donut) ## 概述 - 以前文档识别要先OCR,再进行文档理解,OCR错误会传递给文档理解模型,而且花的时间长。 - 就是那些合同、说明书直接传给模型,再提问题就好了!还能模拟生成文档图片,这这样生成具有特定字符图片的图像就可以搞定了,与stable Diffusion等模型结合,有很大想象空间 ## 安装 ``` git clone https://github.com/clovaai/donut.git cd donut/ conda create -n donut_official python=3.7 conda activate donut_official pip install . ``` ## 训练 ``` python train.py --config config/train_cord.yaml --pretrained_model_name_or_path "naver-clova-ix/donut-base" --dataset_name_or_paths "[\"naver-clova-ix/cord-v2\"]" --exp_version "test_experiment" ``` > 注意官网给出的示例参数中 `--dataset_name_or_paths '["naver-clova-ix/cord-v2"]'` 无法运行,需改成`"[\"naver-clova-ix/cord-v2\"]" ` > 由于我的显卡不被支持,无法跑训练 ## 测试 ``` python test.py --dataset_name_or_path naver-clova-ix/cord-v2 --pretrained_model_name_or_path ./result/train_cord/test_experiment --save_path ./result/output.json ```