Donut 无需OCR识别图片内容 · PHP/Python/前端/Linux 等等学习笔记

[TOC] > [github](https://github.com/clovaai/donut) ## 概述 - 以前文档识别要先OCR，再进行文档理解，OCR错误会传递给文档理解模型，而且花的时间长。 - 就是那些合同、说明书直接传给模型，再提问题就好了！还能模拟生成文档图片，这这样生成具有特定字符图片的图像就可以搞定了，与stable Diffusion等模型结合，有很大想象空间 ## 安装 ``` git clone https://github.com/clovaai/donut.git cd donut/ conda create -n donut_official python=3.7 conda activate donut_official pip install . ``` ## 训练 ``` python train.py --config config/train_cord.yaml --pretrained_model_name_or_path "naver-clova-ix/donut-base" --dataset_name_or_paths "[\"naver-clova-ix/cord-v2\"]" --exp_version "test_experiment" ``` > 注意官网给出的示例参数中 `--dataset_name_or_paths '["naver-clova-ix/cord-v2"]'` 无法运行,需改成`"[\"naver-clova-ix/cord-v2\"]" ` > 由于我的显卡不被支持,无法跑训练 ## 测试 ``` python test.py --dataset_name_or_path naver-clova-ix/cord-v2 --pretrained_model_name_or_path ./result/train_cord/test_experiment --save_path ./result/output.json ```