之前写的文章就介绍过OCR(光学字符识别),各大厂也逐渐开源了自己的OCR工具以及大模型。
强烈推荐百度开源PaddleOCR,么有之一
最近huggingface开源了一款端对端的大模型GOT-OCR2.0 ,OCR2.0不仅能够识别常规文本,而且还能识别数学公式,乐谱、图形等复杂的内容,我觉得可以称之为全能选手了。
介绍

GOT-OCR2.0是一款端对端的OCR模型,解决了OCR1.0的难题和痛点。支持传统的多种场景文档识别,而且支持复杂数学公式,图形等复杂内容。它采用集成的version encoder 、decoder 能处理多种类型输入以及高分辨率的图形处理。随着OCR2.0的发布,标志着新一代OCR技术的到来。


github
官网地址:
https://huggingface.co/ucaslcl/GOT-OCR2_0
github地址:
https://github.com/Ucas-HaoranWei/GOT-OCR2.0
安装
小伙伴安装的话最好是GPU或者强劲的CPU
//clone 代码
git clone https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git
cd GOT-OCR2.0
//安装环境
conda create -n got python=3.10 -y
conda activate got
pip install -e .
//安装Flash-Attention
pip install ninja
pip install flash-attn --no-build-isolation
下载GOT-WEIGHT
https://pan.baidu.com/s/1G4aArpCOt6I_trHv_1SE2g?code=OCR2
//plain texts OCR:
python3 GOT/demo/run_ocr_2.0.py --model-name /GOT_weights/ --image-file /an/image/file.png --type ocr
//format texts OCR:
python3 GOT/demo/run_ocr_2.0.py --model-name /GOT_weights/ --image-file /an/image/file.png --type format
识别效果:

识别效果

识别效果

识别效果
优势、缺点
我觉得OCR2.0能识别数学公式已经很不错了,而且OCR2.0支持多种OCR场景任务、支持高分辨率识别、端对端模型设计而且只有不到1.5G。研究团队说GOT-OCR2.0 还有上升空间,列如在国际化方面不是很好,目前就中文、英文比较好,其他语言暂时还不支持,但是研究团队的这种探索的心态的确 值得称赞。
论文:
https://arxiv.org/pdf/2409.0170 感兴趣的小伙伴可以去看看论文。
好了,今天的介绍就到这里了。想继续探索GOT-OCR2.0的小伙伴上官网以及github上看更多的资料吧,也可以评论区给我留言。后面有时间的话准备做一篇PaddleOCrR VS GOT-OCR2.0 ,同时也欢迎小伙伴的一起参与,为开源做贡献。






能识别变态扭曲的验证码不?
识别验证码就别用这个模型了,python🈶️现成的脚本
能够脱离互联网环境在私有云部署吗?
能识别发票吗
可以的
能识别医学化验单么
离线能用不?
不能离线使用,可以部署在自己服务器使用,离线的话可以使用umi-ocr
huggingface啥意思?抱脸虫?
能识别马赛克吗?
好像不行,我也没试过
能当pdf反向转word,ppt,excel用吗?
这个不行的
扫描身份证 特别生僻字 自治区的哪个准
paddleocr和这个准确率都高,就是耗费资源
要钱吗?
开源免费的
看见这好事,朕宣布:“明天开始,全国放假七天!”[火炬]
能识别汉字?
好像识别的还是打印体,手写的不知道行不行?或者用米粒什么的组成一个字,人类可以轻松识别的那种呢?
手写的可以,米粒这种我也没试过
之前的ocr收费都很高,现在开源了,而且能力也更强了,好事!
不用显卡,有免费好用的推荐吗?
umi -ocr离线免费使用
手写的怎么样?
手写的可以识别
Paddler老重了
是的
跟GIMINI VISIO面前就是垃圾
图片表格能识别吗