OCR到头了？No！No！ OCR2.0 强势开源来袭

内容分享12小时前发布

之前写的文章就介绍过OCR（光学字符识别），各大厂也逐渐开源了自己的OCR工具以及大模型。

强烈推荐百度开源PaddleOCR，么有之一

最近huggingface开源了一款端对端的大模型GOT-OCR2.0 ，OCR2.0不仅能够识别常规文本，而且还能识别数学公式，乐谱、图形等复杂的内容，我觉得可以称之为全能选手了。

介绍

OCR到头了？No！No！ OCR2.0 强势开源来袭

GOT-OCR2.0是一款端对端的OCR模型，解决了OCR1.0的难题和痛点。支持传统的多种场景文档识别，而且支持复杂数学公式，图形等复杂内容。它采用集成的version encoder 、decoder 能处理多种类型输入以及高分辨率的图形处理。随着OCR2.0的发布，标志着新一代OCR技术的到来。

OCR到头了？No！No！ OCR2.0 强势开源来袭

OCR到头了？No！No！ OCR2.0 强势开源来袭

github

官网地址：
https://huggingface.co/ucaslcl/GOT-OCR2_0

github地址：
https://github.com/Ucas-HaoranWei/GOT-OCR2.0

安装

小伙伴安装的话最好是GPU或者强劲的CPU

//clone 代码
git clone https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git
cd GOT-OCR2.0

//安装环境
conda create -n got python=3.10 -y
conda activate got
pip install -e .

//安装Flash-Attention
pip install ninja
pip install flash-attn --no-build-isolation

下载GOT-WEIGHT

https://pan.baidu.com/s/1G4aArpCOt6I_trHv_1SE2g?code=OCR2

//plain texts OCR:
python3 GOT/demo/run_ocr_2.0.py  --model-name  /GOT_weights/  --image-file  /an/image/file.png  --type ocr

//format texts OCR:
python3 GOT/demo/run_ocr_2.0.py  --model-name  /GOT_weights/  --image-file  /an/image/file.png  --type format

识别效果：

OCR到头了？No！No！ OCR2.0 强势开源来袭

识别效果

OCR到头了？No！No！ OCR2.0 强势开源来袭

识别效果

OCR到头了？No！No！ OCR2.0 强势开源来袭

识别效果

优势、缺点

我觉得OCR2.0能识别数学公式已经很不错了，而且OCR2.0支持多种OCR场景任务、支持高分辨率识别、端对端模型设计而且只有不到1.5G。研究团队说GOT-OCR2.0 还有上升空间，列如在国际化方面不是很好，目前就中文、英文比较好，其他语言暂时还不支持，但是研究团队的这种探索的心态的确值得称赞。

论文：
https://arxiv.org/pdf/2409.0170 感兴趣的小伙伴可以去看看论文。

好了，今天的介绍就到这里了。想继续探索GOT-OCR2.0的小伙伴上官网以及github上看更多的资料吧，也可以评论区给我留言。后面有时间的话准备做一篇PaddleOCrR VS GOT-OCR2.0 ，同时也欢迎小伙伴的一起参与，为开源做贡献。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Java开发通识：字符编码，文本的”身份识别”

新Java开发通识：字符编码，文本的”身份识别”

4天前

000

asp.net core 中 SignalR最简单的使用

asp.net core 中 SignalR最简单的使用

1周前

010

35岁男子头发稀疏，查成分发现罪魁祸首，90家庭都在用

新35岁男子头发稀疏，查成分发现罪魁祸首，90家庭都在用

1天前

000

Android插件化Hook技术

Android插件化Hook技术

1周前

020

30 条评论

乱一一步读者

能识别变态扭曲的验证码不？

20小时前无记录

回复
雪绘梨读者

识别验证码就别用这个模型了，python🈶️现成的脚本

20小时前无记录

回复
妈咪生活馆读者

能够脱离互联网环境在私有云部署吗？

20小时前无记录

回复
拉面小静读者

能识别发票吗

20小时前无记录

回复
暮初筠溪投稿者

可以的

20小时前无记录

回复
半端生命関数读者

能识别医学化验单么

20小时前无记录

回复
-猫柳冬眠- 投稿者

离线能用不？

20小时前无记录

回复
多森木门读者

不能离线使用，可以部署在自己服务器使用，离线的话可以使用umi-ocr

20小时前无记录

回复
悠儿了个悠儿读者

huggingface啥意思？抱脸虫？

20小时前无记录

回复
爱追二次元的喵酱投稿者

能识别马赛克吗？

20小时前无记录

回复
有我你不寂寞读者

好像不行，我也没试过

20小时前无记录

回复
任艺窗帘读者

能当pdf反向转word,ppt,excel用吗？

20小时前无记录

回复
心软笨蛋_ 投稿者

这个不行的

20小时前无记录

回复
晓秋傍晚声残月读者

扫描身份证特别生僻字自治区的哪个准

20小时前无记录

回复
陈亚博读者

paddleocr和这个准确率都高，就是耗费资源

20小时前无记录

回复
南山南北秋悲北秋有人陪投稿者

要钱吗？

20小时前无记录

回复
用户jkxoaoxsoaoxhgsspl 投稿者

开源免费的

20小时前无记录

回复
单行道没有歌谣读者

看见这好事，朕宣布:“明天开始，全国放假七天！”[火炬]

20小时前无记录

回复
小沐舟吖投稿者

能识别汉字？

20小时前无记录

回复
词梦后主读者

好像识别的还是打印体，手写的不知道行不行？或者用米粒什么的组成一个字，人类可以轻松识别的那种呢？

20小时前无记录

回复
关于内心的故事读者

手写的可以，米粒这种我也没试过

20小时前无记录

回复
听我说蓝风铃_ 读者

之前的ocr收费都很高，现在开源了，而且能力也更强了，好事！

20小时前无记录

回复
无敌互联网读者

不用显卡，有免费好用的推荐吗？

20小时前无记录

回复
芳读者

umi -ocr离线免费使用

20小时前无记录

回复
迷迷糊糊津岛糊投稿者

手写的怎么样？

20小时前无记录

回复
叫肖肖啊读者

手写的可以识别

20小时前无记录

回复
河洛郡王读者

Paddler老重了

20小时前无记录

回复
读书好处读者

是的

20小时前无记录

回复
1是我推的固有属性个性先天特质管理员

跟GIMINI VISIO面前就是垃圾

20小时前无记录

回复
鼠吧啦- 投稿者

图片表格能识别吗

20小时前无记录

回复