OCR到头了?No!No! OCR2.0 强势开源来袭

内容分享12小时前发布
0 30 0

之前写的文章就介绍过OCR(光学字符识别),各大厂也逐渐开源了自己的OCR工具以及大模型。

强烈推荐百度开源PaddleOCR,么有之一

最近huggingface开源了一款端对端的大模型GOT-OCR2.0 ,OCR2.0不仅能够识别常规文本,而且还能识别数学公式,乐谱、图形等复杂的内容,我觉得可以称之为全能选手了。

介绍

OCR到头了?No!No! OCR2.0 强势开源来袭

GOT-OCR2.0是一款端对端的OCR模型,解决了OCR1.0的难题和痛点。支持传统的多种场景文档识别,而且支持复杂数学公式,图形等复杂内容。它采用集成的version encoder decoder 能处理多种类型输入以及高分辨率的图形处理。随着OCR2.0的发布,标志着新一代OCR技术的到来。

OCR到头了?No!No! OCR2.0 强势开源来袭

OCR到头了?No!No! OCR2.0 强势开源来袭

github

官网地址:
https://huggingface.co/ucaslcl/GOT-OCR2_0

github地址:
https://github.com/Ucas-HaoranWei/GOT-OCR2.0

安装

小伙伴安装的话最好是GPU或者强劲的CPU

//clone 代码
git clone https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git
cd GOT-OCR2.0

//安装环境
conda create -n got python=3.10 -y
conda activate got
pip install -e .

//安装Flash-Attention
pip install ninja
pip install flash-attn --no-build-isolation

下载GOT-WEIGHT

https://pan.baidu.com/s/1G4aArpCOt6I_trHv_1SE2g?code=OCR2

//plain texts OCR:
python3 GOT/demo/run_ocr_2.0.py  --model-name  /GOT_weights/  --image-file  /an/image/file.png  --type ocr

//format texts OCR:
python3 GOT/demo/run_ocr_2.0.py  --model-name  /GOT_weights/  --image-file  /an/image/file.png  --type format

识别效果:

OCR到头了?No!No! OCR2.0 强势开源来袭

识别效果

OCR到头了?No!No! OCR2.0 强势开源来袭

识别效果

OCR到头了?No!No! OCR2.0 强势开源来袭

识别效果

优势、缺点

我觉得OCR2.0能识别数学公式已经很不错了,而且OCR2.0支持多种OCR场景任务、支持高分辨率识别、端对端模型设计而且只有不到1.5G。研究团队说GOT-OCR2.0 还有上升空间,列如在国际化方面不是很好,目前就中文、英文比较好,其他语言暂时还不支持,但是研究团队的这种探索的心态的确 值得称赞。

论文:
https://arxiv.org/pdf/2409.0170 感兴趣的小伙伴可以去看看论文。


好了,今天的介绍就到这里了。想继续探索GOT-OCR2.0的小伙伴上官网以及github上看更多的资料吧,也可以评论区给我留言。后面有时间的话准备做一篇PaddleOCrR VS GOT-OCR2.0 ,同时也欢迎小伙伴的一起参与,为开源做贡献。

© 版权声明

相关文章

30 条评论

  • 头像
    乱一一步 读者

    能识别变态扭曲的验证码不?

    无记录
    回复
  • 头像
    雪绘梨 读者

    识别验证码就别用这个模型了,python🈶️现成的脚本

    无记录
    回复
  • 头像
    妈咪生活馆 读者

    能够脱离互联网环境在私有云部署吗?

    无记录
    回复
  • 头像
    拉面小静 读者

    能识别发票吗

    无记录
    回复
  • 头像
    暮初筠溪 投稿者

    可以的

    无记录
    回复
  • 头像
    半端生命関数 读者

    能识别医学化验单么

    无记录
    回复
  • 头像
    -猫柳冬眠- 投稿者

    离线能用不?

    无记录
    回复
  • 头像
    多森木门 读者

    不能离线使用,可以部署在自己服务器使用,离线的话可以使用umi-ocr

    无记录
    回复
  • 头像
    悠儿了个悠儿 读者

    huggingface啥意思?抱脸虫?

    无记录
    回复
  • 头像
    爱追二次元的喵酱 投稿者

    能识别马赛克吗?

    无记录
    回复
  • 头像
    有我你不寂寞 读者

    好像不行,我也没试过

    无记录
    回复
  • 头像
    任艺窗帘 读者

    能当pdf反向转word,ppt,excel用吗?

    无记录
    回复
  • 头像
    心软笨蛋_ 投稿者

    这个不行的

    无记录
    回复
  • 头像
    晓秋傍晚声残月 读者

    扫描身份证 特别生僻字 自治区的哪个准

    无记录
    回复
  • 头像
    陈亚博 读者

    paddleocr和这个准确率都高,就是耗费资源

    无记录
    回复
  • 头像
    南山南北秋悲北秋有人陪 投稿者

    要钱吗?

    无记录
    回复
  • 头像
    用户jkxoaoxsoaoxhgsspl 投稿者

    开源免费的

    无记录
    回复
  • 头像
    单行道没有歌谣 读者

    看见这好事,朕宣布:“明天开始,全国放假七天!”[火炬]

    无记录
    回复
  • 头像
    小沐舟吖 投稿者

    能识别汉字?

    无记录
    回复
  • 头像
    词梦后主 读者

    好像识别的还是打印体,手写的不知道行不行?或者用米粒什么的组成一个字,人类可以轻松识别的那种呢?

    无记录
    回复
  • 头像
    关于内心的故事 读者

    手写的可以,米粒这种我也没试过

    无记录
    回复
  • 头像
    听我说蓝风铃_ 读者

    之前的ocr收费都很高,现在开源了,而且能力也更强了,好事!

    无记录
    回复
  • 头像
    无敌互联网 读者

    不用显卡,有免费好用的推荐吗?

    无记录
    回复
  • 头像
    读者

    umi -ocr离线免费使用

    无记录
    回复
  • 头像
    迷迷糊糊津岛糊 投稿者

    手写的怎么样?

    无记录
    回复
  • 头像
    叫肖肖啊 读者

    手写的可以识别

    无记录
    回复
  • 头像
    河洛郡王 读者

    Paddler老重了

    无记录
    回复
  • 头像
    读书好处 读者

    是的

    无记录
    回复
  • 头像
    1是我推的固有属性个性先天特质 管理员

    跟GIMINI VISIO面前就是垃圾

    无记录
    回复
  • 头像
    鼠吧啦- 投稿者

    图片表格能识别吗

    无记录
    回复