ocr快捷指令,ocr应用程序

本内容来源于@什么值得买APP,观点仅代表作者本人 |作者:网罗灯下黑

本内容来自@什么值得买APP,观点仅代表作者本人|作者:罗网灯下黑。

多年来,创作立场声明:一直热衷于挖掘各种有趣或奇怪的计算机软件和手机应用程序,并编写文科生能够理解和玩好的教程。期待与大家深入探讨交流。

让我们反思一下今天的光学字符识别。

5月底,我给了安利最后一个开源版本的天若OCR 5.0,但总觉得愧疚。

一方面,我的需求没那么大。拉出我一直在使用的日子,其实有点棘手。如果真的偶尔用一下,可以用QQ自己的话来识别。

另一方面,如果那个版本两三年没更新,作者就去维护其他项目了,虽然据说接受百度、搜狗、腾讯、有道。

但是有两个公共接口(腾讯和百度),而百度是唯一真正支持使用自己应用的接口。

看到很多小伙伴居然不为百度的界面买单,这就是我感到愧疚的地方。

毕竟,偶尔我们分享一个应用程序,我们只是想让更多的人知道更好的软件。违背初衷我是不会做的。

幸运的是,在探索OCR时,我了解到PandaOCR可以支持多个自定义界面。

我不知道,它很强大。

作者也是一个爆肝的壮汉,每个假期都还在那里更新迭代。相比早早退出舞台的天若5.0,值得拿出来说一说。

不,它来了。

PandaOCR

呃,今天介绍的版本是PandaOCR 2.71。

这可能是最后一个免费提供多个自定义界面的版本。

这大概是我最后一款OCR工具了,一步到位

前几天去GitHub查PandaOCR的时候发现多了一个Pro版本。

根据作者原话,由于前期急于安装新功能,忽略了执行逻辑混乱、后续维护成本高的问题。

换句话说,作者将旧代码描述为狗屎山。

与其用大男人折磨自己(不是错别字),不如重新重构,翻过这座山,再有Pro版。

这是PandaOCR Pro 5.32:

这大概是我最后一款OCR工具了,一步到位

问题是Pro版只提供百度的自定义界面,其他界面都变成了收费服务。

因此,PandaOCR 2.71成为最后一个可以在各种意义上免费使用的版本。

但是,作者说,这最后一个版本只是没有新的功能,现有的功能接口仍然会被维护。

对于大多数人来说,这就足够了,比如我。

如果你真的喜欢这只大眼睛小熊猫,还是可以支持作者的。

能做什么

集成的OCR工具有什么用?

就文本识别的质量而言,是界面的对比。不懂的可以看天若OCR的文章。

就识别效果而言,搜狗的准确率更高,百度的手写识别效果更好,有道的识别速度更快,讯飞和Mathpix的公式识别更清晰,百度的表格识别也不错。

所以抛开界面,回到PandaOCR本身,它提供的便利是我们应该关心的。

让我们重新理解它的界面。左侧显示图片,而右侧显示识别文本和翻译框,以及一个功能栏:

这大概是我最后一款OCR工具了,一步到位

操作简单,默认速度快。

键「F4」截图,然后就能调用你选择的接口自动识别。

这大概是我最后一款OCR工具了,一步到位

识别的内容会显示在桌面,以弹窗的形式显示,至于显示的内容,可以在「高级」设置中选择。

这大概是我最后一款OCR工具了,一步到位

当然,高级设置里能更改更多东西,比如是否监听剪切板,是否自动复制识别的内容,甚至字体、截图方式等等。

这大概是我最后一款OCR工具了,一步到位

双击 PandaOCR 的识别和翻译那一块,还会有惊喜,打开监听剪切板,分分钟变成一个翻译软件。

这大概是我最后一款OCR工具了,一步到位

对了,还有个固定截图的功能,简单的说,就是把截图框固定到桌面一处,然后快捷键触发 OCR 识别。

我看 B 站上已经有人拿它来做游戏机翻工具了,效果是这样的。

这大概是我最后一款OCR工具了,一步到位

我就不重复造轮子了,感兴趣的可以去研究一下。

PandaOCR 之所以强大,还是因为它支持的接口多,那它到底能使用什么接口呢?

我从它配置文件里看了一下:

支持通用识别:搜狗 + 腾讯 + 百度 + 有道 + 阿里 + 讯飞 + 网校 + SpaceOCR

支持手写识别:腾讯 + 百度 + 阿里 + 讯飞

支持公式识别:微软(演示)+ 百度 + 腾讯 + Mathpix + 讯飞

支持表格识别:有道(演示)+ 百度 + 腾讯 + 阿里

支持翻译:搜狗 + 腾讯 + 百度 + 有道 + 彩云小译 + DeepL

是不是看的都有些怵的慌,事实上早先版本的接口更多,最后一个版本应该删除了近 20 个接口。

但设置起来并不麻烦,右键点击左上角的图标,选择「编辑配置」,在文本中更改对应的接口就行。

这大概是我最后一款OCR工具了,一步到位

至于怎么申请接口,又要放哪里,我这里还是以百度为例,介绍一下。

申请接口

进入百度 AI 开放平台,注册登录个账号先。

这大概是我最后一款OCR工具了,一步到位

然后在「人工智能」找到「OCR 文字识别」里的「通用场景文字识别」。

这大概是我最后一款OCR工具了,一步到位

当然你也可以在这里找到「OCR 文字识别」:

这大概是我最后一款OCR工具了,一步到位

反正流程不变,选择「创建应用」。

这大概是我最后一款OCR工具了,一步到位

然后「应用名称」和「应用描述」都随便填,记得「应用归属」选择个人。

这大概是我最后一款OCR工具了,一步到位

最后立即创建,从「应用列表」把 API Key 和 Secret Key 记录下来。

这大概是我最后一款OCR工具了,一步到位

总结一下申请流程,就是注册登录 - 申请 - 填信息 - 开通 - 复制 ID 和密钥 - 在 Panda 中粘贴-重载配置文件。

这大概是我最后一款OCR工具了,一步到位

就是中间这个粘贴步骤,PandaOCR 的格式一直是「ID | KEY」,竖线前后都有个空格,最容易出错的就是这里了。

纵观整个流程,相信我,真的没有你想的那么难。

我就不光明正大借着申请接口来水字了,再简单说说接口免费额度以及注意事项。

百度

我以前见过的这种类似的工具,一般给的接口都是百度的。

无他,实在是百度给的免费额度太多了,通用 OCR 识别的每日额度高达 5 万。

可惜,这些都成了过往云烟,5 月底的时候百度把额度改成了未实名 200 次/月,实名 1000 次/月。

所以百度的接口再也不是最香的了,但百度的手写识别还是挺给力的。

免费额度如下:

通用识别 1000 次/月,高精度通用识别 1000 次/月,表格识别 500 次/月,手写识别 500 次/月,通用翻译免费。

腾讯

腾讯云在开通识别时,有个营业执照,那个不管它,直接选确定就行。

还有就是需要自己申请一下密钥(账号信息-访问管理),不过那个腾讯云的翻译,现在好像只能使用 API 参数调用,PandaOCR 应该是用不成了。

至于免费额度,腾讯云的 OCR + 表格 + 公式接口共用 1000 次/月,翻译 5 百万/月。

搜狗

搜狗没有免费额度,而是直接按次收费的,能免费用的点在于刚开始送的 100 元新用户注册券。

这大概是我最后一款OCR工具了,一步到位

而且作者说是得充点钱才能用,我往里充了一块钱,正在白嫖那 100 元的新人福利。

有道

和搜狗一样是按量收费的,新人福利 50 元。

阿里

阿里云的 OCR 也是按次收费的,最大的优惠应该是不可重复购买的那个每 500 次 0.01 元了。

这大概是我最后一款OCR工具了,一步到位

SpaceOCR

每月有 2.5 万次的免费额度,不过是个国外的网站,邮箱注册(亲测 QQ 邮箱可用),看不懂的直接机翻就行。

这大概是我最后一款OCR工具了,一步到位

网校

也就是好未来,PandaOCR 只提供了好未来 OCR 的接口,没有翻译接口,所以翻译那个就不用添到项目里了。

免费额度都是每日 100 次,手写也是百次(过去好像是每日 10 万,哭了)。

讯飞

讯飞的 OCR 识别的免费形式,是 90 天的 10 万次使用,时间到或者用完即止。

这大概是我最后一款OCR工具了,一步到位

DeepL

不陌生吧,翻译里的 yyds,它家 API 的免费额度为每月 50 个字符。

但是,亚洲只有个日本,街道那把我给尬住了,所以我放弃了,溜。

Mathpix

注册登录没啥的,免费额度每月 1000 次的公式识别,但是创建项目时需要 1 美元的手续费,所以这就意味着你得用到信用卡。

总结

PandaOCR 这个工具,不仅可以像常规 OCR 工具那样截图识别,固定截图和复制翻译的功能给了它更多的可能。

拿来翻译论文、做机翻工具都可以,而这都源于大厂的提供的接口。

PandaOCR 就像是一个中间的掮客,把大厂资源汇集一处,带来了全新的可能。

不过有一说一,现在白嫖大厂资源是越来越难了。

但要说缺点的话,就是这玩意用起来太复杂了。

但可能很长一段时间,我的 OCR 工具都不会改了,为了写这一篇文章,我把所有的接口都申请了一遍,不过也算有所得。

下回碰到更好用的OCR,估计我就转投付费软件的阵营了。

这一篇到这里就结束了,我们有缘下篇再见咯。

本文首发于程序员不高兴,未经授权请勿转载!

一如既往感谢各位小伙伴的支持和关注!

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/47996.html

(0)

相关推荐