名不虚传MinerU

最近每天刷抖音有些心安理得了,因为刷到AI相关视频占了多数。
不过这些视频很少看完,大多数也只是了解一下当索引,有的一听那高高在上的腔调直接划走。而这些划走的内容中,开篇一半都是什么项目在GitHub霸榜,或者暴涨多少星。我跟外甥交流中说到,这GitHub的星,快被中国人玩坏了。
昨天中午刷到一个类似视频没有划走,是因为这个叫MinerU的开源项目是关于OCR的。而就在上午,我在把前天同样PDF让豆包转换的时候,发现豆包变懒了,只转换了一半。
看来豆包收费后偷工减料的臆测也不是空穴来风。于是放下手机打开电脑开始查询MinerU,第一眼看到是国产的时候,并没有太大期望值,毕竟已经有百度的paddle在那里横着呢。
试着手机注册后在线转换了一个文件,结果让我完全意外,不止是接近豆包的转换效率,更是因为他的大方——无论是每天转换的限额,还是单个文件的大小。
按捺激动心情,立马在本地部署,不到6G的显存占用,却得到了完全可以接受的结果。
百度啊,又……

Leave a Reply

您的邮箱地址不会被公开。 必填项已用 * 标注

You may use these HTML tags and attributes:

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>