“纸质合同用WPS转文档太哇塞了!表格、签名、公章也能转出来。”

“各类统计表要电子版上报,在WPS转后,随手排下就能用。”

“基本保持原本的排版设计,值得拥有~”


2022年下半年,不少用户在社交媒体点赞WPS,都因惊喜发现:图片转docx、xlsx格式文档的效果变得更准确和精细。

在用户看不到的另一面,WPS版式还原功能“悄悄”完成了引擎更新。WPS全新的文档识别与理解引擎,开始了它的工作。

它被研发团队称之为文档AI技术的“瑞士军刀”,专解版式还原、内容提取、图像处理的疑难杂症。升级以来,相关功能使用口碑猛涨,反馈率下降75%多;项目的核心技术荣获了珠海市产业核心和关键技术大奖,VIE(视觉信息提取)技术部分方案参加了2022年CSIG图形挑战赛获得了小票赛道的冠军和总决赛双冠军……

为什么金山办公要做这套引擎?又是如何做到的?我们采访到了金山办公技术总监熊龙飞,听他聊聊,WPS文档识别与理解引擎的“前世今生”,以及给未来办公带来的可能。


反馈居高不下,决心重构引擎


问:目前,WPS版式还原能达到什么样的效果?

熊龙飞:

你可以认为,基本人类肉眼能识别的,这套引擎都能识别和还原。

比如领导要你从一沓纸质表格里,核对出数据。用手机轻轻一拍,就能转成可编辑的xlsx或docx文档;比如揉皱丢进垃圾桶的纸,捋一下,用WPS就能识别。

甚至,我们还精细到字体属性的还原,如字体颜色、是否加粗、是否斜体、什么字体。


问:做版式还原,是基于怎样的洞察?

熊龙飞:

WPS每月都会统计用户反馈排行,前几年,版式还原相关的功能投诉量居高不下,如图片转表格乱码、图片转docx耗时非常久等等。而老的引擎因为历史包袱问题,已经很难改动了,而金山办公很重视用户的体验,于是公司高层下定决心,要重构一套文字理解和识别引擎,对相关功能进行一次显著性的体验提升。


问:这意味着一切从头再来,要投入大量人力、时间、资金,为什么团队坚持这么做?

熊龙飞:

一开始我们心里也没底。2019年初CV(计算机视觉)团队只有2、3人,而版式还原这种规模的项目预估要投入几倍人力。短期甚至看不到产出,项目可能会持续一到两年,甚至更久。

但当时AI中台的负责人姚冬非常坚定,认为作为一个办公软件公司,尤其是把文档处理当作核心业务的公司,一定要把版式还原效果提上去,如果我们不做,其他公司更不会愿意投入这么大物力和人力及时间成本去做这件事,用户将长久忍受这个领域的痛点。

后来我们决定启动项目,而且不仅要做,还要奔着行业顶尖水平去做。之所以这样说,一方面来源于我们既往的项目经历,我们当时已经做了业内顶尖水平的弯曲矫正能力、最早期的本地OCR(光学字符识别)能力以及很多具有功能亮点的CV项目。另一方面,当时经过几个月的调研,我们发现,金山办公无论是AI的技术储备还是对文档领域排版、版式、格式的技术和经验积累,做这个事情都是具有优势的,所以虽然我们知道这个项目有难度,但心底里还是有信心的。


新技术&领域积累,啃下版式还原硬骨头


问:研发过程中最大挑战是什么?

熊龙飞:

在2019年起步时最大的挑战是,老的方案我们已决定彻底放弃,那么意味着从0开始构建我们预期的系统,而且我们是希望通过AI技术进行彻底重构的,当时这个领域除了一些论文鲜有其他参考。

方案花了几个月构思,起步时的几个核心算法也是从头进行验证的。所以我们整体把任务分拆成了多个阶段,首先实现了最基础的图文渲染排版的检测和识别问题,再加大排版复杂度,做了复杂排版的版式分析和识别。再扩大不同类型,例如公文类、试卷类和CAD类型。等整套系统具备完善的模块和流程后,我们当时已经能够解决掉相对标准的PDF的识别和转化问题了。

这些过程可能只花了我们一年左右的研发时间,后边的两年多才是真正的炼狱模式,因为我们要解决更复杂的场景,例如污染、变形、拍照、自由排版、PPT、甚至带折痕的老旧文件场景。这些问题不仅对于企业是难题,连国内顶级高校以及学术界都还在死磕这些极端场景,所以复杂场景和极端场景的问题解决是我们面临的最大挑战。但好在我们把大任务进行了拆分,做了很多里程碑目标,每个阶段都有相应的产出,使得团队的成员没有惧怕,最后硬是把这块硬骨头给啃下来了。而且随着啃这块硬骨头,我们的团队在三年多的时间从几个人发展到了几十个人,也算是边打硬仗边成长了。以致于我们收获了一支抗压能力、战斗力和输出很强的团队。


问:目前的方案是怎样的?

熊龙飞:

版式还原项目的复杂度极高,这套系统有超过20个深度学习模型、100多个算法模块、几十万行代码。任何一个小模块拎出来,都是完整的AI项目。这些模型作为零部件组装在一起,会存在很多兼容性和嫁接问题,这么多模块和流程的中间件工具的串联和组合,调度层的设计难度可想而知。

现在要转一张图片,先由前处理模块进行处理。有弯曲就矫正,有污染就把它变干净,以便更好识别、理解。然后就开始检测元素,有哪些LOGO、文字,都检测出来。检测完之后,由VIE进行信息的关系组合以及内容识别和提取,把拆散的元素重新组织成带版式信息的描述,最终可导出为docx、xlsx等用户想要的格式。


问:团队有怎样的技术创新?


熊龙飞:

因为做版式还原的公司比较少,也没有公司将相应的技术做公开,所以任何做这个领域的公司或团队都会面临着一切从头来的挑战。

这样也会使得伴随着项目进展,会产生很多技术创新。例如,我们团队用了多个深度学习模型来解决以往通过传统图像算法处理的问题,可以提高检测和识别效果。也有很多模型内我们嵌入了传统算法的思路,让模型得到魔改而获得更好的性能。

除了自身的研发创新之外,我们还通过高校合作,引入了学界比较新的技术思路。例如我们与高校合作应用了近年来业内比较火的一项技术——VIE(视觉信息提取)。

纯靠OCR,只能识别这个字,却不知字的关联性、逻辑性。通过VIE技术,段落关系得以理解,这对于复杂排版的文档识别会更加精准,比如发票、小票信息抽取等。举个例子,一张发票里面,“合”字和“计”字离得很远,以前识别的时候,就把他们判断为两个词。在VIE技术下,就知道他们属于一个词组。


问:金山办公做版式还原这件事,有什么优势?

熊龙飞:

常规的识别方式,就是把文字进行提取,最多做一下图片和印章等对象的检测,然后组合在一起。但我们可以做的更多,更精细。例如段落排版,我们可以做得更复杂和精准。


因为除了结合AI技术做的段落分析,我们公司还有30多年丰富的段落排版、文档的版式背后的底层逻辑的技术积累。公司另一个老板朱熠锷在文档领域已经做了非常多年,对文档底层技术有深刻的理解,可以由浅入深跟我们讲明白技术逻辑。就算有些技术他不是最专业的,他也能告诉我们应该咨询哪一位或者哪几位领域专家。这种专业指导让我们不用自己苦苦查阅文档学习和摸索。

另外,在输出常见的办公软件格式上,其他公司如果没做过这类软件,不好理解docx、xlsx、PDF等格式的底层逻辑和规范,更不用说有现成可用的文档渲染toolkits可以使用,而我们就只需要向朱总反馈一下相关需求,朱总很快就能在公司内协调到相关团队给我们支持。如果我们自己做这后半程(具体格式的文档输出),那知识的容积以及开发量就太可怕了。


技术多走一步,用户少走一步


问:对CV团队来说,最好的技术是什么样的?

熊龙飞:

作为技术开发,比起刷数据指标,我们更在意整体方案是否优雅,效果是否让用户满意。我们对产品有类似于苹果公司的做事追求,大道至简。其实说起来容易,做起来很难,因为有时表面看起来越简单的界面,背后需要做的基础技术越多。我们会把极致的技术解决方案藏到交互后面,通过更好的算法和策略,尽可能让用户使用起来更简单。我们坚信:产品跟技术多走一步,用户就可以少走一步。


问:CV团队是一支什么样的团队?工作氛围如何?

熊龙飞:

我们鼓励创新,希望团队每个人都大胆提出自己的想法,而不是变成一个执行命令的机器。

比如,某次上级否定了你的想法,你想证明是对的,可以给你20%的时间去验证,80%的时间留给常规工作。最后没有结果,说明方向错了;如果证明了自己,会赢得整个团队的认可。

但我们不会靠加班去“卷”。6点后有人还在工作,我们会主动询问,是不是工作没规划好?每天加班到9点,大脑陷入疲惫状态,已经没有效率了。下班一定要释放出来,去休息、去玩、去阅读。现在大家很愿意在上班时专注投入,摸鱼少了,反而交付的质量变高了。


问:团队下一步规划是怎样的?未来有哪些应用场景?

熊龙飞:

未来,我们会继续在文档智能领域深挖,逐渐实现从感知智能到认知智能的能力覆盖。

什么叫感知和认知?肉眼上看到几句话,知道是哪些字,属于感知。但里面描述这段话是什么含义,上下文之间什么关系,就属于认知智能。

人有思考能力,能去找事物的关联性。通过VIE技术,这套系统也具备这样的能力。

未来,用户或许可以在WPS实现这样的场景:导入一个没有目录的PDF,系统可以直接生成大纲,归纳每一章节里的主要内容;扫描了很多文件,系统可以帮你分类、归纳……

我们希望通过 AI 或CV 技术,让文档识别和处理更智能一点,让用户使用起来更畅通、更丝滑,让用户通过WPS能够实现更智能的办公,让办公更轻松,让人们多一些时间和精力思考,以追求更充实和幸福的生活。