谷歌助手能不能翻墙
更妙的一点是,有道词典此次“学术进化”,对计算机、医学、金融经济学等专业领域进行了针对性优化,能够提升术语翻译的准确性。
比如说,你发现文章self-attention这个词没有翻译出来,可以直接选中这个词并选择术语矫正,将其加入到术语库。应用术语库之后,有道词典再遇上同样的术语,就都能保持一致的翻译。
除了把本职的翻译工作整得更加方便准确,与其他翻译工具不同的是,有道词典9这回甚至还打算包办科研党的写论文全流程。
就这还没完,甚至在你写论文的时候,有道词典9也能派上用场:其“AI英文写作批改”功能,能够智能识别语法错误、提供例句参考、“母语级”句子润色,还能自动标注引用来源、生成参考文档信息……
PDF文档翻译本身是一个比较复杂的问题,涉及多个处理环节,包括PDF文档解析、Word文档渲染、翻译策略、翻译结果回填等等。
尤其对于不可解析的PDF(扫描PDF)而言,页面中的文字、矢量、图片等要素其实都包含在同一张图片内,无法直接解析获得。
这里面的难点在于,相较于单纯的文字识别,OCR识别论文文档任务会更重。因为不只是文字,论文中表格、图像、公式,如果不能被精准识别出来,会很容易出现内容丢失、排版错乱的问题。
此外,为了让版面与原文保持一致,页面的单栏、多栏、页眉、页脚等信息,AI都需要准确判断出来,这样才可能在可编辑文档中恢复出原有版面和内容。
文字识别方面,有道自研的OCR算法集成了业内领先的文字检测和识别模型,能达到更高的文字召回率,同时能覆盖几十种主要语种。
具体而言,在通过版面分析模型得到版面基本信息之后,AI会根据不同的组成结果,采取不同的提取策略。
举个例子,在遇到以文字为主、富含表格的常见版面时,有道词典会主要采取文字组段算法和表格分析算法来处理文档。
而以图像为主、背景构成复杂的特殊版面,则原样保留原有版面的所有要素,集中注意力处理文字,最后进行多层叠加渲染。
前面提到,除了通用翻译,在有道词典9中,用户还可以选择医学、计算机等专业领域,来进一步提高翻译的准确性谷歌助手能不能翻墙。
除此之外,一般在线机器翻译算法都是以句子为单位翻译的,而针对文档翻译的需求,有道词典9这次引入了篇章算法。也就是说,AI在进行翻译时,会联合上下文句子来改进翻译质量。
比如在神经网络翻译技术方面,网易有道在2016年已着手自研神经网络翻译模型YNMT,是国内最早开展自研机器翻译技术的团队之一。
在OCR技术方面,2017年,网易有道就上线了卷积神经网络 + 循环神经网络的OCR引擎,到现在已经能支持100多语种的识别,还具备语种自动判别和混合识别的能力。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。