近日,科技创新情报SaaS服务商智慧芽宣布,其数据库中的专利分类号在两方面取得重大突破——专利分类号说明精准翻译、CPC智能补全,全面帮助用户提升专利检索的便利性和准确性,提升用户效率。
一直以来,业内使用的专利分类号面临的两大痛点:一是大量分类号缺少精准的中文解释说明,用户无法清晰明白专利号的非中文准确含义;二是全球近1.7亿条专利中,近四成专利缺少CPC分类信息,这些专利无法从分类号上判断其领域特征。智慧芽在专利数据分类号中的重大突破,开创性解决了业内这两大难题。
如何解决这两大难题?智慧芽技术副总裁屠昶旸解释到:“第一,智慧芽聘请专业人士,人工翻译了超78万条分类号;第二借助机器学习等人工智能技术,对5000多万条未覆盖CPC分类的专利进行补全,完善其CPC分类,大幅提升产品用户体验。”
突破一:专业人士翻译78万条分类号说明
由于专利分类号环环相扣、互相补充,加上分类号中存在较多行业性和专业性词汇,使得机器翻译分类号说明准确性相对较低。智慧芽邀请不同领域知识产权专业人士,对海量分类号进行一一人工翻译,确保分类号说明的准确性,使翻译后的分类号中文说明同样能够相互包含,易于理解。
除了内容难度之外,庞大的分类号数量,也增加了分类号翻译的难度。当前,智慧芽还实现了17万条UPC英文的翻译、20万条FI和41万条F-term的日文翻译,使得专利检索更加全面,可以更好地服务客户。
图1:UPC分类号
图2:FI分类号
图3:F-term分类号
突破二:智能技术补全5000万条CPC
CPC分类号是进行专利检索分析的重要工具,但由于CPC分类号是2010年才发布使用,部分国家/地区/组织才逐渐采用CPC分类号,因此导致有近四成专利未覆盖CPC分类号信息,影响专利检索结果的全面性。
图4:CPC分类号预测
图5:支持检索预测的CPC分类号
智慧芽通过人工智能机器学习技术,将文本信息和已有分类号作为训练数据进行机器学习,构建分类号预测模型。对缺失CPC、存在摘要或权利要求的专利进行CPC分类补全,进而提高用户使用CPC检索结果的准确性。当前,智慧芽已经实现CPC的覆盖度从59%提高到 95%。
未来,智慧芽将脚步不止,不断迭代产品功能,持续更好地服务用户。
文末福利,扫码领取
数据库7天免费试用权限
*申请成功后,我们会在2个工作日内帮您开通账号