数字经济时代,数据是国家定义的关键“生产要素”,已成为经济发展的新引擎和国际竞争的新焦点。但是,未加工的数据存在口径不同、标准不一、数据孤岛等一系列问题,需经过升维再构,即提炼处理成为信息、知识、智慧后,才能发挥更大的价值。知识图谱是实现数据“提炼处理”的重要方法,其以结构化的方式描述客观世界中概念、实物,并使用“图”作为媒介描述其间的关联关系,通过更接近人类认知世界的形式,提升数据的组织、管理和理解能力。
马上消费股份有限公司(以下简称“马上消费”)作为中国银保监会批准、拥有领先AI和数字技术的金融机构,高度重视数据要素潜能激活的基础工作。公司利用知识图谱技术,以结构化方式对海量文本和图像等数据进行升维再构,将数据及信息高效转化为知识,进一步助力构建认知智能。
一、知识图谱响应万物智联的时代趋势
随着互联网和数字技术的不断发展,人机互动从单向获取发展为双向融合。万物互联的构想下,人们追求极致的用户体验,但仍存在大量内容多源、数据多样的无效信息。知识图谱的发展为万物智联打下坚实的基础。
知识图谱是国家确立的新一代人工智能关键共性技术之一。国务院发布《新一代人工智能发展规划》,明确指出要发展“知识计算引擎与知识服务技术”,重点突破知识图谱构建与学习、知识演化与推理、智能描述与生成等技术,形成多源、多学科和多数据类型的跨媒体知识图谱。实际上,国家科技部近三年均发布与知识图谱相关的“科技创新2030—‘新一代人工智能’重大项目”。知识图谱已然是我国构筑人工智能发展先发优势的重要战略抓手。
知识孕育和传播在大数据时代正经历第三次大变革。几千年前,人类文明开启了随机、零散地传承,知识是少数人的特权;工业化生产阶段,逐渐形成答案标准、节奏统一、内容单一的专家库系统;随着万维网的普及,巨大的数据网链接并推演知识,知识的形成和传播呈现自适应、个性化、智能化趋势。
图谱的结构化模式激活数据结构化的要素价值。知识图谱通过资源描述性框架,展示现实中的概念、实体与关系,尤其擅长关系描述。因此,在图谱模式下,数据按照三元组形式进行升维再构,由孤立的、分散的、封闭的数据点组织形成互相关联的庞大知识图谱,进一步产生知识融合、图挖掘计算、知识推理等认知智能价值。
二、图谱建模仍存亟待突破的发展瓶颈
知识图谱由谷歌在2012年提出,近十年发展热度越来越高,目前来看,知识图谱的广泛运用还存在不小挑战。
知识图谱的构建应用仍存技术难点。基于规则和模板的图谱构建技术面临知识抽取、知识融合、知识推理方面的困难:多语种、大范围的多元实体关系抽取面临算法准确率和召回率较低的问题;高质量的实体对齐、多源数据库的融合亟待解决;随时间推移的动态知识图谱推理还需研究。深度学习擅长解决端对端的问题,是知识图谱进一步升级和完善的重要方向。
图谱本体构建和维护成本高。相对于传统知识库,无论在高频还是低频的智能问答中,知识图谱正确回答率均高于传统知识库。但知识图谱的多个构建环节人工参与量较大,以1000个节点、3000条边的图谱本体构建为例,大约耗费2人月(算法工程师),人工成本较高。并且,图谱构建成功后,还需要不断维护以保证图谱的质量,这对应更高的存储成本和人力成本。
行业知识图谱处于起步期,知识深度还待挖掘。通用知识图谱逐渐完成开拓性构建,目前演变为通用互联网知识图谱,形成搜索引擎、智能问答、智能推荐三大产品类型,例如百度百科、美团、知乎等,应用效果成熟。而面向场景的行业知识图谱仍处于起步阶段,知识深度还不够,存在行业专家储备不足、知识建立不到位等痛点。
三、构建金融数据知识图谱的应用实践
马上消费高度重视数据要素的资产价值,以知识图谱作为数据要素治理的技术工具,构建内部知识库和行业知识库,为精细的大数据分析提供有力的技术支持,为知识资产的优化提供源头解决方案,赋能精准营销、客户维护、风险评估等多种金融场景,数据要素的资产价值也由此得到落实。
产学研互动,推动知识图谱与深度学习的融合发展。知识图谱行业能力、底层技术能力的核心是图谱建模技术。马上消费注重攻关图谱构建的共性关键技术,公司专设知识图谱团队,以算法专家任团队长,团队成员以高级架构师为主,并配有多名软件工程师、测试工程师。并且,公司参与共建金融知识图谱与知识推理实验室、智慧金融与大数据分析重庆重点实验室,联合华中科技大学等高校攻关技术难题,设立“金融领域的知识图谱问答系统”、“基于深度学习的知识图谱表示参数优化”等横向课题,紧跟知识图谱前沿技术能力。目前,公司已提交知识图谱相关专利申请和软件著作权申请,并通过工信部中国信通院的知识构建与管理能力评测,成为全国第三家达到4级标准的公司,也是金融行业的唯一一家。
研发工程与算法平台,降低图谱构建成本。马上消费自主研发知识图谱全流程构建平台,该平台是知识本体构建和实体抽取的半自动化工具,实现了金融领域图谱从创建、验证、存储到应用的全周期管理,具有高效率、高稳定、高性能、低成本等特性。在平台上,知识库管理人员可深度参与、自主完成知识从本体定义、知识抽取、知识融合、知识存储、知识计算的全流程,对结构化数据、半结构化数据、非结构化数据以知识图谱形式进行沉淀,整合各渠道知识资产,搭建企业级知识库。目前,该平台已作为独立产品推广到市场上,为金融机构的市场、风控等部门提供智能化精准搜索、问答等服务,提升拓客效率、工作效率和客户满意度,降低企业人力服务成本,具有较好的经济效益与社会效益。
深耕知识深度,扩展知识图谱的多维场景应用。当前,通用百科知识图谱的技术发展已经相对成熟,知识图谱在语义搜索和知识问答的应用彰显优势。然而,知识驱动的智能信息处理还有广泛的应用空间,马上消费在金融行业进行了一些有益的探索。公司在静态图谱的构建能力基础上,进一步过渡到事件图谱的因果分析,从而实现多模态图谱的内容生成能力。在数据管理上,公司应用知识图谱对接AI数据中台,串联金融业务大量的多源异构数据,实现数据价值的深层挖掘。在金融业务上,公司将图谱技术应用到信用评估、反欺诈、风险预警和精准营销的关键环节,推动了知识构架的业务应用。未来,公司将进一步探索知识图谱的多模态表现,让人工智能更加深入认知、理解真实世界场景,推动全方位的认知智能发展。
本文系企业供稿,仅供参考