本文依据转转张青楠教师,在2018年DataFunAI+Talk中所共享的《二手电商常识图谱构建以及在价格模型中的运用》编辑整理而成。
01
常识图谱概述
这次的共享首要从以下四个部分:常识图谱概述、常识图谱结构、转转二手电商常识图谱、在价格模型中的运用。
1.什么是常识图谱
常识图谱是谷歌在2012年提出来的,开端的目的是优化其查找引擎。在实践国际中是存在许多的实体的,各种人、物,他们之间是彼此联络的。常识图谱便是对这个实在国际的符号表达,描绘实践国际中存在的一些概念,以及它们之间的联络。详细来说是一个具有特点的实体,经过联系衔接而成的网状常识库。
2.常识图谱的根本组成
在电商的常识图中,包含用户、商家、产品,他们带有各自的特点,彼此之间又互相联络。常识图谱的根本组成三要素:实体、特点、联系。实体-联系-实体三元组;实体-特点-特点值三元组,在电商的常识图谱中,用户和产品都是实体。
在常识图谱中,有一类独特的实体叫做本体,也叫做概念或语义类。它是一些具共性的实体构成的调集。比方说,比尔盖茨和乔布斯都是人,微柔和苹果都是公司。
--
02
常识图谱构建
现在的常识图谱分为两类。一类是敞开域的常识图谱,另一类是笔直范畴的常识图谱。比方谷歌为查找引擎所树立的常识图谱就归于敞开域的。笔直范畴的常识图谱,比方说金融的,电商的。
首要便是要先处理数据。互联网上的数据根本上都是结构化的,非结构化的和半结构化的。结构数据一般便是公司的事务数据。这些数据都存储到数据库里,从库里边抽取出来做一些容易的预处理就可以拿来运用。半结构化数据和非结构化数据,比方对产品的描绘,或是标题,或许是一段文本或是一张图片,这便是一些非结构化数据了。但它里边是存储了一些信息的,反映到的是常识图谱里的一些特点。所以须要对它里边进行一个抽取,这是构建常识图谱中比较费时吃力的一个作业。
从数据里须要抽取的其实便是之前所说到的实体、特点、联系这些信息。关于实体的提取便是NLP里边的命名实体辨认。这儿相关的技能都比较成熟了,从之前传统的人工词典规矩的办法,到现在机器学习的办法,还有深度学习的一些运用。比方说,从一段文本里边,咱们提取出来比尔盖次这个实体以及微软这个实体,然后再进行一个联系提取。比尔盖次是微软的创始人,会有这么一个对应的联系。别的还有特点提取,比方比尔盖茨的国籍是美国。在这些提取完结之后都是一些比较零星的信息,然后在再加之前用结构化信息所拿到的东西以及从第三方常识库里边所拿到的信息做一个交融。
别的还须要做的是实体对齐和实体消歧。
关于实体对齐。举例来说,比尔盖茨这四个字是中文名称,BillGates是他的英文名称,但其实这两个指的是同一个人。由于文本的不一样,开端的时期导致这是两个实体。这就须要咱们对它进行实体对齐,把它统一化。
别的是实体消歧。举例来说,苹果是一种生果,可是在某些上下文里边,它或许指的是苹果公司。这便是一个实体歧义,咱们须要依据上下文对它进行实体消歧。
在完结了以上进程之后,接下来便是本体抽取。比方之前说到的微柔和苹果,它们的实体是公司。从文本里边或许无法直接提取出来,它们是公司。那么须要一些办法对他们进行抽取。然后搭建出本体库,比方说公司是一个组织,它是有这种上下贱的联系的。关于平级的也须要估算一个他们的相识度,比方比尔盖茨和乔布斯在实体层面,他们是比较类似的。他们都归于人这个实体。他们跟公司的不同仍是挺大的,所以须要一个类似度的估算。
在以上进程完结之后须要对常识库进行质量评价,这是一个避免不了的人工进程。在做完质量评价今后,终究构成常识图谱。构成常识图谱今后,有些联系或许是无法直接得到的,然后须要进行常识推理,这可以对常识图谱进行扩展。比方,猫是猫科动物。猫科动物是哺乳动物。这就可以推理出来,猫是哺乳动物。可是这个推理也不是随意就可以推出来的。比方,比尔盖茨是美国人,比尔盖茨创建了一个公司,但这个公司并不必定是美国的。

--
03
二手电商常识图谱
首要从以下四个部分论述:事务了解、常识图谱规划、算法、开发。
1.二手电商特性
查找优化和个性化引荐是咱们最开端所做的初衷。首要去做一些目的辨认或是自动化查询这些。个性化引荐这儿,咱们运用常识图谱做一些召回源以及引荐排序模型特征。在电商运营这儿,首要是协助后台运营组货。在笔直事务这块,首要是做一些价格模型和供需联系剖析。
二手电商不同于一手电商。首要便是数据源的质量。二手电商渠道上面的产品都是个人发布。产品的描绘信息不像商家那样完好。咱们供给给他们的可选项,也都不必定会被完好地填写。
第二点便是数据稀少的问题。二手电商的产品大多都是无标品。比较于一手店上电商来说,数据较为稀少。
第三点是具有一些二手特点。二手店电商的产品都有许多二手特点。比方说成色、外观、屏幕划痕、是否换屏、是否创新等等。
终究是价格差异。产品进行折旧今后,他们的价格会有一些差异。二手产品的价格是具有很强区分度的特征。

2.二手电商常识图谱构建
先构建产品的常识图谱。产品的常识图谱是类似树的形状。树由一级一级的节点组成,终究的叶子节点是产品实体,它的下面是一些产品的特点。
遵从事务需求按部就班。在制造常识图谱的历程中,是边做边用的历程,而不是耗费了很长的时刻来做的很完好后才去运用。咱们是依据详细的需求将常识图谱拆成几个进程,然后进行继续的输出。
那么怎样拆分?依据之前说到的树的形状的常识图谱,首要要做的是先描点。先把图中的节点标好,然后再去发掘特点中一些K-V信息,得到一些零星的点边联系,接着再把这些零星的点和边的联系串起来构成一张图,变成常识库。终究,再把产品挂上去。

首要,是term层面的一些运用。提取物品词,完结本体构建。然后,K-V层面便是衔接点和边。提取tag词,完结特点抽取。接着,在图的层面。tag词树结构化,完结常识库构建。终究,产品粒度。将产品挂靠上去,完结实体抽取。
3.产品了解——物品词
首要从产品中提取出它的物品词,然后依据用户的行为数据得出用户偏好物品词,接着依据这个用户偏好物品词进行召回或是排序特征。
那么详细的完结计划:
先是物品词库的构建,不断地发掘当时都有哪些东西,以及今后还打当作哪些东西。这部分的数据大部分是从咱们自有的结构化数据那里拿到的,也有一部分是从外部爬去得到的,还有是从命名实体辨认得到的。
接着是上下位联系提取,沙发是个实体,布艺沙发也是个实体。布艺沙发也是沙发的一种,它们是一个上下位的联系。
然后是并排类似度估算。像布艺沙发和皮质沙发的类似度是比较高的,而沙发和相机的类似度就比较低。还有是文本对齐。类似于近义词,比方,相机和照相机其实是指代的同一个东西。
当以上完结今后,就构架出了一个物品词库。接着便是产品层面,产品物品词提取,运用到的数据源有:分类信息、标题文本、产品描绘、产品图片。
运用场景首要便是:
-个性化引荐:倒排索引召回
-个性化引荐:排序特征

4.产品了解——tag词

5.Tag词树结构化
上面做完之后,咱们发现提取出的key-value特点,都是各自离散存在的。然后会呈现数据质量的问题,所以把之前发掘出的term给提取出来组成一个树,下面是比如。从这个树里边可以追溯到他的一切信息。
这样的做法还供给了query结构化,对query进行了解,他的运用场景有三部分,个性化引荐和智能查找,这一块截止,做完了产品库的常识库的构建。后边便是产品挂靠。
6.产品挂靠
产品挂靠指运用分类信息、产品标题、产品描绘、产品图片等数据,对本体库(Tag词树型结构)中的节点进行匹配和生成产品常识途径。一起消岐有或许一个产品会匹配到本体库中的多个本体(物品词)和对特点节点赋予权值,选取匹配权重最高的本体。
这仍是方才的比如,产品挂靠之后生成一个实体(右侧)这一块做完之后完结实体的抽取与常识图谱的构建。现在咱们有一些关于常识推理和常识图谱的运用,优先级并不是这样的,现在还没有发力去做。

7.二手电商常识图谱构建
依据场景去介绍就可以构建出下面的架构,首要是数据抽取,在进行本体构建和特点抽取,在进行常识库的构建,终究完结产品的挂靠,把这些数据存储在HDFS或许OrientDB中,就可以进行智能引荐和智能查找以及价格模型的构建。这儿有一个消岐的概念,他首要是做依据树的权重的加和,权重较高的途径他的置信度就越高。消除一些无效的途径和特点。

--
04
在价格模型中的运用
它的运用许多,这儿说一下在价格模型中的运用,为什么做这件工作,关于二手产品的来说,很难去定一个合理的价格,所以咱们这边期望供给一个定价的才能。
1.二手标品化
首要须要二手标品化,先做常识谱图产品挂靠,然后去挑选出价格灵敏的二手特点。举个比如,我的二手手机屏幕碎了,这是很影响定价的一个要素。可是别的一个手机只是是划痕,这个特点对二手手机的定价不是显着的。所以须要去挑选一些对价格影响的特点。在同本体、同一手特点值和同价格灵敏二手特点值下概括二手标品,把这个ID作为这个实体新的特点打到常识图谱图谱上。咱们假定这个标品的产品价格是同散布。针对这个假定,我么做了核算办法做估量价格区间和生成二手标品ID到价格区间的的映射。终究得到的成果是可以支撑这个假定的。
2.二手标品评价
这块便是整个流程,前面要进行样本构建,然后在加载样本常识图谱和样本产品售出价格,在开端离线估算二手标品产品ID的价格区间。由于咱们也没有二手产品的真实的价格,所以这儿须要别的一个假定,咱们以为大部分成交的二手产品的成交价是合理的,由于这是买家和卖家讨价还价之后的成果,而且根本上满意了两边的心思预期。所以咱们搜集已成交产品的价格,在依照二手标品ID聚合,对反常点删去,在进行数据改变。估算价格区间。终究生成二手标品ID的价格区间放到数据库中,在线评价的时期,首要加载待估量产品常识谱图途径,然后定位二手标品ID,终究确认价格区间。

3.非二手标品产品评价
上面只是说了二手标品ID的评价,这儿还有非二手标品产品估量。手机很好说,可是衣服的话,从一手状况就不太好标品化,这有一套别的的解决计划,首要仍是依据常识图谱制造,查找图谱中最近的TopN个出售产品,在聚合出售的价格,删去反常点,进行数据改变,估算价格区间,终究进行逆改换,生成产品价格区间。

4.数据改换
关于价格来说,他的散布有显着偏态的,可是区间估量须要散布是无偏的,为了能更精准地经过操控置信度来调整区间巨细,最好无偏正态化。类似于左下角的散布,拿对数改换或许平方根改换就可以改换成近似正态散布,但实践数据的状况会杂乱多样一些,为了能很好得无偏正态化,咱们选用Box-Cox改换。对数改换平和方根改换是其特例。

5.区间区分
有了正态散布之后,咱们可以做区间的区分,首要咱们期望这个区间可以包括大多数的产品,可以求均值,标准差,依据不同事务的须要,估算出价格区间,然后将估算出来的区间的上下限,做Box-Cox逆改换。这样才是真实的价格区间。
6.Embedding+Regression
方才所说的是依据核算的办法,后边还有别的一种可以做法,依据回归的办法。先进行常识谱图的学习,发掘出价格灵敏的term作为特点打到实体上,在把产品用向量表明,做回归模型。然后可以用回归的方法去预测出产品的根本的定价。

今日的共享就到这儿,谢谢咱们。
01/共享嘉宾
张青楠,算法架构师,转转算法部根底模型团队负责人。主导了整套电商根底模型系统的树立。曾上任于当当引荐部,任资深引荐算法工程师。
02/报名看直播免费领PPT

03/关于咱们
DataFun:专心于大数据、人工智能技能运用的共享与交谈。建议于2017年,在北京、上海、深圳、杭州等城市举行超越100+线下和100+线上沙龙、论坛及峰会,已约请超越2000位专家和学者参加共享。其大众号DataFunTalk累计分娩原创文章700+,百万+阅览,14万+精准粉丝。
本文暂无评论 - 欢迎您