基于语义分析的电子商务客户评价研究

一、引言

互联网在我国普及度逐步提升,人们对于网络的依赖性越来越强。面对不断产生的海量数据,传统人工处理的方式己经不能适应现代社会的需求。生产商、销售商希望能够简洁直观的了解用户对产品的反馈,从而有针对性地对产品或服务进行改进;潜在的消费者希望通过现有的评价来调整个人的购买意向。因此,分析消费者评价,即带有个人情感倾向的文本便具有相对重要的价值。

在国内观点挖掘领域中,有如下研究。刘群等人提出了基于WordNet词汇语义相似度计算方法,成为目前中文词语情感极性强度计算得主要根据;HuM等人研究了评论对象特征识别问题,他们提出利用关联规则方法挖掘评论稳重隐藏的特征属性,并提出了根据句子语义倾向对商品进行总体评价。本文创新点在于利用前人的研究成果,结合TF-IDF算法对评论特征的重要程度量化标注,分别计算出产品特征的总值作为模型建立的基础。依据经济学意义进行数据筛选并建立模型,将影响销量的各个因素的显著性定量表示,并且进一步探究各个影响因素与销量之间的弹性关系。把弹性作为企业调提高销量的依据,最后按照经济学理论对企业提出可行性建议。

本文以天猫旗舰店中价格在100元-200元区间内,且数据采集时评价总量在300条以上的品牌男士短袖T恤作为研究对象。主要工作有:一是构建了常用于衣服评价的网络用语词典,二是构建了识别特定格式用于服装评论挖掘结果分类的正则表达式,三是根据处理过的数据进行经济计量模型构建,探究影响销量因素的显著性及弹性,四是依据经济学原理为销售该类服装的电商提出合理建议。

二、研究框架

本文研究过程大致可以分为四个部分,用户评论信息采集、数据预处理(数据清洗、分词、词性标注、删除停用词)、评论挖掘(产品特征提取、评论观点极性判断,评论的强度计算)、回归分析数据预处理、多元回归模型建立、模型拟合优度检验、误差原因分析及经济学意义分析。研究路线如图1所示。

三、主要步骤及及关键点分析

1.数据爬取。通过WEB自动化工具,编写爬虫软件,将电商平台上的相应物品评价爬取

(1)数据清洗。网络评论中有大量网络化、口头化的词语等。所以需要先对数据集合进行清洗,主要工作有删除无用信息、重复信息等。

(2)分词。中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。分词的好坏直接决定了语义分析的准确性。

(3)词性标注。词性标注(part-of-Speech tagging或pOS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。有效提取出产品特点,并对用户观点进行极性判断。

(4)删除停用词。在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词。评论集合中存在大量频率高,但无实际意义的词语,例如“了”、“呢”等,将其删除可以提高分析程序的运行效率。

2.评论挖掘过程。用户评论信息挖掘用户评论信息挖掘包含产品特征提取、评论观点极性判断、特征强度计算三个部分。

(1)产品特征提取。产品特征提取的目的是基于分词和词性标注后将产品的特征提取出来,其产品特征包括质量、性价比、外观等等。

(2)评论观点极性判断。评论观点极性判断是指确定用户对该商品评论的极性,分为褒义和贬义。

判断评论观点的极性,有两种方法,即基于词典的方法和基于语料的方法。基于词典的方法需要建立一个情感极性词典,以获得一个词的极性。基于语料的方法是在大量语料基础上,分析词之间的语法形式或共现形式来判断词的极性。本文采用基于词典的方法,需要根据所有评论数据建立两个词典,分别为褒义词和贬义词词典,然后用词典再对评论进行一次词性的标注。

(3)特征强度计算。TF-IDF(term frequency-inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。它能将文本表示为文中出现的n个加权词项组成的向量。因此,我们用它来评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

词频频率(TF)是某一词在某一文档中出现的频率,因此,tf是关于文档的统计数据,它因文档的不同而异,其作用是试图度量该词在文档中的重要性。

以上式子中分子nij是词汇ti在评论dj中的出现次数,而分母则是在评论dj中所有词汇出现次数之和。

逆向文档频率(IDF)是指,一个词汇的普遍重要性度量。某一特定词汇ti的逆向文档频率idfi,可以由总文档数目N除以包含?词汇的文档数目{j:ti∈dj},再将得到的商取对数,得到:

3.挖掘结果汇总

挖掘结果汇总是指利用统计学、图表等形式对结果进行展示和分析。

逐条评论计算强度之后通过正则表达式匹配。将每一个特征词所包含极性词的短句提取出来。例如将“快递没得说,那是一个快啊”处理成“{@快递@WL@0.262@}没得说/pRO#,那是一个快啊。”(/pRO表示褒义词)这样的格式,通过正则表达式提取出“{@快递@WL@0.262@}没得说/pRO#”,将其算作物流正向评价一个单位,计算出所有特征正面、负面的强度,使得分相加,就是购买该商品用户对其特征的情感强度,将此结果利用图表形式显示,并综合起来进行多元回归分析。 4.回归分析方法概述

(1)多元线性回归。在最初建立模型时使用最小二乘多元线形回归的方法探究销量与各变量之间的关系。假设某一因变量y受k个自变量X1,X2,...,Xk的影响,其n组观测值为(ya,x1a,x2a,……,xka)那么多元线性回归模型的结构形式为:

式中:β0,β1,...,βk为待定参数;εa为随机变量。为消除随机变量不确定性,我们采用最小二乘法将回归模型优化。最小二乘(OLS)法使残差(误差项的估计值)平方和达到最小值来估测代订参数的拟合值。

本研究借助柯布-道格拉斯生产函数分析效用的特性对于基础模型加以改进,将原模型中的产量换为产品的销量,技术、资本、劳动转换并扩充为与服装销量相关的质量、价格、物流等因素,使其能够适用于本研究。

四、实验与结果分析

1.网络评论的采集。我们在天猫购物平台上采集25件价格为100元-200元男士t恤的全部评论,采集时间截止到2016年7月9日22点12分,累计采集到43553条服装评论信息。根据收集到的信息建立产品评论语料库。

2.数据预处理。经过数据清洗后,利用哈工大LTp语言云平台以及武汉大学ROSTCM6进行分词、词性标注以及删除停用词的工作。

3.评论挖掘。本文根据分词结果,统计名词出现频率并按降序排列,得到了形容衣服特性以及电商服务方面的多个名词,将其归入特征词汇的名词集合,共有8个不同的特征词集合,见表1。

4.挖掘结果显示与分析。本文根据上文的正则表达式匹配方式,可将“质量”等八个产品特征进行同类词语识别,这样就可以得到尽可能多的且准确的产品特征。

以“产品特征词+褒义/贬义词”的方法,采用“质量”这一特征为例,结果如表2所示。

按照上表的方式,提取出评论中的版型、包装、价格、客服、面料、图案、物流、质量这8个因素作为关键的影响销量的因素从评论中分离出来,并且分别将每个因素的正负影响通过强度系数表示出来,作为回归分析的基础数据(由于数据量较多,取小数点后一位)。

5.多元回归结果展示与分析。由于质量这一因素本身包含“性价比”的含义,所以我们将质量和价格两个因素综合作为性价比处理。在处理过程中,为了保证性价比这一因素数据的准确性,将性价比低的情况分为质量好价格不合理,质量不好价格不合理和质量不好价格合理,将性价比高的情况描述为质量好价格合理,并将数据进行加权求和。

6.模型的建立及拟合度检验。第一个模型为线性回归模型,将销量作为因变量Y,面料好,面料差,物流快,物流慢,性价比高,性价比低6个变量分别作为自变量X1至X6。利用最小二乘法对于数据进行多元回归,得到图2的模型:

模型表达式为:

Y=59X1-246X2+194X3-350X4-197X5+156X6-1698

R2值为0.76,拟合度较好,调整过的R2值为0.67出现了一些下降,说明存在一定的相对无关参数,F值为9.46,其相伴的概率为0.000092拟合度较好。

由于多元线性模型只能反映各个关键因素对于销量影响的显著性,是相对静态的模型,如果企业想要对于某种因素进行调整,需要得出各个因素的弹性及投资的效用,以保证收益的最大化。

为实现这一目的,我们引入柯布-道格拉斯效用函数,并且将其自变量分别定义为为面料好,面料差,物流快,物流慢,性价比高,性价比低,将经对数处理后的数据通过最小二乘法进行回归,得到图3所示结果:

模型方程为:

Y=0.66X1+0.04X2+0.98X3-0.04X4-1.92X5+1.43X6+4.2

R2值为0.74,拟合度较好,调整过的R2值为0.65出现了一些下降,说明存在一定的相对无关参数,F值为8.75,其相伴的概率为0.000150拟合度较好。

7.数据处理结果简述。(1)最小二乘法多元回归分析结果。模型表达式为:Y=59X1-246X2+194X3-350X4-197X5+156X6-1698,因变量Y是销量,自变量X1至X6分别是面料好,面料差,物流快,物流慢,性价比高,性价比低这六个变量。

对销量的正面影响最显著的是物流快,其次是性?r比低,面料好。对销量有显著负面影响的首先是物流慢,其次是面料差,性价比高。

(2)柯布-道格拉斯效用函数结果。模型表达式为Y=0.66X1+0.04X2+0.98X3-0.04X4-1.92X5+1.43X6+4.2,因变量Y是销量,自变量分别定义为为面料好,面料差,物流快,物流慢,性价比高,性价比低。

销售正弹性最大的是性价比低,其次是面料好,第三是物流快。销售负弹性最显著的是性价比高,其次是物流慢。

8.模型的经济学意义。本研究运用两个模型进行综合分析,第一个模型运用OLS对现有数据进行回归分析得出各个因素在此时间节点对于销量影响的显著性;第二个模型运用道格拉斯效用函数的变形结合最小二乘回归分析得到各个因素影响销量的弹性大小,从而得到各个因素变化多少对于销量改变的影响程度。两个模型结合分析即能够就现状进行有效把握,又能够探究因素的变动对销量的影响。

以下将结合数据处理结果,针对在天猫旗舰店中出售价格在100元-200元区间内,且数据采集时评价总量在300条以上的品牌男士短袖T恤的商家,从经济学角度提出在正常营业情况下,即非降价促销情况下提高销量的合理性建议。

(1)合理提高质量――基于性价比考虑。性价比显示了性能和价格的比例关系,在衣服这种产品中性能表现为质量,因此可以用质量/价格作为性价比的量化公式。

面对性价比降低的两种情况需要进一步考虑消费者偏好,即由原T恤价格质量同时上升或同时下降产生的两种新T恤中更倾向于哪一个。面对性价比消费者往往先考虑质量再考虑价格,即消费者更偏向于质量好的产品,若该产品的价格在价格区间内,消费者将优先购买。 综上所述商家在保证利润的情况下要提高销量可以选择同时提高质量和价格,且在消费者承受能力范围内价格提升幅度大于质量。

(2)优化面料选择。优化面料的选择可以从三个方面进行:面料厚度,纺织工艺,成分含量。

就面料厚度来讲,要针对该服装的穿着季节,穿著人群,服装风格等因素进行综合考虑。面料过薄会影响着装的得体性。

就纺织工艺而言,为了使服装不至于因为洗涤变形或脱线,应保证其纺织线密度不低于一定标准,并且根据利润空间进行设置,控制生产成本。

就成分含量来看,主要依据现有消费者的消费偏好,如果消费者倾向于穿着舒适而不过多在意服装穿着后是否变形,则可以提高服装棉含量。

(3)提升物流服务。在数据处理结果中除去产品本身质量外,服务质量中的物流质量对销量也有显著影响。消费者认可商品后会对服务产生要求,较快的物流速度会使产品对消费者更有吸引力。

通过改进补货模式可以维持一定水平库存,缩短因缺货导致的客户等待时间,提高客户满意度,同时选择适当的补货模式可以降低库存成本、订货成本和短缺成本。选择补货模式主要考虑库存检查周期,订货量,以及订货点,根据商家自身库存规模,销售预测和缺货订货成本来制定具体模式。采用计算机系统来管理库存也是提升物流效率的有效方法。

建立多地点仓库需要投入较多成本。商家对消费者收货地点进行统计,在购买密集的地区建立分仓库,通过分散库存来提高物流速度。如果已有多个仓库,应提高各个仓库之间的信息共享程度。

五、总结与不足

本文挖掘了产品的用户评论并应用在电商服装的分析中,结合多元回归分析,并以100元-200元价格区间的男士t恤为例,进行了系统的分析实践。根据实验结果,本文采用的方法可用有效挖掘出产品的各类特征并提取其优劣,经过分析后对该类服装的改进提出了建议,对产品情报分析以及改进策略具有现实意义。

本研究通过回归分析最终得出的结论是可以通过合理提高质量、优化面料选择及提升物流服务三种方式提升服装销量。商家需要在保证利润的情况下要提高销量可以选择同时提高质量和价格,且在消费者承受能力范围内价格提升幅度大于质量。而提高质量是一个比较模糊的建议通过对数据的处理发现在质量中面料对于销量的影响最为显著,所以在质量提升时应优先选择面料的优化。物流方面的影响也十分显著,提升物流速度的渠道根据成本投入由少到多可以分别从选择合作物流商,改进库存补货机制,建立多地点仓库三个方面来进行。具体的措施还需根据成本、收益、未来经营规划等进行综合考虑。

本文的研究存在一些不足之处,首先采集数据时样本量稍小,而且样本内容也偏简单,在今后研究中可以加入更多的变量信息,如销售时间,月销量等;其次由于网络评论句式过于自由化,本文利用正则表达式提取的句式比较简单、单一,可能会影响数据的准确度,针对这一方面,建立的正则表达式还有待于进一步改进。