首页 / 一种卷烟消费者的分析方法

一种卷烟消费者的分析方法公开 发明

技术领域

[0001] 本发明涉及信息技术领域,尤其涉及一种卷烟消费者的分析方法。

相关背景技术

[0002] 在卷烟消费数据分析中,面临着如何精准划分消费者群体并挖掘其属性偏好关联模式的挑战。首先,海量卷烟消费数据的处理需要采用分布式大数据框架进行预处理和清洗,以构建包含烟叶含水率、烟气烟碱量、烟气焦油量等属性偏好信息的结构化数据集。其次,基于这些属性以及价格敏感度、口味偏好等因素,需要设计合适的聚类算法来划分消费者细分群体。然而,不同属性间的相关性复杂,传统聚类方法可能难以捕捉这些微妙关系。因此,考虑构建卷烟属性关联图谱,并利用图嵌入算法学习属性间的低维表示。这种方法虽然能更好地表达属性关系,但如何在此基础上高效挖掘不同细分群体的属性偏好关联规则,特别是针对高烟碱量和低焦油量偏好群体,仍是一个待解决的问题。此外,如何将挖掘得到的关联规则优化组合,以平衡不同属性间的关系并兼顾群体内部偏好差异,从而构建精准的消费者画像模型,也是需要深入研究的技术难点。

具体实施方式

[0014] 下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0015] 如图1‑2,本实施例一种卷烟消费者的分析方法具体可以包括:
[0016] 步骤S101,获取海量卷烟消费数据,对数据进行预处理,通过数据清洗、数据集成操作,得到结构化的消费数据集,消费数据集包括卷烟价格敏感度、卷烟口味偏好类型、卷烟外观偏好风格、卷烟品牌忠诚度、购买卷烟频次,其中卷烟口味偏好类型包括烟叶含水率偏好值、烟气烟碱量偏好范围、烟气焦油量偏好区间属性。
[0017] 获取消费者的价格敏感度、品牌忠诚度及购买频次数据,采用K‑means聚类算法对消费者进行分群,得到不同消费群体的口味偏好特征向量;根据所述口味偏好特征向量,从卷烟外观偏好风格数据中提取颜色、纹理等视觉特征,采用支持向量机对外观风格进行分类;若支持向量机分类完成,则采用基于内容的推荐算法为每个消费群体生成个性化的外观风格和口味组合推荐列表;获取地理位置分布数据和季节性消费趋势,运用ARIMA时间序列分析方法对各地区卷烟销量进行预测;根据销量预测结果及促销活动响应度数据,构建随机森林模型量化促销活动对销量的非线性影响,通过特征重要性确定最优促销策略组合;将所述最优促销策略组合应用于个性化推荐列表,得到最终的卷烟产品销售方案。
[0018] 具体的,根据卷烟价格敏感度、品牌忠诚度、购买频次数据构建消费者画像模型,采用K‑means聚类算法对消费者进行分群,针对每个消费群体计算其烟叶含水率偏好值、烟气烟碱量偏好范围、烟气焦油量偏好区间的均值和方差,得到不同消费群体的口味偏好特征向量。利用价格弹性模型计算各消费群体的价格敏感度指数,将该指数作为特征加入口味偏好特征向量。从卷烟外观偏好风格数据中提取颜色、纹理等视觉特征,采用支持向量机对外观风格进行分类。结合消费者的购买历史记录,采用基于内容的推荐算法为每个消费群体生成个性化的外观风格和口味组合推荐列表。基于地理位置分布数据和季节性消费趋势,运用ARIMA时间序列分析方法对各地区卷烟销量进行预测。结合促销活动响应度数据,构建随机森林模型量化促销活动对销量的非线性影响,通过特征重要性确定最优促销策略组合。针对消费者群体特征和卷烟口味偏好类型,将烟叶含水率、烟气烟碱量、烟气焦油量等具体属性作为特征向量,输入到基于内容的推荐系统中。该系统输入消费者的人口统计学特征及历史购买数据,输出该消费者最可能偏好的卷烟口味类型和外观风格。根据推荐系统的预测结果,计算各类型卷烟的预期需求量,并与当前库存量比较,生成库存调整建议。
[0019] 构建消费者画像模型时,采用K‑means聚类算法对10万名消费者进行分群,设定聚类数为5,迭代次数为100,得到5个不同特征的消费群体。针对每个群体,计算烟叶含水率偏好值的均值和方差,如群体A的均值为13%,方差为0.5%;计算烟气烟碱量偏好范围,如群体B的范围为0.8mg‑1.2mg;计算烟气焦油量偏好区间,如群体C的区间为8mg‑10mg。利用价格弹性模型计算各群体的价格敏感度指数,如群体D的指数为‑1.5,表示对价格较为敏感。从卷烟外观偏好风格数据中提取颜色、纹理特征,使用支持向量机进行分类,设定核函数为RBF,惩罚参数C为1.0,得到如"传统经典"、"时尚轻奢"等风格类别。基于内容的推荐算法结合消费者购买历史,为每个群体生成推荐列表,如为群体E推荐含水率12%‑14%、烟碱量
0.9mg‑1.1mg、焦油量9mg‑11mg的"时尚轻奢"风格卷烟。使用ARIMA模型预测各地区卷烟销量,设定参数p=1,d=1,q=1,预测未来3个月的销量趋势。构建随机森林模型量化促销活动影响,设定树的数量为100,最大深度为10,特征重要性分析显示价格折扣对销量影响最大,权重为0.4。将烟叶含水率、烟气烟碱量、烟气焦油量等属性作为特征向量,输入到基于内容的推荐系统,该系统使用余弦相似度计算消费者偏好与产品特征的匹配度,阈值设为
0.8,输出匹配度大于阈值的卷烟类型。根据推荐系统预测结果,计算各类型卷烟预期需求量,如某品牌预期需求量为10万条,当前库存8万条,生成增加2万条库存的调整建议。
[0020] 步骤S102,根据消费数据集中的卷烟属性,对消费者进行聚类分群,将具有相似属性偏好的消费者划分为同一细分群体,所述卷烟属性包括卷烟价格敏感度、卷烟口味偏好类型、卷烟外观偏好风格、卷烟品牌忠诚度、购买卷烟频次。
[0021] 根据消费数据集中的各属性数据,进行标准化处理,得到标准化后的属性数据。采用主成分分析法对标准化后的属性数据进行降维处理,获取降维后的特征向量。使用轮廓系数法分析所述降维后的特征向量,确定最佳聚类数量。根据所述最佳聚类数量,对所述降维后的特征向量进行K‑means聚类分析,得到细分群体。针对所述细分群体,计算群体内各属性的平均值和标准差,构建群体特征描述矩阵。基于所述群体特征描述矩阵,采用决策树算法构建消费者分类模型,判断新增消费者所属的细分群体。若新增消费者数据存在缺失值,则采用多重插补法处理所述缺失值。将所述新增消费者数据输入所述消费者分类模型,通过比较属性值与决策节点的阈值,确定所述新增消费者所属的细分群体。
[0022] 具体的,根据消费数据集中的卷烟价格敏感度、口味偏好类型、外观偏好风格、品牌忠诚度、购买频次、烟叶含水率偏好、烟气烟碱量偏好、烟气焦油量偏好等属性,对所有属性进行标准化处理,确保各属性在后续分析中具有相同的权重。采用主成分分析法对标准化后的属性进行降维处理,通过计算特征值和特征向量,选择累计方差贡献率大于85%的主成分作为降维后的特征向量。利用局部异常因子算法识别并剔除异常值,提高数据质量。使用轮廓系数法确定最佳聚类数量,将该数量作为K‑means聚类算法的参数。对降维后的特征向量进行聚类分析,通过计算样本点到聚类中心的欧氏距离,将具有相似属性偏好的消费者划分为同一细分群体。针对每个细分群体,计算群体内各属性的平均值和标准差,构建群体特征描述矩阵。从矩阵中提取每个群体的显著特征,定义显著特征为属性值超过群体平均值一个标准差的特征,如高价格敏感度、强烈的薄荷口味偏好、对特定品牌的高忠诚度等。基于细分群体的特征描述矩阵,采用决策树算法构建消费者分类模型。使用多重插补法处理新增消费者数据中的缺失值,确保数据完整性。将处理后的新增消费者数据输入决策树,通过比较属性值与决策节点的阈值,将新消费者划分到最匹配的细分群体中。采用交叉验证法计算分类准确率,评估模型性能。对消费数据集中的卷烟属性进行标准化处理,将各属性值转换为均值为0、标准差为1的标准正态分布。采用主成分分析法进行降维,计算特征值和特征向量,选择前5个主成分作为降维后的特征向量,累计方差贡献率达到87.3%。使用局部异常因子算法,设定阈值为1.5,识别并剔除2.1%的异常值。通过计算不同聚类数量下的轮廓系数,确定最佳聚类数为6,轮廓系数为0.68。将聚类数6输入K‑means算法,对降维后的特征向量进行聚类分析,得到6个消费者细分群体。计算每个群体内各属性的平均值和标准差,构建6×8的群体特征描述矩阵。定义显著特征为属性值超过群体平均值一个标准差的特征,如群体1的价格敏感度为1.8,高于平均值1.2个标准差,群体2的薄荷口味偏好为
2.3,高于平均值1.5个标准差。基于特征描述矩阵,采用决策树算法构建消费者分类模型,树的深度设为4,最小叶节点样本数为50。使用多重插补法处理新增消费者数据中的缺失值,插补次数设为5,生成完整数据集。将新消费者数据输入决策树,通过比较属性值与决策节点的阈值,如价格敏感度>1.5则为左子树,否则为右子树,最终将新消费者划分到6个细分群体之一。采用5折交叉验证法计算分类准确率,得到平均准确率为85.7%,标准差为
2.1。
[0023] 步骤S103,针对聚类得到的各个消费者细分群体,分别构建该群体的卷烟属性关联图谱,学习各细分群体内部的卷烟属性在图谱中的低维向量表示,通过向量之间的距离度量不同属性之间的相关性。
[0024] 采用最大生成树算法构建卷烟属性关联图谱,通过计算属性之间的互信息值确定属性节点间的连接关系。根据所述卷烟属性关联图谱应用node2vec算法进行图嵌入,得到属性节点的低维向量表示。利用余弦相似度计算属性向量之间的距离,将距离值归一化到0到1之间,获取不同属性之间的相关性得分矩阵。若所述相关性得分矩阵已获取,则采用层次聚类算法对属性进行分组,得到属性关联簇。针对所述属性关联簇,使用t‑SNE算法将高维属性向量投影到二维平面,生成属性关系可视化图,所述属性关系可视化图用于展示不同卷烟属性之间的相关性强度和聚类结果。
[0025] 具体的,根据聚类得到的各个消费者细分群体数据,采用最大生成树算法构建每个群体的卷烟属性关联图谱,通过计算属性之间的互信息值确定属性节点间的连接关系。使用五折交叉验证确定最优互信息阈值,将互信息值高于该阈值的属性节点间建立边连接。对构建的卷烟属性关联图谱应用node2vec算法进行图嵌入,将图谱中的每个属性节点映射到低维向量空间。通过网格搜索确定最佳超参数,包括向量维度、窗口大小和游走长度,得到每个属性的低维向量表示。利用余弦相似度计算属性向量之间的距离,将计算得到的距离值归一化到0到1之间,得到不同属性之间的相关性得分矩阵。计算相关性得分的平均值和标准差,识别异常高或低的相关性。基于相关性得分矩阵,采用层次聚类算法对属性进行分组。使用轮廓系数确定最佳聚类数量,并通过设定最小簇大小来控制层次聚类的终止条件,形成属性关联簇。每个关联簇代表一组高度相关的卷烟属性。使用t‑SNE算法将高维属性向量投影到二维平面,生成属性关系可视化图,直观展示不同卷烟属性之间的相关性强度和聚类结果。对聚类得到的5个消费者细分群体,分别采用最大生成树算法构建卷烟属性关联图谱。计算12个卷烟属性之间的互信息值,通过五折交叉验证确定最优互信息阈值为0.3。以群体A为例,得到包含9个节点、8条边的属性关联图谱。应用node2vec算法进行图嵌入,通过网格搜索确定最佳超参数:向量维度为64、窗口大小为10、游走长度为80。得到
64维的属性向量表示,如价格敏感度属性向量为[0.21,‑0.15,...,0.33]。计算属性向量间的余弦相似度,得到12×12的相关性得分矩阵。矩阵中,价格敏感度与购买频次的相关性得分为0.82,表示高度相关。计算相关性得分的平均值为0.45,标准差为0.18,识别出3对异常高相关,如得分>0.81和2对异常低相关,如得分<0.09的属性对。采用层次聚类算法对属性分组,通过轮廓系数确定最佳聚类数为4,设定最小簇大小为2。得到4个属性关联簇,如{价格敏感度、购买频次、收入水平}为一个簇。使用t‑SNE算法将64维属性向量投影到二维平面,生成可视化图,直观呈现属性间的相对位置和聚类结果,如价格敏感度和购买频次在图中距离较近,均位于左上角区域。
[0026] 针对构建消费者细分群体的卷烟属性关联图谱,为每个细分群体定义其卷烟属性,每个属性作为图中的节点,属性之间的关系作为边。通过分析属性之间的距离,识别出属性组合的相关性,若两者属性之间距离较小,则两者属性之间的相关性较强。
[0027] 获取消费者细分群体的特征,根据特征定义每个群体卷烟属性集合;采用Neo4j图数据库存储卷烟属性集合的关联图谱,将所述卷烟属性集合中的每个属性作为图中的节点,属性之间的关系作为边;利用Node2Vec算法将属性关联图谱中的节点映射到低维向量空间,得到每个属性节点的向量表示;根据所述属性节点的向量表示计算属性向量之间的欧氏距离,构建距离矩阵;若所述距离矩阵中的距离小于预设的距离阈值,则判定为强相关属性;采用层次聚类算法对所述强相关属性进行分组,形成属性组合;通过Geph i软件对所述属性关联图谱进行可视化处理,生成所述属性关联图谱的可视化结果,其中节点大小表示属性的重要性,边的粗细表示属性间关系的强弱。
[0028] 具体的,根据消费者细分群体的特征,为每个群体定义特定的卷烟属性集合,采用Neo4j图数据库存储属性关联图谱,将每个属性作为图中的节点,属性之间的关系作为边,通过计算属性值的Pearson相关系数确定边的权重。利用Node2Vec算法将属性关联图谱中的节点映射到低维向量空间,通过五折交叉验证确定最佳的向量维度,得到每个属性节点的向量表示。计算属性向量之间的欧氏距离,构建距离矩阵,采用四分位距法确定距离阈值,将小于第一四分位数的距离判定为强相关。基于距离矩阵,采用层次聚类算法对属性进行分组,形成属性组合,通过计算不同聚类数量的轮廓系数确定最佳聚类数量,并设定最小簇大小为2来控制层次聚类的终止条件,得到最终的属性组合结果,每个组合代表一组相关性较强的卷烟属性。使用Geph i软件对构建的属性关联图谱进行可视化,生成图谱可视化结果,通过节点大小表示属性的重要性,边的粗细表示属性间关系的强弱,直观展示不同卷烟属性之间的关系强度和聚类结果。对于某个消费者细分群体,定义了10个特定的卷烟属性,包括价格敏感度、口味偏好等,使用Neo4j图数据库存储属性关联图谱。通过计算属性值的Pearson相关系数确定边的权重,如价格敏感度与购买频次的相关系数为0.75,表示强相关。应用Node2Vec算法进行图嵌入,通过五折交叉验证确定最佳向量维度为64,得到每个属性节点的64维向量表示。计算属性向量间的欧氏距离,构建10×10的距离矩阵。采用四分位距法确定距离阈值,第一四分位数为0.3,将小于0.3的距离判定为强相关。基于距离矩阵,使用Ward's方法进行层次聚类,通过计算不同聚类数量,2到8个的轮廓系数,确定最佳聚类数量为4,轮廓系数为0.68。设定最小簇大小为2,得到4个属性组合,如{价格敏感度、购买频次、收入水平}为一个组合。使用Geph i软件可视化属性关联图谱,节点大小按PageRank值设置,范围为10到50像素,边的粗细按相关系数设置,范围为1到5像素。可视化结果显示价格敏感度节点最大,如50像素,与购买频次的连接边最粗,如5像素,直观体现了属性间的关系强度和聚类结果。
[0029] 步骤S104,在各个细分群体的卷烟属性关联图谱的基础上,发现不同细分群体在卷烟属性偏好上的关联模式,得到高烟碱量偏好群体的烟叶含水率偏好、卷烟价格敏感度和外观偏好风格的关联规则,以及低焦油量偏好群体的烟气烟碱量偏好范围、口味偏好类型和品牌忠诚度的关联规则,形成具有代表性的消费者画像。
[0030] 采用Apr i or i算法提取高频属性组合,通过五折交叉验证获取最佳最小支持度阈值,所述最小支持度阈值用于筛选出现频率大于预设阈值的属性关联模式;根据高频属性组合,利用FP‑Growth算法分析属性组合间的关联关系,通过网格搜索确定最佳最小置信度和最小提升度阈值,所述最佳最小置信度和最小提升度阈值用于获取满足条件的强关联规则;针对高烟碱量偏好群体和低焦油量偏好群体,从所述强关联规则中提取特定属性组合的关联规则,所述特定属性组合的关联规则用于计算群体关联强度;将所述关联规则转化为群体特征向量,采用one‑hot编码得到二进制特征,所述二进制特征用于表示群体属性偏好;若二进制特征维度过高,则采用主成分分析对二进制特征进行降维,得到降维后的特征向量;采用K‑means算法对所述降维后的特征向量进行聚类,通过计算不同聚类数量的轮廓系数确定最佳聚类数量,所述最佳聚类数量用于形成具有代表性的消费者画像。
[0031] 具体的,针对各个细分群体的卷烟属性关联图谱,采用Apr i or i算法提取高频属性组合,通过五折交叉验证确定最佳最小支持度阈值,筛选出出现频率较高的属性关联模式。利用FP‑Growth算法分析高频属性组合间的关联关系,通过网格搜索确定最佳最小置信度和最小提升度阈值,获取满足条件的强关联规则。根据挖掘得到的关联规则,针对高烟碱量偏好群体和低焦油量偏好群体,提取其特定属性组合的关联规则,使用条件概率计算这两个群体特定属性组合的关联强度。将关联规则转化为群体特征向量,采用one‑hot编码将规则转化为二进制特征。基于群体特征向量,使用主成分分析对高维特征进行降维,保留解释方差比例超过85%的主成分。采用K‑means算法对降维后的特征进行聚类,通过计算不同聚类数量的轮廓系数确定最佳聚类数量,形成具有代表性的消费者画像。使用雷达图可视化工具生成画像雷达图,选取主成分贡献最大的属性作为雷达图的维度,直观展示不同群体的属性偏好特征。
[0032] 针对某卷烟消费者群体的属性关联图谱,应用Apr i or i算法提取高频属性组合,通过五折交叉验证确定最佳最小支持度阈值为0.15,筛选出87个高频属性组合。随后使用FP‑Growth算法分析这些组合间的关联关系,网格搜索得出最佳最小置信度为0.6和最小提升度为1.2,获取了53条强关联规则。对于高烟碱量偏好群体,提取出"烟叶含水率12‑14%→卷烟价格敏感度低"的规则,条件概率为0.78;低焦油量偏好群体中发现"烟气烟碱量0.6‑0.8mg→清淡口味偏好"的规则,关联强度为0.85。将这些规则通过one‑hot编码转化为200维二进制特征向量。采用主成分分析对特征进行降维,保留前8个主成分,累计解释方差比例达到87%。使用K‑means算法对降维后的特征进行聚类,计算聚类数量2到10的轮廓系数,确定最佳聚类数为5,轮廓系数为0.68。最后,选取贡献最大的6个主成分对应的原始属性,如价格敏感度、烟碱量偏好等,作为雷达图维度,生成5个群体的消费者画像雷达图,直观展示了各群体在这6个维度上的特征分布。
[0033] 根据卷烟价格、烟叶含水率、烟气烟碱量、口味类型、外观风格属性偏好数据,对不同量纲的属性数据进行归一化处理,将属性数据映射到同一尺度空间,对高烟碱量偏好群体和低焦油量偏好群体的样本进行重采样,平衡不同细分群体的样本量,通过设置不同的支持度和置信度阈值,适应不同群体的关联模式特点。
[0034] 针对卷烟属性数据,采用最小‑最大规范化方法进行归一化处理,得到标准化后的属性数据集。根据标准化后的属性数据集,利用SMOTE算法对高烟碱量偏好群体和低焦油量偏好群体的样本进行重采样,生成平衡后的样本数据集。若获取所述平衡后的样本数据集,则对其应用Apr i or i算法进行关联规则挖掘,通过网格搜索方法设置支持度和置信度阈值组合。从关联规则挖掘结果中,计算各规则的提升度,判断是否大于预设阈值。如果规则提升度大于预设阈值,则筛选该规则作为有效关联模式。针对筛选出的有效关联模式,采用十折交叉验证评估其稳定性和泛化能力,确定在验证集上表现稳定的规则。
[0035] 具体的,针对卷烟价格、烟叶含水率、烟气烟碱量、口味类型、外观风格等属性数据,采用最小‑最大规范化方法进行归一化处理,将不同量纲的属性数据映射到0到1的统一区间,得到标准化后的属性数据集。根据标准化后的属性数据,利用SMOTE算法对高烟碱量偏好群体和低焦油量偏好群体的样本进行重采样,通过生成合成样本的方式,使两个群体的样本数量达到平衡。平衡后的样本数量设定为较大群体样本数的1.5倍,得到平衡后的样本数据集。对平衡后的样本数据集应用Apr i or i算法进行关联规则挖掘,通过网格搜索方法设置不同的支持度和置信度阈值组合。支持度阈值范围设置为0.1到0.5,步长为0.1;置信度阈值范围设置为0.5到0.9,步长为0.1。针对高烟碱量偏好群体和低焦油量偏好群体分别进行关联规则挖掘,比较不同群体的规则数量、平均置信度等指标,适应不同群体的关联模式特点。基于挖掘得到的关联规则,计算各规则的提升度,筛选出提升度大于1的规则作为有效关联模式。对于可能存在的矛盾规则,使用规则置信度作为权重进行规则合并,形成高烟碱量偏好群体和低焦油量偏好群体的特征关联规则集。采用十折交叉验证评估关联规则的稳定性和泛化能力,保留在验证集上表现稳定的规则。对卷烟属性数据进行处理时,首先采用最小‑最大规范化方法将卷烟价格从50‑200元区间映射到0‑1区间,烟叶含水率从
10%‑18%映射到0‑1,烟气烟碱量从0.5‑1.5mg映射到0‑1。随后使用SMOTE算法对高烟碱量偏好群体,原样本量5000,和低焦油量偏好群体,原样本量3000,进行重采样,将两组样本数量均调整至7500。对平衡后的样本应用Apr i or i算法进行关联规则挖掘,通过网格搜索设置支持度阈值(0.1,0.2,0.3,0.4,0.5)和置信度阈值(0.5,0.6,0.7,0.8,0.9),共25种组合。高烟碱量偏好群体在支持度0.2、置信度0.7时获得最优规则集,包含87条规则,平均置信度0.82;低焦油量偏好群体在支持度0.3、置信度0.8时获得最优规则集,包含62条规则,平均置信度0.89。计算规则提升度,筛选提升度大于1的规则,高烟碱量偏好群体保留73条规则,低焦油量偏好群体保留58条。对矛盾规则,如"高价格→高品质",置信度0.8,和"高价格→低品质",置信度0.6,采用置信度加权合并得到"高价格→高品质",加权置信度0.71。
通过十折交叉验证,保留在验证集上置信度波动小于10%的规则,最终高烟碱量偏好群体保留65条规则,低焦油量偏好群体保留52条规则。这些规则构成了两个群体的特征关联规则集,反映了不同消费群体的偏好特征。
[0036] 步骤S105,根据高烟碱量偏好群体和低焦油量偏好群体的关联规则,进行关联规则的优化组合,通过平衡不同属性之间的关系,以及兼顾细分群体内部消费者偏好的最优关联组合,得到细分群体画像模型。
[0037] 采用加权平均法计算规则权重,其中支持度、置信度和提升度分别赋予预设比例的权重,得到加权后的关联规则集。根据所述加权后的关联规则集,利用邻接矩阵表示法构建关联规则网络,将属性作为节点,规则作为边,边的权重设置为对应规则的综合权重。对所述关联规则网络应用Louvai n算法进行社区发现,通过调整分辨率参数以及步长,选择模块度最大的社区划分结果,识别出紧密关联的属性簇。若识别出属性簇,则采用one‑hot编码将每个属性簇转化为二进制特征向量,结合原始的人口统计学特征,构建细分群体的多维特征向量。针对所述多维特征向量,使用敏感度分析方法,通过逐一改变各属性值并观察对最终画像的影响程度,确定各属性在画像模型中的重要性权重。根据敏感度分析结果,对特征向量中的各属性赋予不同权重,形成加权特征向量。采用轮廓系数评估画像模型的聚类效果,通过比较不同权重组合下的轮廓系数,选择最优的权重配置,得到细分群体画像模型。
[0038] 具体的,针对高烟碱量偏好群体和低焦油量偏好群体的关联规则,采用加权平均法计算规则权重,将支持度、置信度和提升度分别赋予0.3、0.4和0.3的权重,综合计算每条规则的权重,得到加权后的关联规则集。利用邻接矩阵表示法构建关联规则网络,将属性作为节点,规则作为边,边的权重设置为对应规则的综合权重,生成规则网络图。对构建的规则网络图应用Louvai n算法进行社区发现,通过调整分辨率参数从0.5到2.0,步长为0.1,选择模块度最大的社区划分结果,识别出紧密关联的属性簇,每个属性簇代表一组相互关联的卷烟属性偏好特征。基于识别出的属性簇,采用one‑hot编码将每个属性簇转化为二进制特征向量,结合原始的人口统计学特征,构建细分群体的多维特征向量。使用敏感度分析方法,通过逐一改变各属性值并观察对最终画像的影响程度,确定各属性在画像模型中的重要性权重。根据敏感度分析结果,对特征向量中的各属性赋予不同权重,形成加权特征向量。采用轮廓系数评估画像模型的聚类效果,通过比较不同权重组合下的轮廓系数,选择最优的权重配置,最终形成细分群体画像模型。
[0039] 对高烟碱量偏好群体的100条关联规则和低焦油量偏好群体的80条关联规则进行加权平均计算,例如规则"高烟碱量→强烈口感"的支持度0.3、置信度0.8、提升度1.5,经加权得到综合权重0.87。使用10×10的邻接矩阵表示规则网络,其中矩阵元素a[i][j]表示属性i到属性j的规则权重,如a[高烟碱量][强烈口感]=0.87。应用Louva i n算法进行社区发现,设置分辨率参数从0.5到2.0,步长0.1,共计16次迭代,在分辨率1.3时获得最大模块度
[0040] 0.68,识别出5个属性簇。将属性簇转化为25维二进制特征向量,如簇1[1,0,1,1,0]表示该簇包含第1、3、4号属性。结合年龄、收入等5个人口统计学特征,构建30维特征向量。进行敏感度分析,如将烟碱量偏好提高10%,画像相似度变化5%,据此赋予权重0.5;价格敏感度提高10%,相似度变化3%,赋予权重0.3。使用这些权重对30维特征向量进行加权,得到加权特征向量。计算不同权重组合下的轮廓系数,最优组合得到轮廓系数0.72,据此确定最终的细分群体画像模型。
[0041] 步骤S106,将细分群体画像模型应用到实际的卷烟产品研发和营销决策中,通过画像模型预测高烟碱量偏好群体和低焦油量偏好群体对新产品属性组合的偏好,并结合不同偏好群体的人口统计学属性分布,制定产品配方调整和营销推广策略。
[0042] 获取卷烟产品各属性的重要性权重,所述重要性权重由画像模型中属性重要性确定;根据所述重要性权重构建卷烟产品属性评分函数,所述评分函数采用加权求和方式综合各属性得分;将新产品的各项属性数值输入所述评分函数,得到目标群体对新产品的偏好得分;采用所述偏好得分作为依变量,产品属性作为自变量,构建多元线性回归模型;若方差膨胀因子大于预设阈值,则对相应变量进行正则化处理;根据所述多元线性回归模型的回归系数,确定不同属性对偏好得分的影响程度;采用网格搜索方法优化产品配方,所述网格搜索方法以最大化目标群体偏好得分为优化目标,得到最优的产品属性组合;获取目标群体的人口统计学属性分布,将最优产品属性组合和目标群体特征作为输入,使用决策树算法构建营销策略决策模型;根据所述决策树算法的输出结果,确定针对性的营销推广策略建议;针对所述营销推广策略建议进行敏感性分析,判断不同属性变化对最终决策的影响程度。
[0043] 具体的,根据细分群体画像模型,构建卷烟产品属性评分函数,采用加权求和方式综合各属性得分,权重根据画像模型中属性重要性确定。将新产品的各项属性数值输入评分函数,得到高烟碱量偏好群体和低焦油量偏好群体对新产品的偏好得分。利用偏好得分作为依变量,产品属性作为自变量,构建多元线性回归模型。在构建过程中,使用方差膨胀因子检测多重共线性,对VI F大于10的变量进行正则化处理。通过回归系数分析不同属性对偏好得分的影响程度,识别关键影响因素。基于回归模型的结果,采用网格搜索方法优化产品配方,设定属性取值范围作为约束条件,以最大化目标群体偏好得分为优化目标,得到最优的产品属性组合。使用五折交叉验证评估模型稳定性,选择平均预测误差最小的模型。结合不同偏好群体的人口统计学属性分布,使用决策树算法构建营销策略决策模型,将最优产品属性组合和目标群体特征作为输入,输出针对性的营销推广策略建议。设定决策规则将决策树结果转化为具体营销策略,如"若年龄段为25‑35岁,则采用社交媒体推广"。进行敏感性分析,评估不同属性变化对最终决策的影响程度,识别关键决策因素。
[0044] 构建卷烟产品属性评分函数时,将烟碱量、焦油量、含水率、价格四个属性的权重分别设为0.3、0.25、0.25、0.2,对高烟碱量偏好群体的新产品进行评分,得到偏好得分0.85。利用这些得分构建多元线性回归模型,计算方差膨胀因子发现焦油量和烟碱量的VI F值分别为12和15,超过阈值10,对这两个变量应用岭回归进行正则化处理。回归分析结果显示烟碱量对偏好得分的影响系数最大,为0.6。采用网格搜索方法优化产品配方,设定烟碱量范围0.8‑1.2mg,焦油量6‑10mg,含水率12‑16%,价格50‑100元,步长分别为0.1mg、
1mg、1%、10元,得到最优组合:烟碱量1.1mg,焦油量8mg,含水率14%,价格80元。使用五折交叉验证评估模型,平均预测误差为0.03。构建决策树营销策略模型,输入最优产品属性和目标群体年龄25‑35岁、月收入8000‑12000元等特征,输出策略建议"采用社交媒体推广,强调产品口感特点"。敏感性分析显示,烟碱量变化1%导致决策变化概率为5%,是影响最大的因素。
[0045] 上述实施例仅为本发明的优选实施方式之一,不应当用于限制本发明的保护范围,但凡在本发明的主体设计思想和精神上做出的毫无实质意义的改动或润色,其所解决的技术问题仍然与本发明一致的,均应当包含在本发明的保护范围之内。

当前第1页 第1页 第2页 第3页