技术领域
[0001] 本发明涉及大数据分析技术领域,更具体的涉及差异性数据获取方法及装置。
相关背景技术
[0002] 近年来,随着互联网的高速发展,互联网的广告市场规模也在不断扩大,特别是大数据时代的到来,大大提升了对用户的信息收集和分析能力。在大数据的环境下,互联网的广告具有可测量性和效果可跟踪性,使得分析不同人群的行为和偏好成为一种可能,从而可以为不同人群提供个性化广告,提高了广告转化率,使得网络精准广告营销越来越受到人们的关注。
[0003] 现有技术中主要采用TGI(Target Group Index,目标群体指数)指数分析方法来分析不同人群的行为和偏好,例如有a人群和b人群,包含用户数量都是20000,a人群中关注汽车的用户有4个,b人群中关注汽车的用户有1个,通过采用TGI指数分析方法可以获得a人群的目标群体指数(TGI)为160,b人群的目标群体指数(TGI)为40,从而得出结论:a人群和b人群在对汽车这一指标的关注上差异较明显,可以加大对a人群汽车广告的投入。但在总体用户数是20000的情况下,1个或4个用户产生的对比结果显然并不能准确说明a人群和b人群的整体情况。
[0004] 可见,现有技术中用于分析不同人群的行为和偏好的方法所确定出的指标所对应的差异性数据,可能并不是能够准确体现出不同人群之间的差异性的差异性数据,在为不同人群提供个性化广告时,可能会提供错误的参考导致误投入个性化广告,从而降低了广告转化率。
具体实施方式
[0047] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0048] 请参阅图1,为本申请实施例提供的一种差异性数据获取方法的流程示意图,该方法包括:
[0049] 步骤S101:确定两个人群相应的属性信息以及所述两个人群所关注的至少一个指标。
[0050] 其中,所述每一人群相应的属性信息包括该人群的用户总数量、该人群中关注所述至少一个指标相应的目标用户数量。
[0051] 本申请实施例提供但不限于以下两个人群的划分方式:
[0052] 可以将网络用户划分为不同的人群,例如可以依据年龄划分,比如需要投放关于大学生产品的广告,则可以将18岁至25岁作为大学生人群,其他年龄作为非大学生人群。可以将大学生人群和非大学生人群作为本申请实施例中的两个人群。
[0053] 对于某一广告投放商来讲,其投放的广告可能是汽车广告,可以依据网络用户是否在与汽车有关的网站上进行注册,来划分人群,例如在与汽车有关的网站上进行注册作为汽车人群,未在与汽车有关的网站上进行注册作为非汽车人群,可以将汽车人群和非汽车人群作为本申请实施例中的两个人群。
[0054] 指标可以为数值型指标和/或计数型指标和/或分布型指标,其中:
[0055] 数值型指标包括:平均会话时长、平均页面浏览数等。
[0056] 计数型指标包括:关注汽车的用户数、关注书籍阅读的用户数、地点位于北京的用户数、搜索竞品词的用户数。
[0057] 分布性指标包括:人群在不同城市的分布。
[0058] 本申请实施例中的两个人群的确定方式可以包含多种,在此不做具体限定。
[0059] 指标的获取方式有多种,本申请实施例提供但不限于以下几种:
[0060] 第一种,利用cookie。
[0061] Cookie是指网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据。广告投放商可以依据cookie来检测网络用户浏览了哪些信息,例如汽车信息、化妆品信息、衣服信息等等,可以通过这些信息确定指标,例如汽车指标、化妆品指标、衣服指标等等。
[0062] 第二种,利用网络用户的账号信息。
[0063] 利用网络用户的账号信息,例如邮箱、手机号、身份证号等信息,获得网络用户在登录这些账号后,浏览的信息,从而确定指标。
[0064] 第三种,利用MAC地址。
[0065] MAC地址集成在网卡里,通过MAC地址可以唯一标识一台设备,可以通过MAC地址,确定网络用户浏览了哪些信息,从而确定指标。
[0066] 步骤S102:依据所述两个人群相应的属性信息,从所述至少一个指标中筛选出能够表征所述两个人群的差异性的至少一个参考指标。
[0067] 本申请实施例中将至少一个指标中能够表征所述两个人群的差异性的指标称为参考指标。
[0068] 仍以a人群和b人群为例,且包含用户数量都是20000,a人群中关注汽车的用户有4个,b人群中关注汽车的用户有1个,由于1个或4个用户产生的对比结果显然并不能准确说明a人群和b人群的整体情况,因此汽车指标不是能够表征所述两个人群的差异性的参考指标。
[0069] 假设a人群中关注化妆品的用户有5000个;b人群中关注化妆品的用户有2600个,由于5000个或2600个用户产生的对比结果显然能准确说明a人群和b人群的整体情况,因此化妆品指标是能够表征所述两个人群的差异性的参考指标。
[0070] 从所述至少一个指标中筛选出能够表征所述两个人群的差异性的至少一个参考指标的方法有多种,本申请实施例提供但不限于以下方法:
[0071] 计算每一人群关注至少一个指标相应的目标用户数量,与相应人群的用户总数量的比值;从所述至少一个指标中筛选出,相应比值大于等于预设值的至少一个参考指标。
[0072] 步骤S103:获取每个所述人群中关注所述至少一个参考指标相应的目标群体指数。
[0073] 假设将本申请实施例中两个人群称为第一人群和第二人群,将第一人群中关注参考指标的目标用户数量称为变量A,将第二人群中关注同一参考指标的目标用户数量称为变量B;将第一人群的用户总数量称为变量C,将第二人群的用户总数量称为变量D;则第一人群中每一参考指标的目标群体指数TGI计算公式如下:
[0074] 第二人群中每一参考指标的目标群体指数TGI计算公式如下:
[0075]
[0076] 步骤S104:基于每个所述人群中关注的所述至少一个参考指标相应的目标群体指数,获取体现所述两个人群之间的差异性的至少一个差异性数据。
[0077] 可选的,差异性数据为两个人群关注的相应参考指标的目标群体指数的差值。
[0078] 本申请实施例提供的一种差异性数据获取方法实施例中,首先确定两个人群相应的属性信息,再依据所述两个人群相应的属性信息,从所述至少一个指标中筛选出能够表征所述两个人群的差异性的至少一个参考指标。即至少一个参考指标可以体现两个人群之间的差异性。因此可以获取每个所述人群中关注所述至少一个参考指标相应的目标群体指数,再基于每个所述人群中关注的所述至少一个参考指标相应的目标群体指数,获取体现所述两个人群之间的差异性的至少一个差异性数据。从而避免了在为不同人群提供个性化广告时,误投入个性化广告的情况,提高了广告转化率。
[0079] 请参阅图2,为本申请实施例提供的一种差异性数据获取方法中的排序方法的流程示意图,该方法包括:
[0080] 步骤S201:依据所述至少一个参考指标相应的目标群体指数的差值对所述至少一个参考指标进行排序。
[0081] 对于每一参考指标,由于每个人群对于该参考指标都有一目标群体指数,所以对于每一参考指标,可以计算两个人群相对于该参考指标的目标群体指数的差值。
[0082] 步骤S202:依据排序结果从所述至少一个参考指标中筛选出满足预设排序条件的参考指标。
[0083] 预设排序条件可以包括:相应差值大于等于预设差值;或排序结果的前M个参考指标(以差值降序排序的话),M为大于等于1的正整数。
[0084] 请参阅图3,为本申请实施例提供的一种差异性数据获取方法中依据所述两个人群相应的属性信息,从所述至少一个指标中筛选出能够表征所述两个人群的差异性的至少一个参考指标的一种实现方法的流程示意图,该方法包括:
[0085] 步骤S301:依据所述两个人群相应的属性信息,计算所述至少一个指标相应的概率,其中,每一指标相应的概率用于表征所述两个人群在该指标上具有差异性的可能性。
[0086] 步骤S302:从所述至少一个指标中筛选出概率大于等于预设阈值的至少一个参考指标。
[0087] 请参阅图4,为本申请实施例提供的一种差异性数据获取方法中依据所述两个人群相应的属性信息,计算所述至少一个指标相应的概率的一种实现方式的方法流程图,该方法包括:
[0088] 步骤S401:确定与所述至少一个指标相匹配的概率分布的类型。
[0089] 预先设置所述至少一个指标相应的置信水平,每一指标相应的置信水平用于表征该指标能够体现所述两个人群具有差异性的可能性。
[0090] 本申请实施例中置信水平是指特定个体(例如指标)对待特定命题(例如将指标能够体现两个人群具有差异性作为特定命题)真实性相信的程度。置信水平是指总体参数值落在样本统计值某一区内的概率,一般用1-α表示;而置信区间是指在某一置信水平下,样本统计值与总体参数值间误差范围。置信区间越大,置信水平越高。
[0091] 本申请实施例中置信水平可以为…90%,…,95%、96%、97%...,总之,置信水平设置的越大,说明相信该指标能够体现所述两个人群具有差异性的可能性越大。
[0092] 步骤S402:依据两个人群相应的属性信息,计算所述至少一个指标在所述概率分布下的统计量,每一指标相应的统计量用于表征该指标相应的置信水平的单侧置信上限。
[0093] 统计量是统计理论中用来对数据进行分析、检验的变量,不同概率分布的统计量的计算公式不同,例如正太分布的统计量计算公式如下: 其中δ为方差,n为变量的维度, 为标准化变量;μ0为期望。
[0094] 又如卡方分布,假设第一人群和第二人群关注指标的情况如表1。
[0095] 表1第一人群和第二人群关注指标的情况
[0096]
[0097] 则卡方分布的统计量的计算公式如下:
[0098]
[0099] 步骤S403:确定所述至少一个指标在所述概率分布下的概率密度函数。
[0100] 不同的概率分布对应的概率密度函数不同。
[0101] 例如正太分布的概率密度函数为:
[0102] 卡方分布的概率密度函数为:
[0103] 步骤S404:依据所述至少一个指标相应的概率密度函数以及该指标相应的统计量,计算该指标相应的累计概率。
[0104] 以卡方分布为例,累计概率
[0105] 以卡方分布为例对上述方法进行说明。假设第一人群和第二人群的用户总数量分别都是20000,第一人群中关注汽车的用户数为2611,第二人群中关注汽车的用户数为3184。
[0106] 假设汽车指标能够体现两个人群具有差异性,且该假设的置信水平为97%(概率分布不同,置信水平可以相同,两者之间没有关联)。
[0107] 建立第一人群和第二人群相对于汽车指标数据的列联表。
[0108] 表2第一人群和第二人群相对于汽车指标数据的关系表
[0109]
[0110] 计算汽车指标的卡方值:
[0111]
[0112] 第一人群和第二人群相对于汽车指标数据的关系表中的具有浅色横线底纹的数字部分为列联表。
[0113] 依据χ2值以及所述两个人群相应的自由度,确定相应指标能够体现两个人群具有差异性的累计概率。
[0114] 自由度=(r-1)×(c-1),r为列联表的行数,c为列联表的列数,所以r=c=2,因此自由度为1。
[0115] 仍以表2为例,则该指标的累计概率为1-4.44×10-16,显然大于97%,因此该汽车指标能够体现两个人群具有差异性的假设是正确的。
[0116] 仍以表2为例,则第一人群的目标群体指数TGI1计算公式如下:
[0117]
[0118] 则第二人群的目标群体指数TGI2计算公式如下:
[0119]
[0120] 汽车指标的目标群体指数差值=|109.89-90.11|=19.78。
[0121] 再假设第一人群和第二人群关注小说的用户数分别为122和484,按照上述计算方法,得到小说指标的累计概率接近100%;对于小说指标第一人群的TGI指数为40.26,第二人群的TGI指数为159.74。说明第一人群和第二人群在关注小说指标存在显著性差异,小说指标的目标群体指数差值为119.48。
[0122] 最后用同样方法计算a人群和b人群关注汽车的人群,a人群中关注汽车的用户有4个,b人群中关注汽车的用户有1个,对于a人群和b人群而言,汽车指标的累计概率为82%,假设置信水平为95%,则汽车指标显然不能体现a人群和b人群的差异性。
[0123] 本申请实施例还提供了与上述差异性数据获取方法相应的差异性数据获取装置,下面将详细对差异性数据获取装置中的各个模块进行介绍。对各个模块的详细解释请参照差异性数据获取方法中对相应步骤的解释,在这里不再进行赘述。
[0124] 请参阅图5,为本申请实施例提供的一种差异性数据获取装置的结构示意图,该装置包括:第一确定模块51、第一筛选模块52、第一获取模块53以及第二获取模块54,其中:
[0125] 第一确定模块51,用于确定两个人群相应的属性信息以及所述两个人群所关注的至少一个指标,其中,所述每一人群相应的属性信息包括该人群的用户总数量、该人群中关注所述至少一个指标相应的目标用户数量;
[0126] 第一筛选模块52,用于依据所述两个人群相应的属性信息,从所述至少一个指标中筛选出能够表征所述两个人群的差异性的至少一个参考指标;
[0127] 第一获取模块53,用于获取每个所述人群中关注所述至少一个参考指标相应的目标群体指数;
[0128] 第二获取模块54,用于基于每个所述人群中关注的所述至少一个参考指标相应的目标群体指数,获取体现所述两个人群之间的差异性的至少一个差异性数据。
[0129] 可选的,所述差异性数据为所述两个人群关注的相应参考指标的目标群体指数的差值。
[0130] 可选的,上述差异性数据获取装置实施例还可以包括:
[0131] 排序模块,用于依据所述至少一个参考指标相应的目标群体指数的差值对所述至少一个参考指标进行排序;
[0132] 第二筛选模块,用于依据排序结果从所述至少一个参考指标中筛选出满足预设排序条件的参考指标。
[0133] 可选的,上述任一差异性数据获取装置实施例中的第一筛选模块包括:
[0134] 计算单元,用于依据所述两个人群相应的属性信息,计算所述至少一个指标相应的概率,其中,每一指标相应的概率用于表征所述两个人群在该指标上具有差异性的可能性;
[0135] 筛选单元,用于从所述至少一个指标中筛选出概率大于等于预设阈值的至少一个参考指标。
[0136] 可选的,预先设置所述至少一个指标相应的置信水平,每一指标相应的置信水平用于表征该指标能够体现所述两个人群具有差异性的可能性;计算单元包括:
[0137] 第一确定子单元,用于确定与所述至少一个指标相匹配的概率分布的类型;
[0138] 第一计算子单元,用于依据两个人群相应的属性信息,计算所述至少一个指标在所述概率分布下的统计量,每一指标相应的统计量用于表征该指标相应的置信水平的单侧置信上限;
[0139] 第二确定子单元,用于确定所述至少一个指标在所述概率分布下的概率密度函数;
[0140] 第二计算子单元,用于依据所述至少一个指标相应的概率密度函数以及该指标相应的统计量,计算该指标相应的累计概率。
[0141] 可选的,筛选单元,包括:
[0142] 第三确定子单元,用于将所述至少一个指标相应的置信水平作为预设阈值,并将该指标相应的累计概率作为该指标相应的概率;
[0143] 筛选子单元,用于从所述至少一个指标中筛选出累计概率大于等于相应置信水平的至少一个参考指标。
[0144] 上述差异性数据获取装置包括处理器和存储器,上述第一确定模块51、第一筛选模块52、第一获取模块53以及第二获取模块54等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
[0145] 处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来判断指标数据是否为可以体现两个人群的差异性的差异性数据。
[0146] 存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
[0147] 本申请实施例提供的差异性数据获取装置中,首先第一确定模块51确定两个人群相应的属性信息,再由第一筛选模块52依据所述两个人群相应的属性信息,从所述至少一个指标中筛选出能够表征所述两个人群的差异性的至少一个参考指标。即至少一个参考指标可以体现两个人群之间的差异性。因此第一获取模块53可以获取每个所述人群中关注所述至少一个参考指标相应的目标群体指数,再由第二获取模块54基于每个所述人群中关注的所述至少一个参考指标相应的目标群体指数,获取体现所述两个人群之间的差异性的至少一个差异性数据。从而避免了在为不同人群提供个性化广告时,误投入个性化广告的情况,从而提高了广告转化率。
[0148] 本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:
[0149] 确定两个人群相应的属性信息以及所述两个人群所关注的至少一个指标,其中,所述每一人群相应的属性信息包括该人群的用户总数量、该人群中关注所述至少一个指标相应的目标用户数量;
[0150] 依据所述两个人群相应的属性信息,从所述至少一个指标中筛选出能够表征所述两个人群的差异性的至少一个参考指标;
[0151] 获取每个所述人群中关注所述至少一个参考指标相应的目标群体指数;
[0152] 基于每个所述人群中关注的所述至少一个参考指标相应的目标群体指数,获取体现所述两个人群之间的差异性的至少一个差异性数据。
[0153] 本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0154] 本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0155] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0156] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0157] 在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
[0158] 存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
[0159] 计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0160] 以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。