首页 / 数据处理方法及装置、非易失性存储介质、电子设备

数据处理方法及装置、非易失性存储介质、电子设备实质审查 发明

技术领域

[0001] 本申请涉及大数据技术领域,具体而言,涉及一种数据处理方法及装置、非易失性存储介质、电子设备。

相关背景技术

[0002] 在传统的金融机构经营和客户关系管理中,经营人员需要依赖人工方式收集和分析企业客户的地理位置数据,然后结合企业基本信息、交易历史以及市场情报,进行商机的识别的制定。这一过程不仅效率低下,而且在准确性、实时性和地域覆盖度上存在明显局限。具体而言,相关技术无法通过获取目标设备的地理位置信息,结合用户自定义的筛选范围,自动识别出目标区域内的企业实体和商机信息,导致金融机构的经营人员的工作效率较低。
[0003] 针对上述的问题,目前尚未提出有效的解决方案。

具体实施方式

[0024] 为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0025] 需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0026] 根据本申请实施例,提供了一种数据处理方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0027] 图1是根据本申请实施例的一种数据处理方法的流程图,如图1所示,该方法包括如下步骤:
[0028] 步骤S102,采集企业相关数据以及商机信息。
[0029] 利用数据集成接口或爬虫技术从银行内部系统采集企业客户数据,包括基本信息、交易流水、账户状态等。从外部数据供应商,如中数智汇、启信宝、万得金融终端等,通过API接口或数据订阅服务,获取企业地理位置、信用评估、法人信息、知识产权等数据。设计多源数据采集模块,实时从新闻、企业公告、等渠道捕获商机信息。
[0030] 步骤S104,在企业相关数据中识别企业实体,并建立企业实体索引库,其中,企业实体索引库中存储有企业实体以及企业实体对应的标识信息。
[0031] 应用自然语言处理和实体识别技术,从收集到的企业数据中提取企业实体信息,如企业名称、法定代表人、注册地址等。实施实体去重逻辑,通过比较企业名称、企业ID、注册地址等关键字段,排除重复的企业实体记录,确保每个实体在索引库中的唯一性。对每一个企业实体分配一个唯一的标识符,如企业ID或UUID,作为企业实体的主键,确保在数据库中能够唯一识别每一个实体。选择合适的数据存储技术,如关系型数据库(如MySQL、PostgreSQL)、NoSQL数据库(如MongoDB)、或图数据库(如Neo4j、JanusGraph),以支持企业实体信息的存储和查询。将企业实体信息和唯一标识符存储到索引库中,对于每个企业实体,应存储其基本信息(如名称、类型、地址、联系方式等)和标识符关联信息。实施数据索引策略,如全文索引、地理空间索引、倒排索引等,以提高数据检索的效率和速度。
[0032] 步骤S106,根据企业实体索引库,构建企业关系图谱,其中,企业关系图谱中的节点为企业实体,边为企业实体之间的关联关系。
[0033] 采用规则匹配和机器学习模型相结合的方式,从企业实体索引库中抽取企业间的关联关系,如股权关系、合作关系、竞争关系等。为每种关系类型定义明确的规则和模型,确保关系抽取的准确性和全面性。使用图数据库技术(如Neo4j)构建企业关系图谱,将企业实体作为节点,关联关系作为边,赋予节点和边以属性。其中,图数据库的使用保证了数据的高效存储和快速查询,支持复杂的关系查询和分析。
[0034] 步骤S108,获取目标设备的地理位置信息,接收目标设备输入的筛选范围,根据地理位置信息以及筛选范围,确定目标区域。
[0035] 与地理信息服务合作,通过API获取目标设备(如客户经理的移动设备)的实时地理位置信息(经纬度);确保地理位置信息的准确性和实时性,以便快速响应地理位置的变更。
[0036] 在京客图谱的用户界面中设计筛选范围输入功能,允许用户自定义筛选范围,如5km、20km、>20km等;根据用户输入的筛选范围和获取的地理位置信息,确定一个圆形目标区域,其半径由用户定义,中心为目标设备的地理位置。
[0037] 步骤S110,在商机信息中筛选企业实体的位置在目标区域内的目标商机信息,展示目标商机信息以及展示目标商机信息中的目标企业实体的企业关系图谱。
[0038] 根据目标区域的定义,从商机信息数据库中筛选出企业实体位置在目标区域内的商机信息,支持多维度筛选,如企业类型(上市公司、国有企业等)、商机类别(存款商机、贷款商机、开户商机等),以满足不同经营需求;在用户界面上展示筛选出的目标商机信息,包括商机详情、企业名称、距离等关键信息,便于用户快速了解和做出决策,提供详细商机查询功能,用户可以查看特定商机的详细信息,如项目名称、需求详情、预算范围、时间规划等;在展示目标商机信息的同时,显示目标企业实体的企业关系图谱,采用直观的图形界面,显示企业节点和关系边,用户可以点击企业节点查看具体的企业信息,如名称、注册资本、上市信息等,以及与该企业相关的图谱关系,如股权结构、合作伙伴、竞争对手等,提供企业关系图谱的交互功能,如缩放、平移、节点信息弹窗,帮助用户深入理解和分析企业间的复杂关系。
[0039] 根据上述步骤,通过构建一个综合性的数字化经营和客户管理平台,通过高效的数据采集与整合、智能的企业实体识别、深度的企业关系分析、基于地理位置的商机筛选和优化的用户界面设计,实现了数据资产的集中化、统一化管理,为金融机构提供了对客户网络结构的全面理解,显著提升了经营活动的精准度和效率,为银行的客户经理提供了全方位的经营支持,提升了业务管理水平和风险管理能力,实现了业务的精细化运营和智能化服务的技术效果。
[0040] 以下对图1所示的步骤进行示例性说明和解释。
[0041] 根据本申请的一些可选的实施例,采集企业相关数据,可以通过如下方法实现:从不同数据源采集企业相关数据,其中,数据源包括:企业注册信息数据库、企业财务报表数据库、企业官方网站信息,企业相关数据包括:企业名称、企业注册地址、企业经营范围、企业股权结构信息、企业合作协议信息。
[0042] 首先需要与各个数据源建立连接,设计相应的数据接口,包括但不限于企业注册信息数据库、企业财务报表数据库、企业官方网站信息等数据源,接口设计应考虑数据的安全性、传输效率和数据格式的兼容性。通过设计好的数据接口,从企业注册信息数据库中定期或实时获取企业名称、注册地址、经营范围等基础信息;从企业财务报表数据库中提取企业的财务状况数据,包括资产总额、净利润、资产负债比等关键财务指标,用于分析企业的经济实力和经营状况。数据采集后,进行数据清洗,去除重复、错误或不完整的信息。对数据进行标准化处理,统一数据格式,例如将日期格式统一、货币单位标准化,确保数据的一致性和可比性。采用自然语言处理技术,对采集到的文本数据进行实体识别,确保每个企业的信息能够准确归类,整合来自不同数据源的信息,构建企业信息卡片,包括企业名称、注册地址、经营范围、财务状况、股权结构、合作协议等综合信息。
[0043] 通过上述具体实施方式,能够从不同数据源全面采集企业相关数据,整合并构建企业关系图谱,为金融机构提供深度的市场洞察,支持精准经营和风险控制,同时确保数据安全与合规。
[0044] 根据本申请的一些可选的实施例,在企业相关数据中识别企业实体,可以通过如下方法实现:对采集到的企业相关数据进行数据清洗,其中,数据清洗包括:去除重复数据、错误数据以及不完整数据;针对数据清洗后的企业相关数据中的缺失值,采用基于数据分布特征的填补算法进行填补,得到目标数据;利用自然语言处理技术和预先训练的企业名称识别模型,从目标数据中识别企业实体。
[0045] 首先,对采集到的原始数据进行初步清洗,去除明显的重复记录、异常值和不完整数据项,具体包括:通过比较企业名称、注册号等关键字段,识别并删除重复的企业记录;检查数据的格式和范围,例如日期格式是否正确,数值是否在合理范围内,剔除明显错误的数据;过滤掉包含大量缺失字段的企业信息,确保后续处理的数据具有一定的完整性。然后,针对数据清洗后仍存在缺失值的情况,采用基于数据分布特征的填补算法进行处理,对数据进行统计分析,了解不同字段的数据分布情况,例如财务数据的均值、中位数、众数等。对于缺失的数值型数据,可以采用均值、中位数或众数等方法进行填补,对于缺失的类别型数据,根据分布特征选择最可能的类别进行填充,对于缺失的特定信息(如企业地址),可采用基于地理位置的预测算法,根据企业名称和其他已知信息推测其可能的位置信息。最后,利用预先训练的企业名称识别模型,对预处理后的文本数据进行实体识别,准确识别出企业名称。模型可以是基于深度学习的序列标注模型,如BiLSTM‑CRF、BERT等,也可以是基于规则的模型,结合企业名称的特征和常见的命名实体词典。将识别出的企业名称与企业注册信息数据库中的企业信息进行匹配,进一步完善企业实体的细节,如企业规模、行业类别、财务状况等。
[0046] 通过上述步骤,可以有效地识别企业实体,构建完整的企业信息卡片,为后续的企业关系图谱构建和商机分析提供准确、全面的基础数据。同时,数据清洗和预处理确保了数据的质量,而企业实体识别则利用了自然语言处理的先进技术,提高了数据处理的智能化水平。
[0047] 根据本申请的另一些可选的实施例,根据企业实体索引库,构建企业关系图谱,可以通过如下方法实现:在企业实体索引库中确定企业实体之间的关联关系,其中,关联关系包括:股权关系、投资关系、合作关系、供应链上下游关系、竞争关系;根据企业实体以及企业实体之间的关联关系,构建企业关系图谱,其中,企业关系图谱中的节点属性包括:企业规模属性、企业所属行业属性、企业地域属性,边属性包括:关系类型属性、关系强度属性、关系时间属性。
[0048] 具体而言,在企业实体索引库中确定企业实体之间的关联关系,包括:从企业股权结构信息中,使用图谱构建算法识别出持股比例、股东类型(直接股东、间接股东)等,确定企业之间的控股和股权关联关系;基于企业财务报表和投资记录,识别企业之间的直接和间接投资关系,包括投资额、投资时间等信息,量化企业间的投资强度;通过企业合作协议信息、共同参与项目记录、公开发布的联合声明等数据,识别企业之间的合作关系,例如长期合作协议、项目合作等,评估合作关系的稳定性和深度;利用企业交易流水数据和供应链信息,识别供应商和客户,构建供应链网络,评估企业间的供应链上下游关系,包括交易频率、交易金额等指标;基于行业分析报告、市场情报、同类产品对比等数据,识别企业之间的潜在竞争关系,评估竞争关系的强度和潜在威胁。
[0049] 根据企业实体以及企业实体之间的关联关系,构建企业关系图谱,在图数据库中为每个企业实体创建节点,赋予节点属性,包括企业规模(如营业收入、员工数量)、所属行业(如金融、制造业)、地域属性(如城市、省份);创建表示企业实体间关联关系的边,为边赋予属性,如关系类型(股权、合作、竞争等)、关系强度(通过股权比例、投资额、交易金额等量化)、关系时间(关系建立和持续的时间);将企业实体信息和关联关系数据存储到图数据库中,确保边和节点的属性信息完整,关系正确关联。采用适合企业关系图谱规模和复杂度的布局算法,如力导向布局或多层次布局算法,对图谱进行布局优化,减少边的交叉,清晰展示企业间的关系结构,设计用户友好的可视化界面,展示企业关系图谱,节点和边的样式应直观反映其属性,如节点大小与企业规模成正比,边的粗细与关系强度相关联,边的颜色或样式表示关系类型等。
[0050] 通过上述具体实施方式,可以构建一个全面而深度的企业关系图谱,该图谱不仅反映了企业间的多维度关联,还通过节点和边的属性设计,提供了丰富的市场洞察信息,为金融机构的客户关系管理、市场分析和风险评估提供了强有力的数据支持。
[0051] 在本申请的一些可选的实施例中,在商机信息中筛选企业实体的位置在目标区域内的目标商机信息,可以通过如下方法实现:接收目标设备输入的企业规模信息以及企业经营范围信息;确定与企业规模信息以及企业经营范围信息之间的语义匹配度大于预设阈值的第一商机信息;在第一商机信息中,筛选企业实体的位置在目标区域内的目标商机信息。
[0052] 接收目标设备(如客户经理的移动终端或PC)输入的企业规模信息,包括企业的员工数量、年营业额、资产总额等具体数值,同时接收企业经营范围信息,这些信息描述了企业主要的业务领域,如金融服务、制造业、信息技术等。开发或调用语义匹配算法,用于比较目标设备输入的企业规模信息和经营范围信息与存储在商机数据库中的相应信息之间的相似度。遍历商机数据库,对每个商机信息进行语义匹配度计算,比较其与输入的企业规模信息和经营范围信息的相似度,根据具体匹配算法的特性以及业务需求,设定语义匹配度的预设阈值,例如0.8,筛选出匹配度大于该阈值的第一商机信息。
[0053] 通过定位服务(如GPS、基站定位)获取目标设备的地理位置信息,包括设备的经纬度坐标,设定目标区域的范围为基于目标设备位置的圆形区域,其半径根据业务需求设定,例如5km、20km或更远。利用地理信息处理技术(如地理编码、Haversine距离计算),计算商机信息中企业实体的地理位置与目标设备位置之间的距离,筛选出第一商机信息中企业实体位置在目标区域内的商机信息,即目标商机信息,可以进一步细分为按照企业类型(如上市公司、国有企业等)和距离远近进行多维度筛选,以提供更定制化的搜索结果。
[0054] 通过上述具体实施步骤,可以实现基于目标设备输入的企业规模信息和经营范围信息,结合地理位置信息,自动筛选出匹配度高且位于目标区域内的商机信息,为金融机构的经营活动和客户拓展提供精准的数据支持。
[0055] 作为本申请的一些可选的实施例,展示目标商机信息,可以通过如下方法实现:根据目标商机信息中的目标企业实体所在的不同地理位置,以不同颜色标记表示目标企业实体,其中,目标企业实体对应的RGB值的大小与目标商机信息中的预期收益成正比;将目标商机信息中的投资金额映射到行业分类视图中的柱状图中,其中,投资金额与柱状图的高度成正比;在时间轴视图中,将目标商机信息中的时间节点映射到时间轴上的线段或节点位置,并以线段长度或节点大小表示商机持续时间或重要程度。
[0056] 根据目标企业实体所在地理位置的划分,定义颜色标记的规则,例如,将目标区域划分为若干个地理区域,每个区域对应一种或一组特定的颜色;对于每个目标商机信息中的目标企业实体,使用地理编码服务(如高德地图API)获取其精确的地理位置信息,包括经纬度坐标;根据获取的地理位置信息,确定目标企业实体所在的地理区域,并根据该区域的颜色标记规则,计算出对应的RGB值,RGB值的大小与目标商机信息中的预期收益成正比,即预期收益越高,对应的颜色标记的亮度或饱和度越高。
[0057] 从目标商机信息中提取投资金额数据,作为行业分类视图中柱状图高度的映射基础,在行业分类视图中,为每个行业类别创建柱状图,柱状图的高度与该类别下所有目标商机信息的平均或总投资金额成正比。如果投资金额特别重要,也可以考虑使用对数比例尺来避免极端值的影响。
[0058] 根据目标商机信息中的时间节点,如商机开始时间、结束时间、关键事件时间等,设计时间轴视图的布局,时间轴的长度应涵盖所有商机信息的时间范围,在时间轴上,将目标商机信息中的时间节点映射到相应的位置,可以使用线段或节点表示,线段长度或节点大小表示商机的持续时间或重要程度,例如,商机持续时间越长,线段越长;商机的重要程度越高,节点越大或颜色更深。
[0059] 通过上述具体实施方式,可以实现对目标商机信息的地理位置、投资金额以及时间节点的可视化展示,不仅提供了直观的地理分布视图,还通过柱状图直观展现了不同行业的投资情况,以及时间轴视图清晰展示了商机的时间结构,有助于金融机构的决策者快速理解和分析商机信息,制定更有效的经营和投资策略。
[0060] 在本申请的一些可选的实施例中,展示目标商机信息中的目标企业实体的企业关系图谱,可以通过如下方法实现:以预设形状表示目标企业实体的企业关系图谱中的节点,节点的大小与企业规模属性成正比;以不同颜色表示节点对应的不同的企业所属行业属性;以实直线表示股权关系,以虚直线表示投资关系,以实曲线表示合作关系,以虚曲线表示供应链上下游关系,以折线表示竞争关系,其中,线条的粗细与关系强度属性成正比。
[0061] 在企业关系图谱构建工具中,为每个目标企业实体创建一个预设形状的节点,例如圆形或六边形,作为企业实体在图谱中的表示。设定节点大小与企业规模属性的映射规则,例如,企业规模越大,节点的直径或面积也越大。根据企业规模属性的实际数值,调整节点的大小,确保不同企业规模在图谱中直观反映。
[0062] 为每个行业属性定义一个特定的颜色,可以采用行业标准颜色编码或自定义颜色方案,以区分不同行业的企业节点,根据目标企业实体的行业属性,为其节点赋予相应的颜色。
[0063] 关系类型与线条样式关联,具体如下:股权关系,使用实直线,线条粗细与关系强度属性成正比;投资关系,使用虚直线,线条粗细同样与关系强度属性相关;合作关系,用实曲线表示,线条粗细与关系强度属性成正比;供应链上下游关系,采用虚曲线,线条粗细与关系强度属性成正比;竞争关系,使用折线表示,线条粗细同样反映了关系的强度。从企业关系图谱中获取目标企业实体之间的关联关系信息,包括关系类型和关系强度属性;根据上述线条样式设计和关系强度属性,绘制连接企业实体节点的线条,反映企业之间的关联关系,并通过线条的粗细直观展现关系强度的高低。
[0064] 通过上述具体实施方式,可以构建一个全面且直观的企业关系图谱,其中节点的大小和颜色反映了企业规模和所属行业的属性,线条的样式和粗细则展示了企业间复杂的关联关系,包括股权、投资、合作、供应链和竞争关系的强度。这为企业决策者提供了深入的市场洞察,有助于制定精准的经营策略和风险控制措施。
[0065] 作为本申请的另一些可选的实施例,展示目标商机信息中的目标企业实体的企业关系图谱之后,还可以执行如下步骤:检测目标设备对目标企业实体的企业关系图谱中的节点的输入行为;在检测到目标设备对节点产生第一输入行为的情况下,展示目标信息框,其中,目标信息框中包括:企业规模属性、企业所属行业属性、企业地域属性,第一输入行为包括:单击节点;在检测到目标设备对节点产生第二输入行为的情况下,展示节点与目标区域内的其他节点之间的关系类型属性、关系强度属性、关系时间属性,其中,第二输入行为包括:双击节点。
[0066] 利用前端交互技术(如JavaScript、HTML5等),在企业关系图谱的展示页面上实现对用户输入行为的实时监控。具体监控的目标行为包括对节点的单击(第一输入行为)和双击(第二输入行为)。
[0067] 单击行为(第一输入行为)响应:当检测到目标设备对目标企业实体的节点产生了第一输入行为(单击),立即触发展示目标信息框的事件处理程序,从企业实体索引库中获取被单击节点对应企业实体的详细信息,包括企业规模属性、企业所属行业属性、企业地域属性等, 在目标企业实体节点附近或图谱界面的固定位置弹出一个信息框,展示上述企业实体的详细属性信息,确保信息框的样式和布局清晰,便于用户阅读。
[0068] 双击行为(第二输入行为)响应:当检测到目标设备对节点产生了第二输入行为(双击),立即触发展示节点关系的事件处理程序;从企业关系图谱数据库中,获取被双击节点与其在目标区域内的其他节点之间的关联关系信息,包括关系类型属性、关系强度属性、关系时间属性等。在图谱界面中,高亮显示被双击节点与目标区域内其他节点之间的关系线条,以图形的方式在图谱界面的一侧或弹窗中直观展示关系类型,展示被双击节点与其关联节点之间的详细关系属性信息,如股权比例、投资金额、合作项目名称、供应链上下游关系的交易频率和金额、竞争关系的市场占有率比较等。
[0069] 通过上述具体实施方式,可以实现对企业关系图谱中节点的精细化交互,用户通过简单的单击和双击操作,即可快速获取目标企业实体的属性信息和其与目标区域内其他企业实体之间的复杂关系细节,为金融机构的决策者提供即时且直观的数据洞察,支持更高效、精准的经营和风险管理活动。
[0070] 在一些可选的实施例中,展示目标商机信息之前,还可以执行如下步骤:根据目标商机信息中的多个目标企业实体的企业类型,对目标商机信息进行分类,得到第一分类结果;确定目标商机信息中的多个目标企业实体的地理位置与目标设备的地理位置之间的差值,得到多个目标差值,并确定每个目标差值所在的预设距离区间,得到第二分类结果。
[0071] 展示目标商机信息之后,还可以执行如下步骤:接收目标设备输入的目标企业类型,在第一分类结果中,查找目标企业类型对应的目标商机信息;接收目标设备输入的目标距离区间,在第二分类结果中,查找目标距离区间对应的目标商机信息。
[0072] 根据目标商机信息中涉及的多个目标企业实体的企业类型,如上市公司、国有企业、资质企业等,将目标商机信息进行初步分类,得到第一分类结果。确定多个目标企业实体的地理位置信息,使用地理编码服务(如高德地图API)将地址转换为经纬度坐标;获取目标设备的实时地理位置信息,同样转换为经纬度坐标。计算目标企业实体地理位置与目标设备地理位置之间的差值,可以使用Haversine公式或其他地理距离计算方法;根据计算得到的目标差值,将其与预设距离区间对比,将目标商机信息进一步分类至相应的距离区间,得到第二分类结果。
[0073] 在完成上述分类后,在用户界面中展示目标商机信息,同时提供分类筛选功能。在用户界面上,以列表或卡片形式展示分类后的目标商机信息,每个商机信息包含企业名称、企业类型、预期收益、投资金额等关键信息,同时允许用户通过下拉菜单、搜索框或预设按钮输入目标企业类型,系统根据第一分类结果,自动筛选出与输入企业类型相匹配的目标商机信息,实时更新展示列表。用户可以通过界面的滑块、数值输入框或预定义的距离区间按钮,输入目标距离区间。系统根据第二分类结果,筛选出与输入距离区间相匹配的目标商机信息,更新展示列表,以反映用户筛选条件下的商机信息。
[0074] 通过上述具体实施方式,可以实现目标商机信息的多维度分类,以及基于目标企业类型和目标距离区间的动态筛选功能,为金融机构的经营人员提供精准、高效的商机信息查询手段,支持他们快速定位到符合特定企业类型和地理位置条件的商机,从而提高经营活动的针对性和成功率。
[0075] 图2是根据本申请实施例的一种知识图谱的架构图,其中,图2是图1所示的数据处理方法所应用的程序的知识图谱的架构图,如图2所示,该架构图由数据维度、意图识别模型、客户画像功能三部分组成。数据维度包括内部数据和外部数据,内部数据包含客户基本信息、交易流水信息、产品信息、管辖行经纬度信息;外部数据包括中数智汇、启信宝、高德地图、工商等数据源。意图模型识别模型通过引入相似度计算模型,如余弦相似度,对用户的提问场景进行智能识别和优化,再不断丰富模型的训练语料,引入新问题和回答,提升模型的泛化能力,以及进行关键词扩充与相似词识别,通过同义词、行业专业术语的扩充,增强对用户提问的理解,确保信息的全面性和深度。客户画像功能包括客户信息、经营商机、关系图谱和京客地图。客户信息模块细化为基本信息、经营信息、上市信息、知识产权等信息字段,经营商机模块包括商机筛选工具、商机信息查询、企业类型筛选等,关系图谱模块展示了企业图谱、集团架构、控制路径、实质关联图谱等信息,强调了企业间关系的可视化和深度分析,京客地图通过地理信息应用与用户位置服务进行距离筛选和企业类型筛选。
[0076] 该知识图谱的架构强调了数据整合、客户画像构建、经营商机识别、地理信息应用和模型优化等核心功能,以及数据流的双向性和连通性,体现了系统在迭代升级后的强大综合处理能力和用户体验优化。
[0077] 图3是根据本申请实施例的一种数据处理装置的结构图,如图3所示,该装置包括:
[0078] 采集模块31,用于采集企业相关数据以及商机信息。
[0079] 建立模块32,用于在企业相关数据中识别企业实体,并建立企业实体索引库,其中,企业实体索引库中存储有企业实体以及企业实体对应的标识信息。
[0080] 构建模块33,用于根据企业实体索引库,构建企业关系图谱,其中,企业关系图谱中的节点为企业实体,边为企业实体之间的关联关系。
[0081] 确定模块34,用于获取目标设备的地理位置信息,接收目标设备输入的筛选范围,根据地理位置信息以及筛选范围,确定目标区域。
[0082] 展示模块35,用于在商机信息中筛选企业实体的位置在目标区域内的目标商机信息,展示目标商机信息以及展示目标商机信息中的目标企业实体的企业关系图谱。
[0083] 可选地,采集模块31,还用于执行如下步骤:从不同数据源采集企业相关数据,其中,数据源包括:企业注册信息数据库、企业财务报表数据库、企业官方网站信息,企业相关数据包括:企业名称、企业注册地址、企业经营范围、企业股权结构信息、企业合作协议信息。建立模块32,还用于执行如下步骤:对采集到的企业相关数据进行数据清洗,其中,数据清洗包括:去除重复数据、错误数据以及不完整数据;针对数据清洗后的企业相关数据中的缺失值,采用基于数据分布特征的填补算法进行填补,得到目标数据;利用自然语言处理技术和预先训练的企业名称识别模型,从目标数据中识别企业实体。
[0084] 可选地,构建模块33,还用于执行如下步骤:在企业实体索引库中确定企业实体之间的关联关系,其中,关联关系包括:股权关系、投资关系、合作关系、供应链上下游关系、竞争关系;根据企业实体以及企业实体之间的关联关系,构建企业关系图谱,其中,企业关系图谱中的节点属性包括:企业规模属性、企业所属行业属性、企业地域属性,边属性包括:关系类型属性、关系强度属性、关系时间属性。
[0085] 可选地,展示模块35,还用于执行如下步骤:接收目标设备输入的企业规模信息以及企业经营范围信息;确定与企业规模信息以及企业经营范围信息之间的语义匹配度大于预设阈值的第一商机信息;在第一商机信息中,筛选企业实体的位置在目标区域内的目标商机信息。
[0086] 可选地,展示模块35,还用于执行如下步骤:根据目标商机信息中的目标企业实体所在的不同地理位置,以不同颜色标记表示目标企业实体,其中,目标企业实体对应的RGB值的大小与目标商机信息中的预期收益成正比;将目标商机信息中的投资金额映射到行业分类视图中的柱状图中,其中,投资金额与柱状图的高度成正比;在时间轴视图中,将目标商机信息中的时间节点映射到时间轴上的线段或节点位置,并以线段长度或节点大小表示商机持续时间或重要程度。
[0087] 可选地,展示模块35,还用于执行如下步骤:以预设形状表示目标企业实体的企业关系图谱中的节点,节点的大小与企业规模属性成正比;以不同颜色表示节点对应的不同的企业所属行业属性;以实直线表示股权关系,以虚直线表示投资关系,以实曲线表示合作关系,以虚曲线表示供应链上下游关系,以折线表示竞争关系,其中,线条的粗细与关系强度属性成正比。
[0088] 可选地,数据处理装置还用于在展示目标商机信息中的目标企业实体的企业关系图谱之后,执行如下步骤:检测目标设备对目标企业实体的企业关系图谱中的节点的输入行为;在检测到目标设备对节点产生第一输入行为的情况下,展示目标信息框,其中,目标信息框中包括:企业规模属性、企业所属行业属性、企业地域属性,第一输入行为包括:单击节点;在检测到目标设备对节点产生第二输入行为的情况下,展示节点与目标区域内的其他节点之间的关系类型属性、关系强度属性、关系时间属性,其中,第二输入行为包括:双击节点。
[0089] 可选地,数据处理装置还用于在展示目标商机信息之前,执行如下步骤:根据目标商机信息中的多个目标企业实体的企业类型,对目标商机信息进行分类,得到第一分类结果;确定目标商机信息中的多个目标企业实体的地理位置与目标设备的地理位置之间的差值,得到多个目标差值,并确定每个目标差值所在的预设距离区间,得到第二分类结果;展示目标商机信息之后,方法还包括:接收目标设备输入的目标企业类型,在第一分类结果中,查找目标企业类型对应的目标商机信息;接收目标设备输入的目标距离区间,在第二分类结果中,查找目标距离区间对应的目标商机信息。
[0090] 需要说明的是,上述图3中的各个模块可以是程序模块(例如是实现某种特定功能的程序指令集合),也可以是硬件模块,对于后者,其可以表现为以下形式,但不限于此:上述各个模块的表现形式均为一个处理器,或者,上述各个模块的功能通过一个处理器实现。
[0091] 需要说明的是,图3所示实施例的优选实施方式可以参见图1所示实施例的相关描述,此处不再赘述。
[0092] 图4示出了一种用于实现数据处理方法的计算机终端的硬件结构框图。如图4所示,计算机终端40可以包括一个或多个(图中采用402a、402b,……,402n来示出)处理器402(处理器402可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器404、以及用于通信功能的传输模块406。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图4所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端40还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。
[0093] 应当注意到的是上述一个或多个处理器402和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端40中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
[0094] 存储器404可用于存储应用软件的软件程序以及模块,如本申请实施例中的数据处理方法对应的程序指令/数据存储装置,处理器402通过运行存储在存储器404内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的数据处理方法。存储器404可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器404可进一步包括相对于处理器
402远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端40。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0095] 传输模块406用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端40的通信供应商提供的无线网络。在一个实例中,传输模块406包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输模块406可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
[0096] 显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端40的用户界面进行交互。
[0097] 此处需要说明的是,在一些可选实施例中,上述图4所示的计算机终端可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图4仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机终端中的部件的类型。
[0098] 需要说明的是,图4所示的计算机终端用于执行图1所示的数据处理方法,因此上述命令的执行方法中的相关解释说明也适用于该电子设备,此处不再赘述。
[0099] 本申请实施例还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,程序运行时控制存储介质所在的设备执行以上的数据处理方法。
[0100] 非易失性存储介质执行以下功能的程序:采集企业相关数据以及商机信息;在企业相关数据中识别企业实体,并建立企业实体索引库,其中,企业实体索引库中存储有企业实体以及企业实体对应的标识信息;根据企业实体索引库,构建企业关系图谱,其中,企业关系图谱中的节点为企业实体,边为企业实体之间的关联关系;获取目标设备的地理位置信息,接收目标设备输入的筛选范围,根据地理位置信息以及筛选范围,确定目标区域;在商机信息中筛选企业实体的位置在目标区域内的目标商机信息,展示目标商机信息以及展示目标商机信息中的目标企业实体的企业关系图谱。
[0101] 本申请实施例还提供了一种电子设备,包括:存储器和处理器,处理器用于运行存储在存储器中的程序,其中,程序运行时执行以上的数据处理方法。
[0102] 处理器用于运行执行以下功能的程序:采集企业相关数据以及商机信息;在企业相关数据中识别企业实体,并建立企业实体索引库,其中,企业实体索引库中存储有企业实体以及企业实体对应的标识信息;根据企业实体索引库,构建企业关系图谱,其中,企业关系图谱中的节点为企业实体,边为企业实体之间的关联关系;获取目标设备的地理位置信息,接收目标设备输入的筛选范围,根据地理位置信息以及筛选范围,确定目标区域;在商机信息中筛选企业实体的位置在目标区域内的目标商机信息,展示目标商机信息以及展示目标商机信息中的目标企业实体的企业关系图谱。
[0103] 上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
[0104] 在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0105] 在本申请的上述实施例中,采集的信息是经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、存储、使用、加工、传输、提供、公开和应用等处理,均遵守相关法律法规和标准,采取了必要保护措施,不违背公序良俗,并提供有相应的操作入口,供用户选择授权或者拒绝。
[0106] 在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
[0107] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0108] 另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0109] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read‑Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0110] 以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

当前第1页 第1页 第2页 第3页
相关技术
处理方法相关技术
存储介质相关技术
丁志勇发明人的其他相关专利技术