首页 / 基于区块链的新闻时政短语发现方法及系统

基于区块链的新闻时政短语发现方法及系统实质审查 发明

技术领域

[0001] 本公开涉及新闻文本数据挖掘技术领域,具体涉及了一种基于区块链的新闻时政短语发现方法及系统。

相关背景技术

[0002] 本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
[0003] 随着互联网新闻数据量的爆炸性增长,如何识别当前实时的新闻热点并呈现给用户,变得越来越重要。基于此目的,产生了新闻热点话题的检测技术。但检测出的同一热点话题中的新闻量对用户来说可能仍然是庞大的,无法直接呈现给用户,如何根据话题中的新闻对热点话题进行简要准确地概括成为了关键的问题,用户只需要阅读概括后的话题描述,就能快速了解当前实时发生的热点事件。因此,新闻时政短语的发现成为了研究的重点方向。
[0004] 目前,新闻时政短语的发现主要依赖于单一的文本内容分析,这种方法在新词发现特征上表现不明显,且存在被恶意操纵数据的风险。同时,现有的模型节点管理和数据一致性也存在问题,缺乏有效的可信性和可追溯性机制。

具体实施方式

[0031] 下面结合附图与实施例对本公开作进一步说明。
[0032] 应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
[0033] 在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
[0034] 实施例一
[0035] 如图1所示,本公开实施例一提供了一种基于区块链的新闻时政短语发现方法,包括以下步骤:
[0036] S1构建新闻时政短语发现模型,并将其部署到采用区块链共识机制搭建的网络节点上;
[0037] S2将多模态训练数据输入新闻时政短语发现模型中提取向量特征,利用长短时记忆网络提取向量特征的序列特征,得到多模态高级向量特征,将多模态高级向量特征进行拼接得到多维特征向量,将多维特征向量输入分类层,输出类别的概率,结合用户反馈,优化模型参数,直到损失函数收敛;
[0038] S3根据网络节点枚举算法,筛选出网络节点发现的共同时政短语。
[0039] 首先,对获取的新闻内容进行多模态特征提取。具体为:
[0040] 文本特征提取:使用TF‑IDF(Term Frequency‑Inverse Document Frequency)算法对新闻文本进行权重计算,以提取文本的主要特征,同时去除常见的词语如“新闻”、“报道”等视为不重要的词汇,保留词频较少的时政词汇。
[0041] 图像特征提取:利用卷积神经网络(CNN)对新闻图片进行特征提取。CNN能够有效地识别图像中的局部特征,通过多层卷积和池化操作,提取出图像的时政相关标签等深层特征,完成图片时政权重记录。
[0042] 音频特征提取:采用梅尔频率倒谱系数(MFCC)方法对新闻音频进行特征提取,将音频信号转换为梅尔频率尺度上的倒谱系数,提取对应音调、音量,完成情感权重记录。
[0043] 然后,对得到的多模态特征信息进行降噪处理。具体为:
[0044] S21利用基于TF‑IDF的词性分析算法进行词性初筛,获取词性说明,同时与相对应的图像特征、音频特征进行加权处理,加权处理公式为:Qn=Tn+Pn+Vn(新词汇权重=文本新词权重+图片时政权重+音频权重)。目的是过滤掉一些不相关的信息,例如:停用词、标点符号等,保留对新闻时政短语发现可能有用的词语,同时根据图片及音频权重,对可能性新词附加权重,提高准确性。
[0045] S22对S21中获取的词性信息,进行词性分析,去除其中的副词、介词、连词、助词、叹词等无效信息。这些词语通常不携带重要的时政信息,因此可以将其从特征中剔除,以减少噪声。
[0046] S23对S22中获取的词性信息,进行词性分析,获取名词、动词等有效词。名词和动词是构成新闻时政短语的主要词性,因此需要将这些词语保留下来,作为后续分析的基础。
[0047] 新闻时政短语发现模型的构建和部署,结合卷积网络和循环层神经网络结构,构建新闻时政短语发现模型,用于新闻时政短语发现,新闻时政短语发现模型分为卷积层、循环层、多模态融合层和时政短语分类层。
[0048] 将步骤S23中获取的文本、音视频的向量输入卷积层,对每个模态的数据进行卷积操作,提取向量特征。将获取的向量特征送入循环层,采用长短时记忆网络(LSTM)提取其序列特征,得到多模态高级向量特征。多模态高级向量特征进行多维拼接,得到一个3D多维特征向量,并通过全连接层进行降维,得到一个融合特征向量。将融合特征向量送入分类层,完成新闻时政短语的识别。分类层采用softmax激活函数,输出每个类别的概率。
[0049] 对新闻时政短语发现模型采用DQN(Deep Q‑Network)算法进行强化学习模式选择。DQN算法是一种基于价值的强化学习算法,它通过学习一个价值函数来指导行动选择。在新闻时政短语发现中,DQN算法可以帮助模型学习到如何在多模态特征中选择最优的行动,以发现潜在的时政短语。
[0050] 采用perplexity作为模型损失函数评估迭代训练结果,通过不断迭代训练,优化模型参数,保证损失率不高于0.2。Perplexity是一种衡量模型不确定性的指标,其值越低表示模型的不确定性越小,即模型对数据的拟合越好。通过迭代训练和参数优化,可以提高模型的性能和准确率。
[0051] 将新闻时政短语发现模型部署到采用区块链共识机制搭建的网络节点上。
[0052] 采用区块链权益证明共识机制搭建新闻时政短语发现网络节点,共设置3个可信GPU节点,将实时新闻分别输入三个节点的模型中。权益证明机制能够确保节点的诚实性和网络的稳定性,同时GPU节点的计算能力可以保证模型的高效运行。
[0053] 节点可信性枚举算法采用Sharding技术的枚举算法,实现节点管理和任务分配,保证节点可信度。Sharding技术是一种将数据库分成多个部分的技术,每个部分由不同的节点处理,以提高系统的扩展性和效率。在区块链网络中,Sharding技术可以帮助实现节点的分片管理和任务分配,确保每个节点都能够高效地处理数据。
[0054] 结合用户反馈,优化模型参数,直到损失函数收敛。利用人机反馈强化学习,保证时政短语发现准确率。
[0055] 设计用户反馈界面,收集用户对时政短语发现识别结果的反馈。用户反馈是评估模型性能的重要依据,通过收集用户的反馈信息,可以及时调整模型的参数和策略,以提高识别准确率。根据用户反馈,调整DQN算法中的奖励和惩罚机制。同时根据用户反馈,可以确定模型识别的时政短语是否准确,以及模型的行为是否得到了用户的认可。通过强化学习调整,可以增强模型在识别时政短语时的正确行为,减少错误行为,从而提高模型的准确率和可靠性。
[0056] 结合用户反馈,优化模型参数,提高短语识别准确性。通过不断迭代训练和优化,模型可以更好地适应新闻时政短语的特点,提高识别的准确性和效率。
[0057] 根据网络节点枚举算法,筛选出网络节点发现的共同时政短语。
[0058] 根据三节点枚举算法,筛选出三节点发现的共同时政短语,确保数据准确可靠。通过比较三个模型节点的识别结果,可以找到共同时政短语,从而提高识别的可靠性。枚举算法可以帮助系统地比较和筛选这些结果,确保最终输出的时政短语是准确和可信的。
[0059] 实施例二
[0060] 本公开实施例二提供了一种基于区块链的新闻时政短语发现系统,包括:
[0061] 模型构建和部署模块,被配置为:构建新闻时政短语发现模型,并将其部署到采用区块链共识机制搭建的网络节点上;
[0062] 模型训练模块,被配置为:将多模态训练数据输入新闻时政短语发现模型中提取向量特征,利用长短时记忆网络提取向量特征的序列特征,得到多模态高级向量特征,将多模态高级向量特征进行拼接得到多维特征向量,将多维特征向量输入分类层,输出类别的概率,结合用户反馈,优化模型参数,直到损失函数收敛;
[0063] 输出模块,被配置为:根据网络节点枚举算法,筛选出网络节点发现的共同时政短语。
[0064] 更详细的步骤与实施例一中的相同,这里不再赘述。
[0065] 实施例三
[0066] 本公开实施例三提供了一种介质,其上存储有程序,该程序被处理器执行时实现如本公开实施例一所述的基于区块链的新闻时政短语发现方法中的步骤。
[0067] 更详细的步骤与实施例一中的相同,这里不再赘述。
[0068] 实施例四
[0069] 本公开实施例四提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例一所述的基于区块链的新闻时政短语发现方法中的步骤。
[0070] 更详细的步骤与实施例一中的相同,这里不再赘述。
[0071] 以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

当前第1页 第1页 第2页 第3页
相关技术
发现方法相关技术
新闻时政相关技术
杨蕾发明人的其他相关专利技术