论文发表 | 论文范文 | 公文范文
最新公告:目前,本站已经取得了出版物经营许可证 、音像制品许可证,协助杂志社进行初步审稿、征稿工作。咨询:400-675-1600
您现在的位置: 新晨范文网 >> 社科杂志 >> 新闻杂志 >> 宁波广播电视大学学报 >> 正文

浅谈网络舆情监控系统的关键技术

定制服务

定制原创材料,由写作老师24小时内创作完成,仅供客户你一人参考学习,无后顾之忧。

发表论文

根据客户的需要,将论文发表在指定类别的期刊,只收50%定金,确定发表通过后再付余款。

加入会员

申请成为本站会员,可以享受经理回访等更17项优惠服务,更可以固定你喜欢的写作老师。

《宁波广播电视大学学报》2017年第4期

摘要:在互联网时代之下,以新浪微博为代表的自媒体平台受到了较为广泛的关注,并且在不断发展过程中也一跃成为广播、电视、报纸之后的第四大媒体,在现如今成为网络舆情主要传播媒介以及手段。在网络发展初期,在进行舆情监控的过程中主要是借助于人工的方式来开展,而在网络数据不断发展的环境下,人工这一监控方式已经很难再满足现实需求,这时自动化网络舆情监控系统也就受到了较多的关注,而为了能够实现网络舆情的有效监督,本文也就网络舆情监控系统关键技术进行了相关研究。

关键词:网络;舆情监控系统;关键技术

相关数据调查显示,我国早在2014年就已经成为了世界上网民人数最多的国家,互联网的普及率在14年就已经达到了46.9%,而到现今更是得到了显著的提升。相比较于传统媒体而言,网络媒体能够在第一时间内将所发生的重大事件传递给人们,而人们在通过网络获得相关信息的时候,也能借助于各种新型的媒体平台来表达出自身的意见以及看法,比如说微博、论坛、贴吧、微信等等,在这种开放网络环境之下网络舆情形成速度也就会变得越发的迅速。此外,网络本身就是一个十分开放且自由的平台,人们可以在网络上随意发表自身的观点,同时也有部分不良分子会借助于网络传播一些暴力、色情或者是公布的信息,这个时候网络舆情监控就显得尤为的重要,对于网络健康发展有着非常显著的价值。

1网络舆情监控系统相关概述

1.1网络舆情相关概述

网络舆情(IPO)主要指的是互联网中的一些舆情信息,是人们在网络上对各类时事热点发表自身想法以及意见的表现,就拿现如今网络当中所存在的各种信息都会有较多的网民来对其进行分析和讨论,而这些所发表出来的意见以及讨论出来的信息都可以称之为网络舆情的一部分,现如今这些舆情主要的传播方式则是微博、网站、微信等平台。网络开放性较强,所以也就存在较多的数据信息,可是并不是每一条信息我们都能够将其称之为舆情,要想被称之为舆情必然要具备几个特点,分别是模糊性、冲突性以及典型性,因为只有存在较为一定的冲突性才能够有效的影响到社会不同群体,而模糊性以及典型性信息也是舆情必不可少的特征之一。对网络舆情进行有效的监控,就能很好的掌握群众对于时事热点的想法,这样就能更好地了解群众政治意见以及文化倾向,从而更好的把握住社会大体的发展趋势,对群众以及社会态度进行及时且正确的引导,这样才能真正形成较为良好的社会风气。网络本身最为显著的特点就是开放性、虚拟性、隐蔽性等,而人们在网络上则能随意发表自身言论参与到各项热点互动交流当中,虽然这些信息能够很好的反映出群众本身的想法和观点,可是在大量网络信息环境之下还是会存在一些无效或者是有害的信息,这个时候也就很容易形成不好的网络环境,所以说,网络舆情监控就显得尤为的重要。

1.2网络舆情监控系统相关概述

就现如今各大搜索引擎发展趋势来看,他们都是按照某一用户所需求的特定内容来提取出用户所需要的信息反馈给用户,这种设计方式没有很好的将用户所关注的舆情信息进行有效的处理,而舆情监控系统的存在则能实现舆情信息数据采集、分析等功能,以此来更加及时有效的帮助用户掌握舆情的动态。在对网络舆情进行检索的过程中,其主要有两种检索方式,一种是人工检索一种是机器检索,其中人工检索主要就是按照用户对某一热点或者是问题的态度倾向来为其进行聚类分析;而机器检索则是向用户提供某一舆情信息属性亦或者是向用户提供舆情热点排行榜,在这其中网络舆情分析系统主要的作用就是为了能够更好地掌握群众思想动态,以此来作出正确的引导。总的来说,舆情监控系统所涉及的技术领域较为广泛,其中就包含了自然语言处理、机器学习、文本挖掘、趋势分析、语义集成分析以及主题分类等等;而其所存在的功能则主要包含了热点识别、事件分析、主题跟踪、倾向性分析、统计报告等等。

2网络舆情监控系统关键技术分析

舆情监测这一项工作本身就存在较为久远的历史,最开始的人工监控到现在的网络舆情监控系统都是为了能够更好地对网络舆情进行监测,而就现如今我国网络舆情监控系统发展情况来看,还是有待遇提升,再加上中西方文本挖掘、分词等方面本身就存在较大的差异性,这也致使我国汉语网络舆情监控系统起步速度较晚,而为了能够更好地促进我国网络舆情监控系统的发展,本文也就网络舆情监控系统关键技术进行了相关研究。从网络舆情监测过程来看,其本质就是要从网络上获得相应的数据,然后对数据进行分析处理按照用户需求将分析结果呈现给用户,所以说,在实现网络舆情监控系统的时候,要从数据流向角度来讲该系统划分成不同的模块(具体如图1),这几个模块也就是网络舆情监控系统关键技术,而笔者也对其分别进行了分析:

2.1数据获取

在网络舆情监控系统当中,数据获取就属于较为关键的技术之一,其主要的功能就是全天候自动从整个网络,亦或者是一些特定的网络上获得相应的舆情信息数据,然后对其进行分析。在获取舆情信息数据的过程中,其主要存在两个方面的需求,一方面是要获得相关舆情数据对于整个数据的覆盖率,也就是说要尽可能的得到最为原始且全面的数据信息;而另一方面则需要确保数据信息的准确性,也就是说所获得的数据信息最好是用户真正关心的舆情信息,只有达到这两点要求才能更好地对网络舆情进行有效的预测和分析。就目前而言,在获取数据的过程中,其主要有以下两种手段:

2.1.1网络爬虫

互联网本身就已经存在一项最为基本的HTML协议,因为存在这一协议网络当中所存在的各项数据资源才能真正以统一资源定位符(URL)相互联系在一起而构成了一个有机的整体。在获取数据的时候,借助于这一手段网络爬虫就会从一个预先定义好的URL列表开始,然后再以此对这一列表上所存在的页面数据进行访问以及信息获取,同时还会对当前访问页面当中所存在的其它URL来进行分析,进而选择出符合相关需求的URL加入待访问队列当中,通过这样的方式来对限定范围网络来进行访问,最终就能有效的获得这一网络当中所存在的所有信息。

2.1.2元搜索采集技术

我们在访问网络的过程中入口大多是搜索引擎,所以现如今也存在较多的搜索引擎服务提供商,而不同的搜索引擎服务提供商所提供的入口在搜索过程中所侧重的方式也存在不同,搜索出来的结果也就会存在差异性。而为了能够更好地实现网络舆情监测,我们可以在不同的搜索引擎上部署元搜索引擎,以此来对下层引擎进行调用,这样就能返回不一样的搜索结果,同时还能基于不一样的算法来对不同结果进行选择。借助于这一种手段就能最大程度提升数据获取的准确率以及覆盖率,而且系统构建相对而言也较为简单。

2.2数据预处理

Web页面上所存在的数据大多存在其自身的特点,主要表现为半结构化数据上,而整个数据主要包含两个部分,其分别是内容以及描述这两个部分混合在一起,在获取数据的时候要想直接借助于数据获取这一模块来获得页面内容是十分困难的,因为其本身就存在较大的噪音、文本内容也不是结构化的,所以也就很难直接进行分析处理,这个时候就需要对原始页面进行数据预处理,所以说,数据预处理也是网络舆情监控系统当中较为关键的一项技术。数据预处理主要流程有以下两个方面:

2.2.1网页内容提取

这一方面主要就是用用户较为关心的内容从噪音上照出来,比如说将新闻内容或者是主题讨论等信息从页面上的导航以及广告等连接当中找出来,然后将页面转化成一个HTML标签树,并且按照已经具备的知识来构建出相应法规则体系,之后就可以按照相关规则来对页面上的内容进行提取。在提取网页内容的时候,要怎么去构建出一个合适的规则是其中较为重要的一点,我们可以按照某一种特定的网站来构建出一个专属的规则,也可以结合一般页面所存在的结构特点来构建出较为通用的规则体系。

2.2.2中文文本分词

在所有自然语言当中,词可以说是最小且能够独立活动的语言成分,在网络舆情监控过程中需要对页面进行提取,以此来获得非结构化连续文本,之后再对文本来进行相应的处理,而在处理过程中最为首要的工作就是中文文本分词。分词这一项工作主要是将已经输入的一段文本进行分解,将其分解成为能够符合逻辑的一组单词,比如说,我们在搜索引擎当中输入“羽毛球拍”的时候,如果按照某一种分词算法我们就可以将其分解成为羽毛球、球拍以及羽毛等词汇,这就是我们所说的中文文本分词。在分词算法当中词典是最为基础也是最为简单的算法,这一种分词手法主要是对字符串匹配完成初步工作,然后再加上少量的语法、词法以及语义等规则;而另一种分词手法则是基于统计来进行分词,也就是对文本当中所存在的相邻字同时出现的频率进行统计,而出现频率越高的词构成一个词的可能性也就越高。除此之外,还有另外一些基于规则的分词算法,比如说通过模拟人对句子的理解而产生的词汇,亦或者是对当前这个句子词法、语法来进行适当的推理和分析,这样也能够自动获得一些没有登录词条,在现如今我们搜索输入法当中也是经常会出现的。

2.3数据分析

在网络舆情监控系统当中数据分析十分的关键,可以说是整个系统的智能核心,而数据分析本质上来说就是对数据进行挖掘的过程,所以需要在前期来对所搜集到的网页内容来进行一次深度的挖掘,以此来寻找其中所存在的新的舆情热点,同时还会对之前就存在的舆情趋势进行相应的分析。通常情况下,一个较为典型的数据分析系统大多会存在以下几点功能:

2.3.1主题聚类

这一功能的存在能够让我们在监测过程中直接从大量数据信息当中发现新的主题,其会将已经处理了的网页内容自动规划到某一类或者是特征空间当中,而在这个特征空间当中就会通过某一种方式来将一些特征较为接近的页面内容进行类别区分,而在这一过程中相应类别的聚类中心我们就可以将其称之为新的主题。

2.3.2热点发现

在现如今这个网络发展迅猛的时代下,每天所产生的舆情主题是十分多的,而在这其中部分舆情主题能够迅速成为当下热点,舆情监控系统则需要将这些热点准确的筛选出来,并且将其推送给数据分析人员。在进行热点筛选的过程中需要注意的是,可以就这一主题在某一时间段内所出现的频次以及这一主题所产生的影响力和发展速度等方面来进行分析。

2.3.3话题追踪

网络话题也有其生命周期,而其生命周期则是从事件主题发生而开始,之后再经过一段时间之后就会发展演化成为舆情热点,而后就会开始降低热度直至消散。在话题追踪过程中,话题会出现编译或者是分支,而这些因素都可以在开展网络舆情决策分析的时候进行考虑和分析,在话题追踪过程中其本身会对较多的话题生命周期进行分析,而我们则可以在这一过程中总结出一定的规律,这样就能对某一个话题的下一个阶段进行预测。

2.3.4情感识别

网络话题不仅会对某一个话题事件进行客观描述,其本身有时还会存在一定的情感倾向,尤其是网民在对某一个话题进行回复的时候情感倾向会变得越发的明显。从整体上来分析的话,情感倾向一般情况下有三种方向,其分别是反对、赞成和中立,网络舆情监控系统如果能够很好的展示出网民对于该话题的情感倾向,就能更好地以此作为决策分析依据。

2.4结果呈现

网络舆情监控系统主要的目的还是为了能够提供更加有效且合理的决策依据,所以说,系统分析结果在呈现的时候最好是简单直观,这样决策分析人员就能更好地对其进行分析和挖掘。为此,网络舆情监控系统结果呈现这一部分最好是能够动态图形化来展示出相应的结果,同时对于一些重大拐点以及舆情热点进行主动推送警告,而这一技术所需要实现的功能最好包括以下几个方面:舆情热点、拐点的警告;针对所有主题的查询;新主题的推送以及舆情发展态势图。

3结语

综上所述,网络舆情监控系统对于网络健康和谐发展有着显著的作用,而一个舆情监控系统的形成,不管存在任何细节差异,其关键技术还是体现在数据获取、预处理、数据分析、结果呈现等方面,所以说,要想有效的发挥出网络舆情监控系统的价值,还是要不断对其进行完善,着重于数据采集以及舆情智能分析决策等方面,以此来不断提高网络舆情监控系统的价值,促进网络健康发展。

参考文献

[1]唐勇.互联网舆情监控系统的设计与实现[D].北京邮电大学,2013.

[2]陈涛.基于Hadoop的农业网络舆情监测系统研究与实现——以农产品安全为例[J].中国农业科学院,2017.

[3]杨旭东.网络舆情监控系统关键技术研究[J].信息网络安全,2016(09):251-256.

[4]王宁,王晓峰.面向网络舆情监测的关键技术研究[J].经济管理:全文版:00143-00143.

[5]王静.面向互联网舆情分析的海量数据检索模型关键技术研究[D].首都师范大学,2013.

作者:尉译心 单位:山西警察学院网络安全保卫系

宁波广播电视大学学报责任编辑:张雨    阅读:人次