1.2 社交网络分析的理论与相关工作

研究社交网络需要以图论为基础,图研究的是数据元素之间的多对多关系。在图中,任意两个元素之间可能存在关系,即节点之间的关系可以是任意的,图中任意元素之间都可能相关。图的应用极为广泛,已渗入社交网络、生物网络等,具体内容我们将在下一节继续展开。

进入21世纪,对在线社交网络的研究热度逐步攀升,根据中国知网的研究数据分析(见图1.5),关于社交网络的研究论文数量迅速上升。在研究内容方面(见图1.6),研究主题主要集中在信息传播、情感分析、社区发现等方向[ 2]。目前积极展示在线网络社交方向的会议有知识发现与数据挖掘国际会议(SIGKDD)、信息和知识管理国际会议(CIKM)以及数据挖掘顶尖学术会议(ICDM)等。

图1.5 近年来社交网络分析方向的论文发表数量(中国知网)

图1.6 近年来社交网络分析的研究内容方向(中国知网)

对于信息传播方向的研究,大多数构建单信息传播模型或多信息传播模型来表述信息在网络中的传递,且通过模型进行预测信息未来的传播路径和趋势。对于信息溯源方向的研究,一般采用基于节点属性的方法或基于传播模型的推理法来找出信息传播的源头,例如,通过信息溯源技术来识别不良信息的源头。对于流行度分析的方向,更多采用基于用户行为的方法或基于时间序列的方法来预测消息传播的未来流行程度和趋势。

本书重点关注网络空间治理领域的研究。许多学者关注虚假信息,研究网络谣言的传播规律,给出许多治理策略,对笔者有许多启示。首先,已有研究中信息传播模型的构建具有一定的局限性。虚假信息的传播过程应着重考虑在线社交媒体信息传播中的“回音壁效应”[ 8]、“过滤气泡”[ 9]、从众性、同质化网络、扭曲传播等特征,现有信息传播模型难以确切刻画虚假信息传播过程。其次,大规模社交网络上信息传播影响力的计算仍然是优化过程中的瓶颈。已有研究证明影响力函数的计算是#P难的[ 10],需要通过抽样方法对目标进行近似计算,通常采用蒙特卡罗方法,然而对于规模较大的社交网络,近似计算目标函数会消耗大量的空间和时间。另外一种新的RIS抽样算法[ 11]可以在较大程度上减少计算量,然而在本书群组效应传播模型下,由于构造反向可达集比较困难,导致该方法不能适用,需要进行改进以适应新的模型。最后,求解非次模函数优化的工具和方法依旧不足。虚假信息干预策略优化中的许多关键问题均可以通过构造集函数的方法进行优化建模,其中存在大量非次模函数的优化模型,目前可以借鉴的方法有两类:一类是难以分析理论结果的启发式算法;另一类是有一定理论分析的方法,如最新的三明治近似框架、DS分解方法等。亟待研究新的理论与方法,推进非次模函数优化研究。

可见,开展虚假信息传播模型构建、传播影响力计算、非次模函数优化方法的研究十分必要。本书计划基于伊辛模型构建虚假信息传播模型,采用RIS抽样方法与分布式抽样方法估计传播影响力,探索迭代三明治方法、拟牛顿法以及Lova'sz扩展方法的非次模函数优化方法,相信从理论上能够有新的发现和突破,同时也能为社交媒体中虚假信息治理提供一些政策建议。

现阶段关于社交网络分析的相关研究工作很丰富,这些工作不仅深入探讨了社交网络的核心概念和特点,还广泛应用于各个领域,以解决实际问题。下面将分别从当今社交网络分析研究方向(例如信息传播、情感分析、社区发现、舆情传播和推荐系统等方面)和社交网络分析研究方法(例如次模函数优化、非次模函数优化、深度学习模型、博弈论方法和智能优化算法等方面)进行介绍。