社会网络分析工具,社会网络分析工具有哪些
《社会网络分析方法与实践》txt下载在线阅读全文,求百度网盘云资源
《社会网络分析》(Maksim Tsvetovat)电子书网盘下载免费在线阅读
链接:
提取码:yxwf
书名:社会网络分析
作者:Maksim Tsvetovat
译者:王薇
豆瓣评分:7.2
出版社:机械工业出版社
出版年份:2013-6-1
页数:177
内容简介:
本书以基于Python的网络分析包NetworkX作为社会网络分析工具,但不是一本NetworkX使用手册。作者将重点放在如何从庞大的社会网络分析学术积累中,挑选最精要与最实用的知识点,以帮助读者形成关于社会网络分析的知识谱系图。全书可以分为四部分。第1章和第2章是基础知识,主要介绍社会网络分析的背景信息与图论基础知识。第3~5章主要介绍如何分析社会网络,分别从个体与群体两个层面,介绍社会网络的主要测量指标与分析方法。其中第3章重点介绍社会网络节点层面的四个核心指标:
程度中心性:哪些是明星人物?哪些是边缘者?程度中心性回答类似问题。这是最为人们理解的社会网络测量指标。以微博为例,程度中心性就是粉丝的数量,那些程度中心性高的人就是微博中的明星。
亲近中心性:亲近中心性通过点与其他点的距离来测量。那些在社交网络中经常与人互动、人际关系颇好的人,比如公司中的八卦传播者,往往亲近中心性得分较高。
作者简介:
maksim tsvetovat是一个跨学科的科学家、软件工程师和爵士音乐家。他从卡内基·梅隆大学获得计算、组织和社会方向的博士学位,专注于社会网络进化、信息和态度扩散、集体智能发生的计算机建模。目前,他在乔治·梅森大学教授社会网络分析。他还是deepmile networks公司的联合创始人之一,该公司聚焦于社交媒体影响的图形化。maksim还教授社会网络分析的管理人员研讨班,包括面向创业公司的“社会网络”和面向决策人员的“理解社交媒体”。
alexander kouznetsov是一名软件设计师和架构师,具有从数据仓库到信号处理的广泛技术背景。他为业界开发了大量的社会网络分析工具,从大规模数据采集到在线分析和演示工具。alex在得克萨斯大学获得数学和计算科学学士学位。
数据分析一般用什么工具啊?
六个用于大数据分析的最好工具
一、Hadoop
Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。
二、HPCC
HPCC,High Performance Computing and Communications(高性能计算与通信)的缩写。1993年,由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目:高性能计算与 通信”的报告,也就是被称为HPCC计划的报告,即美国总统科学战略项目,其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国 实施信息高速公路而上实施的计划,该计划的实施将耗资百亿美元,其主要目标要达到:开发可扩展的计算系统及相关软件,以支持太位级网络传输性能,开发千兆 比特网络技术,扩展研究和教育机构及网络连接能力。
三、Storm
Storm是自由的开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量数据。Storm很简单,支持许多种编程语言,使用起来非常有趣。Storm由Twitter开源而来,其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、Admaster等等。
Storm有许多应用领域:实时分析、在线机器学习、不停顿的计算、分布式RPC(远过程调用协议,一种通过网络从远程计算机程序上请求服务)、 ETL(Extraction-Transformation-Loading的缩写,即数据抽取、转换和加载)等等。Storm的处理速度惊人:经测 试,每个节点每秒钟可以处理100万个数据元组。Storm是可扩展、容错,很容易设置和操作。
四、Apache Drill
为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会近日发起了一项名为“Drill”的开源项目。Apache Drill 实现了 Google’s Dremel.
据Hadoop厂商MapR Technologies公司产品经理Tomer Shiran介绍,“Drill”已经作为Apache孵化器项目来运作,将面向全球软件工程师持续推广。
五、RapidMiner
RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。
六、Pentaho BI
Pentaho BI 平台不同于传统的BI 产品,它是一个以流程为中心的,面向解决方案(Solution)的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来,方便商务智能应用的开发。它的出现,使得一系列的面向商务智能的独立产品如Jfree、Quartz等等,能够集成在一起,构成一项项复杂的、完整的商务智能解决方案。
《社会网络分析方法与实践》epub下载在线阅读全文,求百度网盘云资源
《社会网络分析方法与实践》(MaksimTsvetovatAlexanderKouznetsov)电子书网盘下载免费在线阅读
链接:
提取码: taji ?
书名:社会网络分析方法与实践
豆瓣评分:7.2
作者:MaksimTsvetovatAlexanderKouznetsov
出版社:?机械工业出版社
副标题:?方法与实践
原作名:?Social Network Analysis for Startups
译者:?王薇?/?王成军?/?王颖?/?刘璟
出版年:?2013-6-1
页数:?177
内容简介:
本书以基于Python的网络分析包NetworkX作为社会网络分析工具,但不是一本NetworkX使用手册。作者将重点放在如何从庞大的社会网络分析学术积累中,挑选最精要与最实用的知识点,以帮助读者形成关于社会网络分析的知识谱系图。全书可以分为四部分。第1章和第2章是基础知识,主要介绍社会网络分析的背景信息与图论基础知识。第3~5章主要介绍如何分析社会网络,分别从个体与群体两个层面,介绍社会网络的主要测量指标与分析方法。其中第3章重点介绍社会网络节点层面的四个核心指标:
程度中心性:哪些是明星人物?哪些是边缘者?程度中心性回答类似问题。这是最为人们理解的社会网络测量指标。以微博为例,程度中心性就是粉丝的数量,那些程度中心性高的人就是微博中的明星。
亲近中心性:亲近中心性通过点与其他点的距离来测量。那些在社交网络中经常与人互动、人际关系颇好的人,比如公司中的八卦传播者,往往亲近中心性得分较高。
居间中心性:节点的居间程度,表示一个网络中经过该点最短路径的数量。在网络中,节点的居间程度越大,那么它在节点相互之间的信息传播起到的作用也就越大。在两个社会网络之间的人,比如跨界者,往往拥有较高的居间中心性。
特征向量中心性:那些在社交网络中沉默却拥有极大权力的人物,如《教父》中的主人翁柯里昂。社会网络研究者将他们称为“灰衣主教”。特征向量中心性就是找出他们的办法。基本原理是,一个有着高特征向量中心性的行动者,与他建立连接的很多行动者往往也被其他很多行动者所连接。在社交网络中,有这样一种人,很多明星与其做朋友,即使他沉默不语,也可能是一位重要的人物。
社会网络分析不仅仅在节点层面测量。第4章、第5章介绍如何分析群体。其中,第4章主要介绍社群划分的基础知识:如何将庞大的社会网络划分为小的组块?如何利用社会网络中的结构洞牟利?如何进行三元组普查与分析?例如,如何通过岛屿方法逐步找出推特上埃及革命的成千上万条转发的核心人物?又如,如何评估埃及革命中一个人的信息传播能力?显然,如果你的朋友们相互信任,将比那种一个明星发言,粉丝们单纯收听的星形网络传播能力更强。第5章主要介绍二模网络与多模网络的基础知识。关系还会存在于不同类型的主体之间,比如公司雇佣员工、投资者购买公司股票、人们占有信息与资源等。这些关系称为二模关系。现实生活中的关系往往是二模或多模。比如在微博上,可以通过你的兴趣、地域、使用的标签来为你推荐新的朋友,或者基于你对一些公共事件的看法,将你划分到特定政治群体中,这些都是基于二模或多模网络的分析得出的。
第6章是全书最精彩的部分,关注信息如何传播,初步展示分析动态社会网络发展的建模技巧。一条微博如何从一两个人关注突然成为流行用语?作者在实验中发现,当网络密度接近7%的时候,将从线性增长(每次增加一条连接)转化为病毒式扩散,也就是说,如果转发一条微博、加入一个网络社群等的人数比例达到7%,其他人将会在关键阶段马上跟进。这是一个推动脸谱走出哈佛大学的神奇数字。脸谱一步一步地跃迁,总是遵循一个规则——在一个社群里到达饱和点之后才移入一个更大的社群。作者通过手写Python算法,为读者打开动态社会网络与网络仿真的大门——我们如何用算法来模拟人类社会各类关系的变迁?有了自己亲手实践算法的经验,读者未来使用netlogo等网络仿真软件,将更加得心应手。
对于初学者来说,第4~6章这三章有一定难度,需要同时理解社会科学与编程技巧两方面知识。第7章则简单明了,主要介绍获取网络数据的入门知识。如果希望深入了解,可以阅读作者推荐的相关资源。附录A介绍收集社会网络分析所需数据的传统方法、伦理准则与相关API。附录B介绍如何安装本书涉及的相关软件,如NetworkX、matplotlib等。
总而言之,作为一本技术非常新颖的入门读物,本书通俗易懂,基于Python进行分析使得其灵活性变得更高。可以说,本书令学习者从一开始就具有上手实践的能力,除介绍网络数据获取技巧、网络抽样方法、网络在个体与群体两个层面的基本属性之外,还涉及目前日益热门的网络模拟方法,融合基础理论与算法于一身。简约却不简单,上升空间非常大!无论你是对社会网络感兴趣的大众读者,还是社会网络的专业研究者、开发者,相信本书都会在社会网络的理论与实践两方面给予启发!
作者简介:
maksim tsvetovat是一个跨学科的科学家、软件工程师和爵士音乐家。他从卡内基·梅隆大学获得计算、组织和社会方向的博士学位,专注于社会网络进化、信息和态度扩散、集体智能发生的计算机建模。目前,他在乔治·梅森大学教授社会网络分析。他还是deepmile networks公司的联合创始人之一,该公司聚焦于社交媒体影响的图形化。maksim还教授社会网络分析的管理人员研讨班,包括面向创业公司的“社会网络”和面向决策人员的“理解社交媒体”。
alexander kouznetsov是一名软件设计师和架构师,具有从数据仓库到信号处理的广泛技术背景。他为业界开发了大量的社会网络分析工具,从大规模数据采集到在线分析和演示工具。alex在得克萨斯大学获得数学和计算科学学士学位。
学习和应用社会网络分析,为什么要选用Pajek(转自科学网)
昨日与一位朋友聊天,提到论文撰写的问题,发现这位朋友修习了社会网络分析的一些概念知识,手头又有点数据,导师又催着出论文,于是极度希望能够应用Pajek作为工具分析点结果出来,凑出一篇“像样点”的论文。当问及Pajek到底能做什么时,我给出的回答让这位朋友感到非常失望:Pajek有绘图功能,但是如果只是为了好看,那你不如用其他多媒体软件,Pajek有计算功能,但是限于对你手头网络文件进行分析,如果要出统计结果,你得要借助其他软件。于是,朋友说:那照你这么说法,这就是个废物软件了?在十年前,或许可选择的软件较少,现在可供网络分析使用的软件,不下上百种,如果要从中挑出适合自己需要的,倒也的确比较困难。或许所有应用这项技术的人,都会推荐自己所熟悉的软件工具。我虽然不能说可以用手头的工具解决所有问题,但谈一下为什么选用这个软件还是有必要的,当然,还真有人在网上发了论文,对一些软件进行比较。真是不好意思的是,在写这篇博文时,我搜索了一下自己的硬盘,居然没找到那篇论文。我觉得有必要从个人角度澄清一下对这个软件应用范围的看法。首先,Pajek是用来处理大型网络的。在目前版本中,它可以处理多达9亿个顶点的网络文件。如果你手头的网络文件顶点不超过1000个,那用Ucinet、NodeXL等软件,都不会有速度的障碍。第二,Pajek是所有网络分析工具中,唯一配备了循序渐进教程的软件。在我个人看来,人类所创造的工具,是现有感官的延伸,是进一步创造新认识和新直觉的阶梯。所以,当我们要理解并熟练掌握甚至可以精通某种操作化的分析技能时,需要有一个逐渐训练的过程,并且在这种过程中形成对一些看似抽象的概念的直观认识。配备了循序渐进教程的Pajek软件,正好成为入门时的练手工具。第三、Pajek提供了探索网络结构的途径,但它的统计分析功能很弱。但是,它又同时配备了R软件接口。在我看来,把Pajek的数据探索功能与R软件的统计功能结合,就已经基本符合网络分析技术的应用需求。如果超出这种基本功能的更高阶需求,那就不仅仅是应用这种技术,而是研究这种技术本身了。总结起来,当学习社会网络分析技术时,我个人觉得应当掌握的软件有两个:Pajek和R软件(R软件里面有许多分析包,其中igraph和sna这两个包很重要,应当重点掌握)。应当熟悉的软件有Matlab和NodeXL,前者帮助你做一些矩阵转换,后者则提供了一个简单的EXCELL插件供你做网络文件制备。对于如何学习R软件的操作,我建议零起点的朋友,如果是生物医学方面的,可以选择《应用R软件和
复杂网络 --- 社会网络分析
“社会网络”指的是社会成员及其相互关系的集合。社会网络中所说的“点”是各个社会成员,而社会网络中的“边”指的是成员之间的各种社会关系。成员间的关系可以是有向的,也可以是无向的。同时,社会关系可以表现为多种形式,如人与人之间的朋友关系、上下级关系、科研合作关系等,组织成员之间的沟通关系,国家之间的贸易关系等。社会网络分析(Social Network Analysis)就是要对社会网络中行为者之间的关系进行量化研究,是社会网络理论中的一个具体工具。
因此,社会网络分析关注的焦点是关系和关系的模式,采用的方式和方法从概念上有别于传统的统计分析和数据处理方法。
社会网络通常表达人类的个体通过各种关系连接起来,比如朋友、婚姻、商业等,这些连接宏观上呈现出一定的模式。很早的时候,一些社会学家开始关注人们交往的模式。Ebel等进行了一个电子邮件版的小世界问题的实验,完成了Kiel大学的5000个学生的112天电子邮件连接数据,节点为电子邮件地址,连接为消息的传递,得到带指数截断的幂律度分布,指数为r=1.18。同时证明,该网络是小世界的,平均分隔为4.94。
社会网络分析,可以解决或可以尝试解决下列问题:
“中心性”是社会网络分析的重点之一,用于分析个人或组织在其社会网络中具有怎样的权力,或者说居于怎样的中心地位,这一思想是社会网络分析者最早探讨的内容之一。
点度中心度表示与该点直接相连的点的个数,无向图为(n-1),有向图为(入度,出度)。
个体的中心度(Centrality)测量个体处于网络中心的程度,反映了该点在网络中的重要性程度。网络中每个个体都有一个中心度,刻画了个体特性。除了计算网络中个体的中心度外,还可以计算整个网络的集中趋势(可简称为中心势,Centralization)。网络中心势刻画的是整个网络中各个点的差异性程度,一个网络只有一个中心势。
根据计算方法的不同,中心度和中心势都可以分为3种:点度中心度/点度中心势、中间中心度/中间中心势、接近中心度/接近中心势。
在一个社会网络中,如果一个个体与其他个体之间存在大量的直接联系,那么该个体就居于中心地位,在该网络中拥有较大的“权力”。在这种思想的指导下,网络中一个点的点度中心性就可以用网络中与该点之间有联系的点的数目来衡量,这就是点度中心度。
网络中心势指的是网络中点的集中趋势,其计算依据如下步骤:首先找到图中的最大点度中心度的数值,然后计算该值与任何其他点的中心度的差值,再计算这些“差值”的总和,最后用这个总和除以各个“差值”总和的最大可能值。
在网络中,如果一个个体位于许多其他两个个体之间的路径上,可以认为该个体居于重要地位,因为他具有控制其他两个个体之间的交往能力,这种特性用中间中心度描述,它测量的是个体对资源控制的程度。一个个体在网络中占据这样的位置越多,代表它具有很高的中间中心性,就有越多的个体需要通过它才能发生联系。
中间中心势定义为网络中 中间中心性最高的节点的中间中心性与其他节点的中间中心性的差距,用于分析网络整体结构。中间中心势越高,表示该网络中的节点可能分为多个小团体,而且过于依赖某一个节点传递关系,说明该节点在网络中处于极其重要的地位。
接近中心性用来描述网络中的个体不受他人“控制”的能力。在计算接近中心度的时候,我们关注的是捷径,而不是直接关系。如果一个点通过比较短的路径与许多其他点相连,我们就说该点具有较高的接近中心性。
对一个社会网络来说,接近中心势越高,表明网络中节点的差异性越大;反之,则表明网络中节点间的差异越小。
注:以上公式都是针对无向图,如果是有向图则根据定义相应修改公式即可
当网络中某些个体之间的关系特别紧密,以至于结合成一个次级团体时,这样的团体在社会网络分析中被称为凝聚子群。分析网络中存在多少个这样的子群,子群内部成员之间关系的特点,子群之间关系特点,一个子群的成员与另一个子群成员之间的关系特点等就是凝聚子群分析。
由于凝聚子群成员之间的关系十分紧密,因此有的学者也将凝聚子群分析形象地称为“小团体分析”或“社区现象”。
常用的社区检测方法主要有如下几种:
(1)基于图分割的方法,如Kernighan-Lin算法,谱平分法等;
(2)基于层次聚类的方法,如GN算法、Newman快速算法等;
(3)基于模块度优化的方法,如贪婪算法、模拟退火算法、Memetic算法、PSO算法、进化多目标优化算法等。
凝聚子群密度(External-Internallndex,E-IIndex)主要用来衡量一个大的网络中小团体现象是否十分严重,在分析组织管理等问题时非常有效。
最差的情形是大团体很散漫,核心小团体却有高度内聚力。另外一种情况是,大团体中有许多内聚力很高的小团体,很可能就会出现小团体间相互斗争的现象。凝聚子群密度的取值范围为[-1,+1]。该值越向1靠近,意味着派系林立的程度越大;该值越接近-1,意味着派系林立的程度越小;该值越接近0,表明关系越趋向于随机分布,未出现派系林立的情形。
E-I Index可以说是企业管理者的一个重要的危机指数。当一个企业的E-I Index过高时,就表示该企业中的小团体有可能结合紧密而开始图谋小团体私利,从而伤害到整个企业的利益。其实E-I Index不仅仅可以应用到企业管理领域,也可以应用到其他领域,比如用来研究某一学科领域学者之间的关系。如果该网络存在凝聚子群,并且凝聚子群的密度较高,说明处于这个凝聚子群内部的这部分学者之间联系紧密,在信息分享和科研合作方面交往频繁,而处于子群外部的成员则不能得到足够的信息和科研合作机会。从一定程度上来说,这种情况也是不利于该学科领域发展的。
核心-边缘(Core-Periphery)结构分析的目的是研究社会网络中哪些节点处于核心地位,哪些节点处于边缘地位。核心-边缘结构分析具有较广的应用性,可用于分析精英网络、论文引用关系网络以及组织关系网络等多种社会现象。
根据关系数据的类型(定类数据和定比数据),核心—边缘结构有不同的形式。定类数据和定比数据是统计学中的基本概念,一般来说,定类数据是用类别来表示的,通常用数字表示这些类别,但是这些数值不能用来进行数学计算;定比数据是用数值来表示的,可以用来进行数学计算。如果数据是定类数据,可以构建离散的核心-边缘模型;如果数据是定比数据,可以构建连续的核心-边缘模型。
离散的核心-边缘模型,根据核心成员和边缘成员之间关系的有无及紧密程度,又可分为3种:核心-边缘全关联模型、核心-边缘局部关联模型、核心-边缘关系缺失模型。如果把核心和边缘之间的关系看成是缺失值,就构成了核心-边缘关系缺失模型。
这里介绍适用于定类数据的4种离散的核心-边缘模型:
参考