产业集群分析中辨别组团与重要节点的两种方法
作者:
分类:研究经验与心得
Tags:网络 节点 产业集群 方法 组团 cluster industry
浏览:2843次
回复:0次
发表时间:2009-02-16 15:03:17
产业集群分析中辨别组团与重要节点的两种方法
于良
对网络中节点之间的流数据进行分析,辨别哪些节点是重要节点,哪些节点组成了联系密切的组团,有广泛的应用领域。这样的方法可以用于研究:可以用投入产出表中的流数据分析区域经济中的产业群和主导产业;用电信流、信件流、铁路货运流、人流分析城市群;用货运流、人流研究港口间的“hub-spoke(轴-辐)”关系;用电信流、信件流、货运流、人流分析国家之间的经济联系;还可以用来分析世界城市体系及相互联系。以下用投入产出表中的流数据分析产业群和主导产业的例子,探讨了两种使用OD数据辨别网络中组团与重要节点的方法。
方法一:主成分分析法
主成分分析的方法之所以可以用来判别产业群,是因为产业群内部各行业之间存在投入产出关系,附属部门围绕着其中几个核心部门,附属部门对核心部门的投入或是产出一般来说比较大。这样在生产的中间使用过程中,同一个产业群中的行业对几个核心行业的销售结构相似或是投入结构相似,或行业间的投入结构与产出结构相似,进行相关分析会得到较强的相关性。再对由行业之间的相关系数组成的矩阵进行主成分分析,并人为的确定一个载荷的门槛值,把每个产业群中高于载荷门槛值的行业挑出来,就组成了各自的产业群。
这种方法实际上是先通过调整过的主成分分析方法辨别出由节点组成的网络中有哪些关系密切的组团,然后再根据组团内部各节点之间的联系来确定组团中的重要节点。
方法二
这是我最近试验的一种方法,它不像第一种方法根据节点之间投入结构与产出结构之间的耦合关系来辨别组团,而是接近于图论的方法。
首先,对OD流量矩阵中的数据进行筛选以减少数据量,设置一个门槛值大小(可以是数量大小,也可以是比例),只留下超过门槛值的数据(实际上这样做的初衷是为了解决矩阵表中数据不足的问题,例如在分析世界各国之间的贸易进出口流量的过程中,一般一个国家的数据中只有对主要几个贸易国家的数据能够得到),低于门槛值的数据视为0。
之后,看每一个节点与其它节点的联系(流量高于门槛值,才有联系)多少,将联系多的节点作为组团中重要节点的备选节点,每一个备选节点与和它联系的其它节点组成组团。
最后,对结果进行解释和调整。
下面,以使用2002年的北京市投入产出表中的中间流动部分的数据,来进行产业群和主导行业的分析的过程为例,演示方法二的使用。
如方法一中的公式一,构造中间投入矩阵A和中间销售矩阵B,再以0.1为门槛值进行筛选,把低于0.1的值赋值为0,得到新的矩阵A1和矩阵B1。在矩阵A1中第i行有一个数据计数一次,得到产业i的总联系个数。在矩阵B1中第i列有一个数据计数一次,得到产业i的总联系个数。以下两个表格列出了计数结果中,总联系个数大于4的产业。
投入联系情况表
ID
|
BM
|
DM
|
sum
|
86
|
电力、热力的生产和供应业
|
44086
|
23
|
106
|
金融业
|
68105
|
20
|
36
|
石油加工业
|
25036
|
10
|
78
|
电子元器件制造业
|
40078
|
9
|
57
|
钢压延加工业
|
32056
|
9
|
61
|
金属制品业
|
34060
|
9
|
38
|
基础化学原料制造业
|
26038
|
7
|
1
|
农业
|
1001
|
7
|
108
|
房地产开发业
|
72107
|
7
|
64
|
其他通用设备制造业
|
35063
|
6
|
7
|
煤炭开采和洗选业
|
6007
|
6
|
46
|
医药制业
|
27045
|
5
|
30
|
木材加工及木、竹、藤、棕、草制品业
|
20030
|
5
|
23
|
棉、化纤纺织及印染精加工业
|
17023
|
4
|
77
|
其他电子计算机设备制造业
|
40077
|
4
|
60
|
有色金属压延加工业
|
33059
|
4
|
32
|
造纸及纸制品业
|
22032
|
4
|
从表中可以看出,投入联系最多的是电力、热力的生产和供应业、金融业这两个行业。
产出联系情况表
|
|
|
|
ID
|
BM
|
DM
|
字段3
|
89
|
建筑业
|
47089
|
27
|
106
|
金融业
|
68105
|
21
|
108
|
房地产开发业
|
72107
|
10
|
105
|
餐饮业
|
67104
|
9
|
117
|
科技交流和推广服务业
|
77112
|
8
|
57
|
钢压延加工业
|
32056
|
8
|
75
|
通信设备制造业
|
40075
|
7
|
102
|
软件业
|
62101
|
7
|
19
|
其他食品加工和食品制造业
|
13019
|
6
|
130
|
公共管理和社会组织
|
93123
|
6
|
78
|
电子元器件制造业
|
40078
|
5
|
69
|
汽车制造业
|
37067
|
5
|
115
|
科学研究事业
|
75111
|
5
|
42
|
合成材料制造业
|
26042
|
5
|
4
|
畜牧业
|
3004
|
5
|
64
|
其他通用设备制造业
|
35063
|
5
|
28
|
纺织服装、鞋、帽制造业
|
18028
|
4
|
95
|
航空旅客运输业
|
55095
|
4
|
14
|
饲料加工业
|
13014
|
4
|
1
|
农业
|
1001
|
4
|
125
|
卫生事业
|
85118
|
4
|
113
|
广告业
|
74111
|
4
|
从表中可以看出,产出联系最多的是建筑业、金融业这两个行业。
将产业的投入联系和产出联系简单加和,得到产业的总联系,结果如下表(先按总联系降序排列,再按照产出联系降序排列。):
联系较强的部分行业表
BM
|
DM
|
投入联系
|
产出联系
|
总联系
|
金融业
|
68105
|
20
|
21
|
41
|
建筑业
|
47089
|
0
|
27
|
27
|
电力、热力的生产和供应业
|
44086
|
23
|
2
|
25
|
房地产开发业
|
72107
|
7
|
10
|
17
|
钢压延加工业
|
32056
|
9
|
8
|
17
|
电子元器件制造业
|
40078
|
9
|
5
|
14
|
石油加工业
|
25036
|
10
|
3
|
13
|
金属制品业
|
34060
|
9
|
3
|
12
|
其他通用设备制造业
|
35063
|
6
|
5
|
11
|
农业
|
1001
|
7
|
4
|
11
|
通信设备制造业
|
40075
|
3
|
7
|
10
|
基础化学原料制造业
|
26038
|
7
|
3
|
10
|
餐饮业
|
67104
|
0
|
9
|
9
|
科技交流和推广服务业
|
77112
|
0
|
8
|
8
|
其他食品加工和食品制造业
|
13019
|
2
|
6
|
8
|
软件业
|
62101
|
0
|
7
|
7
|
畜牧业
|
3004
|
2
|
5
|
7
|
汽车制造业
|
37067
|
2
|
5
|
7
|
广告业
|
74111
|
3
|
4
|
7
|
医药制业
|
27045
|
5
|
2
|
7
|
煤炭开采和洗选业
|
6007
|
6
|
1
|
7
|
公共管理和社会组织
|
93123
|
0
|
6
|
6
|
合成材料制造业
|
26042
|
1
|
5
|
6
|
科学研究事业
|
75111
|
1
|
5
|
6
|
卫生事业
|
85118
|
2
|
4
|
6
|
造纸及纸制品业
|
22032
|
4
|
2
|
6
|
饲料加工业
|
13014
|
1
|
4
|
5
|
航空货运业
|
55096
|
3
|
2
|
5
|
棉、化纤纺织及印染精加工业
|
17023
|
4
|
1
|
5
|
有色金属压延加工业
|
33059
|
4
|
1
|
5
|
其他电子计算机设备制造业
|
40077
|
4
|
1
|
5
|
木材加工及木、竹、藤、棕、草制品业
|
20030
|
5
|
0
|
5
|
可以根据“联系较强的部分行业表”,筛选出备选的核心行业作为产业群的核心行业。选出总联系大于7的行业(之所以选择总联系=7这个偏低的值。实际上,是要放更多的行业进入),并去掉其中明显是提供基础原材料、能源的基础工业:电力、热力的生产和供应业,石油加工业,煤炭开采和洗选业,基础化学原料制造业,结果得到17个行业。
备选的产业群核心产业表
BM
|
DM
|
投入联系
|
产出联系
|
总联系
|
金融业
|
68105
|
20
|
21
|
41
|
建筑业
|
47089
|
0
|
27
|
27
|
房地产开发业
|
72107
|
7
|
10
|
17
|
钢压延加工业
|
32056
|
9
|
8
|
17
|
电子元器件制造业
|
40078
|
9
|
5
|
14
|
金属制品业
|
34060
|
9
|
3
|
12
|
其他通用设备制造业
|
35063
|
6
|
5
|
11
|
农业
|
1001
|
7
|
4
|
11
|
通信设备制造业
|
40075
|
3
|
7
|
10
|
餐饮业
|
67104
|
0
|
9
|
9
|
科技交流和推广服务业
|
77112
|
0
|
8
|
8
|
其他食品加工和食品制造业
|
13019
|
2
|
6
|
8
|
软件业
|
62101
|
0
|
7
|
7
|
畜牧业
|
3004
|
2
|
5
|
7
|
汽车制造业
|
37067
|
2
|
5
|
7
|
广告业
|
74111
|
3
|
4
|
7
|
医药制业
|
27045
|
5
|
2
|
7
|
最后得到14个产业群,结果如下:
产业群表
1
|
金融业产业群
|
2
|
建筑业产业群
|
3
|
房地产开发产业群
|
4
|
钢压延加工产业群
|
5
|
电子元器件制造产业群
|
6
|
金属制品产业群
|
7
|
其它通用设备制造产业群
|
8
|
农业产业群
|
9
|
通信设备制造产业群
|
10
|
餐饮业产业群
|
11
|
科技交流和推广服务产业群
|
12
|
其它食品加工和食品制造产业群
|
13
|
软件产业群
|
14
|
畜牧产业群
|
15
|
汽车制造产业群
|
16
|
广告产业群
|
这种方法的原理很简单,实际上是把产业作为图上的点,如果两个产业之间有紧密的联系,就在代表两个产业的点之间划一条线,先看哪些点上联的线最多,把这些连线多的点作为网络中的重要节点,每一个重要节点和与它有重要联系的所有点形成一个组团。
这种方法操作简单,过程和结果都简单明了,意义明确,但判断以什么标准作为节点间有重要联系的标准,把联系多大作为确定节点是重要节点的标准,是比较难判断的。