关联矩阵(incidence matrix)
我们生成的这个矩阵的原型是一个引证关系矩阵。 矩阵中的三行代表3篇文献,四列代表4篇引文。 1/2/3/4是在A/B/C前面发表的文献,A/B/C是后来发表的文献。 其中文献A引用了3/4,文献B引用了1/2/4,文献C引用了1/2/4。
library(igraph)
library(Matrix)
set.seed(3)
m <- matrix(data = sample(0:1, 12, replace = TRUE),nrow = 3)
rownames(m) <- LETTERS[1:3]
colnames(m) <- 1:4
m
## 1 2 3 4
## A 0 0 1 1
## B 1 1 0 1
## C 1 1 0 1
这样的一个引证关系,可以用下面的图表示。
在bibliometrix::cocMatrix()
中将这种矩阵称为共现矩阵,Co-occurrence Matrix。
par(mar=c(1,1,1,1))
g1 <- graph_from_incidence_matrix(m,directed = TRUE,mode = "out")
plot(g1)
上面的矩阵通过矩阵叉乘可以得到不同的邻接矩阵,用于生成新的网络。
矩阵和向量的计算
矩阵的点乘就是矩阵各个对应元素相乘, 这个时候要求两个矩阵必须同样大小。
https://blog.csdn.net/u013066730/article/details/57462299
矩阵的叉乘(乘法)就是矩阵A的第一行乘以矩阵B的第一列,各个元素对应相乘然后求和作为第一元素的值。 矩阵只有当左边矩阵的列数等于右边矩阵的行数时才可以相乘, 乘积矩阵的行数等于左边矩阵的行数,乘积矩阵的列数等于右边矩阵的列数。
向量的点乘和叉乘是矩阵算法的基础。
https://blog.csdn.net/dcrmg/article/details/52416832
向量的点乘,也叫向量的内积、数量积,对两个向量执行点乘运算, 就是对这两个向量对应位一一相乘之后求和的操作,点乘的结果是一个标量。
点乘的几何意义是可以用来表征或计算两个向量之间的夹角,以及在b向量在a向量方向上的投影。
两个向量的叉乘,又叫向量积、外积、叉积,叉乘的运算结果是一个向量而不是一个标量。并且两个向量的叉积与这两个向量组成的坐标平面垂直。
在 R 语言中,使用 %*%
计算矩阵的叉乘,而 crossprod()
和 tcrossprod()
函数对算法进行了优化。
此外,crossprod()
对计算过程也进行了变动,同一个矩阵的叉乘时不需要预先转置。
下面的三个个计算结果一样。
m %*% t(m)
## A B C
## A 2 1 1
## B 1 3 3
## C 1 3 3
crossprod(t(m),t(m))
## A B C
## A 2 1 1
## B 1 3 3
## C 1 3 3
tcrossprod(m,m)
## A B C
## A 2 1 1
## B 1 3 3
## C 1 3 3
下面的两个结果也一样。
t(m) %*% m
## 1 2 3 4
## 1 2 2 0 2
## 2 2 2 0 2
## 3 0 0 1 1
## 4 2 2 1 3
crossprod(m,m)
## 1 2 3 4
## 1 2 2 0 2
## 2 2 2 0 2
## 3 0 0 1 1
## 4 2 2 1 3
邻接矩阵(adjacency matrix)
m2 <- crossprod(m,m)
m2
## 1 2 3 4
## 1 2 2 0 2
## 2 2 2 0 2
## 3 0 0 1 1
## 4 2 2 1 3
共被引(co-citation)是指当两篇(或多篇)文献同时被后来一篇(或多篇)论文所引用的关系, 同时引用这两篇论文的文献数目则称为共被引强度。 文献的共被引关系会随着时间的变化而变化。 通过对文献共被引网络的研究可以探究科学的发展和演进动态。
根据共被引的定义,文献1和2同时被B和C引用,二者具有共被引关系,共被引强度是2。 同理,文献3和4之间的共被引强度是1, 文献1和3的共被引强度是0,文献2和3的共被引强度是0; 文献2和4的共被引强度是2,文献1和4的共被引强度是2。
g2 <- graph_from_adjacency_matrix(m2, mode = "undirected")
par(mar=c(1,1,1,1))
plot(g2,layout=layout_with_kk)
若文献A和文献B引用了相同的参考文献,则它们之间构成耦合关系(coupling)。 它们所包含相同参考文献的个数成为耦合强度。 如果两篇文献同时引用了1篇文献,则耦合度为1;若同时引用了3篇文献,则耦合度为3。 两篇文献拥有的共同参考文献越多,则其研究内容越相似。
耦合关系的邻接矩阵可以用转置后关联矩阵的叉乘来表示。
m3 <- crossprod(t(m),t(m))
m3
## A B C
## A 2 1 1
## B 1 3 3
## C 1 3 3
文献B和C共同引用了1/2/4号文献,因此它们之间的耦合关系最强,数值为3。
g3 <- graph_from_adjacency_matrix(m3, mode = "undirected")
par(mar=c(1,1,1,1))
plot(g3)
从文献耦合的概念上看,一个文献引用的参考文献越多, 那么它将有越多的机会与其它文献建立耦合关系。 为了消除这种影响,通常需要对原始数据使用 Jaccard 或 Salton 方法进行标准化处理, 来计算相对的耦合强度。
bibliometrix::normalizeSimilarity()
提供了3种方法来标准化耦合矩阵。
method <- c("association", "jaccard", "inclusion","salton", "equivalence")
m3_list <- lapply(method, function(x){
bibliometrix::normalizeSimilarity(m3,type = x)
})
## This version of bslib is designed to work with shiny version 1.5.0.9007 or higher.
names(m3_list) <- method
m3_list
## $association
## 3 x 3 sparse Matrix of class "dsCMatrix"
## A B C
## A 0.5000000 0.1666667 0.1666667
## B 0.1666667 0.3333333 0.3333333
## C 0.1666667 0.3333333 0.3333333
##
## $jaccard
## 3 x 3 sparse Matrix of class "dsCMatrix"
## A B C
## A 1.00 0.25 0.25
## B 0.25 1.00 1.00
## C 0.25 1.00 1.00
##
## $inclusion
## 3 x 3 sparse Matrix of class "dsCMatrix"
## A B C
## A 1.0 0.5 0.5
## B 0.5 1.0 1.0
## C 0.5 1.0 1.0
##
## $salton
## 3 x 3 sparse Matrix of class "dsCMatrix"
## A B C
## A 1.0000000 0.4082483 0.4082483
## B 0.4082483 1.0000000 1.0000000
## C 0.4082483 1.0000000 1.0000000
##
## $equivalence
## 3 x 3 sparse Matrix of class "dsCMatrix"
## A B C
## A 1.0000000 0.1666667 0.1666667
## B 0.1666667 1.0000000 1.0000000
## C 0.1666667 1.0000000 1.0000000
标准化的邻接矩阵最大值都不超过1,因此在创建网络的时候要使用“weighted = TRUE
”模式。
这样,矩阵的强度将会转变为边的属性。
par(mfrow=c(2,3))
success <- lapply(seq_along(m3_list), function(x){
par(mar=c(1,1,1,1))
graph_from_adjacency_matrix(m3_list[[x]], mode = "undirected", weighted = TRUE) %>%
plot(main=method[[x]])
})
乍看上去,生成的网络是一样的,但事实上边的属性不一样。 如果我们把边的宽度映射到“weight”属性,则仍然可以发现文献B和C之间的耦合关系是最强的。
par(mfrow=c(2,3))
success <- lapply(seq_along(m3_list), function(x){
par(mar=c(1,1,1,1))
g3_weighted <- graph_from_adjacency_matrix(m3_list[[x]], mode = "undirected", weighted = TRUE)
E(g3_weighted)$width <- edge.attributes(g3_weighted)$weight*5
plot(g3_weighted, main=method[[x]])
})
对于耦合网络来说,图中的 loop 是没有意义的。可以使用 igraph::simplify()
来去掉。
g4 <- simplify(g3, remove.multiple = FALSE, remove.loops = TRUE)
plot(g4)