设为首页收藏本站

爱吱声

 找回密码
 注册
搜索
查看: 7951|回复: 19
打印 上一主题 下一主题

[信息技术] MongoDB架构概览

[复制链接]

该用户从未签到

跳转到指定楼层
楼主
发表于 2012-9-18 12:31:10 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
    关于MongoDB,我们能看到的资料,基本都是在指导大家如何使用MongoDB,但是,MongoDB内部是如何运作的,资料不是很多。
0 a' R) S6 z- Q) g( Y6 A& j4 W8 n% g/ o$ ]2 y; O& y7 z  i* e) V
    阅读使用手册,会有很多疑惑之处。例如,有人说,MongoDB 等同于分布式的 MySQL。它把一个Table ,按 row,分割成多个Shards,分别存放在不同的 Servers 上。这种说法是否正确?9 R4 l8 p$ \1 n1 d: y/ o9 A
$ z; G9 _4 K/ Y: V# t
    不深入了解 MongoDB 的内部结构,就无法透彻地回答类似问题。这个系列文章,就来和大家探讨MongoDB的内部的工作方式。% a. W" R5 f' q: @

5 X) D! j1 ^, f; A/ e! E% K
7 f8 u2 q; V% F# P
- W0 s5 [  V/ \7 L9 F: o% E
图1-1 MongoDB架构图

. T/ B# i. }+ Q/ K
7 q* x& E5 r0 f8 c$ Q! G    MongoDB 通常运行在一个服务器集群上,而不是一个单机。图1-1,描述了一个MongoDB集群的基本组成部分,包括若干shards,至少一个config server,至少一个routing servers(又称 mongos)。  g5 |2 ~6 O& U, a$ V
1 F9 I4 i4 g+ A
Shards( j. Z6 F. E# l2 Z! x

8 u. ?  k4 j7 w+ h, V& Q' J    MongoDB的最基本的数据单元,叫document,类似于关系式数据库中的行 row。一系列documents,组成了一个collection,相当于关系式数据库中的table。当一个 collection 数据量太大时,可以把该collection按documents切分,分成多个数据块,每个数据块叫做一个chunk,多个chunks聚集在一起,组成了一个shard。# G+ h( w( `1 Q/ h/ f. X
9 m+ d+ K3 A  ^% ?
    Sharding 的意义,不仅保障了数据库的扩容(scalability),同时也保障了系统的负载均衡(load balance)。" s  z) |% `' }1 {' o4 N

" M" u( M% y, d& @, q    每一个shard存储在一个物理服务器(server)上。Server上运行着mongod进程,通过这个进程,对shard中的数据进行操作,主要是增删改查。; @$ ~4 A9 V4 T9 g1 \
" _0 k& K- a) `8 Y
    如果系统中的每个shard,只存储了一份数据,没有备份,那么当这个shard所在的server挂了,数据就丢失了。在生产环境中,为了保证数据不丢失,为了提高系统的可用性(availability),每一个shard被存储多份,每个备份所在的servers,组成了一个replica set。
3 Q8 S' u9 i1 A1 U6 s
2 a7 E0 s& ^5 l9 dShard keys
" S; n/ O2 @" U" w' c        
" }4 o/ q8 U& @, Y& [) a    为了把collection切分成不同的chunks,从而存放到不同的shards中,我们需要制定一个切分的方式。  m" ~) A7 ]4 A$ Y% p1 W9 m

4 ^0 m3 K! c" m# G    如前所述,在 MongoDB 数据库中,一个表collection由多个行 documents 组成,而每个 document,有多个属性 fields。同一个 collection 中的不同的 documents,可能会有不同的 fields。例如,有个 collection 叫 Media,包含两条 documents,
+ b6 q$ X4 \* l0 o" k& L  m$ h1 h
9 n# [. I. H: M0 u# X{
# r- |" _6 ~  P9 ]) I  F7 \  "ISBN": "987-30-3652-5130-82",! y4 |- Q$ N( q1 D1 @) _3 A6 m
  "Type": "CD",
2 d% v! t' @  a  "Author": "Nirvana",% X3 G  p0 J) n
  "Title": "Nevermind",# {: _& I% s) c9 l+ i& `
  "Genre": "Grunge",9 g. Q/ D5 Q5 }4 T9 z1 o0 {% I
   "Releasedate": "1991.09.24",/ x: b5 Z" J& p- S5 m- K
   "Tracklist": [
, z0 K3 w& Y5 X0 c/ b     {
! J( Z2 l* Z' M0 Y+ \9 h        "Track" : "1",
5 r- ~5 |, i+ X: }0 z& p        "Title" : "Smells like teen spirit",
) ?$ G( X) l% l: |& O' q        "Length" : "5:02"3 Y( n! S3 z+ b/ D) A5 i* k! R7 n
     },
- ^4 d+ j8 T5 Q7 L0 [! V4 P     {8 s7 p- P8 k, y8 @, |& S- c
        "Track" : "2",
9 J* w! m+ f  k! i        "Title" : "In Bloom",; h, i- B! l3 w! c
        "Length" : "4:15"' y% c5 f0 b; n- w# N- i2 A
     }/ U. z1 ^4 p" A* s7 g
   ]: Y$ h7 x, p% w8 r+ d, }- x
}, a9 \; c9 M" s1 v& m6 n. a
1 T4 {6 m7 q0 p8 T$ A: P
{6 M( a6 k8 Y# s' G9 b: B* k
  "ISBN": "987-1-4302-3051-9",
* {9 ~! i$ A* v& k& S  "Type": "Book",
4 B' z# @' X. t1 P6 p8 D, Y" J# q  "Title": "Definite Guide to MongoDB: The NoSQL Database",! U) z3 |8 ~; a4 [
  "Publisher": "Apress",
  ^+ x7 J% j* }% J  "Author": " Eelco Plugge",
2 W" i$ x0 Q5 q3 e4 Q  "Releasedate": "2011.06.09"
% w8 q* M3 U7 l8 c6 Y4 q" w}
& i; D( |) y2 \. a+ ~
$ S+ X) L8 z6 r    假如,在同一个 collection 中的所有 document,都包含某个共同的 field,例如前例中的“ISBN”,那么我们就可以按照这个 field 的值,来分割 collection。这个 field 的值,又称为 shard key。
% h* p, ]# W3 v3 H- R5 a, l; r5 S$ A' q2 L6 |
    在选择shard key的时候,一定要确保这个key能够把collection均匀地切分成很多chunks。
5 ^" J: I; M: j2 x9 }
7 r" ]; n6 v" a    例如,如果我们选择“author”作为shard key,如果有大量的作者是重名的,那么就会有大量的数据聚集在同一个chunk中。当然,假设很少有作者同名同姓,那么“author”也可以作为一个shard key。换句话说,shard key 的选择,与使用场景密切相关。
+ [, m3 v; n% ?, b" t- O
/ E: f, V. h, b( {  G    很多情况下,无论选择哪一个单一的 field 作为shard key,都无法均匀分割 collection。在这种情况下,我们可以考虑,用多个 fields,构成一个复合的shard key。
- V- ?9 _" \# B: o. s9 f9 e/ E: a9 W' C( g: e& J
    延续前例,假如有很多作者同名同姓,他们都叫“王二”。用 author 作为 shard key,显然无法均匀切割 collection。这时我们可以加上release-date,组成name-date的复合 shard key,例如“王二 2011”。
8 f* }' P9 L/ L/ M8 E" B' B- Y
/ Q' l, u0 u8 Z% jChunks
3 S! z- D  |+ x        . t, V$ H3 k6 r/ \! {# B& t
    MongoDB按 shard key,把 collection切割成若干 chunks。每个 chunk 的数据结构,是一个三元组,{collection,minKey,maxKey},如图1-2 所示。
' E. Q2 F* x7 _* A' \* U) K9 a# V9 F* X' a

2 ?1 U0 N0 n, ~. A3 ~1 \图1-2 chunk的三元组
, G# d8 i# {* ~7 J4 _2 [
! T8 U# `! `# X0 U2 ]8 b
    其中,collection 是数据库中某一个表的名称,而 minKey 和 maxKey 是 shard key的范围。每一个 document 的shard key 的值,决定了这条document应该存放在哪个chunk中。
& w! x$ A$ |4 ?- p7 f5 s4 j4 u+ m) ~7 \6 u
    如果两条 documents 的 shard keys 的值很接近,这两条 documents 很可能被存放在同一个 chunk 中。
" k4 f! N# G  W+ l( Q
9 w4 f. |$ B" V% c, c    Shard key 的值的顺序,决定了 document 存放的 chunk。在 MongoDB 的文献中,这种切割 collection 的方式,称为order-preserving。
" J. M: i2 Q/ z
1 I) o5 Z, D, c. y" }. q% F2 l" P    一个 chunk最多能够存储64MB的数据。 当某个chunk存储的 documents包含的数据量,接近这个阈值时,一个chunk会被切分成两个新的chunks。
4 K/ X$ a+ ]. Z3 s& k# |1 ~3 G
) Z3 ]0 y3 e/ v    当一个shard存储了过多的chunks,这个shard中的某些chunks会被迁移到其它 shard中。
7 |$ ]! T* P# M6 e2 Z+ ?! E5 y) Y' R
6 A. a4 S* r9 Y4 n3 L0 T; ?& a    这里有个问题,假如某一条 document 包含的数据量很大,超过 64MB,一个 chunk 存放不下,怎么办?在后续章节介绍 GridFS 时,我们会详细讨论。' W/ Z( K6 X( [  {) ?# O1 ^! S
8 i; ?6 V$ s' v* \) P! A
Replica set9 K- K0 T: W! r& ~& D+ I& ]
        
" u+ b7 R% Z/ q    在生产环境中,为了保证数据不丢失,为了提高系统的可用性(availability),每一个shard被存储多份,每个备份所在的servers,组成了一个replica set。
  x1 R" E, b4 `1 N3 ?7 j; h5 K3 w: ~
7 y. ~% n. k4 w9 T$ ^( P    这个replica set包括一个primary DB和多个secondary DBs。为了数据的一致性,所有的修改(insert / update / deletes) 请求都交给primary处理。处理结束之后,再异步地备份到其他secondary中。) Y# E+ h! A& g# Z% ^! ]- f3 ^8 [
4 j3 G3 ]2 H/ ?  c5 q/ h% J! L
    Primary DB由replica set中的所有servers,共同选举产生。当这个primaryDB server出错的时候,可以从replica set中重新选举一个新的primaryDB,从而避免了单点故障。
$ {- i& A6 K3 [* V( w: w
) K- r: ^3 |8 j+ v& H3 j- e    Replica set的选举策略和数据同步机制,确保了系统的数据的一致性。后文详述。
+ _# {: |1 |3 S) a6 r; p7 c$ r& r- j# g, d. H6 V* D
Config Server
) h  Z+ x( v! ^5 i. `/ G. l; u        $ P. F2 ]* A0 \! |( U3 U
    Config servers用于存储MongoDB集群的元数据 metadata,这些元数据包括如下两个部分,每一个shard server包括哪些chunks,每个chunk存储了哪些 collections 的哪些 documents。
7 w5 a5 m+ C+ i- k5 n+ _: Q/ J. r% m" a
    每一个config server都包括了MongoDB中所有chunk的信息。$ U6 @, ]& _% c7 u6 n

6 Y# y1 O, n2 t# s5 }    Config server也需要 replication。但是有趣的是,config server 采用了自己独特的replication模式,而没有沿用 replica set。$ B* |* P1 H; g% W; L
& L+ {; T" _4 g# v+ ~
    如果任何一台config server挂了,整个 config server 集群中,其它 config server变成只读状态。这样做的原因,是避免在系统不稳定的情况下,冒然对元数据做任何改动,导致在不同的 config servers 中,出现元数据不一致的情况。8 O0 Q$ ]1 _  J! L: b

* H1 o- E3 |8 J4 {0 G    MongoDB的官方文档建议,配置3个config servers比较合适,既提供了足够的安全性,又避免了更多的config servers实例之间的数据同步,引起的元数据不一致的麻烦。5 O3 o: j! k8 [5 a# g

/ B' y) F' m3 G7 T' F$ l3 pMongos
, Y. `3 O. D. F6 i( C
- \; l$ f+ Z3 {8 o0 H    用户使用MongoDB 时,用户的操作请求,全部由mongos来转发。$ T& }. {/ |6 S; U8 e6 V6 |

0 M4 p+ Q  n) J! _5 B# J    当 mongos 接收到用户请求时,它先查询 config server,找到存放相应数据的shard servers。然后把用户请求,转发到这些 shard servers。当这些 shard servers完成操作后,它们把结果分别返回给 mongos。而当 mongos 汇总了所有的结果后,它把结果返回给用户。
- g  s6 Q; l% s2 n  G& X: m9 i1 @9 h4 v8 ~' d
    Mongos每次启动的时候,都要到config servers中读取元数据,并缓存在本地。每当 config server中的元数据有改动,它都会通知所有的mongos。
7 @2 ]9 }. m* \8 `6 ^+ K+ |! R2 L5 w( z. M. {
    Mongos之间,不存在彼此协同工作的问题。因此,MongoDB所需要配置的mongos server的数量,没有限制。
; d/ y8 q; L, @, X- h
  n  [/ q, {. k! \+ }    通过以上的介绍,我们对每个组成部分都有了基本的了解,但是涉及到工作的细节,我们尚有诸多疑问,例如,一个chunk的数据太大,如何切分?一个shard数据太多,如何迁移?在replica set中,如何选择primary?server挂了,怎么进行故障恢复?接下来的章节,我们逐个回答这些问题。
) ~* P5 y; w( f, D! u# \. l3 A
# o5 C& N! W- o1 A( T0 d
$ d5 W$ s" u+ [$ m7 b7 V( PReference,* h+ G" c6 f6 h: I2 X
% g. G# ^+ h9 i0 K- l  f
[0] Architectural Overview& A2 C) O9 K* U( z" c
http://www.mongodb.org/display/DOCS/Sharding+Introduction
. J! h; j( b, n0 h

评分

参与人数 1爱元 +10 学识 +5 收起 理由
不爱吱声 + 10 + 5 谢谢!有你,爱坛更精彩

查看全部评分

该用户从未签到

沙发
发表于 2012-9-18 12:40:50 | 只看该作者
本帖最后由 PenPen 于 2012-9-18 12:44 编辑 - f# d. P$ I( d' y4 T: r) A; |
/ O( a, N( P7 h  p6 t: [$ [$ j' m5 \
- O  U+ s+ V: I  Z. ?$ i; x! U
您是和邓侃一起写文章的盛楠么?

该用户从未签到

板凳
 楼主| 发表于 2012-9-18 12:44:19 | 只看该作者
呃。。。是我啊。。。

该用户从未签到

地板
 楼主| 发表于 2012-9-18 12:44:45 | 只看该作者
PenPen 发表于 2012-9-18 12:40
$ ?; D3 M  M) e+ P您是和邓侃一起写文章的盛楠么?

) u7 W  B7 U" g0 K是我啊。。。这都能被认出来。。。

该用户从未签到

5#
发表于 2012-9-18 12:47:20 | 只看该作者
shengnan007 发表于 2012-9-18 12:44
/ y; J/ h: T: H) A; V是我啊。。。这都能被认出来。。。

5 U  V& c& h/ {. d这篇文章我读过。开始以为是转贴的,后来再一看id就发现真相了~

该用户从未签到

6#
 楼主| 发表于 2012-9-18 12:49:50 | 只看该作者
PenPen 发表于 2012-9-18 12:47
: F" H. G: J5 I这篇文章我读过。开始以为是转贴的,后来再一看id就发现真相了~
7 @) z4 W7 w1 t; {
多谢支持。还有两篇一会帖过来。后续的还在写。边看源码边写,比较慢,hoho。这里是要推荐才能变成正式会员是么?

点评

你已经是会员了~  发表于 2012-9-18 12:50
  • TA的每日心情
    奋斗
    2022-2-8 01:13
  • 签到天数: 171 天

    [LV.7]分神

    7#
    发表于 2012-9-18 12:51:42 | 只看该作者
    shengnan007 发表于 2012-9-17 22:49 5 j" K- n7 s% y
    多谢支持。还有两篇一会帖过来。后续的还在写。边看源码边写,比较慢,hoho。这里是要推荐才能变成正式会 ...

    8 M3 f* G: `# z0 S; w1 M欢迎,欢迎,已经给你变成正式会员了。

    该用户从未签到

    8#
     楼主| 发表于 2012-9-18 12:57:15 | 只看该作者
    不爱吱声 发表于 2012-9-18 12:51 : U% q1 `1 g1 H0 h
    欢迎,欢迎,已经给你变成正式会员了。
    ( K: K' @% M4 h% y
    多谢多谢啦~~
  • TA的每日心情
    慵懒
    2020-1-15 02:37
  • 签到天数: 1287 天

    [LV.10]大乘

    9#
    发表于 2012-9-19 03:38:34 | 只看该作者
    我们现在的 technology stack 就是 php + mongodb,涉及财务方面的东西用 postgres。
    : l: l1 l7 b8 H6 ?2 s& R. R5 v9 e* D; }% y( Y9 ?

    该用户从未签到

    10#
    发表于 2012-9-19 04:21:40 | 只看该作者
    谢谢。
    ( U; i  y0 O, o, v6 X+ J2 q  U& {) |9 s- Q/ j; A( Z4 a
    中文看得真累,大部分还是英文术语。
    ; ~, }$ s( n: Z1 r3 J/ ?
    " o3 M. P6 e- {8 g3 y. ~这应该是一个系列吧,后面怎样寻找,执行指令等开始入门,还是说的太简单了。
    & S, k7 d" Z8 L& z+ |. j0 I( b% u
    $ A: O5 i6 l$ t/ Q, [# A现在distributed DB在那些大网站很重要,现在开始有跟已有DB分庭抗礼的苗头,不过不是那里工作的话,其中的奥妙大概难说清楚。

    该用户从未签到

    11#
     楼主| 发表于 2012-9-19 08:40:52 | 只看该作者
    巴山 发表于 2012-9-19 03:38
    6 G$ [8 }, U% Q9 @# g2 B我们现在的 technology stack 就是 php + mongodb,涉及财务方面的东西用 postgres。0 |6 X; l( H6 |1 o( H

    6 a9 Q( X1 {1 H( ~7 W: ?4 A ...
    , F+ K8 t5 D* D! S5 |: E9 M
    mongoDB作为存储是没有问题的,财务这种核心数据,还是不建议使用mongoDB的

    点评

    主要是transaction acid的问题。  发表于 2012-9-27 17:12

    该用户从未签到

    12#
     楼主| 发表于 2012-9-19 08:44:52 | 只看该作者
    梦晓半生 发表于 2012-9-19 04:21 ( N9 y  l+ L8 P! u) ]! A! M+ H1 {6 V  X
    谢谢。4 L- q0 {! c$ N

    & x" R6 g5 D: B中文看得真累,大部分还是英文术语。
    ( x& g& q9 s: W0 v
    现在关于mongoDB的文章,大部分都是在告诉大家怎么用,涉及到内部运行机理的文章,数量不多,而且不成体系。这个系列文章的目的,是让大家了解mongoDB的基本的运行机理,这样以后使用的时候,可以知其所以然。但是由于这方面的资料很少,我也是到处找资料,写了这么几篇,再往后,就是边使用,边看源码,边写了。
  • TA的每日心情
    奋斗
    2018-1-6 00:24
  • 签到天数: 1 天

    [LV.1]炼气

    13#
    发表于 2012-9-19 14:16:01 | 只看该作者
    shengnan007 发表于 2012-9-18 12:44
    8 ~/ ^! n9 K, X& g0 [是我啊。。。这都能被认出来。。。
    + v0 `2 f0 X! ]( T
    是邓嫂么?

    该用户从未签到

    14#
     楼主| 发表于 2012-9-19 14:17:53 | 只看该作者
    profer 发表于 2012-9-19 14:16
    $ C1 W. l3 b1 _; L& H& {1 |是邓嫂么?
    # C5 w- X  r0 \. F6 L; \5 o
    是邓的小兵
  • TA的每日心情
    奋斗
    2019-9-9 20:24
  • 签到天数: 1 天

    [LV.1]炼气

    15#
    发表于 2012-9-19 18:35:28 | 只看该作者
    有点惊讶 居然在这里看到这篇文章 呵呵 静待大作

    该用户从未签到

    16#
    发表于 2012-9-20 00:57:50 | 只看该作者
    shengnan007 发表于 2012-9-19 08:44 5 B0 Q# Y# z) w3 q
    现在关于mongoDB的文章,大部分都是在告诉大家怎么用,涉及到内部运行机理的文章,数量不多,而且不成体 ...
    / f" Y; P5 m$ U& O
    太好了,期待中,希望都带上英文reference。
    ) O! x( b. q6 [" B" q1 U  A  A3 T8 E  f  @: c
    现在这种新技术很多,Mongo是比较流行的一个,我这里附带一下一堆NoSQL的新系统,到最后估计会有几个胜出。
    3 ~- Z3 G7 [: v9 l' Q
    3 D/ f& O' o/ e1 a  E7 rhttp://en.wikipedia.org/wiki/NoSQL

    该用户从未签到

    17#
     楼主| 发表于 2012-9-20 08:53:41 | 只看该作者
    梦晓半生 发表于 2012-9-20 00:57
    4 q# Y7 c! s: A: k9 G6 Q- C太好了,期待中,希望都带上英文reference。
    , [9 W9 v9 B0 E( ]: m  M
    & d& J: U2 D2 t/ n0 S4 ^- b现在这种新技术很多,Mongo是比较流行的一个,我这里附带一 ...

    ' a  c4 p2 |* A1 \现在写的也很纠结,资料太少了,哈哈

    该用户从未签到

    18#
    发表于 2012-9-21 11:52:33 | 只看该作者
    shengnan007 发表于 2012-9-20 08:53
    4 G5 u$ F. t3 o3 J8 C现在写的也很纠结,资料太少了,哈哈

    6 O6 a/ Y8 ^4 V+ V# K' C建议从NoSQL写起,这是推动新数据库设计的需求关系,原始动力。) O3 D& V) A/ d
    4 m/ m( f, d" O" a
    http://en.wikipedia.org/wiki/NoSQL' K: f3 f+ l. I
    4 Z0 o4 {) d  u' t
  • TA的每日心情
    郁闷
    2019-4-22 08:49
  • 签到天数: 38 天

    [LV.5]元婴

    19#
    发表于 2012-9-21 17:03:12 | 只看该作者
    恶魔吹笛来 发表于 2012-9-19 18:35 5 \" ~* V) X" C$ t) m; d$ a+ A
    有点惊讶 居然在这里看到这篇文章 呵呵 静待大作
    " ~" Z- ^8 ~" U
    有什么可惊讶的邓侃在前一个爱坛版本是很早的注册用户呢,从开心网一块迁移的。。。

    该用户从未签到

    20#
     楼主| 发表于 2012-9-24 09:11:03 | 只看该作者
    梦晓半生 发表于 2012-9-21 11:52
    & M* \+ u4 l2 k6 C. J1 f6 S2 G建议从NoSQL写起,这是推动新数据库设计的需求关系,原始动力。
    6 W0 {2 J7 L8 E) A
    $ x1 [7 D: o1 d- Zhttp://en.wikipedia.org/wiki/NoSQL
    : t* Z) }5 j$ l
    好的好的,现在这个写完,然后开始写nosql

    手机版|小黑屋|Archiver|网站错误报告|爱吱声   

    GMT+8, 2025-10-24 08:06 , Processed in 0.043713 second(s), 21 queries , Gzip On.

    Powered by Discuz! X3.2

    © 2001-2013 Comsenz Inc.

    快速回复 返回顶部 返回列表