| | 1 | = Consistent Hasing を Ruby で試す = |
| | 2 | |
| | 3 | Consistent Hashing は、複数のコンピュータ(ノード)にレコードを分散するのに使われるアルゴリズムです。 |
| | 4 | |
| | 5 | [http://8-p.info/consistent-hashing/ Consistent Hashing を試す]ではプログラムサンプルが Perl で書かれていますが、それを Ruby に書き直してみました。それだけではなんなので、二分探索を用いてキーの検索の高速化も試みています。 |
| | 6 | |
| | 7 | プログラムの説明については、[http://8-p.info/consistent-hashing/ Consistent Hashing を試す]も併せて参照してください。 |
| | 8 | |
| | 9 | == サーバー台数で割った余り (mod) を使用する == |
| | 10 | 省略 |
| | 11 | |
| | 12 | == Consistent Hashing == |
| | 13 | Perl版と同じアルゴリズムで、キーとノードのハッシュ値を計算し、キーのハッシュ値に近い値を持つノードを選択します。このプログラムを ch1.rb とします。 |
| | 14 | {{{ |
| | 15 | require 'digest/md5' |
| | 16 | |
| | 17 | def search circle, key |
| | 18 | for i in 1...circle.size |
| | 19 | if circle[i-1][:key] < key and key < circle[i][:key] |
| | 20 | return circle[i][:name] |
| | 21 | end |
| | 22 | end |
| | 23 | return circle[0][:name] |
| | 24 | end |
| | 25 | |
| | 26 | nodes = {} |
| | 27 | ARGV.each {|arg| nodes[arg] = [arg]} |
| | 28 | |
| | 29 | circle = nodes.keys.map {|name| |
| | 30 | {:key=>Digest::MD5.hexdigest(name), :name=>name}}.sort_by {|h| h[:key]} |
| | 31 | |
| | 32 | for rec in 'A'..'Z' |
| | 33 | name = search circle, Digest::MD5.hexdigest(rec) |
| | 34 | nodes[name].push rec |
| | 35 | end |
| | 36 | |
| | 37 | puts nodes.keys.sort.map {|key| nodes[key].join(' ')}.join("\n") |
| | 38 | }}} |
| | 39 | 実行結果は、当然 Perl版と同じになります。この段階では、ノードによってレコードの数が偏っています。 |
| | 40 | {{{ |
| | 41 | $ ruby ch1.rb n1 n2 n3 n4 |
| | 42 | n1 H T |
| | 43 | n2 A B F K M N P S U V W Y |
| | 44 | n3 C D E J O Q X Z |
| | 45 | n4 G I L R |
| | 46 | }}} |
| | 47 | ノードをひとつ減らしてみます。 |
| | 48 | {{{ |
| | 49 | $ ruby ch1.rb n1 n2 n3 |
| | 50 | n1 H T |
| | 51 | n2 A B F K M N P S U V W Y |
| | 52 | n3 C D E G I J L O Q R X Z |
| | 53 | |
| | 54 | }}} |
| | 55 | |
| | 56 | == 仮想ノード == |
| | 57 | ノードごとの偏りを少なくするため、仮想ノードの概念を取り入れてみます。このプログラムを ch2.rb とします。 |
| | 58 | {{{ |
| | 59 | require 'digest/md5' |
| | 60 | |
| | 61 | def search circle, key |
| | 62 | for i in 1...circle.size |
| | 63 | if circle[i-1][:key] < key and key < circle[i][:key] |
| | 64 | return circle[i][:name] |
| | 65 | end |
| | 66 | end |
| | 67 | return circle[0][:name] |
| | 68 | end |
| | 69 | |
| | 70 | number_of_replicants = ARGV.shift |
| | 71 | nodes = {} |
| | 72 | ARGV.each {|arg| nodes[arg] = [arg]} |
| | 73 | |
| | 74 | circle = nodes.keys.map {|name| |
| | 75 | (0..number_of_replicants.to_i).map {|n| |
| | 76 | suffix = n.zero? ? '' : "_#{n}" |
| | 77 | {:key=>Digest::MD5.hexdigest(name+suffix), :name=>name} |
| | 78 | } |
| | 79 | }.flatten.sort_by {|h| h[:key]} |
| | 80 | |
| | 81 | for rec in 'A'..'Z' |
| | 82 | name = search circle, Digest::MD5.hexdigest(rec) |
| | 83 | nodes[name].push rec |
| | 84 | end |
| | 85 | |
| | 86 | puts nodes.keys.sort.map {|key| nodes[key].join(' ')}.join("\n") |
| | 87 | }}} |
| | 88 | 仮想ノードを100にした場合の実行結果は以下のようになります。先ほどよりはだいぶ偏りが少なくなりました。 |
| | 89 | {{{ |
| | 90 | $ ruby ch2.rb 100 n1 n2 n3 n4 |
| | 91 | n1 A E F O P Q U V |
| | 92 | n2 B H S T Y |
| | 93 | n3 C K L M N Z |
| | 94 | n4 D G I J R W X |
| | 95 | }}} |
| | 96 | ノードを一つ減らすと以下のようになります。 |
| | 97 | {{{ |
| | 98 | $ ruby ch2.rb 100 n1 n2 n3 |
| | 99 | n1 A D E F O P Q U V |
| | 100 | n2 B H I S T W Y |
| | 101 | n3 C G J K L M N R X Z |
| | 102 | }}} |
| | 103 | |
| | 104 | == 二分探索 == |
| | 105 | これまでのプログラムでは、キーの値に近いノードを検索するのに線形探索を行っていました。これではノードの数が増えるにしたがって遅くなるので二分探索を用いるように変更します。このプログラムを ch3.rb とします。 |
| | 106 | {{{ |
| | 107 | require 'digest/md5' |
| | 108 | |
| | 109 | def search circle, key |
| | 110 | left = 0 |
| | 111 | return circle[0][:name] if circle[-1][:key] < key or key <= circle[0][:key] |
| | 112 | right = circle.size - 1 |
| | 113 | while left <= right do |
| | 114 | mid = (left + right) / 2 |
| | 115 | return circle[mid][:name] if circle[mid-1][:key] < key and key <= circle[mid][:key] |
| | 116 | if circle[mid][:key] < key |
| | 117 | left = mid + 1 |
| | 118 | else |
| | 119 | right = mid - 1 |
| | 120 | end |
| | 121 | end |
| | 122 | return nil |
| | 123 | end |
| | 124 | |
| | 125 | number_of_replicants = ARGV.shift |
| | 126 | nodes = {} |
| | 127 | ARGV.each {|arg| nodes[arg] = [arg]} |
| | 128 | |
| | 129 | circle = nodes.keys.map {|name| |
| | 130 | (0..number_of_replicants.to_i).map {|n| |
| | 131 | suffix = n.zero? ? '' : "_#{n}" |
| | 132 | {:key=>Digest::MD5.hexdigest(name+suffix), :name=>name} |
| | 133 | } |
| | 134 | }.flatten.sort_by {|h| h[:key]} |
| | 135 | |
| | 136 | for rec in 'A'..'Z' |
| | 137 | name = search circle, Digest::MD5.hexdigest(rec) |
| | 138 | nodes[name].push rec |
| | 139 | end |
| | 140 | |
| | 141 | puts nodes.keys.sort.map {|key| nodes[key].join(' ')}.join("\n") |
| | 142 | }}} |
| | 143 | 実行結果は(あたりまえですが)線形探索版と同じです。 |
| | 144 | {{{ |
| | 145 | $ ruby ch3.rb 1000 n1 n2 n3 n4 |
| | 146 | n1 A F G K L N P Q Z |
| | 147 | n2 T U V X Y |
| | 148 | n3 C D M W |
| | 149 | n4 B E H I J O R S |
| | 150 | }}} |
| | 151 | 線形探索版と二分探索版の速度を比較してみました。レコード A..Z に対する検索部分をそれぞれ1000回実行し、合計を求めました。二分探索のほうが圧倒的に速いですが、ノードの数が増えるほどその差は顕著になるのがわかります。 |
| | 152 | {{{ |
| | 153 | 仮想ノードが100の場合 |
| | 154 | user system total real |
| | 155 | ch2.rb: 4.203125 0.234375 4.437500 ( 4.797802) |
| | 156 | ch3.rb: 0.242188 0.000000 0.242188 ( 0.268957) |
| | 157 | |
| | 158 | 仮想ノードが1000の場合 |
| | 159 | user system total real |
| | 160 | ch2.rb: 44.007812 0.109375 44.117188 (105.273196) |
| | 161 | ch3.rb: 0.375000 0.015625 0.390625 ( 0.408695) |
| | 162 | }}} |