gossip協議區塊鏈_gossip協議解決了什麼問題

1. 如何設計日誌採集存儲分析的架構

Flume最早是Cloudera提供的日誌收集系統，目前是Apache下的一個孵化項目，Flume支持在日誌系統中定製各類數據發送方，用於收集數據；同時，Flume提供對數據進行簡單處理，並寫到各種數據接受方（可定製）的能力 Flume提供了從console（控制台）、RPC（Thrift-RPC）、text（文件）、tail（UNIX tail）、syslog（syslog日誌系統，支持TCP和UDP等2種模式），exec（命令執行）等數據源上收集數據的能力。 Flume採用了多Master的方式。為了保證配置數據的一致性，Flume引入了ZooKeeper，用於保存配置數據，ZooKeeper本身可保證配置數據的一致性和高可用，另外，在配置數據發生變化時，ZooKeeper可以通知Flume Master節點。Flume Master間使用gossip協議同步數據。 Flume是一個分布式、可靠、和高可用的海量日誌聚合的系統，支持在系統中定製各類數據發送方，用於收集數據；同時，Flume提供對數據進行簡單處理，並寫到各種數據接受方（可定製）的能力。設計目標： (1) 可靠性 (2) 可擴展性 3) 可管理性 (4) 功能可擴展性

2. 覆蓋網路的覆蓋網路的相關協議

基於TCP/IP的覆蓋網路協議:
分布式哈希表(DHTs), 比如 KAD 和其他基於Kademlia演算法的協議。
（1）JXTAXMPP: the routing of messages based on an endpoint Jabber ID instead of by an IP Address。
（2）許多peer-to-peer 協議，包括Gnutella, Gnutella2, Freenet, I2P 和Tor。
（3）PUCC。
（4）Solipsis: a France Télécom system for massively shared virtual worldHyParView: a highly robust unstructured overlay for gossip broadcast
基於UDP/IP的覆蓋網路協議:
Real Time Media Flow Protocol - Adobe Flash

3. select is not allowed in cluster mode怎麼解決

集群架構
每個節點都會跟其他節點保持連接，用來交換彼此的信息。節點組成集群的方式使用cluster meet命令，meet命令可以讓兩個節點相互握手，然後通過gossip協議交換信息。如果一個節點r1在集群中，新節點r2加入的時候與r1節點握手，r1節點會把

4. gossip協議解決了什麼問題

Gossip Girl當然就是現在熱播的電視劇《緋聞女孩》的原著了
The it Girl的主角是Jenny，講的是她大學的事
The Carlyles是GG小說的一個番外，共4本
GG的確有兩種封面，一種是原版小說，另一種則是CW出的電視劇版小說，我只看過原版的，但兩種應該是完全不一樣的
你所描述的封面我在GG英文官網上也看到過，但它和原版小說內容是一樣的，區別只在於一版Published on: 2002-04-01 另一版Published on: 2007-09-12 ，而且好像只發了兩本，估計就是電視劇火了以後，出版社加印的，換了個封面而已，所以你可以放心大膽的找原著看了，一定銜接的上
下面是原版書的順序，參考一下
1. Gossip Girl
2. You Know You Love Me
3. All I Want Is Everything
4. Because I'm Worth It
5. I Like It Like That
6. You're the One That I Want
7. Nobody Does It Better
8. Nothing Can Keep Us Together
9. Only in Your Dreams
10. Would I Lie to You?
11. Don't You Forget About Me
The Carlyles
Prequel- It Had To Be You
下圖是GG封面，前兩排是原版書的，後兩排是CW出的電視劇版的

5. Dynamo的高級分析

有了上面一章里的兩個基礎介紹之後，我們開始進入Dynamo的世界。
Dynamo的數據分區與作用
在Dynamo的實現中提到一個關鍵的東西，就是數據分區。假設我們的數據的key的范圍是0到2的64次方（不用懷疑你的數據量會超過它，正常甚至變態情況下你都是超不過的，甚至像伏地魔等其他類Dynamo系統是使用的 2的32次方），然後設置一個常數，比如說1000，將我們的key的范圍分成1000份。然後再將這1000份key的范圍均勻分配到所有的節點（s個節點），這樣每個節點負責的分區數就是1000/s份分區。
如圖二，假設我們有A、B、C三台機器，然後將我們的分區定義了12個。
圖二：三個節點分12個區的數據的情況
因為數據是均勻離散到這個環上的（有人開始會認為數據的key是從1、2、3、4……這樣子一直下去的，其實不是的，哈希計算出來的值，都是一個離散的結果），所以我們每個分區的數據量是大致相等的。從圖上我們可以得出，每台機器都分到了三個分區里的數據，並且因為分區是均勻的，在分區數量是相當大的時候，數據的分布會更加的均勻，與此同時，負載也被均勻地分開了（當然了，如果硬要說你的負載還是只集中在一個分區里，那就不是在這里要討論的問題了，有可能是你的哈希函數是不是有什麼樣的問題了）。
為什麼要進行這樣的分布呢，分布的好處在於，在有新機器加入的時候，只需要替換原有分區即可，如圖三所示：
圖三：加入一個新的節點D的情況
同樣是圖二里的情況，12個分區分到ABC三個節點，圖三中就是再進入了一個新的節點D，從圖上的重新分布情況可以得出，所有節點里只需要轉移四分之一的數據到新來的節點即可，同時，新節點的負載也伴隨分區的轉移而轉移了（這里的12個分區太少了，如果是1200個分區甚至是12000個分區的話，這個結論就是正確的了，12個分區只為演示用）。
從Dynamo的NRW看CAP法則
在Dynamo系統中，第一次提出來了NRW的方法。
N：復制的次數；
R：讀數據的最小節點數；
W：寫成功的最小分區數。
這三個數的具體作用是用來靈活地調整Dynamo系統的可用性與一致性。
舉個例子來說，如果R=1的話，表示最少只需要去一個節點讀數據即可，讀到即返回，這時是可用性是很高的，但並不能保證數據的一致性，如果說W同時為1的話，那可用性更新是最高的一種情況，但這時完全不能保障數據的一致性，因為在可供復制的N個節點里，只需要寫成功一次就返回了，也就意味著，有可能在讀的這一次並沒有真正讀到需要的數據（一致性相當的不好）。如果W=R=N=3的話，也就是說，每次寫的時候，都保證所有要復制的點都寫成功，讀的時候也是都讀到，這樣子讀出來的數據一定是正確的，但是其性能大打折扣，也就是說，數據的一致性非常的高，但系統的可用性卻非常低了。如果R + W > N能夠保證我們「讀我們所寫」，Dynamo推薦使用322的組合。
Dynamo系統的數據分區讓整個網路的可擴展性其實是一個固定值（你分了多少區，實際上網路里擴展節點的上限就是這個數），通過NRW來達到另外兩個方向上的調整。
Dynamo的一些增加可用性的補救
針對一些經常可能出現的問題，Dynamo還提供了一些解決的方法。
第一個是hinted handoff數據的加入：在一個節點出現臨時性故障時，數據會自動進入列表中的下一個節點進行寫操作，並標記為handoff數據，在收到通知需要原節點恢復時重新把數據推回去。這能使系統的寫入成功大大提升。
第二個是向量時鍾來做版本控制：用一個向量（比如說[a,1]表示這個數據在a節點第一次寫入）來標記數據的版本，這樣在有版本沖突的時候，可以追溯到出現問題的地方。這可以使數據的最終一致成為可能。（Cassandra未用vector clock，而只用client timestamps也達到了同樣效果。）
第三個是Merkle tree來提速數據變動時的查找：使用Merkle tree為數據建立索引，只要任意數據有變動，都將快速反饋出來。
第四個是Gossip協議：一種通訊協議，目標是讓節點與節點之間通信，省略中心節點的存在，使網路達到去中心化。提高系統的可用性。

6. push-pull gossip protocol是什麼意思

push-pull gossip protocol
推拉式八卦協議
protocol[英][ˈprəʊtəkɒl][美][ˈproʊtəkɔ:l]
n.禮儀; （外交條約的）草案; （數據傳遞的）協議; 科學實驗報告（或計劃）;
vt.把…寫入議定書，在議定書中擬定（或頒布）;
vi.擬定議定書，擬定草案;
復數：protocols

7. 保證分布式環境下nosql的擴展性，容錯性和可靠性的技術有哪些

嚴格的說，Hbase 和它的支持系統源於著名的Google BigTable和Google文件系統設計（GFS的論文發於2003年，BigTable的論文發於2006年）。而 Cassandra 則是最近Facebook的資料庫系統的開源分支，她在實現了BigTable的數據模型的同時，使用了基於Amazon的Dynamo的系統架構來存儲數據（實際上，Cassandra的最初開發工作就是由兩位從Amazon跳槽到Facebook的Dynamo工程師完成的）。
【備注1】Dynamo是亞馬遜的key-value模式的存儲平台，可用性和擴展性都很好，性能也不錯：讀寫訪問中99.9%的響應時間都在300ms內。
在Dynamo的實現中提到一個關鍵的東西，就是數據分區。假設我們的數據的key的范圍是0到2的64次方（不用懷疑你的數據量會超過它，正常甚至變態情況下你都是超不過的，甚至像伏地魔等其他類Dynamo系統是使用的 2的32次方），然後設置一個常數，比如說1000，將我們的key的范圍分成1000份。然後再將這1000份key的范圍均勻分配到所有的節點（s個節點），這樣每個節點負責的分區數就是1000/s份分區。
如圖二，假設我們有A、B、C三台機器，然後將我們的分區定義了12個。

圖二：三個節點分12個區的數據的情況
因為數據是均勻離散到這個環上的（有人開始會認為數據的key是從1、2、3、4……這樣子一直下去的，其實不是的，哈希計算出來的值，

【備注2】DHT（Distributed Hash Table，分布式哈希表），它是一種分布式存儲定址方法的統稱。就像普通的哈希表，裡面保存了key與value的對應關系，一般都能根據一個key去對應到相應的節點，從而得到相對應的value。

【備注3】Consistency（一致性）：即數據一致性，簡單的說，就是數據復制到了N台機器，如果有更新，要N機器的數據是一起更新的。
Availability（可用性）：好的響應性能，此項意思主要就是速度。
Partition tolerance（分區容錯性）：這里是說好的分區方法，體現具體一點，簡單地可理解為是節點的可擴展性。
定理：任何分布式系統只可同時滿足二點，沒法三者兼顧

這個理論說明，分布式（或共享數據）系統的設計中，至多隻能夠提供三個重要特性中的兩個——一致性、可用性和容忍網路分區。簡單的說，一致性指如果一個人向資料庫寫了一個值，那麼其他用戶能夠立刻讀取這個值，可用性意味著如果一些節點失效了，集群中的分布式系統仍然能繼續工作，而容忍分區意味著，如果節點被分割成兩組無法互相通信的節點，系統仍然能夠繼續工作
http://www.csdn.net/article/2013-01-07/2813498-availability-and-operational
對比關系型資料庫，NoSQL的優點在哪裡？NoSQL具有高性能、良好的擴展性以及高可靠性等優點。然而,沒有一個產品可以在所有的方面都達到完美。當你仔細審視NoSQL的產品，完全可以找到一些弱點，就像那些傑出的優點一樣「鮮明出眾」。基於此原因，選擇經過驗證的NoSQL產品就是關鍵。在本文中，作者從運行方面分析Cassandra，HBase以及MongoDB等產品的擴展性和可靠性。
Cassandra故障恢復以及數據一致性

Cassandra在數據的分布式和可靠性方面展示了自身卓越的性能。首先，作者檢測了它的分布能力，Cassandra通過一致性哈希演算法來實現數據的分配處理。
Cassandra的一致性哈希演算法
通過一致性哈希演算法，用戶可以不經過查詢元數據就能搜索並發現key存儲在哪個節點上。用戶通過計算key的哈希值就能發現key，同樣只通過Hash值就可以找到節點所在。你可以想像一致性哈希被作為哈希值順序的放在圓環上，每個節點處理環上的一個部分。如果環上增加了一個節點，那麼某個擁有很大體積數據的特定節點就會被拆分然後分配給新的節點；如果某個節點被移除，分配給該節點的資源就會轉移到鄰節點上。利用這種方式，Cassandra使增加或者移除節點帶來的影響降到了最小。
Cassandra的運行中不需要主伺服器，換句話說：並沒有特定的伺服器來管理數據的分配或者故障恢復。這就意味著，Cassandra並不存在單點故障（Single Point Of Failure，SPoF）。取代主伺服器，每個節點都和其他節點周期性地分享元數據，這個也被稱之為Gossip協議。使用Gossip協議，節點可以對其他節點的運行狀態進行查詢。
Cassandra通過提供一致性級別來實現系統的可靠性。如果使用一個很低的一致性級別，即使一個節點宕掉也可能導致整個服務的停滯。例如，3個節點中的某一個節點在存儲副本數據的過程中宕掉了，一個通用的寫操作，就不能立刻返回成功信息，這是因為故障節點不能完成寫入數據的請求。然而，如果一致性級別被定義成一個約定值或者是1，而存活的節點數大於或者等於設定值，這樣的話就能立刻返回成功。如果是這樣的話，只有在所有的3個節點都同時宕掉，才會發生請求錯誤。
但是，讀/寫操作真的沒有受到節點出錯的影響嗎？
為了證明這點，當有新節點添加時，作者在不斷的伺服器請求下故意讓一個節點發生故障。結果如下所示：
移除一個節點和增加一個新的節點
以下是移除一個節點和增加一個新的節點的結果：
在管理工具中明確移除一個節點，存儲在此節點中的數據就被遷移到剩餘的節點中，然後該節點被移除。
當一個新節點被增加，這個被稱之為引導指令，增加的節點就會向種子節點（seed nodes）報告它已經添加完畢。基於配置信息，新節點會被添加在環上配置信息中指定的范圍，或者環上資源被佔用最高的節的附近—— 當然這是在沒有其它節點被引導在這個范圍上。
數據從那個節點遷移到到新節點上。
一旦數據遷移進程結束，新節點就能進行使用。
節點失敗後增加一個新節點
下面是節點失敗後新增節點的結果：
當一個節點宕掉之後，存儲在節點上的數據並沒有遷移到其他的節點上，服務在於兩個副本（節點）共舞。換句話說，並沒有返回任何錯誤信息，即使在這段時間里又收到服務請求。
當一個新節點被增加的時候，該節點會被分配到環上的一個特定區域。然而，引導指令並沒有執行，因為引導指令只有系統中存在3份副本的時候才會被執行！
新增的節點並沒有數據，但是它能處理請求，這是因為它可以提供服務。如果此時接受到一個讀請求，節點並不會對key返回數據。如果備份因子是3而讀一致性的級別是1，那麼1/3的讀請求可能不會返回數據。如果一致性級別被設置為約定值，1/6的讀請求可能會返回空數據。簡單來講，這沒有讀一致性的保證，除非故障節點已經恢復。實際上在級別1中，協調節點是最有可能第一個接受來自新節點的響應。出現這種情況是因為沒有來自新節點的I/O請求——因為它沒有數據。出於這個原因，新的節點比現有節點有更大的機率返回空數據。
當通過管理工具對新節點做Read Repair時，節點通過讀其他節點的同步數據才能得以建立。此時讀一致性就被破壞了，只到Read Repair完成。
即使節點失敗，Cassandra也能提供無錯的服務。盡管Cassandra在寫數據的時候，展示了自身強大的性能，但是在讀數據的時候並非如此，因為Read Repair的延遲必然導致數據的非一致性的延遲。因此，為了在節點故障中保持讀一致性，需要使用以下的方法：
設置讀一致性水平為「all」然後執行讀操作。在這種情況下，就能獲得所有來自副本的最新數據。
一旦讀請求失敗，Cassandra會再次進行嘗試。這是因為在第一次讀寫的時候Read Repair可能會作為第二次讀寫時的恢源數據源。然而，這種方法能確保Rread Repair在二次讀之前完成。（當一致性的水平較低，那麼讀修復就會在後台執行，這是一個獨立的線程，區別於讀操作過程的線程）
HBase的失敗因子和恢復方法
HBase包含以下幾個組件：

HRegionServer負責數據的分布處理，由HMaster進行監控。HDFS存儲和復制數據，Zookeeper存儲了HMaster以及備選HMaster的儲存單元信息。如果沒有為每個組件建立冗餘，所有的組件都會成為SPoF。
HRegionServer主要負責響應用戶I/O請求，向HDFS文件系統中讀寫數據，是HBase中最核心的模塊。HRegionServer內部管理了一系列HRegion對象，每個HRegion對應了Table中的一個Region，HRegion中由多個HStore組成。每個HStore對應了Table中的一個Column Family的存儲，可以看出每個Column Family其實就是一個集中的存儲單元，因此最好將具備共同IO特性的column放在一個Column Family中，這樣最高效。(網路)
HRegionServer把數據分布到一些稱之為「region」的單元中，region就是將一張大表格通過指定欄位對數據進行排序，然後針對排序鍵的范圍拆分出的結果（就像大表中的一小塊）。每個region排序欄位的值范圍存儲在一個單獨的region中，被稱為meta region。而region和meta region的對應關系被存儲在root region中。長話短說，region伺服器存儲著一個層次樹中，包含了root region、meta region以及data region。如果一個region伺服器宕機，這個region伺服器包含的region都不可以被訪問直到被分配給了其它region伺服器。因此產生了伺服器宕機時間，直到那個region被恢復。

8. gossip 協議中消息傳播有哪三種方式

1.感染—傳染（Susceptible-Infective，SI）
2.感染—傳染—感染（SIS）

3.感染—傳染—恢復（SIR）

9. 怎樣設置redis cluster的日誌輸出

Redis Cluster設計要點：

架構：無中心
Redis Cluster採用無中心結構，每個節點都保存數據和整個集群的狀態
每個節點都和其他所有節點連接，這些連接保持活躍
使用gossip協議傳播信息以及發現新節點
node不作為client請求的代理，client根據node返回的錯誤信息重定向請求

數據分布：預分桶
預分好16384個桶，根據 CRC16(key) mod 16384的值，決定將一個key放到哪個桶中
每個Redis物理結點負責一部分桶的管理，當發生Redis節點的增減時，調整桶的分布即可
例如，假設Redis Cluster三個節點A/B/C，則
Node A 包含桶的編號可以為: 0 到 5500.
Node B 包含桶的編號可以為: 5500 到 11000.
Node C包含桶的編號可以為: 11001 到 16384.
當發生Redis節點的增減時，調整桶的分布即可。
預分桶的方案介於「硬Hash」和「一致性Hash」之間，犧牲了一定的靈活性，但相比「一致性Hash「，數據的管理成本大大降低

可用性：Master-Slave
為了保證服務的可用性，Redis Cluster採取的方案是的Master-Slave
每個Redis Node可以有一個或者多個Slave。當Master掛掉時，選舉一個Slave形成新的Master
一個Redis Node包含一定量的桶，當這些桶對應的Master和Slave都掛掉時，這部分桶對應的數據不可用

寫
Redis Cluster使用非同步復制
一個完整的寫操作步驟：
1.client寫數據到master
2.master告訴client "ok"
3.master傳播更新到slave
存在數據丟失的風險：
1. 上述寫步驟1）和2）成功後，master crash，而此時數據還沒有傳播到slave
2. 由於分區導致同時存在兩個master，client向舊的master寫入了數據。
當然，由於Redis Cluster存在超時及故障恢復機制，第2個風險基本上不可能發生

數據遷移
Redis Cluster支持在線增/減節點。
基於桶的數據分布方式大大降低了遷移成本，只需將數據桶從一個Redis Node遷移到另一個Redis Node即可完成遷移。
當桶從一個Node A向另一個Node B遷移時，Node A和Node B都會有這個桶，Node A上桶的狀態設置為MIGRATING，Node B上桶的狀態被設置為IMPORTING
當客戶端請求時：
所有在Node A上的請求都將由A來處理，所有不在A上的key都由Node B來處理。同時，Node A上將不會創建新的key

多key操作
當系統從單節點向多節點擴展時，多key的操作總是一個非常難解決的問題，Redis Cluster方案如下：
1. 不支持多key操作
2. 如果一定要使用多key操作，請確保所有的key都在一個node上，具體方法是使用「hash tag」方案
hash tag方案是一種數據分布的例外情況

導航:首頁 > 觀區塊鏈 > gossip協議區塊鏈

gossip協議區塊鏈

與gossip協議區塊鏈相關的資料