當(dāng)前位置: 首頁(yè) 新技術(shù)應(yīng)用
IDC激增,外媒稱大數(shù)據(jù)領(lǐng)域?qū)⒂行纶A家或指NoSQL
來(lái)源:本站 發(fā)布者:管理員 閱讀:
次
全球復(fù)雜網(wǎng)絡(luò)研究專家日前到訪中國(guó),為其新作《爆發(fā)》作宣傳。他在接受國(guó)內(nèi)媒體采訪時(shí)表示,未來(lái)可能有新公司取代谷歌、Facebook等公司,成為大數(shù)據(jù)領(lǐng)域的贏家。
《爆發(fā)》一書是一本討論大數(shù)據(jù)問(wèn)題的商業(yè)書籍。作為復(fù)雜網(wǎng)絡(luò)研究的權(quán)威,巴拉巴西在大數(shù)據(jù)興起的背景下,得出一個(gè)結(jié)論性的判斷,認(rèn)為人類行為93%是可以預(yù)測(cè)的。
巴拉巴西的研究是在人類生活數(shù)字化的大數(shù)據(jù)時(shí)代基礎(chǔ)上進(jìn)行的,移動(dòng)電話、網(wǎng)絡(luò)以及電子郵件使人類行為變得更加容易量化,將我們的社會(huì)變成了一個(gè)巨大的數(shù)據(jù)庫(kù)。濟(jì)南網(wǎng)站建設(shè)
在本書中,巴拉巴西揭開人類行為背后隱藏的模式“爆發(fā)”,提出人類日常行為模式不是隨機(jī)的,而是具有“爆發(fā)性”的。
今天下午,巴拉巴西接受國(guó)內(nèi)媒體采訪,并對(duì)于IT行業(yè)的大數(shù)據(jù)公司作出點(diǎn)評(píng)。他表示,雖然谷歌在大數(shù)據(jù)搜集方面有好的歷史,但未來(lái)谷歌可能會(huì)與Facebook等公司并駕齊驅(qū)。
巴拉巴西表示,微軟(微博)一直想打贏谷歌,但是微軟沒有打贏;谷歌一直想打贏Facebook,但是谷歌推出的社交服務(wù)Google+也一直沒有打贏Facebook。同樣,F(xiàn)acebook也沒有打贏Twitter,所以未來(lái)很有可能有新的公司出現(xiàn),取代他們。
近來(lái),大數(shù)據(jù)已經(jīng)成為各個(gè)行業(yè)討論的熱點(diǎn)。在IT領(lǐng)域,包括IBM、惠普等在內(nèi)的廠商在追捧“大數(shù)據(jù)”的概念,并且推出一系列針對(duì)“大數(shù)據(jù)”的分析解決方案,挖掘數(shù)據(jù)背后的價(jià)值。
資深I(lǐng)T專家謝文此前接受新浪科技采訪時(shí)表示,未來(lái)能夠稱得上大數(shù)據(jù)的公司將是Facebook、蘋果、谷歌等這樣的平臺(tái)型公司。他還預(yù)測(cè),F(xiàn)acebook上市后,下一個(gè)偉大的公司應(yīng)該是大數(shù)據(jù)方向的公司,并有可能在2020年上市。
IDC估計(jì)到2011年數(shù)據(jù)約達(dá)到1.8ZB。
ZB有多大?答案是10億個(gè)TB。目前世界人口有7億——也就是說(shuō),如果給每個(gè)人250G硬盤——存儲(chǔ)空間仍然是不夠用的。
這次的數(shù)據(jù)洪流有諸多來(lái)源:
1. 紐約證券交易所每天產(chǎn)生1TB的新交易數(shù)據(jù);
2. Facebook主機(jī)存儲(chǔ)100億張照片會(huì)占用1PB空間;
3. Ancestry.com,家譜網(wǎng),存儲(chǔ)約2.5PB數(shù)據(jù);
4. 互聯(lián)網(wǎng)檔案館存儲(chǔ)約2PB數(shù)據(jù),并以每月約20TB的速度增長(zhǎng);
5. Geneva附近的Large Harden Colider每年將產(chǎn)生15PB的數(shù)據(jù);
6. 人們每天從傳感器、移動(dòng)設(shè)備、網(wǎng)上交易和社交網(wǎng)絡(luò)創(chuàng)造相當(dāng)于2.5萬(wàn)億字節(jié)的數(shù)據(jù)。
Facebook、Yahoo和Google發(fā)現(xiàn)他們以空前的規(guī)模匯集數(shù)據(jù)。他們是第一批從上百萬(wàn)用戶中匯集數(shù)據(jù)的大公司。
這些數(shù)據(jù)迅速淹沒了傳統(tǒng)的例如Oracle和MySQL等的數(shù)據(jù)系統(tǒng)。即便是最好的、最昂貴的供應(yīng)商使用最大規(guī)模的硬件也只能勉強(qiáng)跟上,無(wú)法給他們有力的工具來(lái)分析數(shù)據(jù)的涌入。
在2000年初,開發(fā)諸如MapReduce、BigTable、Google File System的新技術(shù)來(lái)處理大數(shù)據(jù)。最初,這些技術(shù)是專有的。但隨后人們注意到公開的概念會(huì)更有利-因?yàn)樵絹?lái)越多的人會(huì)有助于此,并且他們雇傭的畢業(yè)生在加入他們之前對(duì)此也會(huì)有一個(gè)良好的理解。
在2004-2005年度,F(xiàn)acebook、Yahoo和Google開始共享描述他們大數(shù)據(jù)技術(shù)的研究論文。
2004年,Google發(fā)表題為“MapReduce:在大型集群上簡(jiǎn)化數(shù)據(jù)處理(MapReduce: Simplified Data Processing on Large Clusters)”的論文。
MapReduce是一個(gè)編程模型,同時(shí)也是一個(gè)處理和生成大型數(shù)據(jù)的工具。用戶指定映射函數(shù)來(lái)處理一對(duì)key-value以生成一個(gè)中間key-value的集合,指定reduce函數(shù)合并相同的中間鍵關(guān)聯(lián)的所有的中間值。正如這篇文章所寫,現(xiàn)實(shí)世界的許多工作都可以在這個(gè)模型中得以表達(dá)。
以此功能所編寫的程序自動(dòng)并行,而且能在商品機(jī)大型集群上執(zhí)行。系統(tǒng)處理分割輸入數(shù)據(jù)的細(xì)節(jié),跨機(jī)器調(diào)度程序執(zhí)行,處理機(jī)器故障,管理所需的機(jī)器間的通訊。這樣使得沒有任何操作并行和分布式系統(tǒng)經(jīng)驗(yàn)的程序員同樣可以輕松地利用大型分布式系統(tǒng)的資源。Google基于MapReduce實(shí)現(xiàn)在大型集群的商品機(jī)上運(yùn)行并且這是高度可伸縮的。
一個(gè)典型的MapReduce在成百上千臺(tái)機(jī)器上處理大量的數(shù)據(jù)。設(shè)計(jì)器和系統(tǒng)是很容易使用的。數(shù)以百計(jì)的MapReduce程序已經(jīng)實(shí)施并且每天有超過(guò)一千的MapReduce工作在Google集群執(zhí)行。
Nutch是一個(gè)開源的搜索技術(shù),現(xiàn)在由Apache Software Foundation管理,而為其工作的Doug Cutting閱讀了由Google發(fā)表的此文和由Google分布式文件系統(tǒng)[GFS]發(fā)表的另一篇文章,指出GFS可以解決他們的存儲(chǔ)要求,MapReduce也會(huì)解決Nuth和實(shí)施MapReduce及GFS的縮放問(wèn)題。他們把為Nutch實(shí)施的GFS命名為Nutch Distributed Filesystem[NDFS]。
NDFS和Nutch的MapReduce的實(shí)現(xiàn)超出了搜索領(lǐng)域,并于2006年2月遷移出Nutch構(gòu)建成一個(gè)名為Hadoop和NDFS的獨(dú)立的Lucene子項(xiàng)目,成為HDFS[Hadoop分布式文件系統(tǒng)],這是一個(gè)GFS的實(shí)現(xiàn)。與此同時(shí),Yahoo延長(zhǎng)了他們對(duì)Hadoop的支持并雇傭了Doug Cutting。
在HDFS的工作層面,有一個(gè)300MB的文件[Hadoop的PB級(jí)和TB級(jí)文件非常好]。HDFS所需做的第一件事就是將它分割為若干塊。HDFS上的默認(rèn)塊的大小為128MB。一旦把他們分割成塊,我們將得到分別為128MB和44MB的兩個(gè)部分。現(xiàn)在,HDFS將‘n’[‘n’即是配置]作為每個(gè)塊的拷貝/副本的一部分。HDFS將這些副本存儲(chǔ)在集群的不同數(shù)據(jù)節(jié)點(diǎn)上。我們也有單一的保持著副本和數(shù)據(jù)節(jié)點(diǎn)路徑的數(shù)據(jù)NameNode。NameNode清楚副本在什么位置-每當(dāng)它檢測(cè)到有副本損壞[DataNode一直在副本上進(jìn)行校驗(yàn)]或者相應(yīng)的HDFS變?yōu)閐own,它將會(huì)尋找集群中該副本的其他副本,并告訴其他節(jié)點(diǎn)復(fù)制該副本的‘n’。NameNode是一個(gè)單點(diǎn)故障-兩個(gè)點(diǎn)就會(huì)避免出現(xiàn)這種情況,我們會(huì)有與主要NameNode同步的次要NameNode-當(dāng)主的變?yōu)閐own-從的將會(huì)起控制作用。Hadoop項(xiàng)目目前工作在分布式的NameNodes上。
標(biāo)簽: 濟(jì)南網(wǎng)站建設(shè) 網(wǎng)站建設(shè) 濟(jì)南網(wǎng)站制作 網(wǎng)址: m.haoli824.com
《爆發(fā)》一書是一本討論大數(shù)據(jù)問(wèn)題的商業(yè)書籍。作為復(fù)雜網(wǎng)絡(luò)研究的權(quán)威,巴拉巴西在大數(shù)據(jù)興起的背景下,得出一個(gè)結(jié)論性的判斷,認(rèn)為人類行為93%是可以預(yù)測(cè)的。
巴拉巴西的研究是在人類生活數(shù)字化的大數(shù)據(jù)時(shí)代基礎(chǔ)上進(jìn)行的,移動(dòng)電話、網(wǎng)絡(luò)以及電子郵件使人類行為變得更加容易量化,將我們的社會(huì)變成了一個(gè)巨大的數(shù)據(jù)庫(kù)。濟(jì)南網(wǎng)站建設(shè)
在本書中,巴拉巴西揭開人類行為背后隱藏的模式“爆發(fā)”,提出人類日常行為模式不是隨機(jī)的,而是具有“爆發(fā)性”的。
今天下午,巴拉巴西接受國(guó)內(nèi)媒體采訪,并對(duì)于IT行業(yè)的大數(shù)據(jù)公司作出點(diǎn)評(píng)。他表示,雖然谷歌在大數(shù)據(jù)搜集方面有好的歷史,但未來(lái)谷歌可能會(huì)與Facebook等公司并駕齊驅(qū)。
巴拉巴西表示,微軟(微博)一直想打贏谷歌,但是微軟沒有打贏;谷歌一直想打贏Facebook,但是谷歌推出的社交服務(wù)Google+也一直沒有打贏Facebook。同樣,F(xiàn)acebook也沒有打贏Twitter,所以未來(lái)很有可能有新的公司出現(xiàn),取代他們。
近來(lái),大數(shù)據(jù)已經(jīng)成為各個(gè)行業(yè)討論的熱點(diǎn)。在IT領(lǐng)域,包括IBM、惠普等在內(nèi)的廠商在追捧“大數(shù)據(jù)”的概念,并且推出一系列針對(duì)“大數(shù)據(jù)”的分析解決方案,挖掘數(shù)據(jù)背后的價(jià)值。
資深I(lǐng)T專家謝文此前接受新浪科技采訪時(shí)表示,未來(lái)能夠稱得上大數(shù)據(jù)的公司將是Facebook、蘋果、谷歌等這樣的平臺(tái)型公司。他還預(yù)測(cè),F(xiàn)acebook上市后,下一個(gè)偉大的公司應(yīng)該是大數(shù)據(jù)方向的公司,并有可能在2020年上市。
IDC估計(jì)到2011年數(shù)據(jù)約達(dá)到1.8ZB。
ZB有多大?答案是10億個(gè)TB。目前世界人口有7億——也就是說(shuō),如果給每個(gè)人250G硬盤——存儲(chǔ)空間仍然是不夠用的。
這次的數(shù)據(jù)洪流有諸多來(lái)源:
1. 紐約證券交易所每天產(chǎn)生1TB的新交易數(shù)據(jù);
2. Facebook主機(jī)存儲(chǔ)100億張照片會(huì)占用1PB空間;
3. Ancestry.com,家譜網(wǎng),存儲(chǔ)約2.5PB數(shù)據(jù);
4. 互聯(lián)網(wǎng)檔案館存儲(chǔ)約2PB數(shù)據(jù),并以每月約20TB的速度增長(zhǎng);
5. Geneva附近的Large Harden Colider每年將產(chǎn)生15PB的數(shù)據(jù);
6. 人們每天從傳感器、移動(dòng)設(shè)備、網(wǎng)上交易和社交網(wǎng)絡(luò)創(chuàng)造相當(dāng)于2.5萬(wàn)億字節(jié)的數(shù)據(jù)。
Facebook、Yahoo和Google發(fā)現(xiàn)他們以空前的規(guī)模匯集數(shù)據(jù)。他們是第一批從上百萬(wàn)用戶中匯集數(shù)據(jù)的大公司。
這些數(shù)據(jù)迅速淹沒了傳統(tǒng)的例如Oracle和MySQL等的數(shù)據(jù)系統(tǒng)。即便是最好的、最昂貴的供應(yīng)商使用最大規(guī)模的硬件也只能勉強(qiáng)跟上,無(wú)法給他們有力的工具來(lái)分析數(shù)據(jù)的涌入。
在2000年初,開發(fā)諸如MapReduce、BigTable、Google File System的新技術(shù)來(lái)處理大數(shù)據(jù)。最初,這些技術(shù)是專有的。但隨后人們注意到公開的概念會(huì)更有利-因?yàn)樵絹?lái)越多的人會(huì)有助于此,并且他們雇傭的畢業(yè)生在加入他們之前對(duì)此也會(huì)有一個(gè)良好的理解。
在2004-2005年度,F(xiàn)acebook、Yahoo和Google開始共享描述他們大數(shù)據(jù)技術(shù)的研究論文。
2004年,Google發(fā)表題為“MapReduce:在大型集群上簡(jiǎn)化數(shù)據(jù)處理(MapReduce: Simplified Data Processing on Large Clusters)”的論文。
MapReduce是一個(gè)編程模型,同時(shí)也是一個(gè)處理和生成大型數(shù)據(jù)的工具。用戶指定映射函數(shù)來(lái)處理一對(duì)key-value以生成一個(gè)中間key-value的集合,指定reduce函數(shù)合并相同的中間鍵關(guān)聯(lián)的所有的中間值。正如這篇文章所寫,現(xiàn)實(shí)世界的許多工作都可以在這個(gè)模型中得以表達(dá)。
以此功能所編寫的程序自動(dòng)并行,而且能在商品機(jī)大型集群上執(zhí)行。系統(tǒng)處理分割輸入數(shù)據(jù)的細(xì)節(jié),跨機(jī)器調(diào)度程序執(zhí)行,處理機(jī)器故障,管理所需的機(jī)器間的通訊。這樣使得沒有任何操作并行和分布式系統(tǒng)經(jīng)驗(yàn)的程序員同樣可以輕松地利用大型分布式系統(tǒng)的資源。Google基于MapReduce實(shí)現(xiàn)在大型集群的商品機(jī)上運(yùn)行并且這是高度可伸縮的。
一個(gè)典型的MapReduce在成百上千臺(tái)機(jī)器上處理大量的數(shù)據(jù)。設(shè)計(jì)器和系統(tǒng)是很容易使用的。數(shù)以百計(jì)的MapReduce程序已經(jīng)實(shí)施并且每天有超過(guò)一千的MapReduce工作在Google集群執(zhí)行。
Nutch是一個(gè)開源的搜索技術(shù),現(xiàn)在由Apache Software Foundation管理,而為其工作的Doug Cutting閱讀了由Google發(fā)表的此文和由Google分布式文件系統(tǒng)[GFS]發(fā)表的另一篇文章,指出GFS可以解決他們的存儲(chǔ)要求,MapReduce也會(huì)解決Nuth和實(shí)施MapReduce及GFS的縮放問(wèn)題。他們把為Nutch實(shí)施的GFS命名為Nutch Distributed Filesystem[NDFS]。
NDFS和Nutch的MapReduce的實(shí)現(xiàn)超出了搜索領(lǐng)域,并于2006年2月遷移出Nutch構(gòu)建成一個(gè)名為Hadoop和NDFS的獨(dú)立的Lucene子項(xiàng)目,成為HDFS[Hadoop分布式文件系統(tǒng)],這是一個(gè)GFS的實(shí)現(xiàn)。與此同時(shí),Yahoo延長(zhǎng)了他們對(duì)Hadoop的支持并雇傭了Doug Cutting。
在HDFS的工作層面,有一個(gè)300MB的文件[Hadoop的PB級(jí)和TB級(jí)文件非常好]。HDFS所需做的第一件事就是將它分割為若干塊。HDFS上的默認(rèn)塊的大小為128MB。一旦把他們分割成塊,我們將得到分別為128MB和44MB的兩個(gè)部分。現(xiàn)在,HDFS將‘n’[‘n’即是配置]作為每個(gè)塊的拷貝/副本的一部分。HDFS將這些副本存儲(chǔ)在集群的不同數(shù)據(jù)節(jié)點(diǎn)上。我們也有單一的保持著副本和數(shù)據(jù)節(jié)點(diǎn)路徑的數(shù)據(jù)NameNode。NameNode清楚副本在什么位置-每當(dāng)它檢測(cè)到有副本損壞[DataNode一直在副本上進(jìn)行校驗(yàn)]或者相應(yīng)的HDFS變?yōu)閐own,它將會(huì)尋找集群中該副本的其他副本,并告訴其他節(jié)點(diǎn)復(fù)制該副本的‘n’。NameNode是一個(gè)單點(diǎn)故障-兩個(gè)點(diǎn)就會(huì)避免出現(xiàn)這種情況,我們會(huì)有與主要NameNode同步的次要NameNode-當(dāng)主的變?yōu)閐own-從的將會(huì)起控制作用。Hadoop項(xiàng)目目前工作在分布式的NameNodes上。
標(biāo)簽: 濟(jì)南網(wǎng)站建設(shè) 網(wǎng)站建設(shè) 濟(jì)南網(wǎng)站制作 網(wǎng)址: m.haoli824.com
- 打印本文
- 關(guān)閉本頁(yè)
- 建站服務(wù)熱線:0531-68808868 售后服務(wù)專線:0531-88961515
欄目導(dǎo)航:Type