精选国产在线观看一区二区三区_日韩av大片在线一区二区_欧美日韩v在线观看不卡_日本无遮挡色又黄的视频在线_黄片免费在线AAA_午夜视频欧美亚洲污污污_国产精品自拍第一区_无码免费三级少妇_人妻系列影片无码专区50_蘑菇成年人午夜福利

行業(yè)新聞

您當(dāng)前的位置:首頁(yè) > 新聞資訊 > 行業(yè)新聞

結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的區(qū)別哪些?

發(fā)布源:深圳維創(chuàng)信息技術(shù)發(fā)布時(shí)間:2020-11-06 瀏覽次數(shù):

非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)并不表示兩者之間存在真正的沖突。

客戶不是基于他們的數(shù)據(jù)結(jié)構(gòu)選擇,而是在使用他們的應(yīng)用程序中選擇:關(guān)系數(shù)據(jù)庫(kù)用于結(jié)構(gòu)化數(shù)據(jù),大多數(shù)其他類型的應(yīng)用程序用于非結(jié)構(gòu)化數(shù)據(jù)。

然而,結(jié)構(gòu)化數(shù)據(jù)分析的難易程度與非結(jié)構(gòu)化數(shù)據(jù)的分析難度之間的關(guān)系日益緊張。

結(jié)構(gòu)化數(shù)據(jù)分析是一個(gè)成熟的流程和技術(shù)。

非結(jié)構(gòu)化數(shù)據(jù)分析是一個(gè)新興行業(yè),在研發(fā)方面需投入大量的資金,但這不是一項(xiàng)成熟的技術(shù)。

企業(yè)內(nèi)部的結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)問(wèn)題決定了他們是否應(yīng)該投資于非結(jié)構(gòu)化數(shù)據(jù)的分析,以及將這二者結(jié)合是否成為一種更好的商業(yè)智能?  

什么是結(jié)構(gòu)化數(shù)據(jù)?  

結(jié)構(gòu)化數(shù)據(jù)通常駐留在關(guān)系數(shù)據(jù)庫(kù)(RDBMS)中。

其字段存儲(chǔ)長(zhǎng)度顯示數(shù)據(jù)電話號(hào)碼,社會(huì)安全號(hào)碼或郵政編碼。

甚至像名稱這樣的可變長(zhǎng)度的文本字符串也包含在記錄中,這使得它很容易搜索。

只要數(shù)據(jù)是在RDBMS結(jié)構(gòu)內(nèi)創(chuàng)建的,數(shù)據(jù)就可以是人工或機(jī)器生成的。

這種格式是搜索與人類產(chǎn)生的查詢和使用的數(shù)據(jù)和字段名稱類型的算法,如字母或數(shù)字、貨幣、日期。數(shù)據(jù)  

包含結(jié)構(gòu)化數(shù)據(jù)的普通關(guān)系數(shù)據(jù)庫(kù)應(yīng)用程序包括航空預(yù)訂系統(tǒng)、庫(kù)存控制、銷售事務(wù)和ATM活動(dòng)。

結(jié)構(gòu)化查詢語(yǔ)言(SQL)允許在關(guān)系數(shù)據(jù)庫(kù)中查詢這種類型的結(jié)構(gòu)化數(shù)據(jù)。

一些關(guān)系數(shù)據(jù)庫(kù)確實(shí)存儲(chǔ)或指向非結(jié)構(gòu)化數(shù)據(jù),例如客戶關(guān)系管理(CRM)應(yīng)用程序。

由于備忘錄字段不會(huì)將自己放到傳統(tǒng)的數(shù)據(jù)庫(kù)查詢中,因此其集成可能不理想。

盡管如此,大部分客戶關(guān)系管理(CRM)數(shù)據(jù)都是結(jié)構(gòu)化的。

什么是非結(jié)構(gòu)化數(shù)據(jù)?  

非結(jié)構(gòu)化數(shù)據(jù)本質(zhì)上是結(jié)構(gòu)化數(shù)據(jù)之外的一切數(shù)據(jù)。

非結(jié)構(gòu)化數(shù)據(jù)具有內(nèi)部結(jié)構(gòu),但不通過(guò)預(yù)定義的數(shù)據(jù)模型或模式進(jìn)行結(jié)構(gòu)化。

它可能是文本的或非文本的,也可能是人為的或機(jī)器生成的。

它也可以存儲(chǔ)在像NoSQL這樣的非關(guān)系數(shù)據(jù)庫(kù)中。

典型的人為非結(jié)構(gòu)化數(shù)據(jù)包括:  

文本文件:文字處理、電子表格、演示文稿、電子郵件、日志。

電子郵件:由于其元數(shù)據(jù),電子郵件具有一些內(nèi)部結(jié)構(gòu),人們有時(shí)將其稱之為半結(jié)構(gòu)化。

但是,其消息字段是非結(jié)構(gòu)化的,傳統(tǒng)的分析工具無(wú)法解析它。

社交媒體:來(lái)自Facebook、Twitter和LinkedIn的數(shù)據(jù)。

網(wǎng)站:YouTube、Instagram、照片分享網(wǎng)站。

移動(dòng)數(shù)據(jù):短信、地點(diǎn)。

通信:聊天、即時(shí)消息、電話錄音、協(xié)作軟件。

媒體:MP3、數(shù)碼照片、音頻文件、視頻文件。

業(yè)務(wù)應(yīng)用程序:MS Office文檔、生產(chǎn)力應(yīng)用程序。

典型的機(jī)器生成的非結(jié)構(gòu)化數(shù)據(jù)包括:  

衛(wèi)星圖像:天氣數(shù)據(jù)、地形、軍事活動(dòng)。

科學(xué)數(shù)據(jù):石油和天然氣勘探、空間勘探、地震圖像、大氣數(shù)據(jù)。

數(shù)字監(jiān)控:監(jiān)控照片和視頻。

傳感器數(shù)據(jù):交通、天氣、海洋傳感器。

最具包容性的大數(shù)據(jù)分析可以使用結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。

結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù):有什么區(qū)別?  

除了存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)和存儲(chǔ)在一個(gè)關(guān)系數(shù)據(jù)庫(kù)之外的明顯區(qū)別之外,最大的區(qū)別在于分析結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的便利性。

針對(duì)結(jié)構(gòu)化數(shù)據(jù)存在成熟的分析工具,但用于挖掘非結(jié)構(gòu)化數(shù)據(jù)的分析工具正處于萌芽和發(fā)展階段。

用戶可以通過(guò)文本非結(jié)構(gòu)化數(shù)據(jù)運(yùn)行簡(jiǎn)單的內(nèi)容搜索。

但是,缺乏有序的內(nèi)部結(jié)構(gòu)使得傳統(tǒng)數(shù)據(jù)挖掘工具的目標(biāo)失敗,企業(yè)從富有價(jià)值的數(shù)據(jù)源(如媒體、網(wǎng)絡(luò)、博客、客戶交互,以及社交媒體數(shù)據(jù))獲得的價(jià)值很小。

即使非結(jié)構(gòu)化數(shù)據(jù)分析工具在市場(chǎng)上出現(xiàn),但沒(méi)有任何一個(gè)供應(yīng)商或工具集是明確的贏家。

許多客戶不愿意投資于具有不確定發(fā)展路線圖的分析工具。

除此之外,非結(jié)構(gòu)化數(shù)據(jù)比結(jié)構(gòu)化數(shù)據(jù)要多得多。

非結(jié)構(gòu)化數(shù)據(jù)占企業(yè)數(shù)據(jù)的80%以上,并且以每年55%和65%的速度增長(zhǎng)。

如果沒(méi)有工具來(lái)分析這些海量數(shù)據(jù),組織會(huì)在商業(yè)智能表上留下大量有價(jià)值的數(shù)據(jù)。

傳統(tǒng)上,結(jié)構(gòu)化數(shù)據(jù)對(duì)大數(shù)據(jù)應(yīng)用程序來(lái)說(shuō)更容易消化,但如今的數(shù)據(jù)分析解決方案正在這方面取得重大進(jìn)展。

半結(jié)構(gòu)化數(shù)據(jù)如何適用于結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)  

半結(jié)構(gòu)化數(shù)據(jù)維護(hù)用于識(shí)別單獨(dú)數(shù)據(jù)元素的內(nèi)部標(biāo)記和標(biāo)簽,從而實(shí)現(xiàn)信息分組和層次結(jié)構(gòu)。

文檔和數(shù)據(jù)庫(kù)都可以是半結(jié)構(gòu)化的。

這種類型的數(shù)據(jù)只代表結(jié)構(gòu)化/半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù)的5%-10%,但具有關(guān)鍵的業(yè)務(wù)用例。

電子郵件是半結(jié)構(gòu)化數(shù)據(jù)類型的一個(gè)非常常見(jiàn)的例子。

而更高級(jí)的分析工具對(duì)于線程跟蹤,近似重復(fù)數(shù)據(jù)刪除和概念搜索是必需的。

電子郵件的本地元數(shù)據(jù)可以實(shí)現(xiàn)分類和關(guān)鍵字搜索,無(wú)需任何其他工具。

電子郵件是一個(gè)巨大的用例,但大多數(shù)半結(jié)構(gòu)化的開(kāi)發(fā)中心都在緩解數(shù)據(jù)傳輸問(wèn)題。

與基于Web的數(shù)據(jù)共享和傳輸一樣,共享傳感器數(shù)據(jù)也是一個(gè)不斷增長(zhǎng)的用例:電子數(shù)據(jù)交換(EDI),許多社交媒體平臺(tái),文檔標(biāo)記語(yǔ)言和NoSQL數(shù)據(jù)庫(kù)。

半結(jié)構(gòu)化數(shù)據(jù)的例子  

標(biāo)記語(yǔ)言XML這是一種半結(jié)構(gòu)化的文檔語(yǔ)言。

XML是一組定義人機(jī)可讀格式的文檔編碼規(guī)則(雖然說(shuō)XML是人類可讀的,但并沒(méi)有帶來(lái)太大的好處,因?yàn)槿藛T閱讀XML文檔都會(huì)讓他們更加耗費(fèi)時(shí)間。)其價(jià)值在于它的標(biāo)簽驅(qū)動(dòng)結(jié)構(gòu)非常靈活,編碼人員可以使其適應(yīng)在Web上普及數(shù)據(jù)結(jié)構(gòu)、存儲(chǔ)和傳輸。

開(kāi)放標(biāo)準(zhǔn)JSON(JavaScript Object Notation)是另一種半結(jié)構(gòu)化數(shù)據(jù)交換格式。

Java隱含在名稱中,但其他類似C語(yǔ)言的編程語(yǔ)言可以識(shí)別它。

其結(jié)構(gòu)由名稱/值對(duì)(或?qū)ο蟆⑸⒘斜淼?和有序值列表(或數(shù)組、序列、列表)組成。

由于結(jié)構(gòu)在各種語(yǔ)言之間可以互換,JSON擅長(zhǎng)在Web應(yīng)用程序和服務(wù)器之間傳輸數(shù)據(jù)。

NoSQL半結(jié)構(gòu)化數(shù)據(jù)也是許多NoSQL(不僅是SQL)數(shù)據(jù)庫(kù)的重要組成部分。

NoSQL數(shù)據(jù)庫(kù)與關(guān)系數(shù)據(jù)庫(kù)不同,因?yàn)樗鼈儾粫?huì)將組織(模式)與數(shù)據(jù)分開(kāi)。

這使得NoSQL成為存儲(chǔ)不容易適應(yīng)記錄和表格格式的信息(比如長(zhǎng)度不同的文本)的更好選擇。

它還允許數(shù)據(jù)庫(kù)之間進(jìn)行更容易的數(shù)據(jù)交換。

一些較新的NoSQL數(shù)據(jù)庫(kù)(如MongoDB和Couchbase)也通過(guò)將它們以JSON格式本地存儲(chǔ)來(lái)包含半結(jié)構(gòu)化文檔。

在大數(shù)據(jù)環(huán)境中,NoSQL不需要管理員將運(yùn)營(yíng)和分析數(shù)據(jù)庫(kù)分離為單獨(dú)的部署。

NoSQL是可操作的數(shù)據(jù)庫(kù),并托管用于商業(yè)智能的本地分析工具。

在Hadoop環(huán)境中,NoSQL數(shù)據(jù)庫(kù)攝取并管理傳入數(shù)據(jù)并提供分析結(jié)果。

這些數(shù)據(jù)庫(kù)在大數(shù)據(jù)基礎(chǔ)架構(gòu)和LinkedIn等實(shí)時(shí)Web應(yīng)用程序中很常見(jiàn)。

在LinkedIn網(wǎng)站上,數(shù)以億計(jì)的商業(yè)用戶可以自由分享職位、地點(diǎn)、技能等等。

LinkedIn以半結(jié)構(gòu)化格式捕捉海量數(shù)據(jù)。

當(dāng)求職用戶創(chuàng)建搜索時(shí),LinkedIn會(huì)將查詢與其大規(guī)模的半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)相匹配,將數(shù)據(jù)交叉引用到招聘趨勢(shì)中,并與求職者分享結(jié)果推薦。

Salesforce等高級(jí)LinkedIn服務(wù)中的銷售和營(yíng)銷查詢也采用相同的流程。

亞馬遜還將讀者推薦建立在半結(jié)構(gòu)化數(shù)據(jù)庫(kù)上。

結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù):下一代工具是游戲規(guī)則改變者  可以使用新工具分析非結(jié)構(gòu)化數(shù)據(jù),特別是給定用例參數(shù)。

大多數(shù)這些工具都基于機(jī)器學(xué)習(xí)。

結(jié)構(gòu)化數(shù)據(jù)分析也可以使用機(jī)器學(xué)習(xí),但海量數(shù)據(jù)和許多不同類型的非結(jié)構(gòu)化數(shù)據(jù)都需要它。

幾年前,使用關(guān)鍵字和關(guān)鍵短語(yǔ)的分析人員可以搜索非結(jié)構(gòu)化數(shù)據(jù),并對(duì)數(shù)據(jù)涉及的內(nèi)容有一個(gè)清晰的概念。

電子發(fā)現(xiàn)是這種方法的主要例子。

但是,非結(jié)構(gòu)化數(shù)據(jù)的增長(zhǎng)速度非???,以至于用戶不僅需要采用計(jì)算工作的分析,而且還要自動(dòng)從他們的活動(dòng)和用戶決策中學(xué)習(xí)。

自然語(yǔ)言處理(NLP)、模式感知和分類以及文本挖掘算法都是常見(jiàn)的例子,文檔相關(guān)性分析、情感分析和過(guò)濾器驅(qū)動(dòng)的網(wǎng)頁(yè)收集也是常見(jiàn)的例子。

使用機(jī)器學(xué)習(xí)智能進(jìn)行非結(jié)構(gòu)化數(shù)據(jù)分析可使組織:  

分析數(shù)字通信的合規(guī)性。

違反合規(guī)性將會(huì)使企業(yè)損失數(shù)百萬(wàn)美元的費(fèi)用、訴訟和業(yè)務(wù)損失。

模式識(shí)別和電子郵件線程分析軟件可以搜索海量的電子郵件和聊天數(shù)據(jù),以防潛在的不合規(guī)情況。

最近的一個(gè)例子就是大眾汽車公司可能通過(guò)使用分析來(lái)監(jiān)控可疑消息的通信,從而避免了巨額罰款和聲譽(yù)損失。

跟蹤社交媒體中的大量客戶對(duì)話。

文本分析和情緒分析可讓分析師檢查營(yíng)銷活動(dòng)的積極和負(fù)面結(jié)果,甚至識(shí)別在線威脅。

這種級(jí)別的分析是一種更為復(fù)雜的簡(jiǎn)單關(guān)鍵字的搜索,它只能報(bào)告基本知識(shí),例如海報(bào)在新廣告系列中提及企業(yè)名稱的頻率。

新的分析還包括以下場(chǎng)景:提及的是積極還是負(fù)面?海報(bào)是否有更好的宣傳作用?用戶對(duì)行政公告的反應(yīng)是什么?例如汽車行業(yè)大量參與社交媒體的分析,因?yàn)橘?gòu)車者往往會(huì)轉(zhuǎn)向其他海報(bào)來(lái)衡量他們的購(gòu)車體驗(yàn)。

分析師使用文本挖掘和情感分析相結(jié)合的方式來(lái)跟蹤Twitter和Facebook上與自動(dòng)相關(guān)的用戶帖子。

獲得新的營(yíng)銷情報(bào)。

機(jī)器學(xué)習(xí)分析工具可快速處理大量文檔以分析客戶行為。

一家重要的雜志發(fā)行商可以將文本挖掘應(yīng)用到數(shù)以萬(wàn)計(jì)的文章中,并通過(guò)主要分論題的流行度來(lái)分析每個(gè)單獨(dú)的出版物情況。

然后,他們將分析擴(kuò)展到所有內(nèi)容屬性,以查看哪些整體主題受到客戶的主要關(guān)注。

該分析將所有出版物的數(shù)十萬(wàn)條內(nèi)容進(jìn)行分析,并以分段形式交叉引用熱門主題的結(jié)果。

其結(jié)果是豐富的內(nèi)容,哪些話題對(duì)不同的顧客最感興趣,哪些營(yíng)銷信息與他們產(chǎn)生了最強(qiáng)烈的共鳴。

在電子數(shù)據(jù)展示中,數(shù)據(jù)科學(xué)家使用關(guān)鍵字搜索非結(jié)構(gòu)化數(shù)據(jù)并獲得有關(guān)數(shù)據(jù)的合理構(gòu)想。


  • 上一篇:企業(yè)云儲(chǔ)存的遷移與管理
  • 下一篇:如何保障數(shù)據(jù)網(wǎng)絡(luò)安全
  • Copyright © 2021 深圳市維創(chuàng)信息技術(shù)有限公司 版權(quán)所有

    粵ICP備2021016007號(hào)