大數據能夠帶來顛覆性價值的領域在,大數據能夠帶來顛覆性價值的領域在什么
“AI+”改變世界!不同領域的5大人工智能趨勢
全文共2356字,預計學習時長6分鐘
圖源:Pixabay
人工智能是當代最熱門和關注度最高的話題,它將改變人們對20年后世界的看法。
AI相關工作的需求頻繁增加,尤其是在數據科學和機器學習職位方面,人們相信,正如約100年前電力改變世界一樣,人工智能也將改變世界。吳恩達教授(美國斯坦福大學計算機科學系和電子工程系副教授)曾反復強調一句名言:“人工智能是新電力。”
人工智能領域進步飛快:由于有圖形處理器(也稱顯卡,GPUs)和大量數據,人工智能的處理能力和計算能力提高,我們才能在深度學習和現代算法方面占據領先地位。
最初的電腦占據整個房間,發展到如今巴掌大小的智能手機和人工智能,它們現在能執行人臉識別、異物檢測等曾經被視為不可能完成的任務。
還有其他一些引人關注的領域,如機器人技術、電子技術等,也在與時俱進,向更高領域進階。本文將研究五大人工智能或AI組合技術和趨勢,這些技術和趨勢將超越想象,傳遍整個世界。
1.自動化與人工智能
未來幾十年,機器人技術將大有前景,在現實世界中,它實施的領域選擇將非常廣泛。
機器人技術應用范圍很廣,包括工廠和工業中的工業機器人和機械臂、探索火星或月球等外行星的太空漫游車、軍事應用、醫療用途等。然而,未來人工智能與機器人結合將成為一種創新方法,改變未來幾年格局。具有人工智能集成的機器人將能夠處理、計算、評估和執行所需的人類行為。
機器人技術和人工智能在未來發展空間很大。數據科學項目與機器人的集成潛力巨大,可以用很少的人力物力在工業中實現一流的產品制造。機器人和AI能力無限,在處理手頭任務方面具有巨大的潛力。人工智能和機器人是工業應用自動化任務的強大組合,在各種現實用例中潛力無限。
至于大家所擔憂的科幻影片中基于AI的機器人將奪走人類工作或征服世界,完全是庸人自擾。對于前者,機器人總是需要某種人類行為的干預,而對于后者,距離實現真正的人工智能還有很長的路要走。因此,至少在未來20年內,上述兩種擔憂完全沒必要。
2. GPT-3和其他振奮人心的發展
深度學習和人工智能在自然語言處理方面已經取得了長足的進步,從簡單的LSTMs,已經發展到使用BERT、transformers、序列到關注序列模型等。
生成式預訓練的Transformer 3是一種自動回歸語言模型,它運用深度學習來生成人能理解的文本,是由位于舊金山的人工智能研究實驗室OpenAI創建的GPT-n系列中的第三代語言預測模型。
開發的GPT-3模型是自然語言處理領域的一次進展。OpenAI在將近1,750億個訓練參數上訓練了該模型的權重,該模型無需任何人為干預即可撰寫完整的新聞文章和雜志。
不斷投入資金和加大支持力度使得這些領域發展和進步不斷,從工業領域的人工智能一直到游戲領域的人工智能的研究呈指數級增長,將獲得巨大的生產力和廣泛的成功。
3.云端AI
圖源:unsplash
云計算是計算機系統資源(尤其是數據存儲和計算能力)的按需可用性,而無需用戶直接進行主動管理,該術語通常用于描述互聯網上可供許多用戶使用的數據中心。
云計算和人工智能的結合真正顛覆了該領域,當這兩種出色的應用實踐相結合,成就讓人矚目。與人工智能集成的云計算的主要優勢是具備廣泛的可用資源。
GPUs可用于執行復雜的深度學習計算,并將這些人工智能模型部署到云端,增加受眾,這是一項巨大的成就。谷歌合作實驗室是一個很好的平臺,可以建立Jupyter筆記本,用于評估、計算并分享AI項目。
4. AI和IoT(物聯網):(AIOT)
物聯網(IoT)描述了嵌入傳感器、軟件和其他技術的物理對象(“物”)網絡,目的是通過互聯網與其他設備和系統進行數據連接和交換。
人工智能與物聯網的結合形成了一個全新有趣又獨特的研究分支,簡稱為“人工物聯網”或“ AIOT”。啟用了AI的物聯網(IoT)能夠創建智能機器,該機器可以模擬智能行為,同時支持幾乎沒有人為干擾的決策能力。
隨著人工智能在嵌入式物聯網設備上的融合,如樹莓派、英偉達Jetson Nano等,可以開發出一些利潤豐厚、對全社會有益的杰作。虛擬助手(例如Alexa,Siri或Google AI)的一些示例顯示了高級智能和未來的可能性。
5. GANs(生成式對抗網絡)
圖源:Unsplash
GANs在2014年由Ian Goodfellow開發并首創,被認為是深度學習的未來,因為其具有創造從未存在過的視覺和圖像的驚人能力。生成式對抗性網絡是當前深度學習的高峰,其曲線正在不斷改進。
不可否認,GANs是未來趨勢,它將永遠變革人工智能。筆者必須指出兩個網絡——生成器和鑒別器,二者相互對抗,并存在小小的爭議。
生成器試圖創建真實的假圖像,以繞過鑒別器的基本檢查,而鑒別器的作用是捕獲假副本。這種貓和老鼠式的追逐導致了從未出現過的獨特樣品發展,它真實存在,遠超人類想象。
人工智能領域可以實現無限的優化和發展,這些主要的新興趨勢只是人工智能及其同代人未來的一個跡象。人工智能就在我們身邊,這個領域的快速發展著實讓人著迷,新技術及人工智能的崛起令人興奮不已。未來擁有無窮想象!
留言點贊關注
我們一起分享AI學習與發展的干貨
如轉載,請后臺留言,遵守轉載規范
大數據帶來的10個重大變化
文章來源:加米谷大數據
大數據時代的到來,大數據改變了人們的生活方式、思維模式和研究范式,我們可以總結出 10 個重大變化,如圖 1 所示。
圖 1 大數據時代的 10 個重大變化
2007 年 1 月,圖靈獎得主、關系型數據庫鼻祖 JimGray 發表演講,他憑著自己對于人類科學發展特征的深刻洞察,敏銳地指出科學的發展正在進入“數據密集型科學發現范式”——科學史上的“第四范式”。在他看來,人類科學研究活動已經歷過三種不同范式的演變過程。“第一范式”是指原始社會的“實驗科學范式”。18 世紀以前的科學進步均屬于此列,其核心特征是對有限的客觀對象進行觀察、總結、提煉,用歸納法找出其中的科學規律,如伽利略提出的物理學定律?!暗诙妒健笔侵?19 世紀以來的理論科學階段,以模型和歸納為特征的“理論科學范式”。其核心特征是以演繹法為主,憑借科學家的智慧構建理論大廈,如愛因斯坦提出的相對論、麥克斯方程組、量子理論和概率論等。“第三范式”是指 20 世紀中期以來的計算科學階段的“計算科學范式”。面對大量過于復雜的現象,歸納法和演繹法都難以滿足科學研究的需求,人類開始借助計算機的高級運算能力對復雜現象進行建模和預測,如天氣、地震、核試驗、原子的運動等。然而,隨著近年來人類采集數據量的爆炸性增長,傳統的計算科學范式已經越來越無力駕馭海量的科研數據了。例如,歐洲的大型粒子對撞機、天文領域的 Pan-STARRS 望遠鏡每天產生的數據多達幾千萬億字節(PB)。很明顯,這些數據已經突破了“第三范式”的處理極限,無法被科學家有效利用。正因為如此,目前正在從“計算科學范式”轉向“數據密集型科學發現范式”。“第四范式”的主要特點是科學研究人員只需要從大數據中查找和挖掘所需要的信息和知識,無須直接面對所研究的物理對象。例如,在大數據時代,天文學家的研究方式發生了新的變化,其主要研究任務變為從海量數據庫中發現所需的物體或現象的照片,而不再需要親自進行太空拍照。
在大數據時代,數據不僅是一種“資源”,更是一種重要的“資產”。因此,數據科學應把數據當作一種“資產”來管理,而不能僅僅當作“資源”來對待。也就是說,與其他類型的資產相似,數據也具有財務價值,且需要作為獨立實體進行組織與管理。大數據時代的到來,讓“數據即資產”成為最核心的產業趨勢。在這個“數據為王”的時代,回首信息產業發展的起起伏伏,我們發現產業興衰的決定性因素,已不是土地、人力、技術、資本這些傳統意義上的生產要素,而是曾經被一度忽視的“數據資產”。世界經濟論壇報告曾經預測稱,“未來的大數據將成為新的財富高地,其價值可能會堪比石油”,而大數據之父維克托也樂觀地表示,“數據列入企業資產負債表只是時間問題”?!皵祿蔀橘Y產”是互聯網泛在化的一種資本體現,它讓互聯網不僅具有應用和服務本身的價值,而且具有了內在的“金融”價值。數據不再只是體現于“使用價值”方面的產品,而成為實實在在的“價值”。目前,作為數據資產先行者的 IT 企業,如蘋果、谷歌、IBM、阿里、騰訊、百度等,無不想盡各種方式,挖掘多種形態的設備及軟件功能,收集各種類型的數據,發揮大數據的商業價值,將傳統意義上的 IT 企業,打造成為“終端+應用+平臺+數據”四位一體的泛互聯網化企業,以期在大數據時代獲取更大的收益。大數據資產的價值的衡量尺度主要有以下 3 個方面的標準。
目前,數據的所有權問題在業界還比較模糊。從擁有和控制的角度來看,數據可以分為 Ⅰ 型數據、Ⅱ 型數據和 Ⅲ 型數據。Ⅰ 型數據主要是指數據的生產者自己生產出來的各種數據,例如,百度對使用其搜索引擎的用戶的各種行為進行收集、整理和分析,這類數據雖然由用戶產生,但產權卻屬于生產者,并最大限度地發揮其商業價值。Ⅱ 型數據又稱為入口數據,例如,各種電子商務營銷公司通過將自身的工具或插件植入電商平臺,來為其提供統計分析服務,并從中獲取各類經營數據。雖然這些數據的所有權并不屬于這些公司,在使用時也有一些規則限制,但是它們卻有著對數據實際的控制權。相比于前兩類數據,Ⅲ 型數據的產權情況比較復雜,它們主要依靠網絡爬蟲,甚至是黑客手段獲取數據。與 Ⅰ 型和 Ⅱ 型數據不同的是,這些公司流出的內部數據放在網上供人付費下載。這種數據在當前階段,還不能和資產完全畫等號。
大數據要實現真正的資產化,用貨幣對海量數據進行計量是一個大問題。盡管很多企業都意識到數據作為資產的可能性,但除了極少數專門以數據交易為主營業務的公司外,大多數公司都沒有為數據的貨幣計量做出適當的賬務處理。雖然數據作為資產尚未在企業財務中得到真正的引用,但將數據列入無形資產比較有利??紤]到研發因素,很多高科技企業都具有較長的投入產出期,可以讓那些存儲在硬盤上的數據直接進入資產負債表。對于通過交易手段獲得的數據,可以按實際支付價款作為入賬價值計入無形資產,從而為企業形成有效稅盾,降低企業實際稅負。
資本區別于一般產品的特征在于,它具有不斷增值的可能性。只有能夠利用數據、組合數據、轉化數據的企業,他們手中的大數據資源才能成為數據資產。目前,直接利用數據為企業帶來經濟利益的方法主要有數據租售、信息租售、數據使能三種模式。
- 數據租售主要通過對業務數據進行收集、整理、過濾、校對、打包、發布等一系列操作,實現數據內在的價值。
- 信息租售則通過聚焦行業焦點,收集相關數據,深度整合、萃取及分析,形成完整數據鏈條,實現數據的資產轉化。
- 數據使能是指類似于阿里這樣的互聯網公司通過提供大量的金融數據挖掘及分析服務,為傳統金融行業難以下手的小額貸款業務開創新的行業增長點。
總而言之,作為信息時代核心的價值載體,大數據必然具有朝向價值本體轉化的趨勢,而它的“資產化”,或者未來更進一步的“資本化”蛻變,將為未來完全信息化、泛互聯網化的商業模式打下基礎。
傳統的方法論往往是“基于知識”的,即從“大量實踐(數據)”中總結和提煉出一般性知識(定理、模式、模型、函數等)之后,用知識去解決(或解釋)問題。因此,傳統的問題解決思路是“問題→知識→問題”,即根據問題找“知識”,并用“知識”解決“問題”。然而,數據科學中興起了另一種方法論——“問題→數據→問題”,即根據“問題”找“數據”,并直接用“數據”(在不需要把“數據”轉換成“知識”的前提下)解決“問題”,如圖 2 所示。
圖 2 傳統思維與大數據思維的比較
在傳統科學中,數據分析主要以數學和統計學為直接理論工具。但是,云計算等計算模式的出現及大數據時代的到來,提升了我們對數據的獲取、存儲、計算與管理能力,進而對統計學理論與方法產生了深遠影響。大數據帶給我們 4 個顛覆性的觀念轉變。
在大數據時代,我們可以分析更多的數據,有時候甚至可以處理和某個特別現象相關的所有數據,而不再依賴于隨機采樣。以前我們通常把隨機采樣看成是理所應當的限制,但是真正的大數據時代是指不用隨機分析法這樣的捷徑,而采用對所有數據進行分析的方法,通過觀察所有數據,來尋找異常值進行分析。例如,信用卡詐騙是通過異常情況來識別的,只有掌握了所有數據才能做到這一點。在這種情況下,異常值是最有用的信息,可以把它與正常交易情況作對比從而發現問題。
數據量的大幅增加會造成一些錯誤的數據混進數據集。但是,正因為我們掌握了幾乎所有的數據,所以我們不再擔心某個數據點對整套分析的不利影響。我們要做的就是要接受這些紛繁的數據并從中受益,而不是以高昂的代價消除所有的不確定性。這就是由“小數據”到“大數據”的改變。
研究數據如此之多,以至于我們不再熱衷于追求精確度。之前需要分析的數據很少,所以我們必須盡可能精確地量化我們的記錄,但隨著規模的擴大,對精確度的癡迷將減弱。擁有了大數據,我們不再需要對一個現象刨根問底,只要掌握了大體的發展方向即可,適當忽略微觀層面上的精確度,會讓我們在宏觀層面擁有更好的洞察力。例如,微信朋友圈中朋友發動態的時間,在一小時以內的會顯示多少分鐘之前,在一小時以外的就只顯示幾小時前;微信公眾號中顯示的閱讀量,超過十萬以后顯示的就是 100000+,而不是具體數據,因為超過十萬的閱讀量已經讓我們覺得這篇文章很優秀了,沒必要精確。
在數據科學中,廣泛應用“基于數據”的思維模式,重視對“相關性”的分析,而不是等到發現“真正的因果關系”之后才解決問題。在大數據時代,人們開始重視相關分析,而不僅僅是因果分析。我們無須再緊盯事物之間的因果關系,而應該尋找事物之間的相關關系。相關關系也許不能準確地告訴我們某件事情為何會發生,但是它會告訴我們某件事情已經發生了。在大數據時代,我們不必非得知道現象背后的原因,而是要讓數據自己發聲。知道是什么就夠了,沒必要知道為什么。例如,知道用戶對什么感興趣即可,沒必要去研究用戶為什么感興趣。相關關系的核心是量化兩個數據值之間的數據關系。相關關系強是指當一個數據值增加時,其他數據值很有可能也會隨之增加。相關關系是通過識別關聯物來幫助我們分析某一現象的,而不是揭示其內部的運作。通過找到一個現象良好的關聯物,相關關系可以幫助我們捕捉現在和預測未來。例如,如果川和萬經常一起發生,我們只需要注意方是否發生,就可以預測力是否也發生了。
“只要擁有足夠多的數據,我們可以變得更聰明”是大數據時代的一個新認識。因此,在大數據時代,原本復雜的“智能問題”變成簡單的“數據問題”。只要對大數據進行簡單查詢就可以達到“基于復雜算法的智能計算的效果”。為此,很多學者曾討論過一個重要話題——“大數據時代需要的是更多的數據還是更好的模型?”機器翻譯是傳統自然語言技術領域的難點,雖曾提出過很多種算法,但應用效果并不理想。IBM 有能力將《》歷年的文本輸入電腦,試圖破譯中文的語言結構。例如,實現中文的語音輸入或者中英互譯,這項技術在 20 世紀 90 年代就取得突破,但進展緩慢,在應用中還是有很多問題。近年來,Google 翻譯等工具改變了“實現策略”,不再依靠復雜算法進行翻譯,而是通過對他們之前收集的跨語言語料庫進行簡單查詢的方式,提升了機器翻譯的效果和效率。他們并不教給電腦所有的語言規則,而是讓電腦自己去發現這些規則。電腦通過分析經過人工翻譯的數以千萬計的文件來發現其中的規則。這些翻譯結果源自圖書、各種機構(如聯合國)及世界各地的網站。他們的電腦會掃描這些語篇,從中尋找在統計學上非常重要的模式,即翻譯結果和原文之間并非偶然產生的模式。一旦電腦找到了這些模式,今后它就能使用這些模式來翻譯其他類似的語篇。通過數十億次重復使用,就會得出數十億種模式及一個異常聰明的電腦程序。但是對于某些語言來說,他們能夠使用到的已翻譯完成的語篇非常少,因此 Google 的軟件所探測到的模式就相對很少。這就是為什么 Google 的翻譯質量會因語言對的不同而不同。通過不斷向電腦提供新的翻譯語篇,Google 就能讓電腦更加聰明,翻譯結果更加準確。
在傳統數據管理中,企業更加關注的是業務的數據化問題,即如何將業務活動以數據方式記錄下來,以便進行業務審計、分析與挖掘。在大數據時代,企業需要重視一個新的課題——數據業務化,即如何“基于數據”動態地定義、優化和重組業務及其流程,進而提升業務的敏捷性,降低風險和成本。業務數據化是前提,而數據業務化是目標。電商的經營模式與實體店最本質的區別是,電商每賣出一件產品,都會留存一條詳盡的數據記錄。也正是因為可以用數字化的形式保留每一筆銷售的明細,電商可以清楚地掌握每一件商品到底賣給了誰。此外,依托互聯網這個平臺,電商還可以記錄每一個消費者的鼠標單擊記錄、網上搜索記錄。所有這些記錄形成了一個關于消費者行為的實時數據閉環,通過這個閉環中源源不斷產生的新鮮數據,電商可以更好地洞察消費者,更及時地預測其需求的變化,經營者和消費者之間因此產生了很強的黏性。線下實體商店很難做到這一點,他們可能只知道一個省、一個市或者一個地區賣了多少商品,但是,他們很難了解到所生產、經營的每一件商品究竟賣到了哪一個具體的地方、哪一個具體的人,這個人還買了其他什么東西、查看了哪些商品、可能會喜歡什么樣的商品。也就是說,線下實體店即使收集了一些數據,但其數據的粒度、寬度、廣度和深度都非常有限。由于缺乏足夠的數據,實體店對自己的經營行為,對消費者的洞察力,以及和消費者之間的黏性都十分有限。就此而言,一家電商和一家線下實體店最本質的區別就是是否保存了足夠的數據。其實,這正是互聯網化的核心和本質,即“數據化”。這并不是一個簡單的數據化,而是所有業務的過程都要數據化,即把所有的業務過程記錄下來,形成一個數據的閉環,這個閉環的實時性和效率是關鍵的指標。這個思想就是一切業務都要數據化。在大數據時代,企業不僅僅是把業務數據化,更重要的是把數據業務化,也就是把數據作為直接生產力,將數據價值直接通過前臺產品作用于消費者。數據可以反映用戶過去的行為軌跡,也可以預測用戶將來的行為傾向。比較好理解的一個實例就是關聯推薦,當用戶買了一個商品之后,可以給用戶推薦一個最有可能再買的商品。個性化是數據作為直接生產力的一個具體體現。隨著數據分析工具與數據挖掘渠道的日益豐富與多樣化,數據存量越來越大,數據對企業也越來越重要。數據業務化能夠給企業帶來的業務價值主要包括以下幾點:提高生產過程的資源利用率,降低生產成本;根據商業分析提高商業智能的準確率,降低傳統“憑感覺”做決策的業務風險;動態價格優化利潤和增長;獲取優質客戶。目前,越來越多的企業級用戶已經考慮從批量分析向近實時分析發展,從而提高 IT 創造價值的能力。同時,數據分析在快速從商業智能向用戶智能發展。數據業務化可以讓數據給企業創造額外收益和價值。
傳統科學思維中,決策制定往往是“目標”或“模型”驅動的,也就是根據目標(或模型)進行決策。然而,大數據時代出現了另一種思維模式,即數據驅動型決策,數據成為決策制定的主要“觸發條件”和“重要依據”。小數據時代,企業討論什么事情該做不該做,許多時候是憑感覺來決策的,流程如圖 3 所示,由兩個環節組成:一個是拍腦袋,另一個是研發功能。
圖 3 產品迭代的錯誤流程
基本上就是產品經理通過一些調研,想了一個功能,做了設計。下一步就是把這個功能研發出來,然后看一下效果如何,再做下一步。整個過程都是憑一些感覺來決策。這種方式總是會出現問題,很容易走一些彎路,很有可能做出錯誤的決定。數據驅動型決策加入了數據分析環節,如圖 4 所示。
圖 4 數據驅動的產品迭代流程
基本流程就是企業有一些點子,通過點子去研發這些功能,之后要進行數據收集,然后進行數據分析?;跀祿治龅玫揭恍┙Y論,然后基于這些結論,再去進行下一步的研發。整個過程就形成了一個循環。在這種決策流程中,人為的因素影響越來越少,而主要是用一種科學的方法來進行產品的迭代。
例如,一個產品的界面到底是綠色背景好還是藍色背景好,從設計的層面考慮,兩者是都有可能的。那么就可以做一下 A/B 測試??梢宰?50% 的人顯示綠色背景,50% 的人顯示藍色背景,然后看用戶點擊量。哪個點擊比較多,就選擇哪個。這就是數據驅動,這樣就轉變成不是憑感覺,而是通過數據去決策。相比于基于本能、假設或認知偏見而做出的決策,基于證據的決策更可靠。通過數據驅動的方法,企業能夠判斷趨勢,從而展開有效行動,幫助自己發現問題,推動創新或解決方案的出現。
在大數據時代,企業之間的競合關系發生了變化,原本相互競爭,甚至不愿合作的企業,不得不開始合作,形成新的業態和產業鏈。所謂競合關系,即在競爭中合作,在合作中競爭。它的核心思想主要體現在兩個方面:創造價值與爭奪價值。創造價值是個體之間相互合作、共創價值的過程;爭奪價值則是個體之間相互競爭、分享價值的過程。競合的思想就是要求所有參與者共同把蛋糕做大,每個參與者最終分得的部分都會相應增加。傳統的競合關系以戰略為中心,德國寶馬汽車公司和戴姆勒公司旗下的奔馳品牌在整車制造領域存在著品牌競爭,但雙方不僅共同開發、生產及采購汽車零部件,而且在混合動力技術——領域進行研究合作。為了能夠在激烈的市場競爭中獲取優勢,兩家公司通過競合戰略,互通有無、共享資源,從而在汽車業整體利潤下滑的趨勢下獲得相對較好的收益,最終取得雙贏。在大數據時代,競合關系是以數據為中心的。數據產業就是從信息化過程累積的數據資源中提取有用信息進行創新,并將這些數據創新賦予商業模式。這種由大數據創新所驅動的產業化過程具有“提升其他產業利潤”的特征,除了能探索新的價值發現、創造與獲取方式以謀求本身發展外,還能幫助傳統產業突破瓶頸、升級轉型,是一種新的競合關系,而非一般觀點的“新興科技催生的經濟業態與原有經濟業態存在競爭關系”。所以,數據產業培育圍繞傳統經濟升級轉型,依附傳統行業企業共生發展,是最好的發展策略。例如,近年來發展火熱的團購,就是數據產業幫助傳統餐飲業、旅游業和交通行業的升級轉型。提供團購業務的企業在獲得收益的同時,也提高了其他傳統行業的效益。但是,傳統企業與團購企業也存在著一定的競爭關系。傳統企業在與團購企業合作的過程中,也盡力防止自己的線下業務全部轉為自己不能掌控的團購企業。團購網站為了能獲得更廣的用戶群、更大的流量來提升自己的市場地位,除了自身擴展商戶和培養網民習慣之外,還紛紛采取了合縱連橫的發展戰略。聚劃算、京東團購、當當團購、58 團購等紛紛開放平臺,吸引了千品網、高朋、滿座、窩窩等團購網站的入駐,投奔平臺正在成為行業共識。對于獨立團購網站來說,入駐電商平臺不僅能帶來流量,電商平臺在實物銷售上的積累對其實物團購也有一定的促進作用。
在傳統科學看來,數據需要徹底“凈化”和“集成”,計算目的是需要找出“精確答案”,而其背后的哲學是“不接受數據的復雜性”。然而,大數據中更加強調的是數據的動態性、異構性和跨域等復雜性,開始把“復雜性”當作數據的一個固有特征來對待,組織數據生態系統的管理目標開始轉向將組織處于混沌邊緣狀態。在小數據時代,對于數據的存儲與檢索一直依賴于分類法和索引法的機制,這種機制是以預設場域為前提的。這種結構化數據庫的預設場域能夠卓越地展示數據的整齊排列與準確存儲,與追求數據的精確性目標是完全一致的。在數據稀缺與問題清晰的年代,這種基于預設的結構化數據庫能夠有效地回答人們的問題,并且這種數據庫在不同的時間能夠提供一致的結果。面對大數據,數據的海量、混雜等特征會使預設的數據庫系統崩潰。其實,數據的紛繁雜亂才真正呈現出世界的復雜性和不確定性特征,想要獲得大數據的價值,承認混亂而不是避免混亂才是一種可行的路徑。為此,伴隨著大數據的涌現,出現了非關系型數據庫,它不需要預先設定記錄結構,而且允許處理各種各樣形形參差不齊的數據。因為包容了結構的多樣性,這些無須預設的非關系型數據庫設計能夠處理和存儲更多的數據,成為大數據時代的重要應對手段。在大數據時代,海量數據的涌現一定會增加數據的混亂性且會造成結果的不準確性,如果仍然依循準確性,那么將無法應對這個新的時代。大數據通常都用概率說話,與數據的混雜性可能帶來的結果錯誤性相比,數據量的擴張帶給我們的新洞察、新趨勢和新價值更有意義。因此,與致力于避免錯誤相比,對錯誤的包容將會帶給我們更多信息。其實,允許數據的混雜性和容許結果的不精確性才是我們擁抱大數據的正確態度,未來我們應當習慣這種思維。
在傳統科學中,數據的分析和挖掘都是具有很高專業素養的“企業核心員工”的事情,企業管理的重要目的是如何激勵和考核這些“核心員工”。但是,在大數據時代,基于“核心員工”的創新工作成本和風險越來越大,而基于“專家余(Pro-AmT 的大規模協作日益受到重視,正成為解決數據規模與形式化之間矛盾的重要手段。大規模生產讓數以百計的人買得起商品,但商品本身卻是一模一樣的。企業面臨這樣一個矛盾:定制化的產品更能滿足用戶的需求,但卻非常昂貴;與此同時,量產化的商品價格低廉,但無法完全滿足用戶的需求。如果能夠做到大規模定制,為大量用戶定制產品和服務,則能使產品成本低,又兼具個性化,從而使企業有能力滿足要求,但價格又不至于像手工制作那般讓人無法承擔。因此,在企業可以負擔得起大規模定制帶來的高成本的前提下,要真正做到個性化產品和服務,就必須對用戶需求有很好的了解,這就需要用戶提前參與到產品設計中。在大數據時代,用戶不再僅僅熱衷于消費,他們更樂于參與到產品的創造過程中,大數據技術讓用戶參與創造與分享成果的需求得到實現。市場上傳統的著名品牌越來越重視從用戶的反饋中改進產品的后續設計和提高用戶體驗,例如,“小米”這樣的新興品牌建立了互聯網用戶粉絲論壇,讓用戶直接參與到新產品的設計過程之中,充分發揮用戶豐富的想象力,企業也能直接了解他們的需求。大眾協同的另一個方面就是企業可以利用用戶完成數據的采集,如實時車輛交通數據采集商 Inrix。該公司目前有一億個手機端用戶,Inrix 的軟件可以幫助用戶避開堵車,為用戶呈現路的熱量圖。提供數據并不是這個產品的特色,但值得一提的是,Inrix 并沒有用的數據,這個軟件的每位用戶在使用過程中會給服務器發送實時數據,如速度和位置,這樣每個用戶都是探測器。使用該服務的用戶越多,Inrix 獲得的數據就越多,從而可以提供更好的服務。
大模型能給大數據開發領域帶來什么?
站在巨人的肩膀上,我們看得更遠。這或許是對大模型與大數據關系的最佳詮釋?;赝^去的數據時代,我們如同身處浩瀚的知識海洋,卻苦于沒有高效的工具去擷取其中的珍寶。如今,AI大模型的出現,宛如一艘先進的艦艇,載著我們駛向數據價值的彼岸。它不僅提升了數據開發的效率,更賦予了數據新的生命力,讓數據真正成為驅動未來發展的引擎。
大模型的到來并非偶然,而是數據發展到一定階段的必然產物。傳統的大數據平臺,在面對海量數據時,常常顯得力不從心。京東的案例就是一個縮影:數百張數據表,成千上萬的開發任務,復雜的業務邏輯,讓數據開發人員疲于奔命;超過90萬個運維實例,每天上千個報錯信息,更是讓運維人員焦頭爛額;還有那超過20萬個數據集市和數據產品,如同迷宮一般,讓使用者望而卻步。這些難題,都迫切需要一種新的解決方案。
大模型的出現,恰逢其時。它以強大的算力和智能算法為基礎,為大數據開發領域帶來了前所未有的變革。它不僅能夠理解自然語言,還能進行語義搜索、智能推薦、代碼生成、異常診斷等,極大地提升了數據開發的效率和智能化水平。
?大模型:數據開發的智能助手
試想一下,如果數據開發人員只需用自然語言描述需求,大模型就能自動生成代碼、進行和優化,那將是怎樣一種高效的開發體驗?如果運維人員能夠通過大模型實時監控系統,快速定位和解決異常,那將是怎樣一種輕松的運維方式?如果用戶能夠用自然語言查詢數據,輕松獲取所需信息,那將是怎樣一種便捷的數據使用體驗?大模型的出現,讓這一切都成為了可能。
?從開發到應用:大模型的全面賦能
從阿里云的DataWorks Copilot到京東的智能應用助手,從騰訊云的ChatBI到華為的DataArts Insight,國內外各大科技公司都在積極探索大模型在大數據領域的應用。這些智能助手,就像一位位經驗豐富的專家,為數據開發人員、運維人員和用戶提供全方位的支持。它們不僅能夠提高效率,還能降低門檻,讓更多的人能夠享受到數據帶來的價值。
?未來展望:大模型與大數據的深度融合
大模型的應用也并非一帆風順。目前,大模型的應用主要集中在數據開發和數據分析領域,而在數據治理、數據安全等方面還有很大的發展空間。大模型的訓練成本高昂,也限制了其在中小企業的應用。
隨著技術的不斷進步,大模型的訓練成本將會逐漸降低,其應用場景也將更加廣泛。我們可以預見,大模型與大數據的深度融合,將為我們帶來一個更加智能、高效、便捷的數據時代。
大模型的出現,為大數據領域帶來了新的希望。它就像一顆冉冉升起的新星,照亮了數據價值的未來。我們有理由相信,在不久的將來,大模型將成為大數據領域不可或缺的一部分,推動數據時代的蓬勃發展。
您認為大模型的出現,會給大數據領域帶來哪些顛覆性的變革?歡迎在評論區分享您的觀點。