大數據發展分析
發布時間:2016/11/14 9:59:52 訪問次數:12790
大數據行業發展至今,技術與業務之間依然存在巨大著鴻溝。首先,就是數據分析技術本身。數據源企業為實現數據價值變現,嘗試多種方法,甚至自己組建數據分析團隊,可是數據分析是個技術活,1%的誤差都會極大地影響市場份額,術業有專攻,數據變現還是需要專業的數據分析人才來實現。
- 51電子網公益庫存:
- M27128A-10F1
- M27128A-10F6
- M27128A-15F6
- N2TU51216DG-AC
- NAND01GR3B2CZA6E
- NM27C256QE-150
- OP01AZ/883
- OP07AZ/883B
- PC16552DV
- PFS713EG
- QD8254A
- QD8291A
隨著大數據概念的火熱,做大數據的公司越來越多,產品做得五花八門,數據建模看似誰都可以涉足,但現在數據分析的技術,方法,模型,算法都有了非常大的改進,跟過去六七十年代完全不一樣,不是說做幾個saas軟件或者raas軟件就是大數據了,雖然短期看市場火熱,但長遠來說這條路是走不通的,大數據行業發展,技術才是真正的發力點,提高行業準入門檻尤為重要。
中國的數據有它的特色,例如在金融行業,目前大部分銀行采用的是風險評分卡,運用專家經驗定義風險變量,基于定性認識進行評分,通過事后風險回檢優化評分卡,風險預警功能較差。雖然央行征信中心與國內少數技術領先銀行使用的是風險評分模型,但模型方法相對陳舊,如央行所用fico評分模型為上世紀80年代基于邏輯回歸算法構建的評分體系,邏輯回歸算法適合處理線性數據,但實際問題往往是非線性的,特別是信用風險評估場景下。此外,fico模型沒有針對我國具體業務進行場景細分,建模邏輯并不完全符合我國實際情況,因此導致準確率不足,風險預警能力差。
中國人民銀行征信中心首次與國內大數據公司合作,這次合作中普林科技應用國際領先的大數據建模分析技術,運用決策樹,隨機森林,adaboost,gbdt,svm等算法,通過對信用報告的數字化解讀與深入洞察,準確預測了違約風險,對貸款審批、貸中管理形成指導,新模型對好壞賬戶的區分度遠高于行業平均水平。此次合作表明我國的大數據難題更需要適應國情的解決方案與本土的技術人才,這對我們的市場提出了一個新問題。
我們國家大數據發展最大的優勢就是市場大,最大的劣勢恰巧就是缺乏相應人才,人才缺乏的程度非常嚴重。首先在國際市場方面,我們要跟國外公司爭人才,然而國外大數據行業同樣十分火熱。而不論在國內還是國外,跟企業競爭人才都是一項艱巨的事業,比如在世界上最好的大學之一的美國普林斯頓大學,想找數學家也是非常困難,人才很容易被大公司挖走,每年都有非常好的數據分析人才被企業挖走。所以人才難覓不只是口頭說說,更是一個亟待解決的問題。
目前為止,我們國家仍然沒有良好的培育大數據人才的機制,大數據教育主要面臨問題。
a,大數據是一個交叉學科,涉及統計學,管理,編程等多學科,知識點復雜,培訓課程編輯難度大,缺乏系統的學習教程;
b,現階段大數據教育大多還停留在理論知識上,理論與實戰嚴重脫節,學習者缺乏良好的實踐機會;
c,大數據教育的根本目的是為了解決業務上面臨的實際問題,用科學的手段推動業務的進展,然而現階段的大數據教育機構普遍缺乏相應的業務經驗,產學研結合并不密切。
2015年以來,各地加速建立大數據交易平臺,數據交易市場異常火熱。 大數據最高的層次就是要用數據來形成智慧,使得社會各方面可以運轉起來。做數據分析先要整合數據,這是我們通常的理念。而數據本身我們可以從三個層面來看。 首先是“有沒有”,就是數據交易問題.
目前,我國大數據需求端以互聯網企業為主,覆蓋面不廣,在o2o趨勢下,大型互聯網廠商嘗試引入外部數據支撐金融、生活、語音、旅游、健康和教育等多種服務。
在具體的領域或行業內,我國普遍未形成成型的數據采集、加工、分析和應用鏈條,大量數據源未被激活,大多數數據擁有者沒有數據價值外化的路徑。比如,各醫療健康類應用收集了大量的數據,但沒有像sermo.com那樣面向醫藥公司售賣數據。與國外相比我國的政府、公共服務、農業應用基本缺位,電信和銀行業更缺少與外部數據的碰撞。
其實數據交易這件事本身就是一個悖論。數據作為一種商品有一定的特殊性,我用了別人也可以用,沒有任何消耗,可以在市場賣很多遍。這就產生一個問題,這個數據到市場賣,根據經濟學觀點它的價值是零,你賣給我我可以用更低的價格賣給別人,所以數據交易理論上來說也是不可行的。
其次就是數據質量問題。大數據概念火了以后,很多機構覺得數據存起來就是寶,于是積攢了大量零碎數據放在那里,到底能發揮什么作用也未可知。而在和許多真正想用數據做些事情的機構的合作中我們發現,即便是政府機構這樣的權威數據持有方,也存在很多數據缺失、數據錯誤、噪音多各方面的問題。當然這并不是說不能做數據分析了。常常在講大數據就用大數據方法,小數據就用小數據方法,完美的數據是永遠等不來的。但這樣會導致什么問題呢?在實際項目實施過程中,我們的數據科學家們不得不花費大量時間在數據清洗上,這其實是對本來就緊缺的數據人員的一種浪費。
數據孤島和數據開放問題。理論上我們中國有很多數據,不同部門數據存在在不同的地方,格式也不一樣。政府內部本身整合各部門的數據就已經是一件很頭大的事情,更不要提大規模的數據開放。同時數據開放面臨一個嚴重問題就是隱私問題,脫敏遠遠不夠,隱私問題是一個無底洞。 近來,大數據如浪潮般席卷全球。越來越多的國家開始從戰略層面認識大數據,中國亦如此。然而任何發展都不應盲目跟從,而應該在發展中不斷認識其發展的意義與遇到的困難挑戰,要做到及時發現總結,才能更好的發展。
大數據行業發展至今,技術與業務之間依然存在巨大著鴻溝。首先,就是數據分析技術本身。數據源企業為實現數據價值變現,嘗試多種方法,甚至自己組建數據分析團隊,可是數據分析是個技術活,1%的誤差都會極大地影響市場份額,術業有專攻,數據變現還是需要專業的數據分析人才來實現。
- 51電子網公益庫存:
- M27128A-10F1
- M27128A-10F6
- M27128A-15F6
- N2TU51216DG-AC
- NAND01GR3B2CZA6E
- NM27C256QE-150
- OP01AZ/883
- OP07AZ/883B
- PC16552DV
- PFS713EG
- QD8254A
- QD8291A
隨著大數據概念的火熱,做大數據的公司越來越多,產品做得五花八門,數據建模看似誰都可以涉足,但現在數據分析的技術,方法,模型,算法都有了非常大的改進,跟過去六七十年代完全不一樣,不是說做幾個saas軟件或者raas軟件就是大數據了,雖然短期看市場火熱,但長遠來說這條路是走不通的,大數據行業發展,技術才是真正的發力點,提高行業準入門檻尤為重要。
中國的數據有它的特色,例如在金融行業,目前大部分銀行采用的是風險評分卡,運用專家經驗定義風險變量,基于定性認識進行評分,通過事后風險回檢優化評分卡,風險預警功能較差。雖然央行征信中心與國內少數技術領先銀行使用的是風險評分模型,但模型方法相對陳舊,如央行所用fico評分模型為上世紀80年代基于邏輯回歸算法構建的評分體系,邏輯回歸算法適合處理線性數據,但實際問題往往是非線性的,特別是信用風險評估場景下。此外,fico模型沒有針對我國具體業務進行場景細分,建模邏輯并不完全符合我國實際情況,因此導致準確率不足,風險預警能力差。
中國人民銀行征信中心首次與國內大數據公司合作,這次合作中普林科技應用國際領先的大數據建模分析技術,運用決策樹,隨機森林,adaboost,gbdt,svm等算法,通過對信用報告的數字化解讀與深入洞察,準確預測了違約風險,對貸款審批、貸中管理形成指導,新模型對好壞賬戶的區分度遠高于行業平均水平。此次合作表明我國的大數據難題更需要適應國情的解決方案與本土的技術人才,這對我們的市場提出了一個新問題。
我們國家大數據發展最大的優勢就是市場大,最大的劣勢恰巧就是缺乏相應人才,人才缺乏的程度非常嚴重。首先在國際市場方面,我們要跟國外公司爭人才,然而國外大數據行業同樣十分火熱。而不論在國內還是國外,跟企業競爭人才都是一項艱巨的事業,比如在世界上最好的大學之一的美國普林斯頓大學,想找數學家也是非常困難,人才很容易被大公司挖走,每年都有非常好的數據分析人才被企業挖走。所以人才難覓不只是口頭說說,更是一個亟待解決的問題。
目前為止,我們國家仍然沒有良好的培育大數據人才的機制,大數據教育主要面臨問題。
a,大數據是一個交叉學科,涉及統計學,管理,編程等多學科,知識點復雜,培訓課程編輯難度大,缺乏系統的學習教程;
b,現階段大數據教育大多還停留在理論知識上,理論與實戰嚴重脫節,學習者缺乏良好的實踐機會;
c,大數據教育的根本目的是為了解決業務上面臨的實際問題,用科學的手段推動業務的進展,然而現階段的大數據教育機構普遍缺乏相應的業務經驗,產學研結合并不密切。
2015年以來,各地加速建立大數據交易平臺,數據交易市場異常火熱。 大數據最高的層次就是要用數據來形成智慧,使得社會各方面可以運轉起來。做數據分析先要整合數據,這是我們通常的理念。而數據本身我們可以從三個層面來看。 首先是“有沒有”,就是數據交易問題.
目前,我國大數據需求端以互聯網企業為主,覆蓋面不廣,在o2o趨勢下,大型互聯網廠商嘗試引入外部數據支撐金融、生活、語音、旅游、健康和教育等多種服務。
在具體的領域或行業內,我國普遍未形成成型的數據采集、加工、分析和應用鏈條,大量數據源未被激活,大多數數據擁有者沒有數據價值外化的路徑。比如,各醫療健康類應用收集了大量的數據,但沒有像sermo.com那樣面向醫藥公司售賣數據。與國外相比我國的政府、公共服務、農業應用基本缺位,電信和銀行業更缺少與外部數據的碰撞。
其實數據交易這件事本身就是一個悖論。數據作為一種商品有一定的特殊性,我用了別人也可以用,沒有任何消耗,可以在市場賣很多遍。這就產生一個問題,這個數據到市場賣,根據經濟學觀點它的價值是零,你賣給我我可以用更低的價格賣給別人,所以數據交易理論上來說也是不可行的。
其次就是數據質量問題。大數據概念火了以后,很多機構覺得數據存起來就是寶,于是積攢了大量零碎數據放在那里,到底能發揮什么作用也未可知。而在和許多真正想用數據做些事情的機構的合作中我們發現,即便是政府機構這樣的權威數據持有方,也存在很多數據缺失、數據錯誤、噪音多各方面的問題。當然這并不是說不能做數據分析了。常常在講大數據就用大數據方法,小數據就用小數據方法,完美的數據是永遠等不來的。但這樣會導致什么問題呢?在實際項目實施過程中,我們的數據科學家們不得不花費大量時間在數據清洗上,這其實是對本來就緊缺的數據人員的一種浪費。
數據孤島和數據開放問題。理論上我們中國有很多數據,不同部門數據存在在不同的地方,格式也不一樣。政府內部本身整合各部門的數據就已經是一件很頭大的事情,更不要提大規模的數據開放。同時數據開放面臨一個嚴重問題就是隱私問題,脫敏遠遠不夠,隱私問題是一個無底洞。 近來,大數據如浪潮般席卷全球。越來越多的國家開始從戰略層面認識大數據,中國亦如此。然而任何發展都不應盲目跟從,而應該在發展中不斷認識其發展的意義與遇到的困難挑戰,要做到及時發現總結,才能更好的發展。
上一篇:美國機器人路線圖