) s5 T4 ]' X* ^* s! H& `- `
从SGI的首席科学家John R. Masey在1998年提出大数据概念,到大数据分析技术广泛应用于社会的各个领域,已经走过了17年的时间。现在再也没有企业怀疑大数据分析的力量,并且都在竞相利用大数据来增强自己企业的业务竞争力。但是,即使17年过去,大数据分析行业仍然处于快速发展的初期,每时每刻都在产生新的变化。 9 ^3 y' {$ G% E4 g. C9 G# v+ L r' ?+ `
& C- y" W- v3 s' @% @' U( W! _
从概念到实用、从结构化数据分析到非结构化数据分析,大数据分析技术在不断地进化。虽然国内仍然在关注舆情分析,但是记者注意到,在美国,大数据分析的研究已经进入到了一个全新的阶段,“预测分析”技术成为最具有代表性的未来技术方向。 ! Y8 {7 Z, }* g. J' _( n0 F ]1 N3 ?
0 @0 Y6 t% \" t! v* I. t那么,“预测分析”技术和传统的大数据分析有什么不同?记者就此采访了美国数据科学家、前北卡大学夏洛特分校助理敎授、夏洛特视觉中心主任以及非结构化数据智能分析平台Taste Analytics的CEO,Derek Wang(汪晓宇)博士。 6 \( B6 x$ V) E" }& I6 Z5 c* q5 v$ r" a, k" N4 z
: W: i3 H2 n& R: ?6 L1 E
- j6 E6 Z/ {/ P& b; g
0 a- N" t% j/ w& ]+ [4 _: p6 D- A4 V大数据行业爆发,现在的技术不够用了 + S0 X# M( H3 `* G' b3 o8 O, ]- A, i9 G
汪晓宇博士正好经历了整个大数据产业爆发的全过程。他和记者回忆说,在2010年的时候,来他们夏洛特视觉中心进行交流的还仅仅是大公司的数据硏究员,2011年已经变成了公司的主任,而到了2012年,来的几乎全是CIO和CTO们了。他们甚至还为企业开了一门数据分析的进修课程,讲座虽然只有两天,但注册学费几千美金,学员们全都是来自国内各大公司的资深高管。7 U0 F7 m( `8 `! G; H5 `$ m' S# d
3 L& R2 \ [" y0 n7 Q) q, L
" z& |) w* X: d( H; _& P从这可以看出,在这个数据时代,中美都在用尽一切办法实现数据上领先的概念和追求。而在这技术飞速发展的几年间,数据本身呈现出了不少新的特点,市场也相应地对大数据分析技术提出了新要求。 * C2 N6 f* C# \2 j " C) g% F+ G! G, Y7 Y5 V( U3 W7 r
首先,数据点越来越多,也越来越碎片化% f9 d, g, A M
2 f+ H/ p' l1 |* z" |* U
在汪晓宇博士看来,大数据时代就是人的时代,数据形态越来越丰富和多样。除去社交网站等传统数据点以外,新形态的数据点也已经出现,比如Airbnb和Uber这种O2O服务。如果再看远一点,随着可穿戴设备、物联网等先进设备和个人的信息结合起来,随时随地产生和收集数据更加成为可能。在这样的情况下,每个人随时随地的“情绪”和“状态”这些都会成为商家必须要重视的数据源。 & ^4 l8 l) R3 N; x! F% m9 T5 Z- E; z* J% R8 b- A
与此相对应的,非结构化数据分析将越来越重要。而非结构化数据的模块化更加灵敏,不是传统的单一解决方案可以做到的。这导致人们在进行大数据分析时使用的工具将更加细化,利用垂直创新的工具进行非常纵深的研究将成为主流。& @* b8 l" {0 ~7 t) d! P5 H7 }, W
$ t( t! E8 h6 g2 K( B" m1 F
1 j: x& f- W/ X% q/ f. e其次,大数据分析技术成为了决定社会服务效率的关键; o; L' q6 _: w6 c4 J
4 C* }) f: E3 M* W+ I! [, W有报道指出,随着信息技术的发展,包括公共服务、物流等在内的人们衣食住行的服务会纷纷电子化,虚拟世界和物理世界的边界将进一步模糊。这个大的产业背景一旦形成,大数据分析能力就将成为整个产业服务最关键的竞争力。0 C* y2 @/ Y+ W a
) h( u# b* d' |; I) D+ u7 I8 q* m: p
9 H7 u8 o8 ^0 w- o8 U7 R9 W# Y这样就意味着,大数据分析工具应该越来越实用化。汪晓宇博士介绍说,在面对新的技术和工具时,美国企业高层都会迅速做出决断,考虑怎么把数据分析和现有业务进行快速整合。他举例说,在他们和美国一家大型银行合作时,对方的CIO就可以迅速做出反应,和他们探讨应该怎么把他们开发的创新型非结构化数据分析技术应用到自家银行某一个产品中去。( D7 K; [" h5 z. Z" F
2 T. e' m! s9 M( C' P' J2 c
0 S: D4 \% r. }1 i 6 U" H2 X/ E1 p# ?4 ?* @4 q) Y4 p _& _4 m, g4 l/ d% d9 Q1 L ?* y) P9 ^
决定下一代大数据产业的新技术:“预测分析” - t {( C+ a7 i" d4 m* e/ A % K! l8 w. Q, W1 p& |6 ?2 A# H, o在这样的数据特点和市场要求下,中国和美国各大公司和科研中心都在大力投入,研发下一代数据分析技术。但是,在这方面,美国还是有着3-5年时间的领先。 4 [9 }/ ~9 y: w; T; d/ N V / f8 F2 k$ e2 _( f H+ |( C- H7 e4 U ) |' |* w9 m- k3 W根据汪晓宇博士的分析,国内在科研上的眼光很高,水平层次力度都在,但是商业化不行,研发出来转到应用上和美国有一定差距。中国大部分公司对于大数据分析的概念还停留在“舆情分析”的阶段,但是美国已经跨越“舆情分析”和“情感分析”,进入到了“预测分析”阶段。5 ^( i/ Q7 T0 f' P& \
+ H/ y% u' g9 }( R- m4 |& F8 g; V( U: w
由汪晓宇博士一手打造的Taste Analytics团队,就在进行“预测分析”技术的研发。它摆脱了传统的“舆情分析”和“情感分析”的框架,更进一步,把人们在社交网站和其他平台上产生的数据都收集起来,进行实时、全面地分析,帮助企业建立用户的立体形象,了解他们的品味和喜恶,从而提供预测性地判断。这听来似乎和传统的“推荐系统”、类Clickstream分析有些类似,但是实际上完全不同。 7 D6 W# w7 s' S % F# k, Q% B# t . a' K9 s# _+ q f* J8 J0 U首先,传统的“推荐系统”会需要一个很长的建立过程,也就说,它需要很多强相关的、相似的历史数据,才有可能实现推荐功能。比如它只能根据你买电饭锅的行为,才能向你推荐其他厨具。 + W) E; B5 F! S" J4 B4 z7 O- s! s. A) e* O
$ t2 r0 b: L3 B# V; }6 f K, \4 B但是企业怎么能在一开始就知道,顾客想要买电饭锅呢?这就是“预测分析”的强大之处。它不需要这样的历史数据,而是直接通过人们在社交网络上的留言和在各大平台上留下的信息,来进行预测。也就是说,当你在社交网络上留下类似“好想在家做饭”的状态,系统就有可能已经知道你想买厨具了。 $ }5 _4 N$ G% v2 f$ a6 N6 J; U& F. }- o% I1 l1 T9 V