502书库

502书库>大数据乡村 > 第一章大数据和农村文化产业链发展的若干理论解读(第1页)

第一章大数据和农村文化产业链发展的若干理论解读(第1页)

第一章大数据和农村文化产业链发展的若干理论解读

在信息技术革命进入到以互联网、移动互联网、物联网、人工智能、云计算为基础的大数据时代后,农村文化产业必将迎来一次新的产业变革。每一次新的技术革命都会催生出很多机会,抓住机会,即可弯道超车、后来居上。对于转型中的中国是如此,对于转轨中的农村文化产业也是如此。大数据时代,时代条件和产业结构以及产业发展的内生动力都具有与以往不同的特征,因此,我们讨论大数据时代农村文化产业的发展问题首先应该对大数据时代表征和农村文化产业链结构以及发展的条件与机遇等关键范畴进行理论阐释。

第一节大数据时代表征探究

一个新的技术时代的到来总会让人兴奋不已,也会让人议论纷纷,大家都在谈论大数据时代,但对于什么是大数据的时代表征,却少有文章进行归纳阐释。在众多研究探讨大数据的著作和文章中,也大都只是不同程度地讨论阐释了大数据定义、大数据特征(4V或4V+1C),大数据技术、大数据价值、大数据营销等问题。但是,不对大数据的时代表征进行归纳概括,我们对大数据的认知就只能是零散的而不是整体的。根据百度百科的解释,“时代”指历史上以经济、政治、文化等状况为依据而划分的某个时期。大数据时代的到来,是多种社会发展要素的集合。大数据的时代表征主要体现在以下几个方面:大数据技术、大数据科学、大数据思维、大数据资源、大数据平台(工程及应用),正是以上要素的有机集合,才真正揭示了大数据时代的到来。

一、大数据时代表征之一:大数据技术

大数据时代的突出特点是大数据技术日益成熟。大数据技术本质上是信息技术的拓展和延伸。从拓展的角度看,大数据技术是在互联网、移动互联网、物联网、云计算、人工智能基础上迅速发展起来的新兴技术。从延伸的角度看,大数据的MPP、MapReduce、Hadoop平台等关键技术的广泛应用极大提高了数据收集、处理、分析的体量和速度。

(一)关于大数据技术的定义

根据IDC(国际数据资讯公司)的定义,大数据技术是:“为了更为经济的从高频率获取的、大容量的、不同结构和类型的数据中获取价值,而设计的新一代构架和技术。”[.周震刚:《中国大数据市场10大预测》[J],《通讯世界》2012年第10期]大数据技术的出现是在原有技术不足以处理大容量、高频实时、不同结构数据的条件下应用而生的。这一定义实际上也概括了大数据的四“V”特征:体量巨(Volumes),类别多(Variety),速度快(Velocity),价值大(Value)。从体量的角度讲,数据量从TB级升至PB级,根据WinterCrop的调查显示,最大的数据仓库中的数据量,年均增长率为173%,每两年增加3倍,其增长速度远超摩尔定律增长速度。[.WinterCrop:20ramSummary.hitePaperWWP.pdf]到2020年,全球每年产生的数据量将达到35ZB(使用现在最快的宽带,下载1ZB的数据需要至少110亿年)。这样体量巨大的数据已经不是原有技术可以存储、挖掘、分析和管理的了,大数据技术的出现就成为必然。从数据结构的角度讲,大数据不仅包括结构性数据,还包括网络日志、音频、视频、图片、地理位置信息等大量半结构和非结构性数据,这些类型繁杂的数据也需要大数据技术处理。从快速的角度讲,大数据包含大量高速实时数据,需要进行快速、持续的实时处理。从价值的角度讲,大数据技术能够做到“大、全、快”地挖掘数据洪流中潜藏的巨大财富,发挥“云——管——端”智能管道的作用。根据世界著名咨询机构麦肯锡的分析,大数据创造价值有五种方式:创建透明度、发现需要、细分人群、支持决策、创新模式。

(二)关于大数据技术的作用

关于大数据技术的作用,《大数据时代到来》一文简洁地表述,指出大数据技术的作用“就是把TBPB级数据釆集进数据仓库中,然后用分布式的技术框架(和Hadoop),对非关系型数据进行异质处理(NOSQL),通过数据分析和挖掘,发展一对一的商业智能。”[.姜奇平:《大数据时代到来》[J],《互联网周刊》2012年第1期]上述表述偏重技术性和商业性,如果换成抽象一点的表述,我们可以把大数据的作用概括为它加速了人类将信号转化为数据,将数据分析为信息,将信息提炼为知识,将知识上升为智慧,将智慧转变为行动的新的社会发展进程。

(三)关于大数据关键技术

大数据技术是一个技术群,其技术来源于计算机科学、统计学、应用数学、经济学等多个学科。麦肯锡公司在《大数据:下一个创新、竞争和生产力的前沿》的报告中将大数据关键技术分为两类:一类是可用于大数据分析的关键技术,另一类是专门用于处理大数据的关键技术。第一类包括AB测试、数据挖掘、数据分类、数据聚类、数据众包、数据融合、数据集成、关联规则挖掘、神经网络、神经分析、遗传算法、模拟、时间序列分析、时间序列预测模型、优化、模式识别、空间分析、统计、预测模型、回归、情绪分析、信号处理、自然语言处理、集成学习、机器学习、监督式学习、无监督式学习、可视化技术等。需要说明的是,这些可用于大数据分析的关键技术有些也可应用于小数据集分析,如测试、回归分析技术等,这表明大数据技术不是凭空产生的,其技术来源具有广泛性和兼容性。

第二类是可专门用于整合、处理、管理和分析大数据的关键技术,主要包括Bigtatle、数据仓库、数据集市、元数据、云计算、dre、分布式系统、Dynamo、GFS、MapReduashup、HBase、商业智能、结构化数据、非结构化数据、半结构化数据、非关系型数据库、关系型数据库、R语言、SQL、流处理等。这些可专门用于处理大数据的关键技术发展迅速,一些新的工具和方法正不断被开发。其中应用最直接最广泛的技术工具是MapReduapReduce是2004年由谷歌推出的用于进行并行处理和生成大数据的编程模型,它是一套软件框架,包括Map(映射)和Reduce(化简)两个阶段。MapReduce的优点一是简单快捷,二是并行容错,三是成本低廉。它是面向数千台低端计算机组成的大规模机群而设计的,对硬件的要求较低,并且免费开源,其具有的可拓展性和可用性使其特别适用于海量的结构性、半结构性和非结构性数据的混合处理。Hadoop是—种流行的开源版本,是分析处理大数据的强大工具,为了抽象其编程模型的一些复杂性,已经开发出多种在Hadoop平台上运行的应用开发语言,其中有代表性的有Pig、Hive和Taql等。如同任何技术都有缺陷一样,Hadoop存在可靠性的问题,当前Hadoop采用主从结构,主节点一旦失效,将导致整个系统失效,因此,相关科技人员加强了这方面的研究。一般来说,产业革命源于技术创新,成于金融创新。技术革命推动产业革命,产业革命推动社会变革。大数据技术的蓬勃发展,揭示了大数据时代的到来。

二、大数据时代表征之二:大数据科学

对大数据技术以及相应的基础理论问题的研究催生了大数据科学。大数据时代在科学领域的表现是数据科学的兴起。

(一)关于大数据科学的学科性质

中国科学院院长、中国科学院大学(国科大)校长白春礼院士指出:“大数据是一门新交叉学科。”[.白春礼:《把握科技发展新态势实现创新运动新发展》[N],中国科学报2012年12月13日]中国工程院院士、世界科学院院士李国杰也指出:“大数据科学作为一个横跨信息科学、社会科学、网络科学、系统科学、心理学、经济学等诸多领域的新兴交叉学科方向正在逐步形成。”[.李国杰:《大数据研究:未来科技及经济社会发展的重大战略领域》[J],《中国科学院院刊》2012年第6期]两位院士在阐释大数据科学的学科性质时都认为大数据是新兴交叉学科。大数据科学的交叉性不仅表现在自然科学和技术科学的交叉上,还表现在与社会科学的交叉上,这大大增加了大数据科学的学科跨度。根据大数据的来源,我们一般将其分为两个大类:第一类是来自物理世界的数据,第二类是来自人类社会的数据。第一类数据大多数是科学实践数据或传感数据等结构性数据,第二类数据大多数是随机的半结构性或非结构性数据,特别是互联网数据,大多表现为多源异构和交互性、高噪声、突发性、时效性等社会性特征。因此,社会科学领域的大数据分析,比如基于网络数据的社会安全、网络舆情、经济形势、群体事件的预测,往往比来自物理世界的科学实验方面的数据分析难度更大。根据检测,全球数据量大约每两年翻一番,并且以上的数据是以非结构化或半结构化形式存在的。与社会科学有关的大数据问题,如社会安全形势分析、经济形势分析、舆情分析、情感分析等,都需要自然科学、技术科学与社会科学通力合作进行研究。

(二)关于大数据科学的研究内容

关于数据科学的研究内容,中国科学院院士、北京大学长江讲座教授、美国普林斯顿大学教授鄂维南指出:“数据科学主要包括两个方面:用数据的方法来研究科学和用科学的方法来研究数据。前者包括生物信息学、天体信息学、数字地球等领域,后者包括统计学、机器学习、数据挖掘、数据库等领域。这些学科都是数据科学的重要组成部分,但只有把它们有机地放在一起,才能形成整个数据科学的全貌。”[.赵国栋等:《大数据时代的历史机遇》[M],北京:清华大学出版社2013年版,第286页]这一表述借用了开普勒和牛顿关于科学研究的例子,开普勒关于能量运动三大定律的提出走的是从数据到科学结论的路径,即从个别到一般;牛顿运用的则是一般到个别的方法,他用他的第二定律和万有引力定律把能量运动归结为一个纯粹的数学问题,并由此推出开普勒的三个定律。从个别到一般,从一般到个别本是科学研究的一般方法,大数据科学研究也离不开这些一般方法。

(三)关于大数据科学的研究范式

迄今为止的科学研究范式主要有三种。第一范式是实验型科学研究,这一范式已经有几千年历史;第二范式是理论型科学研究,这一范式已经有几百年历史;第三范式是计算型科学研究,这一范式有几十年历史。这三种范式中,计算型科研范式由约翰泰勒提出,现在许多重大科学研究领域,如核反应模拟、生命科学研究、航空航天设计等都广泛运用计算型科研范式。面对大数据浪潮,已故图灵奖得主吉姆格雷提出了数据密集型科研的“第四范式”。第四范式之所以可以与第三范式区别,在于第三范式的研究需要模型和假设,而PB级的大数据使人们做到没有模型和假设也可以分析处理数据,只要将海量数据交给联网的计算机机群,统计分析计算就可以给出过去科学方法发现不了的新结论或新规律。

三、大数据时代表征之三:大数据思维

大数据的应用和发展需要三大要素作为支撑:一是数据,二是技术,三是思维。在当今数据无时不在、无处不在以及大数据技术日益成熟的条件下,数据和技术都不是大数据应用和发展的最大障碍,制约大数据应用和发展的最大障碍是大数据思维的缺失。相对于技术变革而言,人们的思维变革是最困难的。但思维变革往往是最重要的,也是最深刻的。没有大数据思维,即使拥有再多的数据和最先进的技术,也难有作为,因为没有思维就没有政策,没有思维就没有投入,没有思维就没有运行机制的建立。对于大数据来说,是思维方式决定了数据要素和技术要素的结合方式,是思维方式决定了大数据应用的商业模式。思维范畴是思维方式的抽象化,是主观辩证法和客观辩证法的有机统一,反映了事物存在发展的辩证关系。本部分重点从思维范畴的视角讨论大数据思维方式的变革问题。

(一)关于因果与相关关系

传统思维中的因果关系分析是建立在严密的数理推理逻辑基础上的。传统的因果关系分析虽然逻辑链条完整,但由于是小数据,往往容易以部分代替整体,难免出现误差。寻找事物的因果关系是人类长久以来形成的习惯,对因果关系的分析研究促进了科学体系的建立和科学的发展,科学是研究因果关系的重要手段。但在大数据条件下,大数据研究的特点是对海量数据做统计性的搜索、分类、聚类和分析比较,带有统计学的显著特点。统计学更关注相关性,相关性是指两个或两个以上变量的取值之间存在某种规律性。大数据技术所运用的简单算法是统计学的逻辑,这一点有点类似热力学的分析模式,热力学并不关心具体的分子运动,而是关心温度、体积、压强之间的宏观关系。腾讯副总裁吴军博士在《数学之美》一书中论述了统计学对于现代科学的意义,他指出,人们花了近年时间实现了从基于规则的语言处理到基于统计的语言处理的转变,统计语言模型在形式上非常简单,任何人都容易理解,因为“基于统计的自然语言处理方法,在数学模型上和通信是相通的,甚至就是相同的。因此,在数学意义上自然语言处理又和语言的初衷——通信联系在一起了”。[.[英]维克托·迈尔—舍恩伯格:《大数据时代:生活、工作与思维的变革》[M],杭州:浙江人民出版社2013年版,第37页]而且,统计语言模型的简单性正符合牛顿在《自然哲学的数学原理》中所主张的“简单性原则”。

这里就出现了两种路径,一条是学术研究遵循的“从数据到信息再到知识和智慧的研究思路”,另一条是商业活动走的“从数据直接到价值的捷径”。

(二)关于部分与整体关系

在大数据时代,大数据技术使人们获得接近于整体的数据越来越方便容易。互联网、移动互联网、物联网的广泛应用,各种应用终端特别是移动终端的普及使用,使得社交网站点击、手机导航传感器以及物联网终端能够实时产生海量数据,而大数据分析处理技术可以对这些数据进行实时高效处理。因此,舍恩伯格认为:“釆样的目的就是用最少的数据得到最多的信息。当我们可以获得海量数据的时候,它[.吴军:《数学之美》[M],北京:人民邮电出版社2012年版,第26页]就没有什么意义了。”他进而提出在大数据时代的“全数据模式,样本=总体”。全数据模式涉及到我们对大数据之“大”的认知。大数据之“大”不仅仅是指数据的体量大,而且还指数据的整体性和价值性。不运用大数据技术分析挖掘数据的价值,数据体量再大也只是“数据废气”,同样,不运用大数据技术分析挖掘提高数据的整体性,数据再多没有用。因此,大数据不是运用传统的随机抽样分析法,而是运用近似于全数据的方法。也就是说,大数据方法不是抽样分析法,而是整体分析法。贝塔朗菲曾将亚里士多德关于部分与整体关系的观点概括为“整体大于部分之和”,因为在小数据时代,人们获得的部分数据的有限性与整体差距太大,部分之和不可能等于整体。但在大数据时代,人们获得整体数据的能力大大增强,亚里士多德的结论受到日益广泛的质疑。

(三)关于可能与现实的关系

现实标志着当下的实际存在,可能则是指包含在事物之中的、预示事物发展前途的种种趋势。在小数据时代传统思维条件下,人们对预示事物发展趋势的可能性的认识往往是经验式的,可称之为经验式的可能性认识。这种经验式的可能性认识对事物发展趋势的预测不准,主要是因为缺乏准确的、全面的、海量的数据作为支持。《大数据》一书的生产者涂子沛引用胡适的著名文章《差不多先生传》来比喻中国人带有“差不多先生”的文化标签,[.涂子沛:《大数据》[M],桂林:广西师范大学出版社2013年版,第329页]是说中国人的思维方式缺乏科学性,习惯于“大概”。“大概”的预测准确率低,当然缺少科学性。而在大数据时代,在拥有海量的、整体的、实时的数据条件下,人们对事物发展趋势的预测就会准确的多,这种预测,可称之为科学式的可能性认识。

(四)关于必然与偶然关系

长期以来,人们习惯于将自然界和人类社会看成是二元世界,由此采用“科学”和“历史”两个叙事框架,并形成科学主义和人文主义两大思潮。科学主义认为,自然界是决定论的,它的运动变化是有必然规律的,是可预测的,而人类社会是非决定论的,它的运动变化充满随机性、偶然性,是不可预测的。著名科学哲学家波普尔就否定历史决定论,主张非决定论。在小数据时代,之所以有人认为人类社会运动发展不可预测,是因为社会领域的数据杂乱无章,大都是非结构性数据,特别是情感数据、社交数据更是千头万绪、变动不居。但在大数据技术条件下,人类拥有了处理非结构性数据的强大能力,人们通过LBS采集人在地球上的全部运动轨迹,通过在线支付采集人们的全部支付记录,通过SNS釆集人们的全部网络交往记录,通过电子邮件、文档、Timeline、视频监控等采集人们的言行记录。这使得大量随机的、偶然出现的数据可以实时捕获处理,使之变成确定性的、必然性的东西。马克吐温说:历史不会重演,但自有其规律。历史事件虽然往往表现为一些偶发事件,但偶然性背后存在的是必然规律。随着科学技术的进步,支持历史发展存在规律的观点的人越来越多。而大数据技术使人类揭示和认识社会历史规律更有可能和更加快捷。也就是说,大数据不仅是人们认识事物发展可能性的强大武器,也是人们认识事物必然性的有力工具。

在描述大数据的特征时,实时快捷(Velocity)是大数据的重要特征之一。在实际应用中,大数据技术的实时快捷分析能帮助人们捕获随机出现的、稍纵即逝的、看似价值不大的信息。在大数据时代,正是数据来源的多元化和实时快速处理,使人们能更多摆脱偶然性的干扰而把握必然的东西。

大数据用数据事实不断改变人们对历史和社会发展的现象与本质、偶然与必然的认识,使人们更易于透过偶然把握必然。“无尺度网络”概念的提出者艾伯特——拉斯洛巴拉巴西指出:“虽然万事皆显出自发偶然之态,但实际上它远比你想象中容易预测。”他认为“人类行为是可以预测的。”只是“过去我们没有相关数据,也没有一定的方法来探究人类的行为。”其实,“人类的大部分行为都受制于规律、模型以及原理法则,而且它们的可重现性和可预测性与自然科学不相上下。”人类社会的运动规律和自然界一样,“许多事情遵循幂律分布:一旦幂律出现,爆发点就会出现。”[.[美]艾伯特—拉斯洛·巴拉巴西:《爆发:大数据时代预见未来的新思维》[M],北京:中国人民大学出版社2012年版,第III页]巴拉巴西所指出的人类社会呈现幂律式周期爆发运动,是用科学方式揭示了人类社会周期式的治乱规律。

(五)关于精确与模糊关系

已完结热门小说推荐

最新标签