华东政法大学bbs论坛

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 614|回复: 0
打印 上一主题 下一主题

华东政法大学教授、博士生导师林凌——看上去很美:如何面对大数据陷阱

[复制链接]

102

主题

150

帖子

688

积分

高级会员

Rank: 4

积分
688
跳转到指定楼层
楼主
发表于 2016-4-27 17:36:48 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
新闻从业者应意识到:数据并非天然客观中立,应警惕其背后的价值取向;数据处理不能离开社会情景,否则就是“坏数据”;要避免侵害受众的网络隐私权。
看上去很美:如何面对大数据陷阱
林 凌 任孚婷
看似“客观”的数据
相比较传统的抽样分析,大数据由于拥有足够数量和全覆盖范围的原始数据,而显得“客观”得多。但是大数据时代的数据真的有那么可靠吗?
让我们考察一下数据产生的整个过程。数据的收集、处理和呈现都是人为的结果。丽莎·吉特曼认为:“数据从来都不可能是原始存在的,因为它不是自然的产物,而是依照一个人的倾向和价值观念被构建出来的。”目前的三种主要数据获取方式都可能在一定程度上被价值取向左右:用社交媒体、搜索引擎上的数据进行调查分析社会事件,应当注意到,当前社交媒体的用户主要是高收入的年轻群体,并不能代表整个社会群体的意见;通过众包、网络观察的方式搜集数据,公众在参与提供数据时很难不带有自己的价值判断;政府、社会机构、企业等组织在公开数据时可能会隐藏对自身不利、有损自身形象的数据,这些数据可能根本没有被收录进公开的数据库中。
由此看来,数据并不是绝对客观的,用来解释数据的统计模型和挖掘技术也并非是天然中立的。因此,新闻从业者需要对挖掘的数据保持怀疑的态度,在拿到元数据之后,再进行数据处理,决定数据如何呈现的时候多问自己几个为什么,不能被看似“客观”的数据蒙蔽了双眼。
坏数据
数据本身是中立的,那如何认定,何为好数据,何为坏数据?坏数据是站在数据使用者的角度上来说的。搜集的数据帮助人们更好地理解事件经过,有利于决策的就是好数据;相反,造成可视化枯燥,信息冗余的数据就是坏数据。
还有一种情况是,数据的处理被剥离了数据产生的时空背景。数据本身虽然看似与时空背景毫无关系,但是现实生活中人类的决策并不是在真空中做出的。“人类的决策不是离散的事件,而是镶嵌在时间序列和背景之中,正像Big Data-Context=Bad Data一样,大数据被抽离了社会语境后就是坏数据。”
那新闻工作者如何分辨好数据与坏数据?在制作数据新闻之前,问题意识很重要。新闻工作者在搜集数据之前就要以问题为导向,在数据处理和数据呈现的一系列过程中都要带着问题意识。1948年,拉斯韦尔提出传播过程有5个基本构成要素,即谁(who)、说了什么(says what)、通过什么渠道(in which channel)、对谁说(to whom)、取得了什么效果(with what effect)。在数据搜集的开始,新闻工作者也应该问自己这5个问题,即弄清数据由谁收集、何时收集、为何收集、如何收集、有何意义。有了明确的问题意识,将数据置于特定的时空背景,新闻工作者才可以理顺数据之间的逻辑关系,才不会在数据搜集阶段就丧失焦点或者错失了有趣、特别的报道角度。
“收集数据有时就像收集垃圾,收集之前你就应该想好要怎么处理。”技术不能代替人的常识和判断,弄清数据由谁收集、何时收集、为何收集、如何收集、有何意义仍然十分必要。在数据处理阶段,新闻界也有必要建立一套对数据编辑处理的准则。《数据新闻手册》是新闻业界与学术界共同推出的有关数据新闻实践的手册,其中包含了对于进行数据新闻操作的建议以及对数据新闻未来趋势的预测。但是目前对于数据编辑处理的准则仍然是个空白,相信随着数据新闻实践的进一步发展,这套编辑准则也将在未来被建立起来。
你侵犯隐私了吗?
新闻从业者利用大数据技术进行网络舆情研究,每一个数据的背后都是一个个体的行为。这种精准化的社会测量方式,将每个个体的行为都记录下来,大规模的隐私泄露就变得更加轻易。“通过大数据研究,就像透过透明的玻璃鱼缸观察鱼群游动的行为乃至其中每一条鱼的表情活动。”
大数据时代,信息传播的碎片化使得个人信息遍布社交网络、搜索引擎当中,数据和个人信息的获取难度大大降低。新闻工作者在获取数据时如何避免侵犯个人的网络隐私权成为一个无法避免的问题。
一方面,大部分的隐私是由用户主动泄露的。虽然大部分的数据来自用户主动的信息披露行为,但是并不代表他不存在隐私担忧心理。社交网络用户在使用社交媒体时的确担忧其隐私问题,但是这种担忧并不会影响到其披露个人信息的行为,这是著名的“隐私悖论”。另一方面,由于在大数据时代,数据具有永久性的特征。作为数字数据的创造者和使用者,公众对遗忘过去的企图与永久存储数据的渴望也存在着天然的矛盾。我们的世界数字化程度越高,我们的隐私就愈加无所遁形。
新闻工作者在使用大数据技术时遭遇的问题在于:一方面,当数据量越来越大,算法越来越优化之时,侵害隐私权的成本大大降低;另一方面,获得隐私权主体(指用户)知情同意的成本却又大幅增加。而且基于大数据而形成的媒介受众市场,由于数据的贡献者太多,要取得所谓的知情同意十分困难。新闻工作者在使用数据时如何避免侵犯受众的网络隐私权依然是一个亟待解决的问题。
大数据不仅仅是一个时髦术语,它将逐渐成为现代社会基础设施的一部分,就像公路、铁路、港口、水电和通信网络一样不可或缺。“数字科技不仅仅是改变我们之前做过的事以及做事的方式,它会彻底改变文化的结构,重新定义社会规范。”新闻业也必然被大数据技术彻底颠覆。过去数据只是为了辅助报道。在大数据时代,数据将成为报道的基础。
在数据的基础上进行新闻报道,迫切需要新闻从业者转变思维,从过去的描述事件现状、抢先报道热点转向解释新闻、向大众阐释事件发生的内在逻辑。在某种程度上说,这是“陈述方式”的改变。新闻从业者的思维变革将导致未来新闻业务方向上的调整。当新闻报道重心转向“解释新闻”,即向大众阐释事件发生的内在逻辑,趋势预测性新闻和数据挖掘的深度报道数量必定会大大增加。同时,数据收集、处理和呈现对于新闻从业者的素质和能力要求也必然会随之提高。
未来新闻界与科技界的跨界合作一定会增强,例如Five Thirty Eight的创始人纳特·希尔福的团队中就包含了记者、多媒体专家、量化分析师和数据库拓展专员等专业人才。利用与外部的合作,新闻从业者可以处理更复杂的新闻课题。但是,如果将数据收集、处理的权力都交予技术领域,技术领域的价值观和新闻媒体的理念表达可能会存在冲突,如何平衡这种冲突也值得学界进一步思考。这些都意味着大数据带来的不仅有机会,还有挑战。大数据时代也存在更多的风险和制约。
趋势无法更改,无论是否愿意,新闻从业者必须拥抱这个时代。
(作者林凌系华东政法大学人文学院教授、博士生导师;任孚婷系华东政法大学研究生院研究生)
责任编辑:郭潇颖
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|华东政法大学论坛  

GMT+8, 2026-4-16 17:00 , Processed in 2.283159 second(s), 24 queries .

Powered by Discuz! X3.1 Designed by 999test.cn

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表