光华思想力
光华思想力
第41期 数据资产论

王汉生

一、 数据的本质

只有一些特别本质的数据价值观才可能持续下去,那就是数据一定要产生价值,能产生价值的数据符合一般资产化的定义。当前企业都在推行数据化转型,其核心使命就是要让数据产生价值。无论人们喜欢与否,事实上数据正在大量被交易(合法的或非法的),这些被大量交易的数据一定得有价值,能产生预期收益,而会计上对资产的定义就是“能够产生预期经济收益的资源”,因此数据本质上是一种资产。

二、 统计预测和因果关系

笔者认为,统计学的核心是研究不确定性的学科。比如资产负债、两端平衡等一般的会计报表数据分析跟统计学没有关系,因为这是确定性问题,但如果用今年的会计数据去预测明年的收入情况,这就存在很大的不确定性了,就是统计学范畴了。由于目前对不确定性的表达和记录只局限于数据,所以统计学在研究数据,但我们不排除将来技术进步后,不确定性通过另外一种方式表达,那时候统计学就研究别的去了。

目前很多领域的预测越做越准,比如图像识别技术带来的人脸识别、车牌号读取等应用,这已经是确定性问题了,但这之前是不确定性问题;而如果存在人类利益博弈的领域就是稳定存在的不确定性领域,比如两个人掷硬币猜正反面、股市价格变动等,因为这不是由于知识的缺乏造成的。此外从另一个角度看,人们常说“乱世出英雄”,正是有不确定性这个乱世的存在,才有模型产生价值的机会,才有商业机会。数据之于价值的因果关系很模糊的数据分析不会是多余的。正如人的一日三餐并不确定到底哪种食物维持了生命,但能确定的是如果一样都不吃的话人就没法存活。数据分析也一样,很多时候虽然说不清因果关系,但如果完全不做数据分析就没有希望。数据分析能把因果关系收缩到一个比较小的范围,然后在这里面寻找机会。

三、 数据可分析问题及预测精度

 从当前的时间点来看,绝大多数业务问题都不可能抽象为数据可分析问题,因为多数业务跟数据分析没有关系,比如酒店前台给客人办入住手续、搬砖砌房子等都跟数据分析没关系。但是随着物联网技术的发展,很多业务问题就跟数据分析有关系了,比如那时候可能是机器在搬砖,会研究如何搬砖效率最高;同样的办理入住手续我们可能会分析客人的倾向,如何提供更好的服务。因此短期来看,绝大部分业务都跟数据分析没有太大关系,因为根本没有数据支持,但是从长期来看,跟数据分析有关系的业务问题会越来越多。

就预测精度而言,有两个方向,一个是找到大量有相关性的X,另一个是找到少数高度相关的X,但两者之间如何取舍这个问题没有统一的答案,我们只能把它们放到模型里去尝试。只要有良好的因变量Y,一般的规律是根据业务知识找到若干个特别相关的X,比如一个人的花费情况肯定跟收入情况、教育情况高度相关,然后再找出一定相关性的X,再往下找就比较难了,因为剩下的都是一堆相对来讲比较弱相关的X,虽然也有一定的帮助,但没法对它们的重要性排序。

但是,通常情况下太弱的X就没法用了,因为它的估计误差会比它能产生的贡献更大。采用一个解释变量就如同录用一个员工,在他创造价值的同时,也要接受管理。而“管住”一个解释变量就是要把它的参数估计得特别准,因此就需要更大的样本量。

四、 数据确权面临的挑战

整体而言,数据相关的权益特别难界定。不像实物资产,数据一开始就是好几方面的纠结缠斗,因此确权问题很难。

很多国家和地区在数据确权方面的看法分歧很大,比如欧盟的GDPR(General Data Protection Regulation一般数据保护条例)对数据确权规定极严,他们基本上认定电商数据的产权属于消费者,平台要使用数据的话要满足许多苛刻的条件。而美国对数据确权的规定则要温和一些。我们国家实际上有许多相关的法律法规分散在各个行业,并没有一部像GDPR那样的统一法规,而且执行起来挺难,一方面表现在法律条文设置的问题,另一方面则是实践中的可行性。

清晰、可执行的法律法规为什么难以形成呢?主要是因为数据确权存在明显的跨界问题:对律师来讲技术是一个重大挑战,因为他们无法得知数据是如何被采集利用的,哪些人有权限、在什么情况下可以使用等;而对技术人员来讲法律条文又是一个很大的挑战。此外还存在利益问题;平台总是希望尽可能采集更多的数据,政府也希望看到更多的数据用来监管,消费者总是担心自己的隐私等合法利益得不到保障,因此我们应该找到这三方合理利益诉求的平衡点,这需要足够的实践去磨合。如果这些问题解决好了,数据才会有市场,有了市场就会有数据资产定价,这样数据资产才会真正流通起来。

五、 数据资产交易的发展方向

数据资产交易所是一个特别伟大的设想。以美国当年禁酒为例,法律上的禁止条文并没有阻止酒在美国消费,一些地下的销售大行其道并跟黑帮、贩毒交织在一起,而现在的酒类销售已改为强监管下的合法销售,比如一些州的加油站过了晚上十点就不允许销售酒类。数据资产的交易也一样,是不可能强行阻止的,在解决确权问题后数据资产交易是理所当然的。

一个有趣的问题是,在用户授权的条件下数据资产能否像股市一样进行指数交易,对各种处理后的数据指数进行交易,以避免泄露不相关的隐私信息,比如具体的业务实践中金融机构需要的信用指数,保险公司需要的健康指数等。事实上这些指数已经在市场上交易,例如阿里的芝麻信用分。这些交易类似于股市却又有不一样的地方,比如数据指数交易的买卖双方不对称,买方只能是买方而不能再转卖,因为数据的复制成本为零。这是一个可行的方向,数据资产交易必须是标品,而数据指数就是这样的标品。

六、 数据质量和数据治理

笔者认为,真实性、完整性、精准性都不能准确定义数据质量,因为探讨数据质量必须是在具体的业务场景下进行。例如,如果要核实乘客登机信息,在采集照片的时候就要求必须是高清图片并且跟本人完全匹配才算是数据质量好,而电商场景下的数据分析只需要对业务有所改善就是质量好。要改善数据质量,必须得依靠市场,不大可能通过自律或监管来实现。因为市场会定价,质量不好、对业务没有改善的数据不会有市场。在数据治理上,笔者也不太倾向于设立一个统一的数据监管机构,但确实需要统一的关于数据规制方面的法律法规。法律法规可以被看作是社会基础设施平台上的一部分,任何人破坏数据治理的法律法规就会有相关的部门去处理,而不再需要单独的数据监管部门出面,更不需要每个行业数据治理都成立一个监管机构。

 

作者:王汉生,bat365在线平台网站光华管理学院教授

本文主要观点来自王汉生教授著作《数据资产论》