87、罗卡定律与大数据(1 / 2)
法国法医学家、犯罪学家罗卡提出过一个以他的名字命名的定律:凡是两个物体发生了接触,必然会产生转移现象,也就是一个物体必然会带走一些东西,也会留下一些东西。罗卡定律主要应用在对犯罪现场的调查过程中,一个犯罪嫌疑人无论多么小心,只要他曾经出现在犯罪现场,一定会带走和留下一些东西,这些微量的痕迹忠实的记录了曾经发生过的事情,而且永远不会撒谎。它们以不同种类和方式存在于现场每一个曾经发生过相互接触的部位,是事件曾经发生过的最有力、最直接的证据,而且它们共同指向同一个方向:真相。而只有对这些痕迹理解上的失误才可能使我们偏离真相。
罗卡定律让我们发现,信息的重要程度与信息量往往是不对称的,某些关键性的信息并不因为它是一种微量的痕迹而变得不重要。而且,世界在以自己特有的方式记录着每个人的活动,记录着曾经发生过的一切,只是大多数时候我们并没有留意。
曾几何时,我们刚刚接触到电脑与互联网,那时的网络与计算机自然没有现在发达,于是网络上流传着一句话:在网上没人知道你是一条狗。但是现在,已经几乎没有人把这句话当回事了,因为现在是以大数据为标志的移动互联网时代,你在网上留下的大量数据,把自己的生活轨迹和各种偏好等个人信息记录的非常详细,只要肯花功夫分析这些数据,就可以非常逼真的再现关于这个人工作生活中的大量场景。
我们知道,信息是消除不确定性的东西,掌握的信息量越大,构造出来的场景与图像越清晰,而物体间的相互接触以及物质能量等的转移过程,可以认为是信息的一种记录过程。两种不同的气体在接触面上会产生不可逆的相互扩散过程,液体及固体也有类似现象,只是没有气体这么明显。这种扩散导致体系熵的增加,同时信息也在这一过程中被记录下来,由此可见,信息的记录过程与熵增过程很可能真的有内在的深刻联系,它们是同时发生的。
由于我们总是习惯忽略这些细微的信息,很少去在意并解读它们,因此一个系统的信息绝大多数一般是隐含的信息,对绝大多数人来说,它们是无用的、无意义的,因此经常被当做噪声处理。通过热力学方式计算出的熵往往比信息理论中接触到的信息熵要大得多,如果热力学熵与信息熵可以等同看待,那么任何一个宏观尺度上的热力学系统会包含天文数字级别的隐含信息。如何提取并读懂这些信息成为一项艰巨的工作。
警察面对犯罪现场时,可以动用大量的高科技仪器,在现场寻找指纹、脚印、衣服上散落的化学纤维、鞋子上沾染的微量泥土等,将这些微量的观测结果联系起来,就可以形成一条线索。警察们可以根据这些线索联想与之相关的各种人物与场景,也就是什么样的人在什么场景中怎样活动才能留下犯罪现场的这些痕迹,形成犯罪现场的样子。现场通过罗卡定律留下的痕迹是板上钉钉无法怀疑的事实,而构想出来的相关场景则是与痕迹对应的理论模型。这种构造和想象出来的模型可能是接近真相的,也可能偏离真相,而如果其中一种模型不仅可以解释现场所有留下的痕迹,而且可以预言一些新的痕迹,而这些痕迹经过新的仪器观测,发现确实是这样,那么我们就可以认为它非常接近真相了。