决斗笔记_ 第一章第三节数据流1.0

    作为蓝科创公司数据分析师的刘铁路工作还是比较轻松的，尤其是到了监控岗以后，有大量的既定方案去解决问题，哪个部分高了就去找谁解决问题，哪个部分不正常就找谁去处理，哪个设备故障了就找该设备的售后去维修。

    就好比有个地方在问:1+1等于多少？干活的人会写出2。而刘铁路的工作就是按下一个按钮显示出应该是2，然后再判断用不用找人去验证是不是2？

    在这种工作节奏中准备一次分享还是绰绰有余的。刘铁路并不是很在意的准备了一下，数据流1.0的整个设计比较简单，而复杂的是使用者如何去用。能够在一次分享中把这个问题完整的展现出来就可以了。

    周末的20点，在逻辑团的视频会议频道，参加人数为20人的《数据流1.0交流会》正式开始。

    刘铁路在寒暄之后说到:“各位朋友是不是有这样一种体验，去超市买东西的时候会显得眼花缭乱？想买白砂糖，但是可供选择的白砂糖种类太多，200g，卖3元的，500g，6元的，800g，9元的。买那种糖比较划算呢？”

    “也许你会说500g比较划算。那是因为我列出来了。当然这还仅仅是糖，不容易坏的，如果是买水果呢？500g苹果，5元。5000g苹果，30元。你会说5000g划算，结果你一个人住就吃得下1000g，其余的20元白扔了。”

    “人们为了解决这种痛点设计出了一个词:性价比。一个人喜欢玩电脑游戏，4000元的电脑配置能玩市面上80%的游戏，而8000元的电脑配置能玩100%的游戏。你会觉得4000元的电脑配置很有性价比，但是有很多人觉得8000元能玩更多的游戏才更有性价比。”

    “人们的看法并不相同，但是他们需要一个得到关于性价比结论的机会。”

    “简单来说这就是数据流1.0的作用，从各种各样的接口中读取数据，从而在模块的加持下，进行计算，辅助做出决策的工具。”

    这时刘铁路暂停了下来。网名叫拉齐的人说到:“感觉就是个比价工具没什么厉害的，还称呼为数据流，有点名过其实吧。”

    “不要急嘛。”说话的是红龙，他显得不紧不慢:“这才刚刚开始。我倒是觉得铁网把一个概念讲的那么简单，可见他是个把复杂问题简单化的人。”

    “谢谢支持啊。”刘铁路的网名是铁网，这段暂停是红龙看了他的分享大纲之后跟他商量的。一开始他并没问为什么？现在看来就是红龙为了显摆自己而增加的额外项目。

    “在投资圈有句名言：如果不明白什么因素在操纵市场，那么就不应该下场。前面所讲的是数据流1.0的理念和愿景，而后面则是它如同流水一般自由的分析方法。”刘铁路的讲解由浅至深，整体简洁轻快。

    “当前数据流有两大模块，后续还可以增加。第一大模块:时间、空间模块。以时间或者空间为主轴把数据排开进行分析。”接下来刘铁路展示了几张，看起来很平庸的ppt，均是数据得出的历史数据。其中包括:z国人口情况，m国人口情况，各个主要国家经济发展情况，重要投资品历史价格关系。

    “结论显得稀松平常是吧？各位会友。就像1+1在什么时间中是等于2一样，稀松平常，不值一提。简单的问题有简单的结论，复杂的问题可以经过转化之后变得简单，从而得出结论。第一个模块就是用来得出简单结论的。”

    “第二个模块，关系型模块。顾名思义，是分析相关因素之间关系的模块。在数据分析中一个事物和另一个事物完全正相关，那么这个关系会被计算出来是1，反之则是-1，完全不相关则为0。数学在这里很纯粹，1+1跟＝2的关系肯定是1啊。1+1和这个角是钝角的关系肯定是0啊。数学就是那么纯粹。”

    刘铁路自认为幽默的话语，让他在哪里尬笑了半分钟，空气中充满了尴尬的气氛。愿意参会的人其实都是对新知识有兴趣的人，正要听听数据流其中的门道，完美没有跟上刘铁路尬笑的步伐。

    “从数学的例子也可以看到，数据分析是更加复杂的，他并不是一个完全的数学游戏。一开始有个学派认为数据就是最纯粹的比大小，只要按照比大小来操作就能解决所有的问题。但是他们错了，就好比60%一定比40%大。”

    “人们都知道40比60要小，但是在一个场景中一个富翁花了40%的钱就是比一个乞丐花了60%的钱多。也许你觉得这还是数字游戏。那么，一个人愿意为一件他憎恶的事情花费60%和一个人愿意为一件他喜欢的事情花费40%的意义不一样的。一个深恶痛绝的表示自己不会再花钱了，简直是灾难。一个则表示花的每一分钱都是享受。他们后续消费的意愿不同，但是你只看到数据会觉得60%的人会再花钱。甚至于前者是买安眠药自杀。”

    “友友们，数据要反应出真实的世界是非常难的，因为它需要足够“干净”的数据，并且还要贴近现实，或者说叫做贴近业务。数据流1.0中的关系模块就是为了这个而诞生。”

    “富翁的钱数和花钱数有比值，富翁的钱数，定义为富翁人群的个数，富翁的花钱数，花钱在哪个地方，这些全都有记录。当然，穷人也有。第二个案例中，每个人花钱的地方，花钱的频率，花钱的时间，花钱的钱数，花钱的大小额度，用数据流1.0都能把他们进行分类，贴上标签，从而进行下一步的操作。如何更加便利的服务他们。”

    “明白，从他们手里捞钱。这样会不会侵犯隐私啊？”一个叫毛歌的账号发出了一条弹幕。

    “我们收集的是他们的交互信息，不收集个人具体信息，甚至于我们不知道他们谁是谁，我们只知道他们身份的编码。当然，让技术回归技术吧。这些业务上的事不重要，重要的是数据流1.0的功能，他可以把更多的数据进行比较，更自由，更互通。”

    “有意思，能演示一下吗？”拉齐问道。

    “好，我们换个例子。假如我这里有w市10年内50000名中学生的初中数学成绩。过去的处理方法是什么？我们给这些学生排个队，弄个状元，榜眼什么的。然后让这些人去告诉那些考试差的人:交钱我就告诉你，你没考上清华的秘密。人家交钱了，他们说了一堆，最后的结论就是:少做两道题，你的分数不到外国大学，就到清华了。这种茶言茶语吗？”

    “真是黑心商人啊。”一条弹幕飞过。

    “对，我也觉得是，所以现在都叫‘赋能’了。我们把50000份数据分析，每一个人都错在哪里？不要急于得出结论，因为数据流要清理出脏数据。数据流1.0会把处理数据的方法一个个罗列出来，就像一个个模具一样。按照题目类型分类:选择题，多选题，判断题，填空题，解答题。按照题目类型分类:考察的相关知识点。考生出错的方式:理念错误，计算错误，马虎大意。”

    “你看到的不再是一个个考生的试卷纸，而是每个考生在数学学习中如同棋局一般的行进路线。”

    “我听说过你这个观点。这是用一种监测的方式来教育问题。考试就是监测，而分数就是监测点，值得关注的是监测点而不是监测。”毛歌在语音中脱口而出。

    “嗯，你抓住重点了。把所有的人数据分析完，我们就给出每一个人最合理的学习建议。包括:需要重新学习那个知识点、增加相关考试技巧，你当前处境的深层原因，跟你一样处于过当前危机状况的人数，甚至于其他人是如何逃离这些问题的。你的学习轨迹清晰可见，你还学不好或者学的慢，那就是没有天赋了。”

    “收尾了。一个能从各种各样接口流入数据，并分析大量关联性数据的工具就是数据流1.0。希望我的分享对大家有用。有机会给大家继续演示数据流1.0是如何调整数据以应对各种各样的统计问题的。”

    视频会议中的人们反应不是很热烈，都是一脸懵，估计更多的是挺有趣，但是也就这样吧。

    刘铁路对于现状倒是很满意，只是花了20分钟，稍稍讲了数据流1.0的理念，具体如何操作和其中正在开发的纠错功能没有讲，不引人注意的过去就好，这也符合逻辑团这个哲学群组的风格了。

    红龙发来了一条短讯：铁网兄弟，你的这个东西我很感兴趣，可以有机会面聊一下吗？我带你参观个地方，保证你觉得有趣。

    刘铁路打着哈哈:不会是去咱们这个岁数应该去的场所吧。另外，我可没钱啊，钱都上交给老婆了。（其实，并没有。只是刘铁路这人极其自律，讨厌大手大脚。）

    “放心，不是咱们这个岁数应该去和不应该去的场所。对于这个场所我的描述是:一个人尽其才的地方。今天的分享让你有了去的资格，去不去随你，如果有需要就联系我。”

    “好，有机会见一面吧，我再决定是不是去。”刘铁路对红龙的印象不错，论谈吐红龙是同类人，但是涉及太深就有点唐突了，这帮不得志的同类人中也是经历广泛之辈，路子可能比较野。