第一章 第三节 数据流1.0
作者:作家5IyxyK   决斗笔记最新章节     
    作为蓝科创公司数据分析师的刘铁路工作还是比较轻松的,尤其是到了监控岗以后,有大量的既定方案去解决问题,哪个部分高了就去找谁解决问题,哪个部分不正常就找谁去处理,哪个设备故障了就找该设备的售后去维修。

    就好比有个地方在问:1+1等于多少?干活的人会写出2。而刘铁路的工作就是按下一个按钮显示出应该是2,然后再判断用不用找人去验证是不是2?

    在这种工作节奏中准备一次分享还是绰绰有余的。刘铁路并不是很在意的准备了一下,数据流1.0的整个设计比较简单,而复杂的是使用者如何去用。能够在一次分享中把这个问题完整的展现出来就可以了。

    周末的20点,在逻辑团的视频会议频道,参加人数为20人的《数据流1.0交流会》正式开始。

    刘铁路在寒暄之后说到:“各位朋友是不是有这样一种体验,去超市买东西的时候会显得眼花缭乱?想买白砂糖,但是可供选择的白砂糖种类太多,200g,卖3元的,500g,6元的,800g,9元的。买那种糖比较划算呢?”

    “也许你会说500g比较划算。那是因为我列出来了。当然这还仅仅是糖,不容易坏的,如果是买水果呢?500g苹果,5元。5000g苹果,30元。你会说5000g划算,结果你一个人住就吃得下1000g,其余的20元白扔了。”

    “人们为了解决这种痛点设计出了一个词:性价比。一个人喜欢玩电脑游戏,4000元的电脑配置能玩市面上80%的游戏,而8000元的电脑配置能玩100%的游戏。你会觉得4000元的电脑配置很有性价比,但是有很多人觉得8000元能玩更多的游戏才更有性价比。”

    “人们的看法并不相同,但是他们需要一个得到关于性价比结论的机会。”

    “简单来说这就是数据流1.0的作用,从各种各样的接口中读取数据,从而在模块的加持下,进行计算,辅助做出决策的工具。”

    这时刘铁路暂停了下来。网名叫拉齐的人说到:“感觉就是个比价工具没什么厉害的,还称呼为数据流,有点名过其实吧。”

    “不要急嘛。”说话的是红龙,他显得不紧不慢:“这才刚刚开始。我倒是觉得铁网把一个概念讲的那么简单,可见他是个把复杂问题简单化的人。”

    “谢谢支持啊。”刘铁路的网名是铁网,这段暂停是红龙看了他的分享大纲之后跟他商量的。一开始他并没问为什么?现在看来就是红龙为了显摆自己而增加的额外项目。

    “在投资圈有句名言:如果不明白什么因素在操纵市场,那么就不应该下场。前面所讲的是数据流1.0的理念和愿景,而后面则是它如同流水一般自由的分析方法。”刘铁路的讲解由浅至深,整体简洁轻快。

    “当前数据流有两大模块,后续还可以增加。第一大模块:时间、空间模块。以时间或者空间为主轴把数据排开进行分析。”接下来刘铁路展示了几张,看起来很平庸的ppt,均是数据得出的历史数据。其中包括:z国人口情况,m国人口情况,各个主要国家经济发展情况,重要投资品历史价格关系。

    “结论显得稀松平常是吧?各位会友。就像1+1在什么时间中是等于2一样,稀松平常,不值一提。简单的问题有简单的结论,复杂的问题可以经过转化之后变得简单,从而得出结论。第一个模块就是用来得出简单结论的。”

    “第二个模块,关系型模块。顾名思义,是分析相关因素之间关系的模块。在数据分析中一个事物和另一个事物完全正相关,那么这个关系会被计算出来是1,反之则是-1,完全不相关则为0。数学在这里很纯粹,1+1跟=2的关系肯定是1啊。1+1和这个角是钝角的关系肯定是0啊。数学就是那么纯粹。”

    刘铁路自认为幽默的话语,让他在哪里尬笑了半分钟,空气中充满了尴尬的气氛。愿意参会的人其实都是对新知识有兴趣的人,正要听听数据流其中的门道,完美没有跟上刘铁路尬笑的步伐。

    “从数学的例子也可以看到,数据分析是更加复杂的,他并不是一个完全的数学游戏。一开始有个学派认为数据就是最纯粹的比大小,只要按照比大小来操作就能解决所有的问题。但是他们错了,就好比60%一定比40%大。”

    “人们都知道40比60要小,但是在一个场景中一个富翁花了40%的钱就是比一个乞丐花了60%的钱多。也许你觉得这还是数字游戏。那么,一个人愿意为一件他憎恶的事情花费60%和一个人愿意为一件他喜欢的事情花费40%的意义不一样的。一个深恶痛绝的表示自己不会再花钱了,简直是灾难。一个则表示花的每一分钱都是享受。他们后续消费的意愿不同,但是你只看到数据会觉得60%的人会再花钱。甚至于前者是买安眠药自杀。”

    “友友们,数据要反应出真实的世界是非常难的,因为它需要足够“干净”的数据,并且还要贴近现实,或者说叫做贴近业务。数据流1.0中的关系模块就是为了这个而诞生。”

    “富翁的钱数和花钱数有比值,富翁的钱数,定义为富翁人群的个数,富翁的花钱数,花钱在哪个地方,这些全都有记录。当然,穷人也有。第二个案例中,每个人花钱的地方,花钱的频率,花钱的时间,花钱的钱数,花钱的大小额度,用数据流1.0都能把他们进行分类,贴上标签,从而进行下一步的操作。如何更加便利的服务他们。”

    “明白,从他们手里捞钱。这样会不会侵犯隐私啊?”一个叫毛歌的账号发出了一条弹幕。

    “我们收集的是他们的交互信息,不收集个人具体信息,甚至于我们不知道他们谁是谁,我们只知道他们身份的编码。当然,让技术回归技术吧。这些业务上的事不重要,重要的是数据流1.0的功能,他可以把更多的数据进行比较,更自由,更互通。”

    “有意思,能演示一下吗?”拉齐问道。

    “好,我们换个例子。假如我这里有w市10年内50000名中学生的初中数学成绩。过去的处理方法是什么?我们给这些学生排个队,弄个状元,榜眼什么的。然后让这些人去告诉那些考试差的人:交钱我就告诉你,你没考上清华的秘密。人家交钱了,他们说了一堆,最后的结论就是:少做两道题,你的分数不到外国大学,就到清华了。这种茶言茶语吗?”

    “真是黑心商人啊。”一条弹幕飞过。

    “对,我也觉得是,所以现在都叫‘赋能’了。我们把50000份数据分析,每一个人都错在哪里?不要急于得出结论,因为数据流要清理出脏数据。数据流1.0会把处理数据的方法一个个罗列出来,就像一个个模具一样。按照题目类型分类:选择题,多选题,判断题,填空题,解答题。按照题目类型分类:考察的相关知识点。考生出错的方式:理念错误,计算错误,马虎大意。”

    “你看到的不再是一个个考生的试卷纸,而是每个考生在数学学习中如同棋局一般的行进路线。”

    “我听说过你这个观点。这是用一种监测的方式来教育问题。考试就是监测,而分数就是监测点,值得关注的是监测点而不是监测。”毛歌在语音中脱口而出。

    “嗯,你抓住重点了。把所有的人数据分析完,我们就给出每一个人最合理的学习建议。包括:需要重新学习那个知识点、增加相关考试技巧,你当前处境的深层原因,跟你一样处于过当前危机状况的人数,甚至于其他人是如何逃离这些问题的。你的学习轨迹清晰可见,你还学不好或者学的慢,那就是没有天赋了。”

    “收尾了。一个能从各种各样接口流入数据,并分析大量关联性数据的工具就是数据流1.0。希望我的分享对大家有用。有机会给大家继续演示数据流1.0是如何调整数据以应对各种各样的统计问题的。”

    视频会议中的人们反应不是很热烈,都是一脸懵,估计更多的是挺有趣,但是也就这样吧。

    刘铁路对于现状倒是很满意,只是花了20分钟,稍稍讲了数据流1.0的理念,具体如何操作和其中正在开发的纠错功能没有讲,不引人注意的过去就好,这也符合逻辑团这个哲学群组的风格了。

    红龙发来了一条短讯:铁网兄弟,你的这个东西我很感兴趣,可以有机会面聊一下吗?我带你参观个地方,保证你觉得有趣。

    刘铁路打着哈哈:不会是去咱们这个岁数应该去的场所吧。另外,我可没钱啊,钱都上交给老婆了。(其实,并没有。只是刘铁路这人极其自律,讨厌大手大脚。)

    “放心,不是咱们这个岁数应该去和不应该去的场所。对于这个场所我的描述是:一个人尽其才的地方。今天的分享让你有了去的资格,去不去随你,如果有需要就联系我。”

    “好,有机会见一面吧,我再决定是不是去。”刘铁路对红龙的印象不错,论谈吐红龙是同类人,但是涉及太深就有点唐突了,这帮不得志的同类人中也是经历广泛之辈,路子可能比较野。