第470章 绿男集中地
作者:取个名很难啊   你若开挂,金钱自来最新章节     
    既然“模型崩溃”的问题症结已经找到。
    下一步的工作就要开始。
    “我们可以先启动备份语言模型,采用新的思路来培育语言模型。”苏茨克维说:
    “这一次,我们必须要用人类创造的真实数据来喂养模型。”
    “对数据质量进行检测、过滤,去除重复、错误、偏见的内容。”
    “并注意增强数据的多样性,提高和丰富生成数据的内容。”
    “此外,还需要增强鲁棒性技术,提高语言模型抗干扰能力,自动识别生成数据。”
    “我认为,未来几年随着人工智能不断发展,寻找真实数据将是语言模型面临的主要挑战之一。”
    “鲁棒性”,是指控制系统在一定参数摄动下,维持某些性能的特性。
    比如:计算机软件在输入错误、磁盘故障、网络过载或者有意攻击情况下,不死机、不崩溃,就是该软件的鲁棒性。
    “在这方面我们有优势,我们的合作伙伴鹅厂,其app本身就是一个规模庞大的人类自然语言数据库。”李飞说。
    “但是,这还不够,我们还需要更多的人类经典书籍、图像数据和新闻数据等。”辛顿说:
    “这些才是人类自然语言的精华。”
    “另外,我们建议鹅厂适度限制各种应用程序接口扒数据的权限……”克里切夫斯基说:
    “他们不仅下载数据,还会产生大量生成式数据,影响到我们的语言模型。”
    “这些,我都会和鹅厂对接好,辛苦几位抓紧训练,把这段时间损失的进度补上来。”常乐说。
    …………
    当天晚上,常乐将“模型崩溃”的情况通报给了小马哥、任总等。
    他们都很惊讶。
    惊讶的是,模型即便产生问题,也与人类如此相似。
    第二天上午。
    小马哥就出现在半山别墅。
    “我可不可以这样理解,随着语言模型的发展和大面积推广,今后人类创造生成的数据,会更加稀缺。”小马哥问。
    “可以这样理解,人类天然的惰性,会助推语言模型生成数据的泛滥。”常乐点头:
    “至少在目前这个阶段,模型生成的数据还是与人类数据有差距。”
    “缺乏真实性和特征的多样性,存在重复、偏见、谬误等。”
    常乐倒了一杯茶给小马哥:
    “当这些数据用于语言模型训练,就会使模型忽略、遗忘原始数据的特征和信息,这就是模型崩溃的本质。”
    “那么这就是一个很大的商机。”小马哥开始兴奋。
    “对,确实是一个很大的商机。目前国内外其他语言模型,还未推进到这一步,暂未意识到人类生成数据的珍贵性……”常乐笑道:
    “此时,可以先投资或者收购一些新媒体企业,价格不会太高。”
    “而且,我还建议,社交app适当切断或者限制一些应用程序接口扒数据的权限,他们的大批量泛滥,会加快语言模型生成数据的泛滥。”
    “我懂了,我会马上安排好。”小马哥点头。
    江夏端着水果走过来:“马总,吃点水果。”
    “谢谢。”
    “中午吃过午饭再走,也不急于一时。”常乐说。
    “行,我就不客气了,呵呵。”小马哥笑道。
    “理应如此,其实投资、收购一些新闻媒体、在线社区在现阶段只能算是一个不错的补充。”常乐说。
    “我知道,即便我们公司的社交app本身就是一个巨大的数据库,但是在将来不可避免被语言模型生成的数据所污染。”小马哥说。
    “对,所以搭建和扩大网络图书馆就很有必要,比如你们公司的那个读书app就很不错,涵盖小说、经济、传记、科学、社会、历史等等,这才是一个天然的宝库。”常乐说。
    “你提醒了我,我们会进一步拓展这个app的规模和范围。”小马哥说:
    “另外,我们旗下的小说网站也将加大扶持力度,向传统文学倾斜、靠拢。”
    “需要抓紧,因为这一次崩溃的经验教训,我们的备份模型一旦启用,可能会比之前更纯粹、干净,推向市场的时间可能会进一步加快。”常乐说。
    “没有问题,这一块我会亲自跟。在社区论坛方面,你有什么好的建议吗?”小马哥问。
    “建议?其实也不需要有多大规模,只要真实活跃度够高就行,譬如hoop?”常乐说。
    “hoop?哈哈,常总,没有想到你,也会关注直男集中地?”小马哥笑道。
    前世。
    鹅厂一直看不上hoop。
    他们认为这个网站用户群体个性太鲜明、太集中、太狭窄,不够广泛。
    “我今年不到30岁,关注一下,很正常。”常乐也轻笑道。
    hoop,准确说,不应该叫直男集中地,而应该叫绿男集中地。
    为什么?
    因为,有媒体观点认为,全国害怕被“绿”、正在“绿”、已经“绿”的直男们,都聚集在hoop。
    他们用纯粹、直接、朴素的语言,丝毫不掩饰地描述着自己害怕“绿”、正在“绿”、已经“绿”的过程。
    总体格式为:“终于轮到我了,我是不是被绿了?”
    尽管hoop官方从不承认这个观点。
    他们自我定义为篮球、足球、电竞、运动、影视、汽车、数码、情感等多元一体的真实情感社区。
    但是,真正热度高、议论多的,还是步行街的绿帽帖。
    一旦某个帖子带有如下风格,回应者众多。
    “各位jrs,看看我是不是被绿了?”
    “平时,她都是凌晨1点才睡,昨天晚上11点就要睡,我应该是被绿了。”
    “原来,她吃火锅只吃海鲜锅,现在她喜欢吃鸳鸯锅,我可能被绿了。”
    “她不让我看她的手机,我被绿了吧。”
    广大直男们看到这种帖子,一般都会点进去。
    然后,用自己道听途说、捕风捉影的感情经验,帮助帖主细致分析。
    最后,斩钉截铁、言之凿凿的告诉帖主:
    “以过来人的经验,你应该是被绿了。”
    常乐大胆猜测,经hoop绿男文化熏陶之后,语言模型可能在辨别“绿帽”上形成特殊本领。
    为广大可能成为“绿男”的直男们,增强洞察力。
    一旁。
    江夏提出建议。
    “我觉得红书也不错,那里人也很多。”
    “红书?那不行。”常乐赶紧摇头。
    “怎么就不行?就允许语言模型训练直男文化,就不允许学习直女文化?你这是搞性别歧视哦。”江夏瞪了常乐一眼。
    常乐不为所动、坚持己见:
    “这根本就不是直女不直女的问题,而是智商问题。”
    江夏:“……”
    常乐说:“只有脑子长痔疮才会认同买化妆品、买包包就是投资自己的观念。”
    “一个月3000块工资,居然热衷于讨论上千块的口红、上万的包包、上百万的好车、上千万的大平层……”
    “众筹拍个照,就当自己是白富美了,整天沉浸在自己营造的虚幻世界中。”
    “哪有你说的这么夸张,虽然确实有部分人分不清真实与虚幻,但是还是有一部分很理智,分享的经验很有效。”江夏说。
    “你说的那一部分人,活跃度高不高嘛。”
    “……”