乐文小说网 > 凤求凰之AI赘婿 > 第五章 白头吟与二进制

第五章 白头吟与二进制


项目申请书在截止日期前四个小时提交了。
陆辞渊用那四十八个小时写了将近两万字,从研究背景到技术路线,从创新点到可行性分析,每一个部分都写得滴水不漏。他甚至画了一张详细的模型架构图,把情感理解模块单独拎出来,设计了一个名为“诗心”的子网络——专门用于处理诗歌文本中的情感信息。
提交完之后,他趴在键盘上睡了四个小时。醒来的时候脸上印着键盘的痕迹,左边脸颊上是“QWER”,右边是“ASDF”。他去洗手间洗了把脸,看着镜子里那个眼圈发黑、胡子拉碴的年轻人,忽然觉得有点陌生。
他想起大学时候的自己,干净、整齐,每天早晨会花十分钟把头发打理好再出门。现在他已经连续三天没有换衣服了,实验室的椅子上永远搭着一件皱巴巴的冲锋衣,充当毯子、枕头和外套的三重角色。
“这就是科研工作者的日常。”他对着镜子自言自语,然后拧开水龙头,把头伸到冷水下面冲了整整一分钟。
十二月的水冷得像刀子,他觉得自己像是被人从头顶劈了一刀,整个人瞬间清醒。
回到实验室,他给自己泡了一杯速溶咖啡——实验室里的咖啡机三个月前坏了,没有人修,也没有人买新的。他用的是那种袋装的雀巢三合一,甜得发腻,但胜在方便。***以一种粗暴的方式进入血液,他的手指不再发抖,思维重新变得锋利。
他坐在电脑前,开始认真研究周教授留下的资料。
两百万首女性诗歌,从汉代到清代,跨越了两千年的时光。这个语料库的规模超出了他的预期——周教授显然不是随便说说,而是真的花了大量时间去搜集和整理。陆辞渊粗略地看了一下目录,发现来源非常广泛,既有《全唐诗》《全宋词》这样的总集,也有各种别集、选本、地方志、笔记小说中的零散作品。甚至还有一些从未刊印的手稿扫描件,看起来是从各地图书馆和私人收藏中搜集来的。
“周教授,您这是做了多少个图书馆的编目工作啊……”陆辞渊低声感叹。
他继续往下看,发现语料库的标注也非常细致。每一首诗都有作者、年代、体裁、主题、情感倾向等多个维度的标注。有些标注显然是手工完成的,笔迹和格式都不统一,但信息的丰富程度令人叹为观止。
最让他惊讶的是,周教授还为每一首诗标注了一个他称之为“心动值”的分数——从1到10,代表这首诗在他个人看来有多“动人”。
这个标注方法太不学术了。陆辞渊几乎可以想象如果周教授把这个方法写到论文里,审稿人会怎么评价:“主观性过强,缺乏客观标准。”
但陆辞渊忽然觉得,这种主观性也许恰恰是周教授想要的东西。
动人,本来就是一个主观的感受。一首诗让你哭了,让我无动于衷,这很正常。但如果我们要训练一个模型去理解“动人”这件事,我们不能给它一个客观的标准——因为客观上不存在这样的标准。我们需要给它一个“人”的标准,一个具体的、有偏好的、甚至有些任性的标准。


  (https://www.lewenn.com/lw61336/40866201.html)


1秒记住乐文小说网:www.lewenn.com。手机版阅读网址:m.lewenn.com