出诗表---大数据写诗

出诗表

―――机器文学新进展

杨义先

北京邮电大学信息安全中心主任

摘要

借力“大数据”,我们虽不能让哑巴说话,但确实可以让文盲写诗,而且,只需一分钟!不信?请读此文!(当然,为了让文、理、工、农、医等各科读者都能够读懂,我们只在此叙述原理和实例)

(一)  前言

机器文学的最终目标是:用机器创作文学作品!初听起来,好像不靠谱,但是,到目前为止,机器已经可以进行(或辅助)一些特殊的文学创作,比如,撰写史上最牛的千字文[1],破解史上最难璇玑图[2],撰写同音文[3],研究“影文”[4]和语言动力学[5]等。

事实证明,规矩越多的文学体裁,就越适合于计算机发挥其特长。对“平仄”和“押韵”有严格要求的五言和七言诗,也许要算“规矩很多”的文体了吧,因此,本文就来研究如何用机器创作律诗。(注:本文的研究思路和方法完全适用于“机器撰写各种词牌名的词”,但是,由于词牌名太多,超过一千个,而且每首词的字数也不少,对我这个“诗盲”来说,要想建设相关的“意境库”就太难了,所以,本文不考虑这些“词”)

(二)   五言绝诗“出诗表”

2.1)仄起五绝首韵“出诗表”实例

仄起五绝首韵出诗表的结构如下表1.1所示。

表1.1 (仄起)五绝(首韵)出诗表

  基于上述的表1.1,任何傻瓜都可以按如下两步轻松写诗:

第一步,任意选取一个八位数,比如,毛泽东的生日18931226,然后,把该数代替表1.1中的X1X2X3X4X5X6X7X8,于是,获得了如下的表格1.2

表1.2 “毛泽东生日”所对应的出诗表

第二步,从表1.1的第Xi列中,选取第i组文字串(“2字串”或“3字串”),并把这些“字串”串接起来就行了。比如,在表1.2中,就应该从第1、2、3、4、5、6、7、8列里,分别取出第1、8、9、3、1、2、2、6个“字串”(见表1.2中的红字部分),最后,串接起来的文字便是如下五言绝诗:羞玉竟不还,西湖哀苦寒;凤楼留不住,夜郎醉不眠。

读者可以自行用本人的生日数字来轻松写诗。为了增加趣味性,我们再举几个例子:

数字π=3.1415926,从表1.1所对应的诗是:窈窕未曾看,梅花水月牵;水晶凝望久,夜郎醉不眠。

根号2=1.4142135,从表1.1所对应的诗是:羞玉水生烟,燕然觉夜寒;故情人不见,多苦老红颜。

共和国的生日19491001,从表1.1所对应的诗是:羞玉贵乡还,梅花不可攀;凤楼都莫问,远忆晚妆残。

八宝山的电话号码88259666,从表1.1所对应的诗是:伤别竟不还,芙蓉嬉笑牵;相思肠断处,无限醉不眠。

黄金分割数0.6180339,从表1.1所对应的诗是:回首暗无边,燕然流泪泉;当年追往事,多苦涕衣沾。

  递增数列12345678,从表1.1所对应的诗是:羞玉斩楼兰,鸳鸯觉夜寒;水晶肠断处,寂寞蔽青天。

关于五言绝诗,除了表1.1所述的“仄起五绝首韵”之外,还有其它的一些格律,比如,下一小节2.1)所述的“平起五绝首韵”、“仄起五绝首句不入韵”和“平起五绝首句不入韵”等四种情况。为了节省篇幅,我们仅再述一个“平起五绝首韵”的出诗表例子。

2.1)平起五绝首韵出诗表实例

平起五绝首韵出诗表的结构如下表1.3所示。

表1.3(平起)五绝(首韵)出诗表

若借助表1.3,那么,仿照前面的方法,我们可以得到

毛泽东的生日18931226对应的诗是:炎凉指波澜,不似通人烟;桃李君知否,天涯绣木兰。

数字π=3.1415926对应的诗是:多情水月牵,依旧若浮烟;萧飒天长久,天涯绣木兰

根号2=1.4142135对应的诗是:炎凉乐世间,遥看乱紫烟;杳渺人间世,微茫岂敢安。

共和国的生日19491001对应的诗是:炎凉流雪山,依旧跳白猿;桃李空回首,苍生羞长安。

黄金分割数0.6180339对应的诗是:嫦娥醉上山,遥看去不还;半落谁知道,微茫伤别年。

八宝山的电话号码88259666:凄凄指波澜,风雨同交欢;何事斜阳处,香炉绣木兰。

递增数列12345678对应的诗是:炎凉梦日边,流水乱紫烟;萧飒斜阳处,无花怒上天

(三)   五言律诗“出诗表”

与“五绝”类似,“五律”格律诗也有四类:“仄起五律首韵”、“平起五律首韵”、“仄起五律首句不入韵”、“平起五绝首句不入韵”等四种情况。为节省篇幅,我们也仅仅叙述一个例子,即“仄起五律首韵”出诗表,见下表1.4所示。

表1.4 (仄起)五律(首韵)出诗表

与前面的表1.1类似,此处的表1.4也可以让任何傻瓜按如下两步轻松写诗了:

第一步,任意选取两个八位数(或者一个16位数),然后,把它们分别代替表1.4中的X1X2X3X4X5X6X7X8和Y1Y2Y3Y4Y5Y6Y7Y8;

第二步,从表1.4上半部分的第Xi列中,选取第i组文字串(“2字串”或“3字串”),并把这些“字串”串接起来就得到了五律诗的前面四句;从表1.4下半部分的第Yi列中,选取第i组文字串(“2字串”或“3字串”),并把这些“字串”串接起来就得到了五律诗的后面四句,于是,五律的全诗就完成了。

比如,毛泽东和江青的生日分别是18931226、19140317,那么,将它们放入表1.4中,就应该从上半部分的第1、2、3、4、5、6、7、8列里,分别取出第1、8、9、3、1、2、2、6个“字串”,将它们串接起来的文字便是如下五言律诗的前四句(雨落待明年,孤房清且安;花落空怅望,久坐难追攀),然后,从下半部分的第1、2、3、4、5、6、7、8列里,分别取出第1、9、1、4、0、3、1、7个“字串”,将它们串接起来的文字便是如下五言律诗的后四句(罢笑孤帆影,思君乱紫烟;红妆留不住,忽忆侍轩辕)。将这前面各四句串起来,就完成了全诗:雨落待明年,孤房清且安;花落空怅望,久坐难追攀;罢笑孤帆影,思君乱紫烟;红妆留不住,忽忆侍轩辕

数字π=3.1415926 53589793对应的诗是:买醉指长天,玲珑岂敢安;从君不得意,久坐难追攀;百草怎知道,飘零万事闲;沉吟如两忘,美酒卷珠帘。

根号2=1.4142135 62373095对应的诗是:雨落愿年年,松鸣羞玉颜;采薇遥相望,素手送君还;黄鸟须知道,珠玑了不闲;隐然空相待,美酒奉琼筵

党和共和国的生日19210701、19491001对应的诗是:雨落照当年,幽哀岂敢安;长歌凝望处,流水亦不还;罢笑孤帆影,腰肢长空闲;几何空相待,邀我落兴酣。

黄金分割数0.6180339 88749894对应的诗是:今古想当年,松鸣尽欲言;长歌离别处,素手好庐山;浅画星芒尽,千春乱紫烟;从君君不见,美酒笑折旋

镜像数列12345678 87654321对应的诗是:雨落扫青天,君情羞玉颜;从君回首处,遥寄空登攀;浅画啼不尽,天涯写远川;长歌留不住,莫洗落兴酣

八宝山的电话号码88259666、88259777:香袖待明年,幽哀多苦颜;织锦回首处,眷我难追攀;浅画星芒尽,霜衣写远川;从君如两忘,醉后侍轩辕

(四)   七绝“出诗表”

与五言类似,七言格律诗也分为“七言绝诗”和“七言律诗”,它们又可再细分为“仄起首韵”、“平起首韵”、“仄起首句不入韵”和“平起首句不入韵”等情况。但是,从基于大数据的“出诗表”角度来看,它们的原理都是一样的,因此,为了节省篇幅,我们仅给出如下表1.5中的(仄起)七绝(首韵)“出诗表”:

表1.5:仄起七绝首韵“出诗表”

与前面的表1.1类似,此处的表1.5也可以让任何傻瓜按如下两步轻松写诗了:

第一步,任意选取两个六位数(或者一个12位数),然后,把它们分别代替表1.5中的X1X2X3X4X5X6和Y1Y2Y3Y4Y5Y6;

第二步,从表1.5上半部分的第Xi列中,选取第i组文字串(“2字串”或“3字串”),并把这些“字串”串接起来就得到了七绝诗的前面两句;从表1.5下半部分的第Yi列中,选取第i组文字串(“2字串”或“3字串”),并把这些“字串”串接起来就得到了七绝诗的后面两句,于是,七绝的全诗就完成了。比如,

数字π=3.14159 265358对应的诗是:窈窕愁绝方未还,绿烟风雨两相欢;故情杨柳空惆怅,梅梢瀑布伤别年。

镜像数列123456 654321对应的诗是:羞玉池花夜已残,玉阶风雨话孤眠;画屏春色落花絮,梅梢悲鸟愁空山。

黄金分割数0.61803 398874对应的诗是:美酒瑶泉落九天,浣纱白兔拜龙颜;染香芳树难忘酒,绝艳风景望远山。

根号2=1.41421 356237对应的诗是:羞玉嫦娥落九天,玉阶憔悴似真仙;染香春色伤心碧,莺羽几度入远山。

(五)  原理浅析

古人早就发现了这样一个“事实”:熟读唐诗三百首,不会吟诗也会吟!但是,古人并不知道,这个“事实”的基础就是现在风靡全球的“大数据”。通过熟读众多诗词,人们便在头脑中无意识地建立起了针对各种意境的“字串库”,然后,在需要时,触境生情把库中现成的“字串”取出来,就拼接成诗了。

借助“大数据”的各种整理和挖掘技术,针对相关的意境,遵守事先约定的各种平仄格律等要求,完全可以为每个用户独立地建设和维护一个专用的“意境库”。比如,若选取“爱情”为“意境”,那么,利用“大数据”就可以收集人类在爱情的各种情况下(热恋中、失恋中、暗恋中……)都会有什么话语,至少可以收集诗人们的同类现成诗词,对这些“话语”经过机械加工,即按平仄音韵等条条框框来改造,于是,基础“意境库”就完成了。当然,在每个人的使用过程中,“大数据”还可以根据用户的爱好和习惯和“意境库”进行精细化处理,使得每个人,以傻瓜方式“写”出来的诗,也具有个性特点。其实,本文中的表1.1至1.5中每列的内容就是各种“意境库”,我们把它们以“死的方式”(不是以软件程序方式)表现出来的目的是:让读者可以更加直观地了解“傻瓜写诗”的原理。所以,“出诗表”软件真正面市后,它的操作就只需要用户随机输入相关的数串就行了。

“机器能够写诗”的另一个原因是:人其实是很容易被“骗”的,当你先申明某个字串是诗时(即,把相关的心理暗示传递给了读者),人们就会努力去想像这些字串中的“诗意”,那怕这些字串其实是“狗屁不通”。这种“主动受骗”的现象很少出现在阅读散文、小说等其它文章的过程中。

“大数据”的神威其实早就被广泛利用了,比如,大家熟知的“搜狗输入法”,就采用了搜索引擎技术,从网络的“大数据”中迅速找到“热词”或用户自己个性化常用词,于是,机器好像就能够预知你的心思,提前把你要的词展现出现,使得输入速度、词库广度、词语准确度等方面都有了实质性的提高。又比如,谷歌公司最近推出一种崭新的机译方法:将语言翻译变成向量空间数学问题,利用数据挖掘技术建模一种语言的结构,然后与另一种语言的结构进行对比,从而扩充和完善现有的双语语料库,于是,彻底颠覆了语言翻译的基本思路。

甚至有人预言,随着“大数据”的迅速发展,今后,你不必学医就能够诊病并开处方了(当然,外科手术还得由专门的医生来实施)。

总之,用“大数据”来写诗,特别是写那些清规戒律很多的“格律诗”,其实应该是意料之中的事情。欢迎各位网友八仙过海,研究出更多的“机器写诗系统”,由于本人是“诗盲”,因此,相关的“意境库”肯定粗制滥造,希望不要误导大家。

(六)    参考文献

[1] 杨义先,史上最牛“千字文”, 

http://blog.sciencenet.cn/blog-453322-695722.html

[2] 杨义先,破解史上最难璇玑图,

http://blog.sciencenet.cn/blog-453322-667745.html

[3] 杨义先,玩转同音文,http://blog.sciencenet.cn/blog-453322-676506.html

[4] 杨义先,“影文”的发现与猜想, 

http://blog.sciencenet.cn/blog-453322-685751.html

[5] 杨义先,字距猜想:“语言动力学”的起点, 

http://blog.sciencenet.cn/blog-453322-698008.html

(0)

相关推荐