四大名著中的《三国演义》,不但中国人耳熟能详,世界范围内影响力也是巨大的。小说描写的是从东汉末年到西晋初年之间近一百年的历史风云,反映了三国时代的政治军事斗争,塑造了一批咤叱风云的英雄人物。“宁教我负天下人,不教天下人负我”的曹操、“火烧博望坡”的刘备、“生子当如孙仲谋”的孙权、“空城计、七擒孟获”的诸葛亮、“过五关斩六将”的关羽、“喝断当阳桥”的张飞、“七进七出”的赵云……。虽然读罢三国,可以明显体会到作者的拥刘反曹倾向,但是谁才是《三国演义》这部鸿篇巨制的主角呢?
今天就借助现代数据分析手段,做一个不严谨的分析。Python语言的jieba库,可以天然的对中文词汇进行区分,所以通过人名在《三国演义》中出现的频次,来做一个推断,到底谁才是主角?话不多说,开干!
貌似结果并不理想:
比如,孔明、孔明曰,是一个人,给分开了;却说、二人、不能、如此……不是具体人名。
SO,在这版代码的基础上,搞个小小的升级版。调整后结果如下:
原来《三国演义》中,第一男主是曹操,之后是孔明、刘备,可以称为领衔主演;之后是关羽,出现频次比领衔主演少一半,但是又比后续人物多的多。