当我尝试写一个自动写小说的AI,长路漫漫的踩坑之路 ToT | 您所在的位置:网站首页 › 写小说怎么发文章呢赚钱 › 当我尝试写一个自动写小说的AI,长路漫漫的踩坑之路 ToT |
起因
事情是这样的,前几天我在刷B站的时候看到一个大佬用训练了一个自动写高考作文的AI 链接: https://www.bilibili.com/video/BV1pr4y1w7uM 那我就想既然别人能训练自动写作文的AI,那我就训练一个自动写小说的AI帮我自动赚稿费。 挑战我也去github上clone了仓库,看了看效果还不错, 但是有那么几个问题 费用费用是我承担不起的,我看了一下他的模型,一共17亿个参数,其中GPT-2的参数就占了15亿,估算了一下如果有分布式集群的话可能2000左右可以训练,没有的话可能得花个几万块钱。更不要说动辄几千万的GPT-3了。这个是硬伤,没办法的,所以我训练的模型可能不会用他那么大的,效果可能会稍微差一点,但是应该也不会太差。 小说的维度其实我有这个ID的时候就已经知道写小说这个ID别人肯定也想过了,我随便逛了几个仓库就发现了有人用斗破苍穹来训练GPT-2,我可以给一张图大家看看效果 说干就干,首先就是要获取数据集,我一开始想到的是用我牛逼哄哄的爬虫去爬取快点的数据,但是我失败了,原因是快点是一个手机APP,而不是网站的,类似于笔趣阁的小说我一抓一大把,但是手机APP的爬虫有点难到我了。 晚上我想了一个方案,就是下载模拟器,然后用过的抓包的方式,根据模拟器进程来抓取http包,然后解析包来获取语料 我用的是这个抓包工具。 尝试了一下基于分割的EAST, 效果可能不太理想,有些话会分成两段,同时有些字不回被框进去,广告那部分会很奇怪。 晚上尝试了一下CTPN,然后两种方法做了对比 为了让检测效果更好一些,我放大了文字 分别试了二值化还有夜间模式的检测效果 正常模式的CTPN 夜间模式的CTPN 二值化的CTPN 正常模式的EAST 夜间模式的EAST 二值化的EAST 添加了中文识别网络 结构是DenseNet + CTC 然后下午通过正则表达式去除了识别出的乱码和符号 晚上写了python自动下拉自动翻页的功能,用了pyautogui这个库来控制鼠标和键盘,然后就是对于屏幕边缘的字体如下图,只有一半的文字,网络的识别效果不是很好,会识别成一些乱码,我采取最大乱码比来去除识别到的乱码区,就是如果乱码的字数占总字数的一半以上,则把整句话删掉 目前在尝试AI的对话生成系统,参考了别人的代码,别人的AI都是简单的只提取前几句话来预测下一句话,和我要实现的东西很不一样。我感觉我的AI需要对于一些重要话做保存要是会永远对下一句话产生影响的,及记忆力机制,而且是多角色的记忆力机制。 11.14今天去参加同学婚礼了,没怎么肝进度,测试了一下我的自动化数据喂投系统,大致把一本小说全部写到json数据里面了 喝完同学喜酒回到家 从晚上10点改到现在凌晨4点,终于把GPT的代码改完了 狗屁不通生成器 想了想对于长篇的小说来说AI的处理能力还是太弱了,这涉及到很多东西,对于几十万字的小说,首先就是序列问题,如何能处理这么长的一个序列呢,最简单的就是加长BLSTM的长度,也就是增大网络模型,这就需要大量的GPU并行集群,今天看了一些资料https://weibo.com/ttarticle/p/show?id=2309404565055071977542,发现国内也有人在做这一方面的试验。我相信AI最终肯定是能够完成这种复杂的事情的,只是现在我们的认知不够,一些创新性的方法没有被提出,现在的论文有创新的真是太少,这是一个过程,长路漫漫。我决定退而求其次,暂时先从中篇科技短文下手,再逐步完善我的AI。我相信终有一天AI可以革作家的命,希望我能活到那一天,哈哈。 尝试用科幻文做训练语料,搜科幻世界txt百度网盘全给和谐了。找了好长时间的语料但是只找到几Mb阿西莫夫科幻小说集的语料,下图是训练完的效果,还是不尽人意,继续想思路中。。。 有其他重要的事情要忙,该项目先停止 未完待续。。。有对这个项目感兴趣的技术大佬请联系我 VX:13738116117 |
CopyRight 2018-2019 实验室设备网 版权所有 |