[JavaWeb实训Day4] | 您所在的位置:网站首页 › mesh词 › [JavaWeb实训Day4] |
目录
一、本次实验分析过程
二、Jee连接MySQL数据库
三、异步传值及界面设计
四、jsoup爬虫爬取新闻网页
五、新闻词云的生成( kumo库)
六、存入数据库
快速链接:【JavaWeb项目实训】——总目录
JavaWeb实训 Day3&4 :爬新闻页面、词云的生成并利用kumo库绘图,并保存本次爬取实验过程记录到本地MySQL中 一、本次实验分析过程1、实现目标: 原新闻网站: 输入url地址,分析出词云图片: 数据库记录本次操作url及保存的词云图片位置: 2、思路分析:
3、本次实验总项目结构:4、总流程设计: 二、Jee连接MySQL数据库环境:EclipseJee2018-09+MySQL8.0 (一)在MySQL中创建websql数据库,创建表w_msg:用于放置我们将要爬到的内容数据(图1为成功爬取后的表): 创建表: 注意:wid选择自增(AI) (二)lib引入相应版本jar包 我对应的包引入图中位置: 右击wc1项目->选择属性->Java Build Path->Add JARs...选中jar包位置->Apply(三)新建com.cungudafa.util包,新建DBUtil.java类:用于连接数据库: public static String dbUrl="jdbc:mysql://localhost:3306/websql?useSSL=false&serverTimezone=UTC"; public static String dbUserName="root"; public static String dbPassword="wy123456"; public static String jdbcName="com.mysql.jdbc.Driver";其中关于数据库连接,遇到的部分问题我在这边博客记录了:关于连不上MySQL8.0问题 三、异步传值及界面设计(1) web.xml写入请求url: (2)a.jsp总界面设计:(外部a、内部b1) (3)b1.jsp:异步加载获取图片的url(之前在web中声明的url事件:getImg) 四、jsoup爬虫爬取新闻网页利用jsoup提取网页中的数据 (1)页面数据的结构 找出里面你需要的数据的规则 数据抓取规则 1.正则表达式 2.xPath 3.css选择器 (2)需要不要请求多个页面的数据 注意:通过异步进行加载,设置请求的时间限制 一个Test01.java文件测试: GetData.java 五、新闻词云的生成( kumo库)词云的生成(利用第三方的库 kumo)(第一个功能) (1) 输入具体的网址 (2) 对网页进行数据上面的分析 (3) 利用第三方库生成图片 (生成一个图片) 1.词语的组成 2.词频的统计 3.利用IO流把词频高的写入到对应的内容中 4.把对应生成的内容存放到数据库中 BuildImgService.java图片生成函数:(老师给的,具体我也不太明白,第三方库就对了~) 其中我把图片返回到刚才新建的wc1下的img文件夹下,因为网页获取图片需要从路径获取,保存到数据库中也是保存路径名; 这里声明一下,在项目中新建一个空文件,Tomcat不会部署上去, (原因:空文件夹自动识别,不会部署,毕竟为了节约资源); 举例说明: 1、查看工作环境中的wc1目录:(这里是有刚才新建的img文件夹) 2、查看Tomcat部署环境中的wc1目录:(这里是没有刚才新建的img文件夹的) 会遇到如下错误: 3、我们需要手动新建一下img文件夹注意!注意!注意! 六、存入数据库ImgUrlService存入数据库中,及从数据库中读取路径! 大致过程就是这样!记录一下~ 附源码: |
CopyRight 2018-2019 实验室设备网 版权所有 |