[JavaWeb实训Day4] 您所在的位置:网站首页 mesh词 [JavaWeb实训Day4]

[JavaWeb实训Day4]

2023-02-03 22:25| 来源: 网络整理| 查看: 265

目录 一、本次实验分析过程 二、Jee连接MySQL数据库 三、异步传值及界面设计 四、jsoup爬虫爬取新闻网页 五、新闻词云的生成( kumo库) 六、存入数据库 快速链接:【JavaWeb项目实训】——总目录

JavaWeb实训 Day3&4 :爬新闻页面、词云的生成并利用kumo库绘图,并保存本次爬取实验过程记录到本地MySQL中

一、本次实验分析过程

1、实现目标: 原新闻网站:

输入url地址,分析出词云图片: 数据库记录本次操作url及保存的词云图片位置:

2、思路分析:

3、本次实验总项目结构:4、总流程设计:

二、Jee连接MySQL数据库

环境:EclipseJee2018-09+MySQL8.0

(一)在MySQL中创建websql数据库,创建表w_msg:用于放置我们将要爬到的内容数据(图1为成功爬取后的表):

创建表: 注意:wid选择自增(AI)

(二)lib引入相应版本jar包

我对应的包引入图中位置: 右击wc1项目->选择属性->Java Build Path->Add JARs...选中jar包位置->Apply

(三)新建com.cungudafa.util包,新建DBUtil.java类:用于连接数据库:

public static String dbUrl="jdbc:mysql://localhost:3306/websql?useSSL=false&serverTimezone=UTC"; public static String dbUserName="root"; public static String dbPassword="wy123456"; public static String jdbcName="com.mysql.jdbc.Driver";

其中关于数据库连接,遇到的部分问题我在这边博客记录了:关于连不上MySQL8.0问题

三、异步传值及界面设计

(1) web.xml写入请求url: (2)a.jsp总界面设计:(外部a、内部b1) (3)b1.jsp:异步加载获取图片的url(之前在web中声明的url事件:getImg)

四、jsoup爬虫爬取新闻网页

利用jsoup提取网页中的数据 (1)页面数据的结构 找出里面你需要的数据的规则 数据抓取规则 1.正则表达式 2.xPath 3.css选择器 (2)需要不要请求多个页面的数据 注意:通过异步进行加载,设置请求的时间限制 一个Test01.java文件测试:

GetData.java

五、新闻词云的生成( kumo库)

词云的生成(利用第三方的库 kumo)(第一个功能) (1) 输入具体的网址 (2) 对网页进行数据上面的分析 (3) 利用第三方库生成图片 (生成一个图片) 1.词语的组成 2.词频的统计 3.利用IO流把词频高的写入到对应的内容中 4.把对应生成的内容存放到数据库中

BuildImgService.java图片生成函数:(老师给的,具体我也不太明白,第三方库就对了~) 其中我把图片返回到刚才新建的wc1下的img文件夹下,因为网页获取图片需要从路径获取,保存到数据库中也是保存路径名;

这里声明一下,在项目中新建一个空文件,Tomcat不会部署上去, (原因:空文件夹自动识别,不会部署,毕竟为了节约资源); 举例说明: 1、查看工作环境中的wc1目录:(这里是有刚才新建的img文件夹) 2、查看Tomcat部署环境中的wc1目录:(这里是没有刚才新建的img文件夹的) 会遇到如下错误: 3、我们需要手动新建一下img文件夹注意!注意!注意!

六、存入数据库

ImgUrlService存入数据库中,及从数据库中读取路径!

大致过程就是这样!记录一下~ 附源码:



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有