- 浏览: 3510259 次
- 性别:
- 来自: 杭州
文章分类
- 全部博客 (1491)
- Hibernate (28)
- spring (37)
- struts2 (19)
- jsp (12)
- servlet (2)
- mysql (24)
- tomcat (3)
- weblogic (1)
- ajax (36)
- jquery (47)
- html (43)
- JS (32)
- ibatis (0)
- DWR (3)
- EXTJS (43)
- Linux (15)
- Maven (3)
- python (8)
- 其他 (8)
- JAVASE (6)
- java javase string (0)
- JAVA 语法 (3)
- juddiv3 (15)
- Mule (1)
- jquery easyui (2)
- mule esb (1)
- java (644)
- log4j (4)
- weka (12)
- android (257)
- web services (4)
- PHP (1)
- 算法 (18)
- 数据结构 算法 (7)
- 数据挖掘 (4)
- 期刊 (6)
- 面试 (5)
- C++ (1)
- 论文 (10)
- 工作 (1)
- 数据结构 (6)
- JAVA配置 (1)
- JAVA垃圾回收 (2)
- SVM (13)
- web st (1)
- jvm (7)
- weka libsvm (1)
- weka屈伟 (1)
- job (2)
- 排序 算法 面试 (3)
- spss (2)
- 搜索引擎 (6)
- java 爬虫 (6)
- 分布式 (1)
- data ming (1)
- eclipse (6)
- 正则表达式 (1)
- 分词器 (2)
- 张孝祥 (1)
- solr (3)
- nutch (1)
- 爬虫 (4)
- lucene (3)
- 狗日的腾讯 (1)
- 我的收藏网址 (13)
- 网络 (1)
- java 数据结构 (22)
- ACM (7)
- jboss (0)
- 大纸 (10)
- maven2 (0)
- elipse (0)
- SVN使用 (2)
- office (1)
- .net (14)
- extjs4 (2)
- zhaopin (0)
- C (2)
- spring mvc (5)
- JPA (9)
- iphone (3)
- css (3)
- 前端框架 (2)
- jui (1)
- dwz (1)
- joomla (1)
- im (1)
- web (2)
- 1 (0)
- 移动UI (1)
- java (1)
- jsoup (1)
- 管理模板 (2)
- javajava (1)
- kali (7)
- 单片机 (1)
- 嵌入式 (1)
- mybatis (2)
- layui (7)
- asp (12)
- asp.net (1)
- sql (1)
- c# (4)
- andorid (1)
- 地价 (1)
- yihuo (1)
- oracle (1)
最新评论
-
endual:
https://blog.csdn.net/chenxbxh2 ...
IE6 bug -
ice86rain:
你好,ES跑起来了吗?我的在tomcat启动时卡在这里Hibe ...
ES架构技术介绍 -
TopLongMan:
...
java public ,protect,friendly,private的方法权限(转) -
贝塔ZQ:
java实现操作word中的表格内容,用插件实现的话,可以试试 ...
java 读取 doc poi读取word中的表格(转) -
ysj570440569:
Maven多模块spring + springMVC + JP ...
Spring+SpringMVC+JPA
题注:很多时候用到抓取网页数据的功能,以前工作中曾经用到过,今天总结了一下
目的:抓取网页数据多是读一些地址连续的URL,获得页面信息,进而对页面DOM进行分析,处理得到粗糙的数据,然后进行加工,得到我们想要的内容。
首先选择一个地址,比如http://www.51leba.com
代码部分如下:
- try{
- URL url = new URL("http://www.51leba.com");
- URLConnection conn = url.openConnection();
- BufferedReader is = new BufferedReader(new InputStreamReader(conn.getInputStream()));
- StringBuffer buffer = new StringBuffer();
- String str;
- while((str = is.readLine()) != null){
- buffer.append(str);
- buffer.append("\n");
- }
- str = buffer.toString().replaceAll("<script(.|\n)+?</script>", "").replaceAll("<(.|\n)+?>", "").replaceAll(" ", " ");
- String[] s = str.split("\n");
- buffer = new StringBuffer();
- for(int i=0;i<s.length;i++){
- if(s[i].trim().equals("") ){
- continue;
- }else{
- buffer.append(s[i]);
- buffer.append("\n");
- }
- }
- System.out.println(buffer.toString());
- is.close();
- }catch (Exception e) {
- e.printStackTrace();
- }
得到的结果是:
发表评论
-
snmp
2020-04-13 11:07 398https://www.iteye.com/blog/zhan ... -
snmp
2020-04-10 21:33 527https://blog.csdn.net/qq_333141 ... -
服务器监控软件
2019-12-31 11:07 470[ERROR] org.hyperic.sigar.Sigar ... -
多数据源
2019-12-23 22:09 415https://gitee.com/baomidou/dyna ... -
mybatis多数据源
2019-12-23 18:09 410https://blog.csdn.net/qq_288042 ... -
springboot ueditor
2019-12-17 18:26 350https://blog.csdn.net/u01216982 ... -
java支持多数据源
2019-12-13 15:59 415spxcms是否支持多数据源 ... -
java日志
2019-12-10 12:01 260https://blog.csdn.net/peng_wei_ ... -
spring 多数据源
2019-12-06 09:55 394https://www.jb51.net/article/10 ... -
idea
2019-12-04 17:13 365https://blog.csdn.net/dengachao ... -
手机大屏
2019-11-30 16:02 307http://demo.demohuo.top/modals/ ... -
quarz配置
2019-11-08 11:48 422https://blog.csdn.net/BryantLmm ... -
mysql同步
2019-11-06 12:20 314https://blog.csdn.net/baidu_418 ... -
nginx配置多个服务
2019-11-04 20:35 714https://blog.csdn.net/everljs/a ... -
h5 加壳
2019-11-04 16:05 584https://jingyan.baidu.com/artic ... -
jeui 前端框架
2019-10-22 14:30 1126http://www.jemui.com/demo/ http ... -
jeui 维护
2019-10-22 14:29 2http://www.jemui.com/demo/ htt ... -
jeui 维护
2019-10-22 14:29 2http://www.jemui.com/demo/ -
jeui 维护
2019-10-22 14:29 2http://www.jemui.com/demo/ -
jeui 维护
2019-10-22 14:29 2http://www.jemui.com/demo/
相关推荐
java抓取网页数据实现
Java抓取网页数据的两种方法:(1)抓取原网页 (2)抓取网页JS返回数据
非常好的一个java版本的网络爬虫,下载直接可以运行。可以后台登陆然后再抓取。值得大家研究。
java网页抓取数据
Java抓取https网页数据,解决peer not authenticated异常。导入eclipse就能运行,带有所用的jar包(commons-httpclient-3.1.jar,commons-logging.jar,httpclient-4.2.5.jar,httpcore-4.2.4.jar)
java抓取网站数据
这是一个获取json网页数据的java实例
java抓取网页数据,主要用于抓取手机号和身份证查询网站的数据。
Java爬虫获取网页表格数据并保存到MySQL数据库,包含完整代码
主要介绍了Java获取网页数据步骤方法详解,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
java爬虫抓取网页数据教程.pdf
Java网页抓取数据
java抓取网页数据获取网页中所有的链接实例分享,使用方法,只要实例化HtmlParser时传入网页地址就可以了
利用HttpClient抓取网页中简单的数据,数据可存入数据库进行分析
一、使用 HttpClient 抓取网页数据 public String getHtml(String htmlurl) throws IOException { StringBuffer sb = new StringBuffer(); String acceptEncoding = ""; /* 1.生成 HttpClinet 对象并设置参数 */...
java爬虫抓取网页数据教程(20210809124656).pdf
可以直接运行。java利用htmlparser抓取网页数据
通过java抓取任何指定网页的数据,里面介绍了java如何实现抓取技术,抓取指定的网页数据并解析
在文件里面,数据的抓取为正则表达式方式抓取数据 实现的方式有。 1.根据文件中出现的字符进行抓取。 2。可以抓取前后2端的中间数据 3。可以抓取前后(不包括前端和后端的数据)的中间的数据。 还有,懒的说了。上...
使用java+jsoup进行网页数据的抓取,提取自己想要的数据