java网络爬虫可以爬什么数据免费分享java网络爬虫实战技巧

文章目录前言1.引入依赖：2.代码实战：3.代理说明：总结序现在说到爬虫，都是python，类库丰富。如果你不懂java，学python爬虫比较靠谱，但这就代表java不会爬吗？不是，其实在某些场景下，java

本文最后更新时间： 2023-04-22 14:06:29

文章目录

前言1.引入依赖：2.代码实战：3.代理说明：总结

序

现在说到爬虫，都是python，类库丰富。如果你不懂java，学python爬虫比较靠谱，但这就代表java不会爬吗？不是，其实在某些场景下，java爬虫更方便易用。

1.引入依赖性:

其中，java crawler使用的是jsoup类库，jsoup提供了一套非常省力的API，可以通过dom、CSS以及类似jQuery的操作方法来获取和操作数据，让你在请求网页后，对网页进行DOM操作，达到爬虫的目的。

<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.10.3</version></dependency>

2.代码实践:

案例1:
爬虫库存分析结果:

StockShow stockShow = new StockShow(); String doUrl = String.format("url", stockCode); Document doc = null; try { doc = Jsoup.connect(doUrl).get(); Elements stockName = doc.select("div[class=stockname]"); Elements stockTotal = doc.select("div[class=stocktotal]"); Elements shortStr = doc.select("li[class=short]"); Elements midStr = doc.select("li[class=mid]"); Elements longStr = doc.select("li[class=long]"); Elements stockType = doc.select("div[class=value_bar]").select("span[class=cur]"); stockShow.setStockName(stockName.get(0).text()); stockShow.setStockTotal(stockTotal.get(0).text().split("：")[1]); stockShow.setShortStr(shortStr.get(0).text().split("：")[1]); stockShow.setMidStr(midStr.get(0).text().split("：")[1]); stockShow.setLongStr(longStr.get(0).text().split("：")[1]); stockShow.setStockType(stockType.get(0).text()); } catch (IOException e) { log.error("findStockAnalysisByStockCode,{}",e.getMessage()); }

案例二:
抓取学校信息:

Campus campus = new Campus(); String doUrl = String.format(url, campusId); Document doc = null; if (StringUtils.isEmpty(arg.getIp())){ arg.setIp("transfer.moguproxy.com"); arg.setPort(9001); } try { HttpsUtil.trustEveryone(); Random r = new Random(); int random = r.nextInt(48); Connection conn = Jsoup.connect(doUrl).proxy(arg.getIp(), arg.getPort());//.timeout(10000) conn .header("Proxy-Authorization", "Basic "+"V1Vxb2syU29MbUJWTVY2RjpMTHN5TDM0c3ByQlFRM3hw").userAgent(ua[random]).timeout(30000); doc = conn.get(); Elements names = doc.select("a[class=btn btn-xs btn-primary]"); Elements type = doc.select("a[class=campus_type_fix_b link_now_active]");// doc.select("ol[class=breadcrumb]").select("li").get(4).text() Elements campusName = doc.select("ol[class=breadcrumb]").select("li"); Elements addressAndTel = doc.select("div[class=page-header]").select("p");

3.代理描述:

第一种情况没有代理ip，可以直接抢。但一般情况下，我们抓取的网站都会设置反爬虫、屏蔽ip等。，所以我们必须设置代理ip。线上案例2使用蘑菇代理的代理隧道设置代理，效果不错，如果真的需要可以购买。

摘要

当然，我上面写的两个案例只是个例。其实dom的操作方法有很多种。如果要抓取，dom的基本操作肯定是需要的，还需要一些基本的html知识。如果想和我有更多的交流，关注我的微信官方账号:Java时光之家。

温馨提示：内容均由网友自行发布提供，仅用于学习交流，如有版权问题，请联系我们。

当前网址：https://www.ieqm.com/article/4348854.html

java网络爬虫可以爬什么数据免费分享java网络爬虫实战技巧答：文章目录前言1.引入依赖：2.代码实战：3.代理说明：总结序现在说到爬虫，都是python，类库丰富。如果你不懂java，学python爬虫比较靠谱，但这就代表java不会爬吗？不是，其实在某些场景下，java...

听音乐可以避免什么疾病？(听音乐是否有益身心健康)答：我喜欢周末在听音乐，听音乐可以避免什么疾病？研究者分析认为，当我们工作时，身体会不断产生肾上腺素等应激激素,帮助我们抵抗各种感染。当积聚体内的压力被彻底释放后，会产生类似...

租赁合同解除后装修如何处理(房屋租赁合同解除装修款怎么赔偿)答：租赁合同解除，除当事人另有约定外，未形成附合的装饰装修物，可由承租人拆除。因拆除造成房屋毁损的，承租人应当恢复原状。承租人经出租人同意装饰装修，合同解除时，双方对已形成附合...

临时用工是否签订合同答：临时工可以不签订合同，只达成口头协议。《劳动合同法》第六十九条规定：“非全日制用工双方当事人可以订立口头协议。从事非全日制用工的劳动者可以与一个或者一个以上用人单位...

中国对动植物检疫徇私舞弊罪既遂的判刑标准?答：动植物检疫机关的检疫人员徇私舞弊，伪造检疫结果的，处五年以下有期徒刑或者拘役；造成严重后果的，处五年以上十年以下有期徒刑。前款所列人员严重不负责任，对应当检疫的检疫物不检...

股票开户后融资融券能马上开通吗？我原来的证券公司太远，想换一家，做短线为主，交易量蛮大的，谢谢答：您好，融资融券是需要20日日均五十万满足条件了，才可能办理的，开户只需要准备手机，身份证，银行卡，然后几分钟就搞定了哦，买创业板的股票。所以如果您想购买创业板的股票的话，需要准备...