|
很久没把自己做的东西拿出来和大家分享了,今天总算想到可以写一些东西了。嘿嘿" 5 y. v( M) u6 Z3 ~ z
美女图片爬虫程序很简单,就是从目标网站上将一些美女图片抓取下来,并按文件夹的方式归类存放(默认保存路径D:Girl)。- B8 s# Z7 @/ X) m0 h
现在以 http://www.36mn.com/网站为例,将论坛上面的一个个图片抓取下来慢慢欣赏。
8 | u2 O7 C2 L: G$ K程序说明:
B4 [$ v9 }, q% Z3 ycom.th.spider.Main 运行这个抓取美女图片
& {# S, B! L; m# ycom.th.spider.test.* 样例程序% C8 P% r) z2
com.th.spider.CookieLogin 模拟登陆实例# D2 U# w( L! F" M f+ J, k; F; _
com.th.spider.Clean 清除没图片的目录和无效图片目录/ C4 @1 l7 Z. L7 X
+ g) n) q/ V. j1 R' u
" S; U/ E M K& u+ Z7 T3 M
用技术创造快感!!!! 嘿嘿! a3 T3 j5 C6 a$ {9 K( R
* u5 ~! L# `& cEmail:wellse@qq.com
9 ~8 O5 T3 }" @; P; P2 m4 c9 a' S) s
1 G1 O: x& J9 ~5 @下载资源:' _& F; B" L- Z U3 q8 z' l
C% t$ s9 f$ S0 k; v
图片抓取代码.zip
3 z+ q8 ~9 J0 F ^1 L% W+ a3 j3 h. ~' Y4 m# B& R# `4 ^; f/ z3 m/ j& A# s4 Q
5 T6 b6 ?, e* w0 n" u% e2 v+ E2 y" ^0 b t8 O
网络爬虫原理与实战PPT.zip6 N# ^6 @ i6 m; J& Z
3 ^" r, [/ M' W1 u
主要技术:0 p2 W- " @$ X( S
Jsoup、HttpClient.
! X) Q: i2 ~. Q2 t( Y4 S$ j; n4 Y4 m/ ^3 p. P9 G
配置说明:- ]8 z4 `. Y' r' y* d
config.properties
% N6 o6 C; {6 X7 J: M* 8 k z
#保存目录' ?; I* J7 X: ~
save.dir=D:/GIRL' k9 M: d0 k% E0 D& `
#网站根路径#5 v3 t0 F ?9 f9 K5 E* M. N, T& c2 g
url.base=http://www.36mn.com/
% R" e4 S+ X9 s' q. b6 I y4 v# s/ q( Q! P#URL访问模板
* }; S: M( ]& W3 n; gurl.template=http://www.36mn.com/forum-62-#page#.html! _- K/ p: a/ v5 V+ ^0 V$ J
#开始PAGE 替换url.template中page参数#2 }' a! k, P2 H% p1 c
page.start=1
/ @7 . ~" p! U#结束PAGE 替换url.template中page参数#
1 s7 ]0 E+ F6 k9 e% `page.end=2, . v" f* k. V+ q2 N4 J2 z- H3 C
#线程池大小,并发抓取图片的最大线程数#
4 f" Q5 a- T8 [/ `+ o' _thread.pool.size=50
" X" V- E @; R! {! M6 w' I
4 o8 @! u! l$ D! E' L配置中的page.start 和 page.end 指定了抓取论坛开始页到结束页,如果想抓取整个论坛的就page.start=1,page.end=100吧。9 ^) Z" m2 {! `0 M9 G
配置目录save.dir 默认会创建一个D:/GIRL的目录,用户保存抓取图片。图片保存方式:D:/GIRL/页号/帖子名/图片名
& W, _; j t) V" ^3 q/ C
; A) p6 v# U; t7 a3 u; [1 M抓取思路:
6 _. O% f7 [2 k! `) Y" t1.获取论坛中的每个帖子标题和连接。
; Z1 x: t0 Z& I2 f, [2.请求帖子连接返回帖子内容。
$ v% S; T. A; x+ F4 G3 A$ K3.分析获取图片的URL。
# p, ) s1 D& z! F. e- e4.定位URL下载图片到本地。 |
|