簡單的抓取圖片的Python爬蟲

當前位置：首頁 > 范文|應用文 > IT技術專欄 > 腳本欄目

簡單的抓取圖片的Python爬蟲

來源：易賢網閱讀：2024 次日期：2015-01-03 10:41:08

溫馨提示：易賢網小編為您整理了“簡單的抓取圖片的Python爬蟲”,方便廣大網友查閱！

代碼如下:

# -*- coding: cp936 -*-

import urllib2

import urllib

mmurl="http://xxxxxx.com/json/request_top_list.htm?type=0&page="

i=0#第二頁有個人的頁面沒圖片,會出現IO錯誤

while i<15:

url=mmurl+str(i)

#print url #打印出列表的url

up=urllib2.urlopen(url)#打開頁面，存入句柄中

cont=up.read()

#print len(cont)#頁面的長度

ahref='<a href="http'#篩選頁面內網頁鏈接的關鍵字

target="target"

pa=cont.find(ahref)#找出網頁鏈接的頭部位置

pt=cont.find(target,pa)#找出網頁鏈接的尾部位置

for a in range(0,20):#如才能不把20硬編碼進去？如何找到文件結尾？

urlx=cont[pa+len(ahref)-4:pt-2]#從頭部到尾部，將網頁鏈接存入變量

if len(urlx) < 60:#如果網頁鏈接長度適合【len（）?。。?！】

urla=urlx #那么就準備將其打印出來

print urla #這是想要的model個人URL

#########以下開始對model個人的URL進行操作#########

mup=urllib2.urlopen(urla)#打開model個人的頁面，存入句柄中

mcont=mup.read()#對model頁面的句柄進行讀出操作，存入mcont字符串

imgh="<img style=" #篩選頁面內【圖片】鏈接的關鍵字

imgt=".jpg"

iph=mcont.find(imgh)#找出【圖片】鏈接的頭部位置

ipt=mcont.find(imgt,iph)#找出【圖片】鏈接的尾部位置

for b in range(0,10):#又是硬編碼····

mpic=mcont[iph:ipt+len(imgt)]#原始圖片鏈接，鏈接字符的噪聲太大

iph1=mpic.find("http")#對上面的鏈接再過濾一次

ipt1=mpic.find(imgt) #同上

picx=mpic[iph1:ipt1+len(imgt)]

if len(picx)<150:#仍有一些URL是“http：ss.png><dfsdf>.jpg”(設為100竟然會誤傷)

pica=picx #【是len(picx)<100而不是picx!!】不然會不顯示

print pica

############################

###########開始下載pica這個圖片

urllib.urlretrieve(pica,"pic\\tb"+str(i)+"x"+str(a)+"x"+str(b)+".jpg")

########### pica圖片下載完畢.(加上各循環體的數字，以免名字重復)

############################

iph=mcont.find(imgh,iph+len(imgh))#開始下一個循環

ipt=mcont.find(imgt,iph)

############model個人URL內的【圖片鏈接】提取完畢##########

pa=cont.find(ahref,pa+len(ahref))#將原來的頭部位作為起始點，繼續向后找下一個頭部

pt=cont.find(target,pa)#繼續找下一個尾部

i+=1

更多信息請查看IT技術專欄

上一篇：python執行shell獲取硬件參數寫入mysql的方法

下一篇：簡單使用Python自動生成文章

易賢網手機網站地址：簡單的抓取圖片的Python爬蟲

由于各方面情況的不斷調整與變化，易賢網提供的所有考試信息和咨詢回復僅供參考，敬請考生以權威部門公布的正式信息和咨詢為準！

相關閱讀腳本欄目

Bottle框架中的裝飾器類和描述符應用詳解10月30日

Python探索之SocketServer詳解10月30日

Python探索之實現一個簡單的HTTP服務器10月30日

python探索之BaseHTTPServer-實現Web服務器介紹10月30日

13個最常用的Python深度學習庫介紹10月30日

深入理解Python中的*重復運算符10月30日

python logging日志模塊詳解10月30日

System表空間不足的報警問題淺析10月22日

Android開發自定義TextView省略號樣式的方法10月22日

MySQL 清除表空間碎片的實例詳解10月22日

Ubuntu下MySQL安裝及配置遠程登錄教程10月22日

Python 2.x如何設置命令執行的超時時間實例10月22日

windows 64位下redis安裝教程10月22日

Android 自定義 HorizontalScrollView 打造多圖片OOM 的橫向滑動效果10月22日

淺談Node Inspector 代理實現10月22日

java web開發之購物車功能實現示例代碼10月22日

Android開發中GridView用法示例10月22日

Django ORM框架的定時任務如何使用詳解10月22日

SpringMail使用過程中的報錯解決辦法10月22日

Android 使用自定義RecyclerView控件實現Gallery效果10月22日

易賢網移動網站

2026國考·省考課程試聽報名

報班類型
姓名
手機號
驗證碼