當前位置:首頁 » 電影知識 » 怎麼用爬蟲爬資源下載電影

怎麼用爬蟲爬資源下載電影

發布時間: 2022-10-20 13:19:15

1. python爬蟲抓取電影top20排名怎麼寫

初步接觸python爬蟲(其實python也是才起步),發現一段代碼研究了一下,覺得還比較有用處,Mark下。
上代碼:

#!/usr/bin/python#coding=utf-8#Author: Andrew_liu#mender:cy"""
一個簡單的Python爬蟲, 用於抓取豆瓣電影Top前100的電影的名稱
Anthor: Andrew_liu
mender:cy
Version: 0.0.2
Date: 2017-03-02
Language: Python2.7.12
Editor: JetBrains PyCharm 4.5.4
"""import stringimport reimport urllib2import timeclass DouBanSpider(object) :
"""類的簡要說明
主要用於抓取豆瓣Top100的電影名稱

Attributes:
page: 用於表示當前所處的抓取頁面
cur_url: 用於表示當前爭取抓取頁面的url
datas: 存儲處理好的抓取到的電影名稱
_top_num: 用於記錄當前的top號碼
"""

def __init__(self):
self.page = 1
self.cur_url = "h0?start={page}&filter=&type="
self.datas = []
self._top_num = 1
print u"豆瓣電影爬蟲准備就緒, 准備爬取數據..."

def get_page(self, cur_page):
"""
根據當前頁碼爬取網頁HTML
Args:
cur_page: 表示當前所抓取的網站頁碼
Returns:
返回抓取到整個頁面的HTML(unicode編碼)
Raises:
URLError:url引發的異常
"""
url = self.cur_url try:
my_page = urllib2.urlopen(url.format(page=(cur_page - 1) * 25)).read().decode("utf-8") except urllib2.URLError, e: if hasattr(e, "code"): print "The server couldn't fulfill the request."
print "Error code: %s" % e.code elif hasattr(e, "reason"): print "We failed to reach a server. Please check your url and read the Reason"
print "Reason: %s" % e.reason return my_page def find_title(self, my_page):
"""
通過返回的整個網頁HTML, 正則匹配前100的電影名稱

Args:
my_page: 傳入頁面的HTML文本用於正則匹配
"""
temp_data = []
movie_items = re.findall(r'<span.*?class="title">(.*?)</span>', my_page, re.S) for index, item in enumerate(movie_items): if item.find("&nbsp") == -1:
temp_data.append("Top" + str(self._top_num) + " " + item)
self._top_num += 1
self.datas.extend(temp_data) def start_spider(self):
"""
爬蟲入口, 並控制爬蟲抓取頁面的范圍
"""
while self.page <= 4:
my_page = self.get_page(self.page)
self.find_title(my_page)
self.page += 1def main():
print u"""
###############################
一個簡單的豆瓣電影前100爬蟲
Author: Andrew_liu
mender: cy
Version: 0.0.2
Date: 2017-03-02
###############################
"""
my_spider = DouBanSpider()
my_spider.start_spider()
fobj = open('/data/moxiaokai/HelloWorld/cyTest/blogcode/top_move.txt', 'w+') for item in my_spider.datas: print item
fobj.write(item.encode("utf-8")+' ')
time.sleep(0.1) print u"豆瓣爬蟲爬取完成"if __name__ == '__main__':
main()

運行結果:

2. 用Python爬蟲爬取愛奇藝上的VIP電影視頻,是違法行為嗎

屬於違法行為,情節嚴重者,愛奇藝將有權對您追究法律責任

3. Python中怎麼用爬蟲爬

Python爬蟲可以爬取的東西有很多,Python爬蟲怎麼學?簡單的分析下:
如果你仔細觀察,就不難發現,懂爬蟲、學習爬蟲的人越來越多,一方面,互聯網可以獲取的數據越來越多,另一方面,像 Python這樣的編程語言提供越來越多的優秀工具,讓爬蟲變得簡單、容易上手。
利用爬蟲我們可以獲取大量的價值數據,從而獲得感性認識中不能得到的信息,比如:
知乎:爬取優質答案,為你篩選出各話題下最優質的內容。
淘寶、京東:抓取商品、評論及銷量數據,對各種商品及用戶的消費場景進行分析。
安居客、鏈家:抓取房產買賣及租售信息,分析房價變化趨勢、做不同區域的房價分析。
拉勾網、智聯:爬取各類職位信息,分析各行業人才需求情況及薪資水平。
雪球網:抓取雪球高回報用戶的行為,對股票市場進行分析和預測。
爬蟲是入門Python最好的方式,沒有之一。Python有很多應用的方向,比如後台開發、web開發、科學計算等等,但爬蟲對於初學者而言更友好,原理簡單,幾行代碼就能實現基本的爬蟲,學習的過程更加平滑,你能體會更大的成就感。
掌握基本的爬蟲後,你再去學習Python數據分析、web開發甚至機器學習,都會更得心應手。因為這個過程中,Python基本語法、庫的使用,以及如何查找文檔你都非常熟悉了。
對於小白來說,爬蟲可能是一件非常復雜、技術門檻很高的事情。比如有人認為學爬蟲必須精通 Python,然後哼哧哼哧系統學習 Python 的每個知識點,很久之後發現仍然爬不了數據;有的人則認為先要掌握網頁的知識,遂開始 HTMLCSS,結果入了前端的坑,瘁……
但掌握正確的方法,在短時間內做到能夠爬取主流網站的數據,其實非常容易實現,但建議你從一開始就要有一個具體的目標。
在目標的驅動下,你的學習才會更加精準和高效。那些所有你認為必須的前置知識,都是可以在完成目標的過程中學到的。這里給你一條平滑的、零基礎快速入門的學習路徑。
1.學習 Python 包並實現基本的爬蟲過程
2.了解非結構化數據的存儲
3.學習scrapy,搭建工程化爬蟲
4.學習資料庫知識,應對大規模數據存儲與提取
5.掌握各種技巧,應對特殊網站的反爬措施
6.分布式爬蟲,實現大規模並發採集,提升效率

4. python scrapy爬蟲豆瓣的「載入更多」 應該怎麼爬到所有的電影

不說具體,說思路。
你要分析 當你點擊 載入更多 時,瀏覽器都做了什麼(他是怎麼取回 "更多數據"的)
然後在scrapy中模擬這一過程!

5. 怎麼下載爬蟲啊

爬蟲是網路採集的一種方式,是採取數據的。我用過的一個方法,給你介紹下,那就是HTTP代理。HTTP代理主要作用就是可以更換我們電腦的IP,而爬取數據的時候,如果一直用一個IP就容易被屏蔽,對於代理的認識也有一些誤區。
爬蟲的時候,使用閃雲代理HTTP代理,可以選擇高匿名代理,不僅可以隱藏真是的IP,也可以躲避伺服器,像一個真正的用戶在訪問一樣。而透明代理和普通代理並不好用,雖然也有效果,但會被伺服器識別出來使用代理IP。因此不適合進行爬蟲業務,好了,聊到這了,你也應該知道你說的那種下載爬蟲其實就是一個程序而已。

6. 畢業設計:android 網路電影 爬蟲 抓包

建議你換一個, 網路爬蟲抓包這些開發都非常復雜,還不如來點簡單實用的,本人做了很多android的應用開發, 可以勾通一下, 看看哪個比較適合。

7. 論壇里需要VIP賬號才能下載資源,怎麼用網路爬蟲獲取它的下載地址.先給50 ,答對了再加。速度解決

現在主流的論壇主要是使用DZ論壇,具有完善的附件管理和許可權控制,沒有明顯的漏洞可以利用,這些文件都是動態通過程序進行下載的,不是你找到了目錄就能通過HTTP方式進行下載的。
與其你在這里這么籠統的說要下載,不如說出你想要什麼資源,這樣說不定可以幫你進行替代資源的查找,特別是程序文檔類的,經常不止一個地方有。

Good Luck~

8. 如何用爬蟲爬取網頁上的數據

用爬蟲框架Scrapy, 三步
定義item類
開發spider類
開發pipeline
如果你想要更透的信息,你可以參考《瘋狂python講義》

9. 如何爬取別人網站的視頻資源放到自己的網站

通過視頻的URL,使用KeepVid能從YouTube獲取到視頻文件,而且提供多種格式的視頻文件形式下載。

目前支持的視頻網站有(其中就有我朝的tudou):

youtube.com(youtu.be)
megavideo.com
dailymotion.com
twitvid.com
tudou.com
videoweed.es
stagevu.com
vbox7.com
zshare.net
v.9you.com
altervideo.net
clip.vn
divxstage.eu

Java applet做的,研究研究對你應該有幫助。

KeepVidDownloader.java

10. java網路爬蟲爬取web視頻資源,並下載怎麼做

/*這是個下載圖片的爬蟲,給你參考一下*/

import java.io.File;
import java.net.URL;
import java.net.URLConnection;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.Scanner;
import java.util.UUID;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class DownMM {
public static void main(String[] args) throws Exception {
//out為輸出的路徑,注意要以\\結尾
String out = "D:\\JSP\\pic\\java\\";
try{
File f = new File(out);
if(! f.exists()) {
f.mkdirs();
}
}catch(Exception e){
System.out.println("no");
}

String url = "http://www.mzitu.com/share/comment-page-";
Pattern reg = Pattern.compile("<img src=\"(.*?)\"");
for(int j=0, i=1; i<=10; i++){
URL uu = new URL(url+i);
URLConnection conn = uu.openConnection();
conn.setRequestProperty("User-Agent", "Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko");
Scanner sc = new Scanner(conn.getInputStream());
Matcher m = reg.matcher(sc.useDelimiter("\\A").next());
while(m.find()){
Files.(new URL(m.group(1)).openStream(), Paths.get(out + UUID.randomUUID() + ".jpg"));
System.out.println("已下載:"+j++);
}
}
}
}

熱點內容
日本綜藝中國電影完整版 發布:2023-08-31 22:05:04 瀏覽:1725
日本污電影推薦 發布:2023-08-31 22:03:58 瀏覽:693
北京電影學院有哪些小演員 發布:2023-08-31 22:01:10 瀏覽:1682
日本電影女主割下男主 發布:2023-08-31 21:58:33 瀏覽:1425
一個法國女孩剪短頭發電影 發布:2023-08-31 21:57:38 瀏覽:1414
日本電影主角平田一郎 發布:2023-08-31 21:54:07 瀏覽:1062
電影票為什麼搶不到 發布:2023-08-31 21:52:52 瀏覽:1345
電影院眼鏡嗎 發布:2023-08-31 21:50:27 瀏覽:767
港劇曉梅是哪個電影 發布:2023-08-31 21:50:15 瀏覽:802
書生娶個鬼老婆是什麼電影 發布:2023-08-31 21:49:25 瀏覽:857