利用Python找命中註定的另一半，大家不可信，畢竟這篇神級教程！

既然是Python程式設計師找美女，就要用python程式設計師的方法。

今天我們的目標是，爬社群的美女而且，我們又要用到新的姿勢（霧）了scrapy爬蟲框架~

1scrapy原理

在寫過幾個爬蟲程式之後，我們就知道，利用爬蟲獲取資料大概的步驟：請求網頁，獲取網頁，匹配資訊，下載資料，資料清洗，存入資料庫。

scrapy是一個很有名的爬蟲框架，可以很方便的進行網頁資訊爬取。那麼scrapy到底是如何工作的呢？之前在網上看了不少scrapy入門的教程，大多數入門教程都配有這張圖。

（：зゝ∠）也不知道是這張圖實在太經典了，還是程式設計師們都懶得畫圖，第一次看到這個圖的時候，米醬的心情是這樣的

經過了一番深入的理解，大概知道這幅圖的意思，讓我來舉個栗子（是的，我又要舉奇怪的栗子了）：

If you want to study Python ？

I share（分享） a q-u-n for you：七二五-479-二一八

（big 量自廖 study vido。。。。）

當我們想吃東西的時候，我們會出門，走到街上，尋找一家想吃的點，然後點餐，服務員再通知廚房去做，最後菜到餐桌上，或者被打包帶走。這就是爬蟲程式在做的事，它要將所有獲取資料需要進行的操作，都寫好。

而scrapy就像一個點餐app一般的存在，在訂餐列表（spiders）選取自己目標餐廳裡想吃的菜（items），在收貨（pipeline）處寫上自己的收貨地址（儲存方式），點餐系統（scrapy engine）會根據訂餐情況要求商鋪（Internet）的廚房（download）將菜做好，由於會產生多個外賣取貨訂單（request），系統會根據派單（schedule）分配外賣小哥從廚房取貨（request）和送貨（response）。說著說著我都餓了。。。。

什麼意思呢？在使用scrapy時，我們只需要設定spiders（想要爬取的內容），pipeline（資料的清洗，資料的儲存方式），還有一個middlewares，是各功能間對接時的一些設定，就可以不用操心其他的過程，一切交給scrapy模組來完成。

2建立scrapy工程

安裝scrapy之後，建立一個新專案

用pycharm的人都應該知道怎麼操作！！

我用的是pycharm編譯器，在spiders檔案下建立zhihuxjj。py

3 爬取規則制定（spider）

建立好了專案，讓我們來看一下我們要吃的店和菜…哦不，要爬的網站和資料。

我選用了知乎作為爬取平臺，知乎是沒有使用者從1到n的序列id的，每個人可以設定自己的個人主頁id，且為唯一。所以採選了選取一枚種子使用者，爬取他的關注者，也可以關注者和粉絲一起爬，考慮到粉絲中有些三無使用者，我僅選擇了爬取關注者列表，再透過關注者主頁爬取關注者的關注者，如此遞迴。

對於程式的設計，是這樣的。

start url是scrapy中的一個標誌性的值，它用於設定爬蟲程式的開始，也就是從哪裡開始爬，按照設定，從種子使用者個人主頁開始爬便是正義，但是考慮到個人主頁的連結會進行重複使用，所以在這裡我將起始url設成了知乎主頁。

之後就是種子使用者的個人主頁，知乎粉絲多的大V很多，但是關注多的人就比較難發現了，這裡我選擇了知乎的黃繼新，聯合創始人，想必關注了不少優質使用者（）。

分析一下個人主頁可知，個人主頁由‘https：//www。zhihu。com/people/’ + 使用者id 組成，我們要獲取的資訊是用callback回撥函式（敲黑板！！劃重點！！）的方式設計，這裡一共設計了兩個回撥函式：使用者的關注列表和關注者的個人資訊。

使用chrome瀏覽器檢視上圖的頁面可知獲取關注列表的url，以及關注者的使用者id。

將滑鼠放在使用者名稱上。

可以獲得個人使用者資訊的url。分析url可知：

so，我們在上一節中建立的zhihuxjj。py檔案中寫入以下程式碼。

這裡需要劃重點的是yield的用法，以及item［‘name’］，將爬取結果賦值給item，就是告訴系統，這是我們要選的菜…啊呸…要爬的目標資料。

4設定其他資訊

在items。py檔案中，按照spider中設定的目標資料item，新增對應的程式碼。

在pipeline。py中新增存入資料庫的程式碼（資料庫咋用上一篇文章寫了哦~）。

因為使用了pipeline。py，所以我們還需要再setting。py檔案中，將ITEM_PIPELINE註釋解除，這裡起到連線兩個檔案的作用。

好像…還忘了點什麼，對了，忘記設定headers了。通用的設定headers的方法同樣是在setting。py檔案中，將DEFAULTREQUESTHEADERS的程式碼註釋狀態取消，並設定模擬瀏覽器頭。知乎是要模擬登入的，如果使用遊客方式登入，就需要新增authorization，至於這個authorization是如何獲取的，我，就，不，告，訴，你（逃