Rate Crawler

对数据库中未爬取评论的商品进行商品评论的爬取

用法

在项目中引入爬虫,示例

生成评论爬虫实例

from taobao_crawler.crawler.rate import RateCrawler
rate_crawler = RateCrawler(db)

RateCrawler(db) 中的 db 参见 DB

运行评论爬虫

rate_crawler.run()

数据示例

{
    "_id" : ObjectId("5a1d600db0d7ee38b9b0c942"),
    "buyCount" : 0,
    "useful" : true,
    "item_id" : "560697135358",
    "rate_id" : NumberLong("331495062062"),
    "rateDate" : "2017-11-23 23:16:40",
    "rate_content" : "挺棒的手机 快递也快非常满意",
    "auctionSku" : "机身颜色:香槟色;套餐类型:官方标配;存储容量:64GB;版本类型:中国大陆",
    "anony" : true,
    "size_info" : "机身颜色:香槟色;套餐类型:官方标配;存储容量:64GB;版本类型:中国大陆"
}

类属性

class crawler.rate.RateCrawler(db, timeout=3)

Bases: object

从数据库中寻取未爬取评论的商品,爬取其所有评论,并插入至数据库中。 插入数据示例:{ “buyCount” : 0, “useful” : true, “item_id” : “560697135358”, “rate_id” : NumberLong(“331495062062”), “rateDate” : “2017-11-23 23:16:40”, “rate_content” : “挺棒的手机 快递也快非常满意”, “auctionSku” : “机身颜色:香槟色;套餐类型:官方标配;存储容量:64GB;版本类型:中国大陆”, “anony” : true, “size_info” : “机身颜色:香槟色;套餐类型:官方标配;存储容量:64GB;版本类型:中国大陆” }

__init__(db, timeout=3)

初始化 RateCrawler 实例

参数:
  • db – 一个 pymongo.MongoClient.db 的实例
  • timeout – 爬取超时时间, 默认值为 3
run()

运行商品评论爬虫,插入至数据库中。