Rate Crawler¶
对数据库中未爬取评论的商品进行商品评论的爬取
用法¶
在项目中引入爬虫,示例
生成评论爬虫实例¶
from taobao_crawler.crawler.rate import RateCrawler
rate_crawler = RateCrawler(db)
RateCrawler(db)
中的 db
参见 DB
运行评论爬虫¶
rate_crawler.run()
数据示例¶
{
"_id" : ObjectId("5a1d600db0d7ee38b9b0c942"),
"buyCount" : 0,
"useful" : true,
"item_id" : "560697135358",
"rate_id" : NumberLong("331495062062"),
"rateDate" : "2017-11-23 23:16:40",
"rate_content" : "挺棒的手机 快递也快非常满意",
"auctionSku" : "机身颜色:香槟色;套餐类型:官方标配;存储容量:64GB;版本类型:中国大陆",
"anony" : true,
"size_info" : "机身颜色:香槟色;套餐类型:官方标配;存储容量:64GB;版本类型:中国大陆"
}
类属性¶
-
class
crawler.rate.
RateCrawler
(db, timeout=3)¶ Bases:
object
从数据库中寻取未爬取评论的商品,爬取其所有评论,并插入至数据库中。 插入数据示例:{ “buyCount” : 0, “useful” : true, “item_id” : “560697135358”, “rate_id” : NumberLong(“331495062062”), “rateDate” : “2017-11-23 23:16:40”, “rate_content” : “挺棒的手机 快递也快非常满意”, “auctionSku” : “机身颜色:香槟色;套餐类型:官方标配;存储容量:64GB;版本类型:中国大陆”, “anony” : true, “size_info” : “机身颜色:香槟色;套餐类型:官方标配;存储容量:64GB;版本类型:中国大陆” }
-
__init__
(db, timeout=3)¶ 初始化 RateCrawler 实例
参数: - db – 一个 pymongo.MongoClient.db 的实例
- timeout – 爬取超时时间, 默认值为 3
-
run
()¶ 运行商品评论爬虫,插入至数据库中。
-