利用scrapy爬取知乎信息(二)

4、将数据存入mongoDB 我们在前面已经安装了pymongo,我们可以借助其来进行对mongoDB的操作。打开pipelines.py,在这里面我们可以对Item进行一些操作,例如对其进行一些清洗、验证、数据库储存等等。...

  • summer
  • Python
  • 2018-11-11
  • 487已阅读

利用scrapy爬取知乎信息(一)

0、前言 最近学习了一下scrapy框架,为了加深对scrapy的认识,就利用其爬取了知乎用户信息、问题、回答、文章等数据,并将其存入mongoDB之中。在这里把大致的过程记录一下。 项目依赖:scrapy、redis、pymon...

  • summer
  • Python
  • 2018-11-7
  • 439已阅读

Django Channels 实现点对点实时聊天(方法二)

在前面一篇博客中,提到了一种完全依赖websocket来传递消息的实时聊天方法。在这里,我们再介绍另一种方法,也是依赖了websocket,但是在这里websocket起到的作用和消息推送一模一样。具体方法如下 开始方法与上一篇文章类似,新建一个consumers.py文...

  • summer
  • Python
  • 2018-10-31
  • 1396已阅读

i春秋 web题 write up

Who you are? 进入题目链接,发现显示 Sorry. You have no permi...

PHP 各种绕过(小结)

一:strcmp()漏洞 int strcmp ( string $str1 , string $str2 )<...

PHP处理0e开头md5哈希字符串缺陷(小结)

PHP在处理哈希字符串时,会利用”!=”或”==”来对哈希值进行比较,它把每一个以”

Python爬虫(三)—— 正则表达式

正则表达式是处理字符串的强大工具,我们可以通过正则表达式来实现字符串的检索、替换和匹配。因此对于爬虫而言,通过正则表达式就可以从html页面里面提取到对我们有利的信息。 ...

  • summer
  • Python
  • 2018-09-17
  • 369已阅读

Python爬虫(二)—— 使用requests

概况:requests是一个十分强大的爬虫工具库,通过它我们可以更加方便的实现urllib的操作,如cookies、登录验证、代理设置。 一、安装requests

  • summer
  • Python
  • 2018-09-16
  • 645已阅读

Python爬虫(一)

以前也接触过爬虫,但是却没有认真的从基础开始学习,只是会简单的用requests和beautiful soup来获取一些简单的数据,而对于更多的爬虫工具,例如scrapy,pysipder,pyquery,分布式爬虫等等确实没有了解。 最近也没有什么方向,所以就打算认真的学习学习爬虫,好让自...

  • summer
  • Python
  • 2018-09-16
  • 401已阅读

相关图书分享

Python图书: Effective Python:编写高质量代码改善Python程序的91个建...

Top