【爬虫开发】爬虫开发从0到1全知识教程第9篇：Mongodb数据库,介绍【附代码文档】

标签：name Mongodb db 爬虫 stu 开发文档 mongodb find

本教程的知识点为：爬虫概要爬虫基础爬虫概述知识点： 1. 爬虫的概念 requests模块 requests模块知识点： 1. requests模块介绍 1.1 requests模块的作用：数据提取概要数据提取概述知识点 1. 响应内容的分类知识点：了解响应内容的分类 Selenium概要 selenium的介绍知识点： 1. selenium运行效果展示 1.1 chrome浏览器的运行效果 Selenium概要 selenium的其它使用方法知识点： 1. selenium标签页的切换知识点：掌握 selenium控制标签页的切换反爬与反反爬常见的反爬手段和解决思路学习目标 1 服务器反爬的原因 2 服务器常反什么样的爬虫反爬与反反爬验证码处理学习目标 1.图片验证码 2.图片识别引擎反爬与反反爬 JS的解析学习目标： 1 确定js的位置 1.1 观察按钮的绑定js事件 Mongodb数据库介绍内容 mongodb文档 mongodb的简单使用 Mongodb数据库介绍内容 mongodb文档 mongodb的聚合操作 Mongodb数据库介绍内容 mongodb文档 mongodb和python交互 scrapy爬虫框架介绍内容 scrapy官方文档 scrapy的入门使用 scrapy爬虫框架介绍内容 scrapy官方文档 scrapy管道的使用 scrapy爬虫框架介绍内容 scrapy官方文档 scrapy中间件的使用 scrapy爬虫框架介绍内容 scrapy官方文档 scrapy_redis原理分析并实现断点续爬以及分布式爬虫 scrapy爬虫框架介绍内容 scrapy官方文档 scrapy的日志信息与配置利用appium抓取app中的信息介绍内容 appium环境安装学习目标

完整笔记资料代码：https://gitee.com/yinuo112/Backend/tree/master/爬虫/爬虫开发从0到1全知识教程/note.md

感兴趣的小伙伴可以自取哦~

全套教程部分目录：

部分文件图片：

Mongodb数据库

介绍

在前面的中我们学习了mysql这种关系型数据库，那么接下来，我们会来学习一种非关系型数据库mongodb，mongodb数据库主要用于海量存储，常被用在数据采集项目中。

内容

mongodb的介绍和安装
mongodb的简单使用
mongodb的增删改查
mongodb的聚合操作
mongodb的索引操作
mongodb的权限管理
mongodb和python交互（pymongo模块）

mongodb文档

[

mongodb的简单使用

学习目标

掌握服务端的启动
掌握客户端的使用
掌握 mongodb的数据库和集合命令
了解文档中的_id字段

1. mongodb服务端的启动

默认端口：27017
默认配置文件的位置：/etc/mongod.conf
默认日志的位置：/var/log/mongodb/mongod.log

mongodb服务端启动分别两种方式：

本地测试方式的启动（只具有本地数据增删改查的功能）
生产环境启动（具有完整的全部功能）

1.1 测试方式启动

启动: sudo service mongod start (sudo service mongod start)
停止: sudo service mongod stop
重启: sudo service mongod restart

1.2 生产环境正式的启动方式

启动: sudo mongod [--auth --dbpath=dbpath --logpath=logpath --append --fork] [-–f logfile ]

只以 sudo mongod 命令启动时，默认将数据存放在了 /data/db 目录下，需要手动创建
--dbpath: 指定数据库的存放路径
--logpath: 指定日志的存放路径
--append: 或--logappend 设置日志的写入形式为追加模式
--fork: 或-fork 开启新的进程运行mongodb服务
--f: 或-f 配置文件路径(可以将上述配置信息写入文件然后通过该文件中的参数进行加载启动)
--auth: 以权限认证的方式启动，我们会在后边的中学习该内容

1.3 查看是否启动成功

ps aux | grep mongod

2. 启动mongodb的客户端：进入mongo shell

启动本地客户端: mongo
查看帮助：mongo –help
退出：exit或者ctrl+c

3. mongodb的简单使用

开启mongodb server的情况下，在进入mongo shell后，就可以做简单的使用了

3.1 mongodb数据库的命令

查看当前的数据库：db(没有切换数据库的情况下默认使用test数据库)
查看所有的数据库：show dbs /show databases
切换数据库：use db_name
- db_name为show dbs后返回的数据库名
删除当前的数据库：db.dropDatabase()

3.2 mongodb集合的命令

无需手动创建集合：向不存在的集合中第一次添加数据时，集合会自动被创建出来
手动创建集合：
- db.createCollection(name,options)
- db.createCollection("stu")
- db.createCollection("sub", { capped : true, size : 10 } )
- 参数capped：默认值为false表示不设置上限，值为true表示设置上限
- 参数size：集合所占用的字节数。当capped值为true时，需要指定此参数，表示上限大小，当文档达到上限时，会将之前的数据覆盖，单位为字节
查看集合：show collections
删除集合：db.集合名称.drop()
检查集合是否设定上限: db.集合名.isCapped()

3.3 简单练习

在mongo shell中输入下列命令，查看结果

show dbs
use test
show collections
db
db.stu.insert({'name':'郭靖', 'age':22})
show dbs
show collections
db.stu.find()
db.stu.drop()
show collections
db.dropDatabase()
show dbs
exit

3.3 mongodb中常见的数据类型（了解）

3.3.1 常见类型

Object ID：文档ID/数据的ID，数据的主键
String：字符串，最常用，必须是有效的UTF-8
Boolean：存储一个布尔值，true或false
Integer：整数可以是32位或64位，这取决于服务器
Double：浮点数
Arrays：数组/列表
Object： mongodb中的一条数据/文档，即文档嵌套文档
Null：存储null值
Timestamp：时间戳，表示从1970-1-1到现在的总秒数
Date：存储当前日期或时间的UNIX时间格式

3.3.2 注意点

每个文档都有一个属性，为_id，保证每个文档的唯一性，mongodb默认使用_id作为主键
- 可以手动设置_id的值，如果没有提供，那么MongoDB为每个文档提供了一个独特的_id，类型为objectID
objectID是一个12字节的十六进制数,每个字节两位，一共是24位的字符串：
- 前4个字节为当前时间戳
- 接下来3个字节的机器ID
- 接下来的2个字节中MongoDB的服务进程id
- 最后3个字节是简单的增量值

小结

服务端的启动
- sudo mongod --dbpath=数据库路径
进入mongo shell客户端
- mongo
mongodb的数据库和集合命令
- show dbs
- use db_name
- show collections
- db
- db.集合名.drop()
- db.dropDatabase()
- exit
了解文档中的_id字段

Mongodb的的增删改查

学习目标

掌握 mongodb插入数据的方法
掌握 mongodb保存数据的方法
掌握 mongodb查询数据的方法
掌握 mongodb查询结果的处理方法
掌握 mongodb更新数据的方法
掌握 mongodb删除数据的方法

1. mongodb插入数据

命令：db.集合名称.insert(document)

db.stu.insert({name:'gj', gender:1})
db.stu.insert({_id:"20170101", name:'gj', gender:1})

插文档时，如果不指定_id参数，MongoDB会为文档自动分配一个唯一的ObjectId

2. mongodb的保存

命令：db.集合名称.save(document)

db.stu.save({_id:'20170101', name:'gj', gender:2})
db.stu.save({name:'gj', gender:2})
db.stu.find()

如果文档的_id已经存在则修改，如果_id不存在则添加

3 mongodb的查询

命令：db.集合名称.find()

可以使用以下数据进行练习

db.stu.insert([{"name" : "郭靖", "hometown" : "蒙古", "age" : 20, "gender" : true },
{"name" : "黄蓉", "hometown" : "桃花岛", "age" : 18, "gender" : false },
{"name" : "华筝", "hometown" : "蒙古", "age" : 18, "gender" : false },
{"name" : "黄药师", "hometown" : "桃花岛", "age" : 40, "gender" : true },
{"name" : "段誉", "hometown" : "大理", "age" : 16, "gender" : true },
{"name" : "段王爷", "hometown" : "大理", "age" : 45, "gender" : true },
{"name" : "洪七公", "hometown" : "华筝", "age" : 18, "gender" : true }])

3.1 简单查询

方法find()：查询

db.集合名称.find({条件文档})

方法findOne()：查询，只返回第一个

db.集合名称.findOne({条件文档})

方法pretty()：将结果格式化；不能和findOne()一起使用！

db.集合名称.find({条件文档}).pretty()

3.2 比较运算符

等于：默认是等于判断，没有运算符
小于：$lt （less than）
小于等于：$lte （less than equal）
大于：$gt （greater than）
大于等于：$gte
不等于：$ne

查询年龄大于18的所有学生
db.stu.find({age:{$gte:18}})

3.3 逻辑运算符

逻辑运算符主要指与、或逻辑

and：在json中写多个条件即可

查询年龄大于或等于18， 并且性别为true的学生
db.stu.find({age:{$gte:18},gender:true})

or:使用$or，值为数组，数组中每个元素为json

查询年龄大于18， 或性别为false的学生
db.stu.find({$or:[{age:{$gt:18}},{gender:false}]})

查询年龄大于18或性别为男生， 并且姓名是郭靖
db.stu.find({$or:[{age:{$gte:18}},{gender:true}],name:'gj'})

3.4 范围运算符

使用$in， $nin 判断数据是否在某个数组内

查询年龄为18、 28的学生
db.stu.find({age:{$in:[18,28,38]}})

3.5 支持正则表达式

使用$regex编写正则表达式

查询name以'黄'开头的数据
db.stu.find({name:{$regex:'^黄'}})

3.6 自定义查询

mongo shell 是一个js的执行环境使用$where 写一个函数，返回满足条件的数据

查询年龄大于30的学生
db.stu.find({
 $where:function() {
     return this.age>30;}
})

3.7 skip和limit

方法limit()：用于读取指定数量的文档

db.集合名称.find().limit(NUMBER)
查询2条学生信息
db.stu.find().limit(2)

方法skip()：用于跳过指定数量的⽂档

db.集合名称.find().skip(NUMBER)
db.stu.find().skip(2)

同时使用

db.stu.find().limit(4).skip(5)
db.stu.find().skip(5).limit(4)

注意：先使用skip在使用limit的效率要高于前者

3.8 投影

在查询到的返回结果中，只选择必要的字段

命令：db.集合名称.find({},{字段名称:1,...})

参数为字段与值，值为1表示显示，值为0不显特别注意：

对于_id列默认是显示的，如果不显示需要明确设置为0
对于其他不显示的字段不能设置为0

db.stu.find({},{_id:0,name:1,gender:1})

3.9 排序

方法sort()，用于对查询结果按照指定的字段进行排序

命令：db.集合名称.find().sort({字段:1,...})

参数1为升序排列参数-1为降序排列

根据性别降序， 再根据年龄升序
db.stu.find().sort({gender:-1,age:1})

3.10 统计个数

方法count()用于统计结果集中文档条数

命令：db.集合名称.find({条件}).count() 命令：db.集合名称.count({条件})

db.stu.find({gender:true}).count()
db.stu.count({age:{$gt:20},gender:true})

4 mongodb的更新

db.集合名称.update({query}, {update}, {multi: boolean})

参数query:查询条件
参数update:更新操作符
参数multi:可选，默认是false，表示只更新找到的第一条数据，值为true表示把满足条件的数据全部更新

db.stu.update({name:'hr'},{name:'mnc'})           # 全文档进行覆盖更新
db.stu.update({name:'hr'},{$set:{name:'hys'}})    # 指定键值更新操作
db.stu.update({},{$set:{gender:0}},{multi:true})  # 更新全部

注意："multi update only works with $ operators"

multi参数必须和$set一起使用！

5 mongodb的删除

db.集合名称.remove({query}, {justOne: boolean})

- 参数query:可选，删除的⽂档的条件
- 参数justOne:可选， 如果设为true或1，则只删除一条，默认false，表示删除全部

小结

mongo shell中的增 db.集合名.insert({数据}) db.集合名.save({包含_id的完整数据}) # 根据指定的_id进行保存，存在则更新，不存在则插入
mongo shell中的删 db.集合名.remove({条件}, {justOne: true/false})
mongo shell中的改 db.集合名.update({条件}, {$set:{完整数据/部分字段}}, {multi: true/false})
mongo shell中的查 db.集合名.find({条件}, {字段投影})

标签：name,Mongodb,db,爬虫,stu,开发,文档,mongodb,find
From： https://blog.51cto.com/u_16958431/11901071

【爬虫开发】爬虫开发从0到1全知识教程第9篇：Mongodb数据库,介绍【附代码文档】

完整笔记资料代码：https://gitee.com/yinuo112/Backend/tree/master/爬虫/爬虫开发从0到1全知识教程/note.md

感兴趣的小伙伴可以自取哦~

全套教程部分目录：

部分文件图片：

Mongodb数据库

介绍

内容

mongodb文档

mongodb的简单使用

学习目标

1. mongodb服务端的启动

1.1 测试方式启动

1.2 生产环境正式的启动方式

1.3 查看是否启动成功

2. 启动mongodb的客户端：进入mongo shell

3. mongodb的简单使用

3.1 mongodb数据库的命令

3.2 mongodb集合的命令

3.3 简单练习

3.3 mongodb中常见的数据类型（了解）

3.3.1 常见类型

3.3.2 注意点

小结

Mongodb的的增删改查

学习目标

1. mongodb插入数据

2. mongodb的保存

3 mongodb的查询

3.1 简单查询

3.2 比较运算符

3.3 逻辑运算符

3.4 范围运算符

3.5 支持正则表达式

3.6 自定义查询

3.7 skip和limit

3.8 投影

3.9 排序

3.10 统计个数

4 mongodb的更新

5 mongodb的删除

小结

相关文章

赞助商

阅读排行