Python爬虫之mongodb介绍和安装

时间：2022-10-14 12:37:01浏览次数：94

标签：NoSQL 数据 Python mongodb 数据库爬虫 SQL 安装

Mongodb的介绍和安装

学习目标

了解非关系型数据库的优势
了解 mongodb的安装

1. mongodb的介绍

1.1 什么是mongodb

mongodb 是一个功能最丰富的NoSQL非关系数据库。由 C++ 语言编写。
mongodb 本身提供S端存储数据，即server；也提供C端操作处理（如查询等）数据，即client。

1.2 SQL和NoSQL的主要区别

在SQL中层级关系：数据库>表>数据
而在NoSQL中则是：数据库>集合>文档

1.2.1 数据之间无关联性

SQL中如何需要增加外部关联数据的话，规范化做法是在原表中增加一个外键，关联外部数据表。
NoSQL则可以把外部数据直接放到原数据集中，以提高查询效率。缺点也比较明显，对关联数据做更新时会比较麻烦。
SQL中在一个表中的每条数据的字段是固定的。而NoSQL中的一个集合(表)中的每条文档(数据)的key(字段)可以是互不相同的。

1.2.2 拓展阅读

https://www.cnblogs.com/jeakeven/p/5402095.html

1.3 mongodb作为非关系型数据库相较于关系型数据库的优势

易扩展： NoSQL数据库种类繁多，但是一个共同的特点都是去掉关系数据库的关系型特性。数据之间无关系，这样就非常容易扩展
大数据量，高性能： NoSQL数据库都具有非常高的读写性能，尤其在大数据量下表现优秀。这得益于它的非关系性，数据库的结构简单
灵活的数据模型： NoSQL无需事先为要存储的数据建立字段，随时可以存储自定义的数据格式。而在关系数据库中，增删字段是一件非常麻烦的事情。如果是非常大数据量的表，增加字段简直就是一个噩梦

2. mongodb的安装

以ubuntu18.04为例

mongodb具有两种安装方式：命令安装或源码安装

2.1 命令安装

在ubuntu中使用apt-get工具安装

sudo apt-get install -y mongodb-org

或参考官方文档 https://docs.mongodb.com/manual/tutorial/install-mongodb-on-ubuntu/

2.2 源码安装

2.2.1 选择相应版本和操作系统并下载

https://www.mongodb.com/download-center/community?jmp=docs

2.2.2 解压

tar -zxvf mongodb-linux-x86_64-ubuntu1804-4.0.3.tgz

2.2.3 移动到/usr/local/目录下

sudo mv -r mongodb-linux-x86_64-ubuntu1804-4.0.3/ /usr/local/mongodb

2.2.4 在shell的初始化脚本.bashrc中添加mongodb可执行文件到环境变量PATH中

a. 进入.bashrc文件中

cd ~
sudo vi .bashrc

b. 在.bashrc文件的最后添加：

export PATH=/usr/local/mongodb/bin:$PATH

3. mongodb的官方文档

https://docs.mongodb.com/manual/introduction/

小结

了解非关系型数据库的优势

易扩展
高性能
灵活的数据字段

了解 mongodb的安装

sudo apt-get install -y mongodb-org

标签：NoSQL,数据,Python,mongodb,数据库,爬虫,SQL,安装
From： https://blog.51cto.com/u_15829196/5756198

Python爬虫之scrapy_splash组件的使用
scrapy_splash组件的使用学习目标了解scrapy_splash组件的作用了解scrapy_splash组件的使用1.什么是scrapy_splash？scrapy_splash是scrapy的一个组件scrapy-splash加载js......
Python爬虫之http协议复习
http协议复习知识点掌握http以及https的概念和默认端口掌握爬虫关注的请求头和响应头了解常见的响应状态码理解浏览器和爬虫爬取的区别一提起http协议，大家都会想起它是......
三点共圆的计算代码（Python版本）
已知三点坐标，计算圆心和半径defcalc_circle_center_and_radius(p1,p2,p3):x1=p1.xy1=p1.yz1=p1.zx2=p2.xy2=p2.yz2=p2......
python切片；列表增删改查；列表（加乘法）；列表表达式
[开始：结束：步长] 倒序输出 2、列表增删改查（1）append() 一次只能添加一个元素（2）extend（）方法，一次课添加一个可迭代对象 extend（）方法的参数必......
python-时间操作
1. 获取当前时间importtime# 获取当前日期时间返回值：当前日期时间defget_now_time():now=time.localtime()now_time=time.strftime("%Y-%m-......
Python人工智能经典算法之线性回归
1.9k近邻算法总结[**]优点：1.简单有效2.重新训练代价底3.适合类域交叉样本4.适合大样本自动分类缺点：1.惰性学习2......
Python爬虫之数据提取概述
数据提取概述知识点了解响应内容的分类了解xml和html的区别1.响应内容的分类在发送请求获取响应之后，可能存在多种不同类型的响应内容；而且很多时候，我们只需要响应内容中的......
Python爬虫之数据提取-selenium定位获取标签对象并提取数据
selenium提取数据知识点：了解driver对象的常用属性和方法掌握driver对象定位标签元素获取标签对象的方法掌握标签对象提取文本和属性值的方法1.driver对象的常用属性和方......
Python爬虫之scrapy的日志信息与配置
scrapy的日志信息与配置学习目标：了解scrapy的日志信息掌握scrapy的常用配置掌握scrapy_redis配置了解scrapy_splash配置了解scrapy_redis和scrapy_splash配合使用的配置1......
Python爬虫之数据提取-selenium的其它使用方法
selenium的其它使用方法知识点：掌握selenium控制标签页的切换掌握selenium控制iframe的切换掌握利用selenium获取cookie的方法掌握手动实现页面等待掌握selenium控制浏......