首页 > 其他分享 >数据存储

数据存储

时间:2024-01-18 20:00:48浏览次数:33  
标签:存储 img title href os self html 数据

数据存储

一、文件存储

为什么需要文件存储?

爬虫在抓取数据后,需要对抓取到的这些数据进行分析,分析完之后需要将有用的数据进行保存。保存数据有很多种方式,其中最简单的就是将数据保存在二进制文件或文本文件中。这些文件主要包括XML文件、CSV文件、JSON文件。

在对文件进行操作时,涉及到打开文件,读取文件内容,向文件写入内容,关闭文件。方法分别是(open,read,write,close)。

下面我主要讲解JSON格式字符串,因为JSON格式的数据现在被广泛用于各种应用中

首先讲一下JSON格式与字典的区别:字典的值可以是任意类型,但是JSON格式的数据的键都要用双引号括起来,且不能使用单引号。JSON格式的数据可以保存数组和对象,JSON数组用一对中括号将数据括起来,JSON对象用一对大括号括起来。

1、JSON字符串与字典互相转换

在这里,大家需要认真看,因为很容易搞混淆(一下是我对这些函数方法的看法,如果有错误,还请大家指出)

①:将字典转换为JSON字符串需要使用json模块的dumps函数

②:将字典写入json文件需要使用json模块的dump函数

③:将json字符串转换为字典需要使用json模块的loads函数

④:将json字符串写入普通文件中需要使用load函数,在普通文件中,会以字典的形式出现

⑤:使用eval函数将json格式的字符串当作普通的python代码执行,eval函数会直接返回与json格式字符串对应的字典

import json
data = {
    'name':'Bill',
    'company':'microsoft',
    'age':34
}
#将字典转换为json格式
jsonStr = json.dumps(data)
#输出变量类型
print(type(jsonStr))
print(jsonStr)
#将json转换为字典
dictStr = json.loads(jsonStr)
#输出变量类型
print(type(dictStr))
print(dictStr)
#定义一个json字符串
s = '''
{
    'name':'bill',
    'company':'Microsoft',
    'age':38
}
'''
#使用eval函数将json字符串转换为字典
data = eval(s)
print(type(data))
print(data)
print(data['company'])

<class 'str'>
{"name": "Bill", "company": "microsoft", "age": 34}
<class 'dict'>
{'name': 'Bill', 'company': 'microsoft', 'age': 34}
<class 'dict'>
{'name': 'bill', 'company': 'Microsoft', 'age': 38}
Microsoft

2、JSON字符串与类实例互相转换

使用loads函数和dumps函数可以实现。看下面的示例:

import json
class Product:
    #d参数是要传入的字典
    def __init__(self,d):
        self.__dict__ = d
#r表示只读
f = open("product.json",'r')
jsonStr = f.read()
my1 = json.loads(jsonStr,object_hook=Product)
print(my1.name)
print(my1.price)
print(my1.color)
#记住需要关闭文件,否则可能出现一些问题
f.close()
#运行结果
HuaWei
9999
red

注意:其实在这里还涉及一些数据库的存储操作,比较复杂,如果有感兴趣的,可以和我私底下交流,虽然我也不是很了解,但是期待和大家一起学习。

看了几个我写的爬虫代码,大家可以发现,其实大部分的代码都是重复的,学习反爬手段后,我们可能就需要进行一些其他操作,大家放心,后面我还会对反爬进行学习,现在我们爬取的基本上都是一些反爬能力较低的网站,接下来我就爬取两个网站来练习练习,如果有对爬虫方面的知识感兴趣的同学,一定要多尝试爬取数据,这样对自己知识的掌握更好

实战案例:豆瓣音乐排行榜(https://music.douban.com
"""
首先对网页进行分析
第一步:获得每个音乐的链接,然后进入URL
第二步:分析网页代码,使用自己习惯的方式获取信息
第三步:需要抓取的数据:图片链接,歌曲名,表演者
第四步:保存数据
"""
import requests
from lxml import etree
from bs4 import BeautifulSoup
import os
import random
import time
from UA_info import ua_list
class DouMusicSpider(object):
    os_path = os.getcwd()+'/豆瓣音乐/'
    if not os.path.exists(os_path):
        os.mkdir(os_path)
    def __init__(self):
        self.headers = {
            'User-Agent':random.choice(ua_list)
        }
    #本次采用了两次解析URL网页,第一次获得音乐相关的链接,然后在对该链接进行解析
    def get_first_html(self):
        for i in range(0,251,25):
            url = f'https://music.douban.com/top250?start={i}'
            response = requests.get(url,headers=self.headers)
            if response.status_code == 200:
                html = response.text
                soup = BeautifulSoup(html,'lxml')
                href_lists = soup.select('a.nbg')
                for href_list in href_lists:
                    href = href_list['href']
                    self.get_second_html(href)
    def get_second_html(self,href):
        response = requests.get(url=href,headers=self.headers)
        html = response.text
        self.parse_html(html)
    #本人更喜欢使用xpath解析语法
    def parse_html(self,html):
        xml = etree.HTML(html)
        #获取图片链接
        img_src_list = xml.xpath('//a[@class="nbg"]/img/@src')
        #获取表演者
        acter_list = xml.xpath('//div[@id="info"]//span/a/text()')
        #获取歌曲名
        title_list = xml.xpath('//div[@id="wrapper"]/h1/span/text()')
        for img_src,acter,title in zip(img_src_list,acter_list,title_list):
            data = {
                'acter':acter,
                'title':title,
                'img_src':img_src
            }
            img = requests.get(img_src).content
            self.save_data(title,acter,img)
            time.sleep(1)
            print(f"{acter}的歌曲《{title}》图片正在下载中!!!")
            time.sleep(0.5)
            print(data)
    def save_data(self,title,acter,img):
        with open(self.os_path+f'{acter}--{title}'+'.jpg','wb') as f:
            f.write(img)

if __name__ == '__main__':
    douban = DouMusicSpider()
    douban.get_first_html()
{'acter': '陈绮贞', 'title': '华丽的冒险', 'img_src': 'https://img9.doubanio.com/view/subject/m/public/s1441645.jpg'}
周杰伦的歌曲《范特西》图片正在下载中!!!
{'acter': '周杰伦', 'title': '范特西', 'img_src': 'https://img3.doubanio.com/view/subject/m/public/s3750422.jpg'}
五月天的歌曲《後。青春期的詩》图片正在下载中!!!
{'acter': '五月天', 'title': '後。青春期的詩', 'img_src': 'https://img3.doubanio.com/view/subject/m/public/s3316597.jpg'}
孙燕姿的歌曲《是时候》图片正在下载中!!!
{'acter': '孙燕姿', 'title': '是时候', 'img_src': 'https://img3.doubanio.com/view/subject/m/public/s4653287.jpg'}
Lenka的歌曲《Lenka》图片正在下载中!!!
{'acter': 'Lenka', 'title': 'Lenka', 'img_src': 'https://img9.doubanio.com/view/subject/m/public/s3259484.jpg'}

实战案例:爬取豆瓣电影TOP250(https://movie.douban.com

"""
第一步:获得电影的链接
第二步:获取想要的内容,电影名,导演,图片,简介
第三步:将获取的图片和简介进行保存
"""
import requests
from lxml import etree
import time
import re
import os
from bs4 import BeautifulSoup
import random
from UA_info import ua_list
class MovieSpider:
    os_path = os.getcwd()+'/豆瓣电影TOP250/'
    if not os.path.exists(os_path):
        os.mkdir(os_path)
    def __init__(self):
        self.headers = {
            'User-Agent':random.choice(ua_list)
        }
    def get_first_html(self):
        for i in range(0,101,25):
            url = f'https://movie.douban.com/top250?start={i}&filter='
            response = requests.get(url,headers=self.headers)
            if response.status_code == 200:
                lxml = etree.HTML(response.text)
                href_list = lxml.xpath('//div[@class="hd"]/a/@href')
                for href in href_list:
                    self.get_second_href(href)
    def get_second_href(self,href):
        response = requests.get(url=href,headers=self.headers)
        html = response.text
        self.parse_html(html)
    def parse_html(self,html):
        lxml = etree.HTML(html)
        #获取图片链接
        img_src = lxml.xpath('//div[@id="mainpic"]//img/@src')
        img_src = img_src[0]
        #获取电影名
        title = lxml.xpath('//div[@id="content"]//h1/span/text()')
        title = title[0].split(' ')[0]
        #获取导演
        soup = BeautifulSoup(html,'lxml')
        director = soup.select('#info > span:nth-child(1) > span.attrs > a')
        director = director[0].get_text()
        #获取简介,有时候不一定xpath语法就非常好,本来一开始爬取这个我使用xpath,发现很难,后来用了正则
        #所以大家尽量多学习一些解析语法,对自己有很大的帮助
        content = re.findall('<span\sproperty="v:summary".*?>\n(.*?)\n.*?<br.*?>',html,re.S)
        contents = content[0].split('\u3000\u3000')[1]
        data = {
            'title':title,
            'director':director
        }
        img = requests.get(img_src).content
        self.save_data(title,img,contents)
        print(f'{title}正在下载中!!!!!!!!!!!!!')
        time.sleep(2)
        print(data)

    def save_data(self,title,img,content):
        file = self.os_path+f'/{title}/'
        if not os.path.exists(file):
            os.mkdir(file)
        with open(file+title+'.jpg','wb') as f:
            f.write(img)
        with open(file+title+'.txt','w',encoding='utf-8') as f:
            f.write(content)
if __name__ == '__main__':
    douban = MovieSpider()
    douban.get_first_html()

肖申克的救赎正在下载中!!!!!!!!!!!!!
{'title': '肖申克的救赎', 'director': '弗兰克·德拉邦特'}
霸王别姬正在下载中!!!!!!!!!!!!!
{'title': '霸王别姬', 'director': '陈凯歌'}
阿甘正传正在下载中!!!!!!!!!!!!!
{'title': '阿甘正传', 'director': '罗伯特·泽米吉斯'}
泰坦尼克号正在下载中!!!!!!!!!!!!!
{'title': '泰坦尼克号', 'director': '詹姆斯·卡梅隆'}
这个杀手不太冷正在下载中!!!!!!!!!!!!!
{'title': '这个杀手不太冷', 'director': '吕克·贝松'}
千与千寻正在下载中!!!!!!!!!!!!!
{'title': '千与千寻', 'director': '宫崎骏'}

标签:存储,img,title,href,os,self,html,数据
From: https://www.cnblogs.com/wjx-2005-07-01/p/17973278

相关文章

  • 不常见或难以被LLM捕捉的数据
    LLM(LargeLanguageModels)稀缺的数据主要包括以下几类,这些也是微调(Fine-tuning)专业领域模型或RAG(Retrieval-AugmentedGeneration检索增强生成)的机遇:公司内部流程和政策这些资料通常作为内部文档存在,涉及特定组织的运作机制。图:公司内部流程和政策,独一无二、专用、私有主观......
  • vulkan/数据格式说明- normalized
    VK_FORMAT_A8B8G8R8_UNORM_PACK32VK_FORMAT_A8B8G8R8_SNORM_PACK32VK_FORMAT_A8B8G8R8_USCALED_PACK32VK_FORMAT_A8B8G8R8_SSCALED_PACK32VK_FORMAT_A8B8G8R8_UINT_PACK32 引用规范中的 IdentificationofFormats 和 ConversionfromNormalizedFixed-......
  • dotnet 连接多个数据库
    SqliteToOracle\global.json{"sdk":{"version":"7.0.401"}}SqliteToOracle\SqliteToOracle.slnMicrosoftVisualStudioSolutionFile,FormatVersion12.00#VisualStudioVersion17VisualStudioVersion=17.0.3......
  • SpringMVC中@pathVariable 为spring的注解,都可以用在Controller 层接受前段传递的数据
    @PathVariable主要接收http://host:port/path{参数值}数据 @pathVariable作为借口是,url是http"//ww.yoodb.com/user/getUserById/2 @RequestParam主要用于接受http://host:port/path?参数名=值数据值 @ResquesrParam请求接口时,url是http://www.yoodb.com/user/getUsrBy......
  • 快速监控 Oracle 数据库
    Oracle数据库在行业内应用广泛,通常存放的非常重要的数据,监控是必不可少的,本文使用Cprobe采集Oracle监控数据,极致简单,分享给大家。安装配置Oracle简单起见,我使用Docker启动Oracle,命令如下:dockerrun-d--nameoracle-p1022:22-p18080:8080-p1521:1521wnamel......
  • SM30里DEC数据显示0
    需求:DEC数据在维护的时候显示01,设置数据元素对于的域带转换历程、 2,写转换历程函数(注意两个历程的输入和输出类型,这个需要修改)FUNCTIONCONVERSION_EXIT_ZDAYS_INPUT.*"----------------------------------------------------------------------*"*"LocalInterface:*"......
  • ES和mysql数据同步
    elasticsearch中的数据来自于mysql数据库,因此mysql数据发生改变时,elasticsearch也必须跟着改变,这个就是elasticsearch与mysql之间的数据同步。常见的数据同步方案有三种:同步调用异步通知监听binlog 同步调用 基本步骤如下:hotel-demo对外提供接口,用来修改ela......
  • 定向减免!函数计算让 ETL 数据加工更简单
    业内较为常见的高频短时ETL数据加工场景,即频率高时延短,一般费用大头均在函数调用次数上,推荐方案一般为攒批处理,高额的计算成本往往令用户感到头疼,函数计算推出定向减免方案,让ETL数据加工更简单、更自动化、容错能力更强。自2024年01月01日0时起,函数计算定向减免来自阿里云消息......
  • python之数据类型
    字符串详解                                          1.centerdefcenter(self,*args,**kwargs):#realsignatureunknown"""Returnacenteredstringoflengthwi......
  • 智慧门店:如何利用AI视频智能监管与存储技术让门店降本增效?
    一、行业背景TSINGSEE青犀视频智慧门店解决方案是一种集成了人工智能、大数据、物联网等技术的零售解决方案,目的是提高门店的运营效率、用户体验和业绩。随着数字化转型的加速,连锁门店需要跟上时代的步伐,需要利用数字化手段提高运营效率和管理水平。视频上云则是连锁门店数字化转......