Python实现音乐采集:
https://www.kugou.com/
案例分为两部分:
1.单首歌曲采集
2.批量歌曲采集
环境使用:
python 3.10
pycharm
模块使用:
import hashlib
import requests --> pip install requests
import time
import re
---------------------------------------------------------------------------------------------------------------------------------win + R 输入cmd 输入安装命令 pip install 模块名 (如果觉得安装速度比较慢 ,你可以切换国内镜像源)
相对应的安装包/安装教程/激活码/使用教程/工具插件 可以加微信:jiang-060624
爬虫实现的基本流程
一、数据来源分析
1.明确需求
明确采集的网站以及数据内容
网址:
https://www.kugou.com/mixsong/j2ss6c1.html?
(歌曲播放页面)
数据:歌曲(链接)/歌曲标题
2.抓包分析
通过浏览器开发者工具分析对应的数据位置
打开开发者工具
F12/右击点击检查选择network(网络)
刷新网页
让本网页的数据内容重新加载一遍
通过关键字搜索找到对应的数据位置
关键字搜索:需要什么数据就搜什么数据
通过开发者工具 --> 网络 -->媒体-->查看对应音频链接地址-->复制音频链接地址-->粘贴至网址栏查看能否播放?
音频链接: https://webfs.kugou.com/202410211914/a4fac6da5eb4034810889a2558be407c/v3/09b46455bae7c613abd0db362a5ddbde/yp/p_0_960119/ap1014_us0_mii0w1iw8z2ai2iphcu80ooo2ki81120_pi406_mx32043318_s970626592.mp3
以链接中一段参数进行搜索,分析生成位置
需要复制搜索的链接:ap1014_us0_mii0w1iw8z2ai2iphcu80ooo2ki81120_pi406_mx32043318_s970626592
数据包地址:https://wwwapi.kugou.com/play/songinfo
二、代码实现步骤
1.发送请求
模拟浏览器对于url地址发送请求
模拟浏览器
使用请求头参数内容:
- 在开发者工具 -> 网络 -> 点击相对应的数据包 -> 标头 -> 请求标头 (模拟伪装参数)
请求网址
刚刚抓包分析找到的链接地址:https://wwwapi.kugou.com/play/songinfo?srcappid=2919&clientver=20000&clienttime=1729509448044&mid=
标签:教程,--,kugou,采集,保姆,https,import,com,链接 From: https://blog.csdn.net/2301_78851872/article/details/143105968