首页 > 其他分享 >数据集的收集

数据集的收集

时间:2024-09-17 22:35:20浏览次数:9  
标签:收集 标签 餐厅 排名 数据 取值 范围

我在这里找到了一个数据集的网站:https://www.kaggle.com/datasets

我这里找到了三个小数据集为例子分别如下:

 我写的数据分析如下:

1.

数据集名称

房价回归数据集

 

来源

 https://www.kaggle.com/datasets/prokshitha/home-value-insights?resource=download

数据集描述

该数据集包含了多个房屋的属性信息,旨在通过这些属性来预测房屋的售价。属性包括房屋面积、卧室数量、浴室数量、建造年份、地块面积、车库大小以及社区质量评级等。

样本数(大小)

1000

属性个数

7(不包括目标变量)

属性值取值范围

 Square_Footage: 房屋面积(平方英尺),取值范围从几百到几千不等,例如 503.00 - 4999.00

Num_Bedrooms: 卧室数量,整数,取值范围从1到多个,例如 1.00 - 5.00

Num_Bathrooms: 浴室数量,整数或小数(考虑半浴室),取值范围从1.00到多个,例如 1.00 - 10.00

Year_Built: 建造年份,整数,取值范围从较旧年份到较新年份,例如 1950 - 2022

Lot_Size: 地块面积(英亩),小数,取值范围从0.51到接近5,例如 0.51 - 4.99

Garage_Size: 车库大小(可容纳的汽车数量),整数,取值范围从0到多个,例如 0.00 - 10.00

Neighborhood_Quality: 社区质量评级,整数,取值范围从1到10,例如 1 - 10

 

标签数量

1(House_Price)

标签值\取值范围

房价(美元),取值范围从较低到较高,例如 503.00 - 1108236.84 

样本举例

Square_Footage: 1500  

Num_Bedrooms: 3  

Num_Bathrooms: 2.5  

Year_Built: 2000  

Lot_Size: 0.75  

Garage_Size: 2  

Neighborhood_Quality: 8  

House_Price: 350000

面向任务

这是一个回归任务,目标是基于给定的房屋属性来预测房价(House_Price)。

 

2.

数据集名称

班加罗尔餐馆数据集

 

来源

https://www.kaggle.com/datasets/mrmars1010/restaurants-dataset-bengaluru

数据集描述

该数据集提供了班加罗尔市餐厅的详细信息,包括餐厅名称、评分、菜系、位置(包括国家、州/省份、邮政编码、街道地址)、评论、价格范围、附带照片等。这些数据通过复杂的网络爬虫技术从TripAdvisor上精心提取,旨在为研究人员、企业和数据科学家提供有关该市餐饮行业的深入见解。

样本数(大小)

7397

属性个数

15

属性值取值范围

餐厅名称: 字符串,如 "Goila Butter Chicken (GBC)"

地址: 字符串,表示街道地址

地址对象/国家: 字符串,主要是 "印度",但可能包含其他值或空值

地址对象/邮政编码: 整数或字符串,如 "560001"

地址对象/状态: 字符串,可能包含 "其他" 或印度各州/省份的名称

美食: 字符串,表示菜系类型,如 "印度美食"

描述: 字符串,描述餐厅、氛围或菜单

饮食限制: 字符串,如 "素食者" 或 "无麸质"

菜肴: 字符串列表,表示热门或招牌菜肴

特征: 字符串列表,如 "预订座位"、"桌位服务"

纬度、经度: 浮点数,表示餐厅的地理坐标

评论数: 整数,表示评论的数量

评级: 浮点数,表示餐厅的平均评分(如4.5星)

排名分母: 整数,表示用于排名的总餐厅数

排名位置: 整数,表示餐厅在特定排名中的位置

 

标签数量

该数据集主要用于描述性分析和模型训练,没有直接的“标签”用于监督学习任务,但“评级”和“排名位置”可以被视为隐式标签或目标变量,用于回归或排序任务。

标签值\取值范围

评级: 浮点数,取值范围从1到5(或类似范围)

排名位置: 整数,取值范围取决于排名分母的值

 

样本举例

 "餐厅名称": "Goila Butter Chicken (GBC)",  

    "地址": "某街道地址",  

    "地址对象/国家": "印度",  

    "地址对象/邮政编码": "560001",  

    "地址对象/状态": "其他",  

    "美食": "印度美食",  

    "描述": "以其著名的烟熏黄油鸡而闻名...",  

    "饮食限制": "素食者",  

    "菜肴": ["烟熏黄油鸡", "其他招牌菜"],  

    "特征": ["外送", "停车"],  

    "纬度": 12.9716,  

    "经度": 77.5946,  

    "评论数": 123,  

    "评级": 4.5,  

    "排名分母": 1000,  

    "排名位置": 50  

面向任务

分类任务: 根据菜系或特征对餐厅进行分类。

回归任务: 预测餐厅的评级或价格范围。

聚类任务: 基于餐厅的特征进行聚类分析,发现不同的餐厅群体。

情感分析: 对餐厅的评论进行情感分析,了解顾客满意度。

推荐系统: 基于用户偏好和餐厅特征构建推荐系统。

地理空间分析: 利用经纬度信息进行地图绘制和基于位置的分析。

 

 

3.

数据集名称

2024 年 FT 全球商学院 MBA 排名 100 强

 

来源

https://www.kaggle.com/datasets/michaeldelamaza/ft-global-business-school-top-100-mba-ranking-2024

数据集描述

 该数据集包含了《金融时报》在2024年2月11日发布的全球前100所商学院的排名及相关信息。数据涵盖了多个方面,包括学校的综合排名、校友网络、碳足迹、地理位置、职业发展、薪资水平、多样性评估、项目评估以及教师专长等。这些数据对于了解全球商学院的最新动态、评估商学院的整体实力以及为潜在学生提供择校参考具有重要意义。

样本数(大小)

100

属性个数

28

属性值取值范围

秩(排名): 1到100的整数

校友网络排名: 未知范围,但应为整数或排名

碳足迹排名: 未知范围,但应为整数或排名

加权工资(美元): 未知具体范围,但应为正数

职业进步排名、就业服务排名、行业多样性排名等: 未知范围,但应为整数或排名

百分比类属性(如目标实现%、女性比例%等): 0%到100%

其他属性(如国际学生比例、具有博士学位的教师比例等): 0%到100%的百分比,或具体数值(如薪资、人数等)

 

标签数量

该数据集主要用于描述性分析,没有直接的监督学习标签。但如果将排名视为标签,则标签数量为1(即排名)。但更常见的是将各个子属性(如加权工资、职业进步等)视为独立的分析维度,而不是标签。

标签值\取值范围

由于该数据集主要用于描述性分析,不直接包含监督学习标签,因此不适用“标签值\取值范围”的描述。但如果考虑排名作为隐式标签,其取值范围为1到100。

样本举例

 "秩": 1,  

    "学校名称": "哈佛大学商学院",  

    "校友网络排名": 3,  

    "碳足迹排名": 45,  

    "主要校区位置": "美国",  

    "2022年排名": 2,  

    "三年平均排名": 1.5,  

    "2023年排名": 1,  

    "加权工资(美元)": 150000,  

    "职业进步排名": 2,  

    "目标实现(%)": 90,  

    "就业服务排名": 1,  

    "就业三个月(%)": 95,  

    "薪资百分比增长": 10,  

    "现时薪资(美元)": 165000,  

    "国际板(%)": 40,  

    "船上女性比例 (%)": 25,  

    "国际学生(%)": 30,  

    "行业多样性排名": 5,  

    "女性教师 (%)": 45,  

    "女学生(%)": 40,  

    "国际教师 (%)": 20,  

    "性价比排名": 2,  

    "总体满意度": 9.5,  

    "ESG和净零教学排名": 3,  

    "国际机会": 90,  

    "国际流动性排名": 1,  

    "国际课程体验排名": 2,  

    "具有博士学位的教师(%)": 85,  

    "FT研究排名": 1  

面向任务

描述性分析: 分析全球商学院的各项排名和指标,了解整体趋势和个体差异。

比较分析: 对比不同商学院在各项指标上的表现,找出优势和劣势。

预测分析: 虽然该数据集本身不直接用于预测,但可以根据历史排名和趋势预测未来商学院的排名变化。

决策支持: 为潜在学生、教育机构、雇主等提供决策支持,帮助他们做出更明智的选择。

 

 

标签:收集,标签,餐厅,排名,数据,取值,范围
From: https://www.cnblogs.com/aixin52129211/p/18417664

相关文章

  • 各种数据结构以及七七八八的东西
    堆堆(一般指二叉堆),实质就是一颗完全二叉树,用来维护单调性堆可以实现插入新值,得到最值(直接取堆顶值),删除最值。插入新值,从堆尾插入,不断比较上浮;删除最值,就是将堆顶替换掉,可以用堆尾替换,并不断比较下沉,用树的深度的时间花销维护堆的单调性感受一下维护堆的过程,可以用数组实现(一......
  • Java和数据库开发规范
    java开发规范第一节:命名风格1.方法名,参数名,成员变量都统一使用lowerCamelCase风格,必须遵从驼峰形式2.类名必须使用upperCamelCase风格,但以下情形例外:DAO/BO/PO/VO/UID3.常量命名全部大写,单词间用下划线隔开,力求语义表达完整清楚,不要嫌名字长4.代码中命名均不能以下......
  • JavaScript -- 数组数据类型
    <!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><metahttp-equiv="X-UA-Compatible"content="IE=edge"><metaname="viewport"content="width=d......
  • 升级数据飞轮:数据中台如何助力企业实现数据价值最大化
    #有了数据中台,是否需要升级到数据飞轮?需要怎么做?#这个话题中提到了两个问题。问题一:分别是有了数据中台,是否需要升级到数据飞轮?问题二:以及需要怎么做?以我个人的经验,从技术层面来看,第一个问题我的答案是有必要,下面我从三个方面来说明我的理由。第一点,数据中台和数据飞轮的关系。数据......
  • 数据结构(二叉树)练习题————考前必备合集
    今天在力扣和牛客网上找了一下题,下面附上题目链接,大家先做题再看答案1.检查两颗树是否相同。100.相同的树-力扣(LeetCode)2.另一颗树的子树。572.另一棵树的子树-力扣(LeetCode)3.翻转二叉树。226.翻转二叉树-力扣(LeetCode)4.判断一颗二叉树是否是平衡二叉树。110.......
  • 从数据仓库到数据中台再到数据飞轮:我了解的数据技术进化史​
    前言在当今这个数据驱动的时代,企业发展离不开对数据的深度挖掘和高效利用。从最初的数据仓库,到后来的数据中台,再到如今的数据飞轮,数据技术的进化不仅推动了行业的变革,也为许多企业带来了前所未有的增长机遇。数据仓库:数据整合的起点数据库的概念由比尔·恩门(BillInmon)于1990年提出......
  • 从数据仓库到数据中台再到数据飞轮,我了解的数据技术进化史
    (目录)一.写在前面数据技术的演化从数据仓库到数据中台,再到数据飞轮,反映了企业在数据管理和使用上的需求从基础的存储、查询向更高效、更智能的方向发展。现在来谈谈每个阶段的技术架构理念以及其特定的目标和侧重点。二.数据技术进化历程纵观大数据的发展史中,数据仓库概念的提......
  • 1-10、信息 / 个人信息 / 数字化 / 数字经济 / 生产要素 / 数据要素 / 数据 / 公共数
    1、信息(在信息处理中)关于客体(如事实、事件、事物、过程或思想,包括概念)的知识,在一定的场中具有特定的意义。(《信息技术词汇第1部分:基本术语》(GB/T5271.1-2000))2、个人信息个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处......
  • eyoucms易优无法安装,提示当前数据库结构与官方不一致
    当你在安装易优CMS(EyouCMS)时遇到“当前数据库结构与官方不一致”的提示,这通常意味着你的数据库版本或结构与CMS所需的版本或结构不符。这种情况通常是由于以下几个原因造成的:数据库版本过低:数据库版本低于CMS所支持的最低版本。数据库文件版本不匹配:数据库文件版本与CMS源码版......
  • 易优CMS后台如何备份数据库
    步骤1:进入后台登录易优CMS后台。在后台左侧菜单栏中找到“功能地图”(低版本的程序点击“更多功能”)。步骤2:进入备份还原功能在“功能地图”中找到“备份还原”功能,并点击进入。步骤3:进行数据备份在“备份还原”页面中,点击“数据备份”。等待一段时间,直到备份完成。......