Python众筹项目结果预测：优化后随机森林分类器可视化

时间：2024-03-21 23:34:54浏览次数：34

标签：category 项目 Python 分类器 df 筹款 main 众筹

?p=35412

原文出处：拓端数据部落公众号

分析师：YiChen Xia

随着信息技术的飞速发展，众筹作为一个互联网金融的子领域已经成为个人和小企业主筹集资金支持梦想的创新渠道。无论对于众筹发起者还是众筹平台而言，如何利用历史数据去准确预测一个众筹项目的成功与否乃至最终筹款额度都是非常值得探讨研究的问题。

解决方案

任务/目标

根据历史数据，分析众筹项目成功规律，预测每个项目的筹款额度。

数据源准备

从Kickstarter平台上爬取了众筹项目，其中包含了众筹项目名称、链接、描述、支持者数量和许多其他特征。随后进行了数据清洗。主要处理了各种爬虫过程中产生的缺失值。

print(df_2018.shape)
print(df_2016.shape)

特征转换

项目名称字段二分为离散型变量（已知/未知）；项目描述抽象成项目描述字数。额外加入可计算属性平均每参与者贡献额。

df.country = df.country.'N,0"', value='NO')
ummies(df.drop(labels=['name', 'launched', 'deadlin


df_encoded['avbacking'] = (df_encoded['usd_pledgal']/(df_encoded['backers']+1))

构造

划分训练集和测试集

考虑到筹款项目与时间关系不大，使用最普遍的不放回抽样方法划分训练集与测试集，比例为4：1。

数据分析

我想从了解Kickstarter项目的基础数据开始，这包括项目发起地、主要类别、持续时间、目标等内容。

percent_plot((df.countcounts()/df.s

描述性统计

从描述性统计中我们能学到什么？成功与什么有关？我们必须记住，相关性并不等于因果关系。

下载.png

机器学习分类模型

我们来看看是否能够准确地预测哪些项目会成功，哪些项目不会成功。我们将使用随机森林分类器，因为这种集成学习方法通常相当强大，并且不是基于距离的（所以我们不需要进一步标准化特征，如项目持续时间、实际筹集资金或实际目标金额）。

R_moel(42, X_train, X_test, y_train, y_test)

print_iprtant_fe='columns'))

usd_gol_real
duration
main_category_Music

结论

根据随机森林集成学习器的特征重要性，最重要的特征包括实际目标金额（usd_goal_real）、项目持续时间（duration）、主要类别中的漫画（main_category_Comics）、时尚（main_category_Fashion）、音乐（main_category_Music）和戏剧（main_category_Theater）。这表明我们设定的货币目标以及我们允许人们为项目筹款的时间长度确实非常重要。艺术和表演类别的项目更有可能成功，这一结论得到了描述性统计分析的佐证。

许多因素都对此有贡献，而这些因素无法完全通过数据来解释。例如，商业理念、规划、激励人们进行筹款的措施或项目设计都很难量化。也许如果我们拥有每个项目评论中的情感数据，我们就可以将其整合到一个更大、更好的分类模型中，以预测我们的成功几率。

关于分析师

在此对YiChen Xia对本文所作的贡献表示诚挚感谢，他专注数据处理领域。擅长R语言、Python。

标签：category,项目,Python,分类器,df,筹款,main,众筹
From： https://www.cnblogs.com/tecdat/p/18088465

Python - argparse
需求背景：为python脚本定义参数信息，从命令行获取脚本运行时传入的参数及订单号importargparseimportsysdefparse_arg(cmd_parame): parse=argparse.ArgumentParser(description='thisisademo') parse.add_argument('order',type=str) parse.add_argument('-e'......
python 1.卖货
问题描述：小蓝在蓝桥大街开了一家零售店，他将每天的流水记录在电脑上。在每天开始营业时，商店里没有商品。如果他进了一件商品，那就在电脑上记录1，如果卖出了一件商品，就在电脑上记录-1。对于电脑上的记录，有着这样的要求：1.在一天结束后，要求商品数恰好为02.当卖出商品时，商店里必须......
python进行语音分离和说话人识别
场景：一段音频中有多个说话人，将不同的人说的话分离出来已知一些人的语音特征，跟分离出来的片段，分别求特征的余弦距离，余弦距离最小的作为说话的人安装：pipinstallpyannote.audio# _*_ coding: utf-8 _*_import torchfrom pyannote.audio import Model, Pi......
第十四届蓝桥杯大赛软件赛省赛Python 《三国游戏》
问题描述问题类型排序，贪心算法。问题分析当第i个事件发生时会分别让X，Y，Z增加Ai，Bi，Ci即当某个事件发生时，三国各增加士兵数Ai，Bi，Ci。如果X，Y，Z的其中一个大于另外两个之和，我们认为其获胜。即当n个事件都确定了是否会发生后，存在X，Y，Z中任一大于另外两个之和，则有其中一个国家获......
python scrapy 爬虫爬取quotes.toscrape.com
1、安装scrapy pip包的管理工具pipinstallscrapy（在cmd中下载）win+r键输入cmd进入命令行2.scrapy介绍它是由五部分组成引擎下载器 spider 中间件管道你只需要知道spider即可因为所有代码都在这里面管道是处理数据的框架定义好接口调用就可以了3.xpa......
Python利用Numpy和Pandas实现数据清洗
利用Numpy和Pandas对数据进行清洗，包括去除重复记录、处理缺失值和异常值，实现代码如下：点击此处下载数据集#coding=utf-8#导入必要的库importpandasaspdimportnumpyasnp#导入数据及输出格式defread_data(filename):data=pd.read_csv(filename)......
《Python从入门到实践》第九章类
面向对象编程是最有效的软件编写方法之一在面向对象编程时，你编写表示现实世界中的事物和情景的类，并基于这些类来创建对象。根据类来创建对象称为实例化，这让你能够使用类的实例创建和使用类创建Dog类classDog:"""一次模拟小狗的简单尝试"""def__init__(self,......
python代码小题（4）
#输出等腰三角形i=1whilei<=5:print(""*(5-i),end="")j=1whilej<=2*i-1:print("*",end="")j+=1print("")i+=1#for循环输出9*9乘法表forjinrange(1,10):......
Python的特点是什么？
一、Python的特点是什么？Python是一种广泛使用的编程语言，具有许多引人注目的特点，以下是Python的主要特点：简单易学：Python的语法清晰明了，易于学习，这使得初学者能够快速上手。此外，Python的代码可读性强，易于编写和理解。面向对象：Python支持面向对象的编程范式，这使得开发者能够创建......
requests.post传的data如果是直接使用python dict封装，有些服务端接收不了这种数据类型
平时在自己的php项目里，使用dict方式组装data，然后requests.post，一点问题都没有。但是调了后端一个java的微服务接口，结果就一直报错422：最后问了一下开发，得到提示“python好像还有个毛病，python的json对象转字符串的时候，转出来的字符串不是标准json字符串，还要做个字符串处理，变成......