• 2024-08-08在管道之前或之后分离 X 和 y 中的数据?
    我有以下内容:train_set,test_set=train_test_split(arbres_df,test_size=0.2,random_state=42)哪个是旧的train_test_split我们知道。然后我将功能和目标分开:train_feat=train_set.drop("anneedeplantation",axis=1).reset_index(drop=True)train_
  • 2024-08-08将 Pandas 对象数据帧转换为向量数据帧?
    我有一个Pandas数据框(超过1k行)。我的数据框中有数字、对象、字符串和布尔值。我想将数据帧的每个“单元格”转换为向量,并使用结果向量。然后,我计划比较每一行向量的相似性。例如,我的数据是:Col0,Col1,Col2,Col3,Col4,Col5,Col6,Col7,Col8,Col9,Col1012,65e
  • 2024-08-08数值数据中异常值检测的问题
    我目前正在开展一个数据分析项目,在该项目中,我使用Z分数来检测数据集数值列中的异常值。但是,我遇到了一个问题,合法的数据点被标记为异常值,我不确定为什么会发生这种情况。这就是我正在做的:缺失值的插补:我使用IterativeImputersklearn.impute填充数字列中的缺失值。
  • 2024-08-06在 TfidfVectorizer 标记化后删除二元组
    我正在尝试删除由TfidfVectorizer创建的二元组。我正在使用text.TfidfVectorizer,以便我可以使用自己的预处理器函数。Initfromsklearn.feature_extraction.textimportENGLISH_STOP_WORDSasstop_wordsfromsklearn.feature_extraction.textimportTfidfV
  • 2024-08-01如何进行布尔分类处理?
    importpandasaspdfromsklearn.imputeimportSimpleImputerfromsklearn.model_selectionimporttrain_test_splitfromsklearn.preprocessingimportStandardScaler,OneHotEncoder,OrdinalEncoderfromsklearn.pipelineimportPipelinedata=pd.read_csv(�
  • 2024-07-30如何使用 Python 对图像中的掩模部分进行聚类?
    我需要以这样的方式拆分蒙版:如果蒙版内存在不一致,则会将其分开。例如,如果我在一只猫上画一个面具,我希望宽的部分(身体)是一个面具,窄的部分(尾巴)是另一个面具。目前,我有一个连续的面具,其中包括两者猫的身体和尾巴。我想将其分成两个不同的面具。如何使用Python实现此目的?原
  • 2024-07-30KerasRegressor 决定系数 R^2 分数
    我正在Keras中构建一个用于回归任务的小型神经网络,我想使用与scikit-learnRandomForestRegressor:系数R^2定义为|相同的精度指标|||,其中(1-u/v)是回归平方和u,而((y_true-y_pred)**2).sum()是残差平方和
  • 2024-07-30安装 scikit 从 pip 学习时出错
    我一直在尝试通过命令安装scikitlearnpipinstallscikit-learn,但它向我显示了下面给出的错误。PS:Python版本3.8.5pip版本22.3错误显示:Collectingscikit-learnUsingcachedscikit-learn-1.1.3.tar.gz(7.0MB)Installingbuild
  • 2024-07-28比较列表中的标题并找到相似的标题
    我编写了一个Python代码,该代码接收产品标题作为输入,并从演示文稿中查找类似的标题。一切都运行良好,但它错误地识别了一些标题。我认为它错误地识别了带有数字的标题说明:get_price(myProductTitle)函数的输入是一个标题,例如:RazerGoldPINMalaysia7MYR
  • 2024-07-27从sklearn PCA获取特征值和向量
    我如何获得PCA应用程序的特征值和特征向量?fromsklearn.decompositionimportPCAclf=PCA(0.98,whiten=True)#converse98%varianceX_train=clf.fit_transform(X_train)X_test=clf.transform(X_test)我在文档中找不到它。1.我“不”能够理解不同
  • 2024-07-25MultiLabelBinarizer:inverse_transform 如何获得根据概率排序的标签列表?
    我正在做多标签分类,我使用MultiLabelBinarizer将标签列表转换为零和一。我可以使用inverse_transform获取标签,这是超级的。但是,如果我想根据类的概率对类进行排名,即概率越高,即使(仅)在其概率小于0.5的情况下,对标签的判断也越好。我怎样才能得到根据概率返回标签的排
  • 2024-07-25当目标变量是比例时如何使用sklearn
    有一些预测比例的标准方法,例如逻辑回归(无阈值)和beta回归。已经对此进行了讨论:http://scikit-learn-general.narkive.com/4dSCktaM/using-logistic-regression-on-a-continuous-target-variablehttp://scikit-learn-general.narkive.com/lLVQGzyl/beta-regress
  • 2024-07-24是否可以限制 scikit learn 模型仅预测某些标签?
    我有两个模型在多个标签上进行了训练,并用它来预测游戏的类型。我注意到,由于模型经过训练,有时相同的输入数据可能会让两个模型输出截然不同的流派。我想将预测限制为另一个模型建议的内容,但不知道该怎么做。下面的示例Model1_labels=["JRPG","Horror","FPS","Platforme
  • 2024-07-23sklearn 的 DbScan 与 Rapids 的 Dbscan
    我正在尝试与GPU配合使用的DbScanRapids版本。我用Python编写了一段简短的代码,用于查找3D随机生成点中的簇,当我使用该代码时,我意识到CPU的方式由于某种我不熟悉的原因,它比GPU更快:fromsklearn.clusterimportDBSCANfromcuml.clusterimportDBSCANascuDB
  • 2024-07-23通过命令行运行时,收到错误“no attribute Predict_proba”
    我有一组代码,当我在python解释器(3.8.4)中运行时,一切正常。然而,当我尝试通过命令行运行时,我最终收到一个错误:AttributeError:This'SelfTrainingClassifier'hasnoattribute'predict_proba'这很奇怪,因为当我浏览文档时,selfTrianingClassifier确实有predcit_proba
  • 2024-07-23ValueError:X 有 1 个特征,但 LinearRegression 期望有 2 个特征作为输入
    我正在使用pywebio为我的机器学习程序创建一个小型脚本运行用户界面。当不使用小型UI时,运行线性回归predict()函数时不会出现任何错误。UI从用户处检索两个数字,an'age'和a'salary'这两个数字被输入到numpy数组中,并且numpy数组已从一维
  • 2024-07-21我的 RandomForestRegressor 上的 MAE 和 MSE 非常高
    我得到了一个航班预测数据集,我想尝试一下我的机器学习技能。我清理了数据并修复了一些新功能并删除了其他功能我还得到了一些有价值的数据。但是当我尝试做出预测并评估我的模型时这就是我得到的答案!那是在我用SearchGridCV调整我的模型之后Regressionmetricsonthe
  • 2024-06-04如何使用随机森林计算预测的置信区间?
    我正在计算名为"spot"的变量的预测(数据的未来结果)。我正在使用随机森林和一个名为"DTCI"的自变量来帮助预测"spot"。预测以每月一次的频率进行,这与数据的频率相同。我想根据每个月的上限和下限,获得每个预测月份的置信区间。这与附图中的绿色限值类似