首页 > 其他分享 >深度学习-用神经网络NN实现足球大小球数据分析软件

深度学习-用神经网络NN实现足球大小球数据分析软件

时间:2024-09-04 16:23:25浏览次数:11  
标签:NN df 数据 大小球 神经网络 goals team small data

文章目录


前言

预测足球比赛走地大小球(即比赛过程中进球总数是否超过某个预设值)的深度学习模型是一个复杂但有趣的项目。这里,我将概述一个基本的实现流程,包括数据收集、特征提取、模型构建、训练和评估。由于直接编写完整的代码在这里不太现实,我将提供关键步骤的代码和概念说明。

一、 数据收集

1.1特征数据收集

首先,你需要收集大量的足球比赛数据,包括但不限于:

  • 比赛结果(主队进球数、客队进球数)
  • 比赛时间(全场、半场)
  • 球队历史表现(近期胜率、进球率、失球率)
  • 球队阵容(关键球员是否上场)
  • 天气条件
  • 球场信息
  • 裁判因素(可选,可能影响比赛风格)
  • 赛事类型(联赛、杯赛、友谊赛等)
  • 球队间历史交锋记录

代码实例

这里用python实现足球赛事数据的收集,如果是走地数据分析的话,需要用定时任务即时采集,这里只是简单的爬取和入库

import requests  
import sqlite3  
import json  
  
# 国外赛事数据 
api_url = 'https://xxxx.com/data'  
  
# 连接到SQLite数据库  
# 如果数据库不存在,它会自动创建  
conn = sqlite3.connect('football_data.db')  
c = conn.cursor()  
  
# 创建一个表来存储数据  
# 假设API返回的数据包含'team', 'goals', 'matches'等字段  
c.execute('''CREATE TABLE IF NOT EXISTS teams  
             (id INTEGER PRIMARY KEY AUTOINCREMENT,  
              team TEXT NOT NULL,  
              goals INTEGER,  
              matches INTEGER)''')  
  
# 从API获取数据  
def fetch_data(url):  
    try:  
        response = requests.get(url)  
        response.raise_for_status()  # 如果响应状态码不是200,将引发HTTPError异常  
        return response.json()  
    except requests.RequestException as e:  
        print(e)  
        return None  
  
# 解析数据并插入到数据库中  
def insert_data(data):  
    for item in data:  
        # 假设每个item都是一个包含'team', 'goals', 'matches'的字典  
        c.execute("INSERT INTO teams (team, goals, matches) VALUES (?, ?, ?)",  
                  (item['team'], item['goals'], item['matches']))  
    conn.commit()  
  
# 获取数据并插入  
data = fetch_data(api_url)  
if data:  
    insert_data(data)  
  
# 关闭数据库连接  
conn.close()  
  
print("数据已成功获取并入库。")

二、数据预处理

清洗数据

数据清洗通常涉及多个步骤,包括处理缺失值、异常值、重复数据、数据类型转换、数据格式标准化等,这里用pandas简单的进行数据处理。

import pandas as pd  
import sqlite3  
  
# 连接到SQLite数据库  
conn = sqlite3.connect('football_data.db')  
  
# 使用Pandas的read_sql_query函数从数据库中读取数据  
# 假设'matches'表包含'id', 'home_team', 'away_team', 'home_goals', 'away_goals'等字段  
query = "SELECT * FROM matches"  
df = pd.read_sql_query(query, conn)  
  
# 数据清洗步骤  
  
# 1. 处理异常数据  
# 假设进球数不可能为负数或超过某个合理值(如10个)  
# 这里我们将进球数限制在0到10之间  
df['home_goals'] = df['home_goals'].apply(lambda x: x if 0 <= x <= 10 else 0)  
df['away_goals'] = df['away_goals'].apply(lambda x: x if 0 <= x <= 10 else 0)  
  
# 2. 处理缺失值  
# 假设我们决定删除任何包含缺失值的行(这通常不是最佳实践,但在这里作为示例)  
df.dropna(inplace=True)  
  
# 3. 检查并处理其他潜在问题(如重复数据等)  
# 这里我们假设没有重复的比赛ID,但如果有,可以使用drop_duplicates()删除  
# df.drop_duplicates(subset='id', keep='first', inplace=True)  
  
# 4. (可选)将清洗后的数据写回数据库或保存到新的CSV文件  
# 如果要写回数据库,请确保表已存在或先创建表  
# 如果要保存到CSV文件  
df.to_csv('cleaned_football_data.csv', index=False)  
  
# 关闭数据库连接  
conn.close()  
  
# 查看清洗后的数据(可选)  
print(df.head())

特征工程:

这里简单的用下面几个关键信息作为特征数据

  • 进球率:计算球队近期比赛的进球平均数。
  • 失球率:计算球队近期比赛的失球平均数。
  • 胜率:计算球队近期比赛的胜率。
  • 主客场优势:考虑主队或客队的历史主场/客场胜率。
  • 时间因素:考虑比赛进行的时间段(如开场、中场、结束前)对进球数的影响。
  • 让球因素:转换为数值型特征,如让一球则主队进球数需减去一。
  • 编码分类变量:如赛事类型、球场类型等。

三、特征提取

前面已经将特征数据都处理好了,下面开始对特征数据提取。


# 假设df是Pandas DataFrame,包含所有比赛数据  
  
# 计算近期进球率(以最近5场为例)  
def calculate_recent_goals(df, team_column, goals_column, window_size=5):  
    df[f'{team_column}_recent_goals'] = df.groupby(team_column)[goals_column].rolling(window=window_size, min_periods=1).mean()  
  
# 类似地,可以计算失球率、胜率等  
  
# 编码分类变量  
df['venue'] = pd.Categorical(df['venue']).codes  # 假设venue是主客场信息  
  
# 提取特征  
features = ['home_team_recent_goals', 'away_team_recent_goals', 'venue', 'match_time_segment', 'handicap']  
X = df[features]  
  
# 提取标签  
# 假设label_big_small是判断大小球的标签(0: 小球, 1: 大球)  
# label_handicap_win是判断让球胜负的标签(0: 负, 1: 胜)  
y_big_small = df['label_big_small']  
y_handicap_win = df['label_handicap_win']

分析出球队的具体整体情况
在这里插入图片描述

四、模型构建

from keras.models import Sequential  
from keras.layers import Dense  
  
# 构建模型  
model = Sequential([  
    Dense(64, activation='relu', input_shape=(X.shape[1],)),  
    Dense(64, activation='relu'),  
    Dense(1, activation='sigmoid')  # 二分类问题使用sigmoid  
])  
  
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

在这里插入图片描述

五、模型训练与评估

# 划分训练集和测试集  
from sklearn.model_selection import train_test_split  
X_train, X_test, y_train_big_small, y_test_big_small = train_test_split(X, y_big_small, test_size=0.2, random_state=42)  
  
# 训练模型  
model.fit(X_train, y_train_big_small, epochs=10, batch_size=32, validation_split=0.2)  
  
# 评估模型  
loss, accuracy = model.evaluate(X_test, y_test_big_small)  
print(f"Test Accuracy: {accuracy:.2f}")  
  
# 类似地,可以训练并评估让球胜负预测模型
得出预测结果

在这里插入图片描述

总结

上面只是简单的介绍了大模型的实现过程,实际过程比这个复杂很多,其中特征数据就包括了球队过去的进球数、失球数、射门次数、射正次数等统计数据,不同的球队有不同的战术风格,如攻势足球、防守反击等。攻势足球风格的球队通常进球较多,而防守反击的球队则可能更加注重控制球权和减少失球,球员的当前状态对比赛结果有直接影响。状态良好的球员在比赛中更有可能发挥出色,从而增加进球的可能性。

鸣谢:AIAutoPrediction足球数据分析平台提供的足球数据分析

在这里插入图片描述

标签:NN,df,数据,大小球,神经网络,goals,team,small,data
From: https://blog.csdn.net/qq_38880880/article/details/141825435

相关文章

  • 卷积神经网络CNN
    非原创,转录自知乎https://zhuanlan.zhihu.com/p/156926543,仅作学习笔记之用。一、卷积神经网络1.定义  卷积神经网络(ConvolutionalNeuralNetworks)是一种包含卷积计算且具有深度结构的前馈神经网络,CNN具有表征学习的能力,能够按阶层对输入数据进行平移不变分类。表征......
  • Java 注解 (Annotation) 学习总结
    Java注解(Annotation)注解是什么《Java核心技术卷2》中对注解的说明:注解是那些插入到源代码中使用其他工具对其进行处理的标签。这些工具可以在源代码层次上进行操作,或者可以处理编译器在其中放置了注解的类文件。注解不会改变程序的编译方式。Java编译器对于包含注解......
  • 基于CNN卷积神经网络迁移学习的图像识别实现
    基于CNN卷积神经网络迁移学习的图像识别实现基于CNN卷积神经网络迁移学习的图像识别实现写在前面一,原理介绍迁移学习的基本方法1.样本迁移(InstancebasedTL)2.特征迁移(FeaturebasedTL)3.模型迁移(ParameterbasedTL)4.关系迁移(RelationbasedTL)二.准备工作1.依赖库安......
  • 【机器学习-神经网络】循环神经网络
    【作者主页】FrancekChen【专栏介绍】⌈⌈⌈Python机器学习⌋......
  • 深入理解神经网络:从基础到深度学习
    深入理解神经网络:从基础到深度学习前言1.神经元模型的构建代码示例:M-P神经元模型2.感知机与多层网络的实现代码示例:简单感知机模型3.误差逆传播算法(BP)的实践代码示例:BP算法的简化实现4.探索全局最小与局部极小5.常见的神经网络模型6.深度学习的前沿应用结语......
  • httprunner V4.3.5 安装与使用--快速上手(超详细-超长篇)
    httprunnerV4.3.5安装与使用一、Httprunner介绍1、什么是Httprunner2、HttprunnerV4版本介绍3、HttprunnerV4版本Go&Python功能对比4、Httprunner与unittest&pytest的区别二、安装1、Httprunner下载2、Hrp下载三、快速上手使用1、创建手脚架项目2、录制生成H......
  • 解决podman: ERRO[0000] running newuidmap: write to uid_map failed: Invalid argum
    报错ERRO[0000]running/usr/bin/newuidmap27115520100011100000655366553710000065537:newuidmap:writetouid_mapfailed:InvalidargumentError:cannotsetupnamespaceusing"/usr/bin/newuidmap":shouldhavesetuidorhavefilecapssetu......
  • Nginx 【limit_conn_zone】指令简介
    【limit_conn_zone】是Nginx中的一个指令,用于限制特定IP地址或IP地址段的并发连接数,这个指令可以帮助我们防止恶意用户通过大量连接来消耗服务器资源,从而保证正常用户的访问速度和体验,本文将详细介绍【limit_conn_zone】指令的使用方法和相关问题解答。一、【limit_conn_zone】指......
  • 神经网络之卷积篇:详解池化层(Pooling layers)
    详解池化层除了卷积层,卷积网络也经常使用池化层来缩减模型的大小,提高计算速度,同时提高所提取特征的鲁棒性,来看一下。先举一个池化层的例子,然后再讨论池化层的必要性。假如输入是一个4×4矩阵,用到的池化类型是最大池化(maxpooling)。执行最大池化的树池是一个2×2矩阵。执行过程......
  • SSA(麻雀优化算法)+CNN+LSTM时间序列预测算法(python代码)
    1.SSA(SparrowSearchAlgorithm)简介:SSA是一种新兴的群体智能优化算法,模拟麻雀觅食行为。麻雀群体中的“发现者”负责寻找食物,并将信息传递给“追随者”,后者根据这一信息进行觅食。SSA通过这种合作机制寻找最优解。SSA在优化问题中可以视为一种元启发式算法,擅长在复杂搜索......