用 Python 解锁电影台词中的秘密：给孩子一个学英语的新奇方式

标签：plt word Python frequencies 解锁单词 letter path 台词

引言

想象一下：孩子们不仅在看他们喜欢的电影，还能从中学到新的英语单词！有没有什么比这更有趣、更高效的学习方式？在这篇博客中，我将带你一步步搭建一个 Python 工具，从电影台词中提取单词并生成详细的词汇报告。这不仅是一个强大的学习工具，还能让孩子们在享受电影的同时，潜移默化地提高他们的英语水平。让我们一起开始这段令人兴奋的旅程吧！

为什么要从电影中提取单词？

电影台词充满了日常对话、俚语和真实的语言使用场景。对孩子们来说，通过电影学习英语是一种自然的方式。他们可以看到单词在实际对话中的应用，这比死记硬背要有趣得多。通过从电影台词中提取单词，孩子们可以在观看电影之前或之后学习这些单词，进一步加深对语言的理解。

项目概述

我们将使用 Python 编写一个程序，来实现以下功能：

提取电影台词中的单词：从 PDF 文件中提取英文单词。
词汇分析：统计每个单词的出现频率，生成词频表。
可视化：生成词云、词频直方图、字母分布饼图、累计频率图等图表。
生成学习报告：将所有分析结果汇总成一份 Word 报告，帮助孩子们系统地学习。

工具和库

要实现这些功能，我们需要以下 Python 库：

PyPDF2：用来读取 PDF 文件，提取电影台词文本。
collections.Counter：统计每个单词的出现频率。
python-docx：生成 Word 文档，保存学习报告。
wordcloud 和 matplotlib：用于生成图表和可视化分析结果。

你可以通过以下命令来安装这些库：

pip install PyPDF2 python-docx wordcloud matplotlib

实现步骤

1. 提取电影台词中的单词

首先，我们将从电影台词的 PDF 文件中提取出所有英文单词，并进行初步的处理和统计。我们使用 PyPDF2 读取 PDF 文件，使用正则表达式提取单词，并将单词转换为小写，避免重复统计。

import re
import os
from collections import Counter
from PyPDF2 import PdfReader

def extract_unique_words_from_pdf(pdf_path):
    unique_words = Counter()
    reader = PdfReader(pdf_path)
    
    for page in reader.pages:
        text = page.extract_text()
        words = re.findall(r'\b[a-zA-Z]+(?:\'[a-zA-Z]+)?\b', text)

        for word in words:
            word = word.lower()
            if len(word) > 1:
                unique_words[word] += 1

    return unique_words

2. 生成词汇分析图表

接下来，我们会生成几种图表来帮助孩子们理解这些单词的分布和使用：

词云：展示最常用的单词。
词频直方图：显示最常见的前 10 个单词及其出现频率。
字母分布饼图：展示以不同字母开头的单词数量占比。
累计频率图：展示前 N 个单词的累计频率分布。

from wordcloud import WordCloud
import matplotlib.pyplot as plt

def generate_wordcloud(word_frequencies, output_path):
    wordcloud = WordCloud(width=800, height=400).generate_from_frequencies(word_frequencies)
    plt.figure(figsize=(10, 5))
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.axis('off')
    plt.savefig(output_path)
    plt.close()

def generate_bar_chart(word_frequencies, output_path, top_n=10):
    most_common_words = word_frequencies.most_common(top_n)
    words, counts = zip(*most_common_words)
    
    plt.figure(figsize=(10, 5))
    plt.bar(words, counts, color='skyblue')
    plt.xlabel('Words')
    plt.ylabel('Frequency')
    plt.title(f'Top {top_n} Most Common Words')
    plt.xticks(rotation=45)
    plt.savefig(output_path)
    plt.close()

def generate_pie_chart(word_frequencies, output_path):
    letters = 'abcdefghijklmnopqrstuvwxyz'
    letter_counts = {letter: 0 for letter in letters}

    for word in word_frequencies:
        letter_counts[word[0]] += 1
    
    labels = [letter.upper() for letter in letter_counts if letter_counts[letter] > 0]
    sizes = [letter_counts[letter] for letter in letter_counts if letter_counts[letter] > 0]
    
    plt.figure(figsize=(8, 8))
    plt.pie(sizes, labels=labels, autopct='%1.1f%%', startangle=140)
    plt.title('Words by Starting Letter Distribution')
    plt.savefig(output_path)
    plt.close()

def generate_cumulative_frequency_chart(word_frequencies, output_path):
    sorted_frequencies = sorted(word_frequencies.values(), reverse=True)
    cumulative_frequencies = [sum(sorted_frequencies[:i+1]) for i in range(len(sorted_frequencies))]
    
    plt.figure(figsize=(10, 5))
    plt.plot(range(1, len(cumulative_frequencies) + 1), cumulative_frequencies, color='green')
    plt.xlabel('Top N Words')
    plt.ylabel('Cumulative Frequency')
    plt.title('Cumulative Frequency Distribution of Words')
    plt.savefig(output_path)
    plt.close()

3. 生成学习报告

最后，我们将所有的分析结果汇总到一份 Word 文档中，这份报告将包含单词统计、可视化图表以及详细的解释说明。孩子们可以在看电影之前或之后阅读这份报告，帮助他们更好地理解电影中的语言。

from docx import Document
from docx.shared import Inches

def generate_report(word_frequencies, output_report_path, wordcloud_path, barchart_path, piechart_path, cumulative_chart_path):
doc = Document()
total_words = sum(word_frequencies.values())
unique_words_count = len(word_frequencies)
most_common_words = word_frequencies.most_common(10)

# 添加标题
doc.add_heading('Word Frequency Analysis Report', 0)

# 添加总单词数
doc.add_paragraph(f'Total Words: {total_words}')

# 添加唯一单词数
doc.add_paragraph(f'Unique Words: {unique_words_count}')

# 添加最常见的单词
doc.add_heading('Most Common Words:', level=1)
for word, freq in most_common_words:
doc.add_paragraph(f'{word}: {freq} times')

# 添加字母开头单词分布
doc.add_heading('Words by Starting Letter:', level=1)
letters = 'abcdefghijklmnopqrstuvwxyz'
for letter in letters:
letter_count = sum(1 for word in word_frequencies if word.startswith(letter))
doc.add_paragraph(f'{letter.upper()}: {letter_count} words')

# 插入图形
doc.add_heading('Visualizations:', level=1)

# 插入词云图
doc.add_heading('Word Cloud:', level=2)
doc.add_picture(wordcloud_path, width=Inches(5))

# 插入词频直方图
doc.add_heading('Word Frequency Bar Chart:', level=2)
doc.add_picture(barchart_path, width=Inches(5))

# 插入字母分布饼图
doc.add_heading('Letter Distribution Pie Chart:', level=2)
doc.add_picture(piechart_path, width=Inches(5))

# 插入累计频率图
doc.add_heading('Cumulative Frequency Chart:', level=2)
doc.add_picture(cumulative_chart_path, width=Inches(5))

# 保存报告
doc.save(output_report_path)

应用场景

这个工具特别适合那些喜欢看电影的孩子，他们可以在观影前后通过报告中的单词学习，更加深入地理解电影的内容。例如，如果你的孩子正在看《冰雪奇缘》，你可以从电影台词中提取出所有的英文单词，生成一份学习报告。孩子们可以在观看电影之前先熟悉这些单词，或是在电影结束后通过报告回顾这些单词，加深记忆。

结语

通过这款工具，孩子们可以在娱乐的同时学习新的英语单词，将学习与兴趣完美结合。随着他们对单词的掌握，电影不仅仅是娱乐，更是语言学习的有力助手。希望这篇博客能够激发你的灵感，让你开始为孩子打造一份独特的学习体验。快来试试吧，让学习变得前所未有的有趣！

标签：plt,word,Python,frequencies,解锁,单词,letter,path,台词
From： https://blog.csdn.net/qq_36224726/article/details/141755128