Python - 删除停用词

  • 简述

    停用词是不会给句子增加太多意义的英语单词。在不牺牲句子含义的情况下,可以放心地忽略它们。例如,the、he、have 等词。这样的词已经在名为 corpus 的语料库中被捕获。我们首先将它下载到我们的python环境中。
    
    import nltk
    nltk.download('stopwords')
    
    它将下载一个带有英文停用词的文件。
  • 验证停用词

    
    from nltk.corpus import stopwords
    stopwords.words('english')
    print stopwords.words() [620:680]
    
    当我们运行上述程序时,我们得到以下输出 -
    
    [u'your', u'yours', u'yourself', u'yourselves', u'he', u'him', u'his', u'himself', u'she', 
    u"she's", u'her', u'hers', u'herself', u'it', u"it's", u'its', u'itself', u'they', u'them', 
    u'their', u'theirs', u'themselves', u'what', u'which', u'who', u'whom', u'this', 
    u'that', u"that'll", u'these', u'those', u'am', u'is', u'are', u'was', u'were', u'be',
    u'been', u'being', u'have', u'has', u'had', u'having', u'do', u'does', u'did', u'doing',
    u'a', u'an', u'the', u'and', u'but', u'if', u'or', u'because', u'as', u'until',
    u'while', u'of', u'at']
    
    具有这些停用词的英语以外的各种语言如下。
    
    from nltk.corpus import stopwords
    print stopwords.fileids()
    
    当我们运行上述程序时,我们得到以下输出 -
    
    [u'arabic', u'azerbaijani', u'danish', u'dutch', u'english', u'finnish', 
    u'french', u'german', u'greek', u'hungarian', u'indonesian', u'italian', 
    u'kazakh', u'nepali', u'norwegian', u'portuguese', u'romanian', u'russian',
    u'spanish', u'swedish', u'turkish']
    
  • 例子

    我们使用下面的示例来展示如何从单词列表中删除停用词。
    
    from nltk.corpus import stopwords
    en_stops = set(stopwords.words('english'))
    all_words = ['There', 'is', 'a', 'tree','near','the','river']
    for word in all_words: 
        if word not in en_stops:
            print(word)
    
    当我们运行上述程序时,我们得到以下输出 -
    
    There
    tree
    near
    river