如何在熊猫数据框上将NLTK word_tokenize库应用于Twitter数据?

如何在熊猫数据框上将NLTK word_tokenize库应用于Twitter数据?,第1张

如何在熊猫数据框上将NLTK word_tokenize库应用于Twitter数据?

简而言之:

df['Text'].apply(word_tokenize)

或者,如果您想添加另一列来存储标记化的字符串列表:

df['tokenized_text'] = df['Text'].apply(word_tokenize)

有专门针对Twitter文本编写的标记生成器,请参见http://www.nltk.org/api/nltk.tokenize.html#module-
nltk.tokenize.casual

使用方法

nltk.tokenize.TweetTokenizer

from nltk.tokenize import TweetTokenizertt = TweetTokenizer()df['Text'].apply(tt.tokenize)


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/zaji/5646772.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2022-12-16
下一篇2022-12-16

发表评论

登录后才能评论

评论列表(0条)

    保存