如何在熊猫数据框上将NLTK word_tokenize库应用于Twitter数据？

FaceApp•2022-12-16•随笔•阅读7

简而言之：

df['Text'].apply(word_tokenize)

或者，如果您想添加另一列来存储标记化的字符串列表：

df['tokenized_text'] = df['Text'].apply(word_tokenize)

有专门针对Twitter文本编写的标记生成器，请参见http://www.nltk.org/api/nltk.tokenize.html#module-
nltk.tokenize.casual

使用方法

nltk.tokenize.TweetTokenizer

：

from nltk.tokenize import TweetTokenizertt = TweetTokenizer()df['Text'].apply(tt.tokenize)

欢迎分享，转载请注明来源：内存溢出

打赏

微信扫一扫

支付宝扫一扫

上一篇 2022-12-16

下一篇2022-12-16

登录后才能评论