
简而言之:
df['Text'].apply(word_tokenize)
或者,如果您想添加另一列来存储标记化的字符串列表:
df['tokenized_text'] = df['Text'].apply(word_tokenize)
有专门针对Twitter文本编写的标记生成器,请参见http://www.nltk.org/api/nltk.tokenize.html#module-
nltk.tokenize.casual
使用方法
nltk.tokenize.TweetTokenizer:
from nltk.tokenize import TweetTokenizertt = TweetTokenizer()df['Text'].apply(tt.tokenize)
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)