
论述性文本分类
论述性文本分类,文本分类是一种常见的类型,在阅读的时候需要掌握一定的技巧,这样才能更快的提高阅读的水平。以下就是我为大家整理的一些关于论述性文本分类的资料,大家一起来看看吧!
论述性文本分类1
1、用问题引领
要正确认知该文章阐述说明、分析、介绍了什么,作者为什么要这样做,其中心意思是什么,是怎样表达和写作的,并标示出来,做到心中有数。据此可提出诸多问题,以助展开高效阅读。如可设计以下问题:
1、文本主要谈的是什么问题或就什么事情阐述道理?
2、作者的基本立场、观点、情感和态度是怎样的?
3、本文依照怎样的顺序布局谋篇、组织文章?其段落之间的关系如何?
4、行文中为突显立意主要运用了哪些手段和材料?
2、从整体把握
1、先看标题,预测内容
文章标题有的是论点,有的是话题,阅读文章之前,可以先根据题目预测一下文章内容,阅读文章过程中,不论预测是得到印证还是被推翻,都有助于对文意的整体把握。
2、快速阅读,把握大意
第一遍阅读的目的是了解文本的基本内容,为下一步做题时的比较、筛选信息打好基础,如了解中心论点、主要论据等。阅读时应该用稍快的速度,重点放在文章的首尾或段首段尾表达观点的语句上,而对那些举例性质的文字可以一扫而过。
3、逐段阅读,细致梳理
一般论述类文章,不论其论述对象是历史现象还是文艺现象,都属于议论文的大范畴,都会符合议论文的文体结构规律的要求。阅读时可一画观点,二标材料,这样材料是材料,观点是观点,材料从属于哪个观点,从空间位置上就能看出来。
3、多角度 *** 作
高考对一般论述类文章阅读考查侧重于逻辑思维能力,主要让考生借助语文学习的方法和规律,捕捉语言信息,主动获取知识,而不是要求考生全面、系统、透彻地弄懂相关科技知识,更不是从专业知识理解的角度来考查。对一般论述类文章的阅读与解题,我们要运用一些与之相适应的阅读解题方法。
1、分清类属——范畴
先要认定文章类属,是历史文化类的,还是文学艺术类的、教育伦理类的,文章类属不同,话题就不同。认定类属,有助于唤起回忆,调动知识储备,迅速进入文章特定内容。
2、强化概括——论点
一般论述类文章阅读,往往要从归纳内容要点的角度来命题。既有文章局部的内容要点归纳,也有全文的内容要点归纳。平时要强化从文章中找句子并进行概括的能力训练。
3、收集材料——论据
要特别注意收集文中的材料论据。有用来证实自己观点的,有用来反驳别人观点的,有用来表述某种看法的,有肯定的,有否定的,还有局部肯定局部否定的,这些都要分清。
4、注重技巧——论证
一般论述类文章谋篇布局的技巧和修辞技巧等主要是为说理服务的。鉴赏时不要脱离所说之“理”做孤立分析。从论证方法上来讲,要注重引证,例证,对比等。
论述性文本分类21、概述
文本分类是在nlp中很重要的模块。也是nlp任务中比较基础的模块。可以应用到很多领域:比如情感分析,新闻分类,垃圾邮件过滤等等。应用是非常广泛的。目前文本分类分为传统方法和深度学习的方法。在深度学习中文本分类又可以分文有监督学习的和无监督学习。但是无论何种方法文本分类最终应该是属于数学的集合的归类问题。
,则变成多分类问题、f函数,我们称之为f分类器或者说文本分类模型。根据分类器的发展,通常可以将文本分类的发展分为两个阶段:1、传统方法阶段 2、深度学习阶段
本文将文本分类开发过程中关键的几个模块进行描述,包括前期的分类体系,数据工程和模型,测试。主要描述工程方面遇到的一些问题。
2、确定分类体系。
其实在分类前期除了做数据处理和特征的选择外,最应该先了解的是分类体系。确定好分类类型和分类体系是完成任务好任务的关键。如果是简单的几个分类倒是还好。但是一旦类别多了就很难说的清楚谁应该属于哪一类别。确定好的分类体系应该明确以下几点:
1、类别之间有无重叠边界是否清晰
2、类别之间有无上下级关系
3、输入数据是否存在于所有类别。
整个分类体系的建立,需要专业性,完备性和系统性。前期如果对算法的输入没有个完备的分类体系后期对于算法开发人员,测试以及产品人员都是不好的。会有很多没必要的争吵。
3、数据的预处理。
数据预处理包括中文分词、去除噪音和数据增强。当然还有pca降维等方式对数据进行处理,根据工程任务也可能会有其他很多方式这里不详细讲述。
分词:分词应该很容易理解了,有很多分词的工具比如jieba分词,ltp分词等等。其实在后面会讲到在用一些比较强大的深度学习模型以后可能不需要分词。
去除数据的噪音:比如停用词的,是,了等等、,还有就是业务上需要去除的,有些文本不是很干净的,有的是有乱码或者其他字符,可能也是需要你把他去除。比如我在业务中又遇到过ocr后数据会有很多句号,很多“囧”,或者韩国的文字,或者日本的文字出现。
数据增强:在文本太少的时候,模型或者算法达不到好的效率,可以采用一些数据增强的方法进行数据的增加。
首先,我觉得你可以打印出每一个步骤所需耗费的时间,看一看哪一个步骤所耗费的时间比较多,尝试着寻找优化的方法。我先说说我想到的几个点吧。在sklearn中的一些分类方法中,其参数里用开启多进程的选项,你不妨试试看。如果你的训练数据规模比较大,不妨试一下LSA、LDA等一些模型,先降维。这两个方法在sklearn中也是有的。还有就是,在CountVectorizer中,mintf和maxtf参数的设置,为了避免包含过多的词。虽然这可能对速度的影响比较小,但对你的结果可能会有影响。必须要有一个好的停用词和词典,如果你处理的是中文文本的话。暂时就能想到这么多。
文本分类作为一项基础的研究,技术上已经很成熟了。下面提供一些网上能下载到的中文的好语料,供研究人员学习使用。
1中科院自动化所的中英文新闻语料库 中文新闻分类语料库从凤凰、新浪、网易、腾讯等版面搜集。英语新闻分类语料库为Reuters-21578的ModApte版本。
2搜狗的中文新闻语料库 包括搜狐的大量新闻语料与对应的分类信息。有不同大小的版本可以下载。
3李荣陆老师的中文语料库 压缩后有240M大小
4谭松波老师的中文文本分类语料 不仅包含大的分类,例如经济、运动等等,每个大类下面还包含具体的小类,例如运动包含篮球、足球等等。能够作为层次分类的语料库,非常实用。
5网易分类文本数据 包含运动、汽车等六大类的4000条文本数据。
6中文文本分类语料 包含Arts、Literature等类别的语料文本。
数据堂还有很多类似资源,自己去找吧。
第一步,你要有中文的数据集;
第二步,数据集要准备成weka能处理的结构,这很好做到,你把数据集压缩了就行了,因为它要求的格式是,一个类别的文件放一个文件夹下。但是还有一个问题,你的机器往往没那么多内存去处理这个数据集,那么你可以选几个类别出来,在每个类别中放几十个文档来做就可以了。
第三步,分词。
第四步,使用weka wiki中的例子将数据集转换成arff格式。
weka是一种机器学习算法的集合,它可以用于分类,预测等。由于weka支持的数据格式是arff或csv的格式,因此在进行weka实验的时候必须进行数据的预处理。一般,我们可以在EXCEL里面导入TXT,然后另存为CSV格式的文件(这个格式WEKA也是可以识别的),然后打开WEKA,–》TOOL–》 arffviewer中打开刚才的CSV文件,另存为arff就OK了!
中文文本分类所涉及的关键技术主要有中文文本预处理技术、中文文本表示模型、特征选择、文本分类的评价方法等。文本分类流程图见图1。 (1)数据准备和预处理阶段 收集训练集和测试集,对文本进行预处理。文档分类首先需要解决的问题是训练文本集的选择,训练文本集的选择是否合适对文本分类的性能有较大影响。它应该能够广泛地代表分类系统所要处理的客观存在的各个文本类中的文本。一般而言,训练文本集应是经人工分类的语料库,目前在文本信息处理过程中,普遍认为选取词作为特征项要优于字和词组,如何有效地进行分词是文本预处理的重点。
以上就是关于论述性文本分类全部的内容,包括:论述性文本分类、使用sklearn做文本分类,速度比较慢,有什么优化方法、有木有自然语言处理的大虾,给提供些中文文本分类语料资源,多谢!等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)