您好,欢迎来到独旅网。
搜索
您的当前位置:首页基于文本挖掘技术的互联网股票新闻的情感分类

基于文本挖掘技术的互联网股票新闻的情感分类

来源:独旅网
研究与探讨 中国市场2015年第24期(总第839期) 基于文本挖掘技术的互联网 股票新闻的情感分类 陈茜,连婉琳 211106) (南京航空航天大学 经济-9管理学院,江苏 南京[摘一要]互联网股票新闻对证券市场的投资者有较大的影响,是投资者制订股市投资计划时的重要参考依据之 。本文运用了网络爬虫技术获得文本信息,根据TF—IDF的思想,得到了股票的专业特征词,结合N—gram算法在 ICTCLAS平台实现中文分词,并运用评价理论对股票情感词和行为词进行情感分类,最终调用金融词库统计得出股票新 闻情感倾向。 [关键词]文本挖掘;中文分词;情感分类;互联网新闻 [DO1]10.13939/j.cnki.zgse.2015.24.234 21世纪以来,互联网新闻媒体发展越来越迅速。互 联网新闻涉及上市公司的经营状况、财务状况、战略决 策、股价走势以及机构意见等资讯,是中国股市投资者制 思路。 根据股票新闻网页源代码设计规则,制定网络爬虫的 采集网址规则,包括任务采集的起始网址和Xpath多级网 订投资计划时的重要依据。此外,中国股市以个人投资者 为主体的特点,催生了中国股票投资的羊群效应,使投资 者更容易受到互联网新闻的影响。 址获取规则的设定。根据实际所需,仅需截取一则新闻中 标题、内容和时间有价值的三部分。利用脚本代码进行新 闻文本批量截取,并通过典型页面测试验证规则的可靠 性。设置新闻内容发布模板,以“新闻时间+标题”命 名新闻文本文件名。从采集网址批量提取新闻,按照设置 文本挖掘技术是将互联网股票新闻转化为具有投资 参考价值的数据信息的基础。网络爬虫是数据挖掘过程 中的重要软件,可以从万维网的海量数据中抓取到有价 值的股票新闻文本。其次,中文分词技术是文本处理的 难点,如何使计算机按照中文语义自动识别语句是文本 挖掘技术的关键。在准确分词的基础上,可将股票新闻 的情感倾向进行量化分析,为股市投资者提供一定的投 资参考。… ] 模板组成股票新闻文本库。 2中文分词 2.1中文分词与TF—IDF思想 中文分词指的是将一串汉字序列分割为具有语义的单 独的词,当用户输入一段中文文本时,计算机可A动识别 语句含义并进行字符串分割。与拉丁语相比,中文缺失天 1 文本抓取 1.1利用爬虫技术抓取文本 随着数据挖掘理论的日益发展,以爬虫技术为代表的 数据抓取技术已经日趋成熟。网络爬虫是一个自动提取网 页的应用程序,可以按照设定的检索要求从互联网上下载 相关网页。在互联网股票新闻的抓取工作中,应采用基于 然的分隔符,词组的边界较为模糊,中文的这一特性为中 文分词带来了较大难度。 TF—IDF是中文分词的主要依据。TF—IDF的主要思 路是,如果某一词汇在一段文本中出现的频率很高,在另 一段文本中极少出现,则越表明该词汇适合用于分类;如 果包含该词汇的文档较少,IDF值越大,则表明该词汇具 有很好的区分能力。 目标数据的模式,获得符合一定模式的互联网股票新闻网 页数据,并转化映射为我们所需的目标数据模式。 1.2文档收集与标准化 数据挖掘致力于在海量数据中寻找隐藏在数据之中的 有用信息。文本挖掘和数据挖掘的区别在于,数据挖掘针 对的是数字,而文本是非结构化的文档集合。大部分数据 挖掘应用程序仅能够接受结构化信息的输入,因此,需将 2.2中文分词的新词发现 目前,常用的分词方法分为三大类:基于词库匹配、 基于统计和基于理解的分词方法。由于现有词库对于专业 领域文本分词的空白,第一种分词方法并不适用于股票新 闻的文本分词。在2、3方法中,在通用词库基础上的新 词发现是影响分词准确率的关键。 文本信息转化为有用的数据形式。在文本文档按照科学命 名规则排列的基础上,应进一步对文本进行量化处理,实 现分词及情感量化。 N—garn是一种基于统计语言模型的算法,在中文分 词过程中通常用于新词发现。假如一条中文语句可以表示 为一个分词序列,语言模型则表示按照该序列分词发生的 概率,对于中文而言,一条语句的序列划分有多种形式, 实例:以火车头爬虫软件为例介绍互联网新闻抓取 腿2015.6 陈茜,等:基于文本挖掘技术的互联网股票新闻的情感分类 研究与探讨 不同形式发生概率各不相同。根据最大似然的统计思想, 可得到整条语句按最大概率划分的结果。 2.3中文分词的软件实现 ICTCLAS是最早的中文分词开源项目之一,也是目前 使用较为广泛的分词系统,可支持C/C++、c#、JAVA 等主流开发语言。该系统包含中文分词、词性标注等重要 功能,并支持用户自定义的分词词典。由于股票新闻的专 业性,使用通用词典的分词效果不佳,因此需要构建股票 领域的分词词典。 3股票新闻的情感分类 3.1情感分类评价理论 评价理论可用于文本的情感分类。从文本中提取形容 词等短语作为特征词评价组,进行语义倾向分析,利用评 价组作为特征集能够有效提高情感分类的精确度。 股票新闻标题通常带有情感倾向,可以反映出股票的 涨跌趋势,因此,股票新闻有情感分类的价值。通过词频 统计,可从新闻文本中提取高频词作为股票领域的新词, 并进行情感分类。 3.2新闻情感分类标准设定 利用评价理论,本文将特征词划分为情感词和行为词 两类。情感词不仅包括形容词,还应包括各类带有情感含 义的动词以及修饰词。行为词与股票的波动变化有关,反 映了股票本身的行为特征。情感词有所不同,体现了新闻 中投资者的情绪或行为。对于股票的情感词与行为词,我 们分别按照积极词汇、消极词 [、程度词、否定词四类情 感进行分类,从而初步建立起金融词库。例如: 表1情感词举例 情感词 积极词汇 消极词汇 程度词 否定词 看好 减持 坚定 非 增持 抛售 谨慎 不 表2行为词举例 行为词 积极词汇 消极词汇 程度词 否定词 上扬 恶化 不低于 非 反弹 不足 迅速 不 3.3金融词库的完善 由于中文语义的特殊性,“上升”、“上扬”、“上涨” 等不同词汇均表达同一含义,然而计算机并不能自主识 别。此时,为了保证金融词库的可靠性,应将词库内的同 义特征词归类,调用中文同义词近义词词库,将词库内的 同义词划分到同一特征词下,并根据股票领域中特殊的同 义特征词进行人工归类。最后,可得到较为完善的金融 词库。 确定新闻情感倾向。调用用户自定义的金融词库,运 用计算机进行情感词与行为词词频统计,确定股票新闻的 情感倾向。 4总结与展望 本文将研究着眼于互联网股票新闻的文本数据挖掘。 利用网络爬虫技术实现了文本抓取,在文本分类与标准化 的基础上。根据TF—IDF的思想得到了股票的专业特征 词,并利用N—gram方法实现新词发现。运用评价理论对 股票情感词和特征词进行情感分类,得到金融词库,并调 用金融词库统计股票新闻情感倾向。 在上述思路的基础上,可进一步思考更适合的特征词 选择以及情感分类方法。此外,可尝试将股票新闻情感倾 向的时间序列与相关股票价格的序列进行计量拟合,实现 股价走势预测,为股票投资者提供更加简洁实用的参考 信息。[ ] 参考文献: [1]高呖,周莉,张勇,等.面向股票新闻的情感分类方法 [J].软件学报,2010,12(21):349—362. [2]高凯.智能预测在证券市场的分析及应用研究[D].兰 州:兰州交通大学,2011. [3]赵丽丽.互联网财经新闻对股市影响的定量分析[D].成 都:西南财经大学,2012:1—4. [4]Yang Yu,Wenjing Duan,Qing Cao.The impact of social and conventional media on firm equity value:A sentiment analysis approach [J].Decision Support Systems 55(2013):919—926. [5]Vivek Sehgal,Charles Song.SOPS:Stock Prediction using Web Sentiment[J].Seventh IEEE International Conference on Data Mining,2007. …~ …~~ 、 [作者简介]陈茜(1995一),女,汉族,江苏无锡人,南京航 空航天大学,本科在读,研究方向:互联网金融;连婉琳(1993一), 女,汉族,福建建阳人,南京航空航天大学,本科,研究方向: 金融 2015.6脑 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- dcrkj.com 版权所有 赣ICP备2024042791号-2

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务