- · 《太原城市职业技术学院[05/19]
- · 《太原城市职业技术学院[05/19]
- · 《太原城市职业技术学院[05/19]
- · 《太原城市职业技术学院[05/19]
- · 《太原城市职业技术学院[05/19]
- · 《太原城市职业技术学院[05/19]
城市画像视角下的热点城市特征识别方法研究
作者:网站采编关键词:
摘要:智慧城市建设中的网络舆情监测一直受到社会各界关注。充分发挥现代信息技术的优势,感测、分析、整合城市的各项关键信息,真实、客观、完整、及时地获取城市网络舆情是政府部
智慧城市建设中的网络舆情监测一直受到社会各界关注。充分发挥现代信息技术的优势,感测、分析、整合城市的各项关键信息,真实、客观、完整、及时地获取城市网络舆情是政府部门做出合理决策的基础。城市画像是公众对城市特征的认知、评价和情感的综合体现。早在20世纪60年代,Lynch K就依据市民的心理形象衡量城市的视觉质量,并由此引出了城市画像的概念[1]。这种由公众依据自我认知形成的共同记忆,就像城市的一张名片,能够在一定程度上反映城市的个性与特征,展现城市形象与内涵,对城市规划管理、城市特色塑造、城市文化传承等方面具有重要意义。随着数据科学的发展,学者们逐步意识到网络数据为实现洞见城市运行情况的目标提供了可行途径,并围绕以数据为中心的城市画像研究展开了多层次、多视角、多方位的理论与技术探索[2-4]。而社交网络中的用户问答数据作为新媒体时代孕育的载体,承载了公众心中最直观且感性的城市画像,蕴含了公众视角下某段时期内城市发展的主要特征,体现了公众对城市特征的综合印象。由此,本文从城市画像视角出发,借鉴突发主题识别技术中的爆发词检测方法,定义标签关注度、标签新颖度和标签创新度3个指标构建综合指标评价模型,以求从社交网络中的用户问答数据中识别某段时间内被社会各界广泛关注、具有较大影响力且近期未被重点关注的热点城市特征。文中方法的实施有利于提高城市全面感知、分析和利用城市画像的能力,诊断城市当前面临的突出问题和主要矛盾,辅助政府部门智能响应公共安全、城市服务和商业活动等各方面的社会需求。
1 研究现状
城市作为一个相对独立的社会系统,包含成千上万个变量。城市的政治、经济、文化和生态等因素均会对城市特征产生影响。目前城市特征研究侧重于关注城市空间特征,重视空间结构对城市特征造成的影响,通常构建研究体系探索热点空间特征的内在形成机理及其与居民活动间的互动关系;并在理论性阐述热点空间特征起源和延续原因的同时,通过实证研究分析政治、经济和文化等非物质因素对城市特征造成的影响[5]。在数据获取方面,现有研究大多采用主观性较强的问卷调查[6]、深度访谈[7]和意向草图[8-9]等社会学调查方法;在数据分析方面,现有研究也多沿袭数理统计、认知地图[10-11]和空间分析[12]等旅游学研究方法。事实上在收集、处理和分析主观性数据的过程中,传统旅游学研究方法的不足和局限逐渐显现。难以回收大量有效数据、收集数据包含大量噪声(调查对象理解偏差或填写虚假信息)、处理非线性数据困难等诸多问题均会给实证分析结果带来偏差甚至错误,并最终影响实证研究所获结论的可靠性[13]。
社交网络中描述城市特征的用户问答数据蕴含着公众的态度和认知。它们不仅相对客观,能够在一定程度上避免上述问题;而且可以利用突发主题识别技术直接获取不同城市的热点城市特征。事实上,突发主题识别在众多基于文本挖掘的社交网络研究中具有重要应用。学术界对突发主题识别研究起源于热点话题的检测与追踪(Topic Detection and Tracking,TDT)技术。该技术与数据挖掘、信息检索等自然语言处理技术间有很多共性,最初应用于监控具有突发和延续性规律的新闻语料,后来逐渐成为信息处理领域的研究热点。目前主要研究方法包括:1)在语义相似度计算和聚类分析的基础上,通过自动分类话题文本发现热点话题的向量空间方法[14-15];2)在词频统计和权重计算的基础上,挖掘热点话题的统计语言模型[16-18];3)在构建网络链接及分析的基础上,通过转移概率和转移矩阵探究话题演变的图论方法[19-20];4)混合使用以上方法,通过归纳、总结热点话题的主要特征,实现组织处理这些特征的突发检测方法[21-23]。
在众多研究之中,正确识别并处理文本中的爆发词是所有关于突发主题识别研究的基础性工作,对突发主题探测及其趋势监测具有重大影响。目前关于爆发词识别的相关研究主要是基于词语的科技监测方法,可将其总结、归纳为基于数理统计的词频分析方法、基于词组网络关系的共词分析方法、基于词频变化率的突发监测方法和基于语义相似度的内容分析方法[24]。其中,在词语集合中区分爆发词与非爆发词的研究重点并非仅仅停留在统计层面的词语聚类和分类技术上,而是逐渐向词语间的语义关系和上下文语境延伸。此外,随着通用本体与领域本体的日渐成熟,文本语义相似度研究也日臻完善,由此产生了一系列比较有代表性的理论、技术和方法,其研究成果集中在概念、语句和文档3种不同文本粒度的语义相似度计算上。与此同时,诸多学者将语义相似度研究应用于信息提取、词义消歧、语义计算、文本聚类和文本分类等自然语言处理领域,并进一步将其引入到爆发词的特征识别、时段识别、语义合并和关联映射等方面研究,从而使关于爆发词识别的相关研究更加成熟和完善[25]。
文章来源:《太原城市职业技术学院学报》 网址: http://www.tycszyjsxyxb.cn/qikandaodu/2021/0708/1168.html