新浪微博作为国内最有影响力的公共舆论平台，每天产出超过5亿条文本，涵盖社会热点、用户情绪、消费观点，对自然语言处理、情感分析、舆情监控这些领域来说，高质量的微博数据集就是核心基础资源。我整理了目前主流的几类微博数据集，方便大家按需取用。

一、不同类型数据集，各有用途

1. 情感分析类：做情绪识别最常用

weibo_senti_100k：中文NLP圈最经典的情感分析数据集，大约10万条人工标注，分正向、负向两类。数据来自真实社交媒体，充满口语化表达、网络新词、表情符号，还有很多反讽隐喻，非常考验模型的鲁棒性。
Weibo-Sentiment-2024：比较新的数据集，规模12.6万条，覆盖了2023-2024年的热搜热点事件，标注很精细：不仅分情感极性，还有强度等级和目标实体，多个标注员交叉标注，一致性Kappa系数达到0.87，数据质量很高。
WeiboEmotion：中科院自动化所做的，是目前最大的中文情绪-原因对抽取数据集，一共5009条样本，连隐喻、反讽这种复杂情绪都做了标注，还定义了三种意图类型，做细粒度情绪分析的话非常好用。

2. 舆情与谣言检测：研究虚假信息传播必备

Sina Weibo Misinformation and Social Bots Dataset：西安交大等机构联合发布，包含11393条虚假信息和16416条真实信息，覆盖近百万用户，还标注了68040个社交机器人和41万多真实账户，是目前已知最大的同时标注虚假信息和社交机器人的数据集。
持续更新的微博舆情数据集：面向科研长期更新，强调时间维度的纵向可比性，保留了事件演化的完整时序，非常适合社会计算、计算传播学、危机管理这类研究。

3. 大规模通用语料库：预训练和基础任务用

500万条微博语料库：纯文本存储了大约500万条原始微博，大小408MB，可以用来做语言模型预训练、词向量学习、主题建模，通用性很强。

二、这些数据集能用来做什么？

基础NLP研究：微博文本口语化、网络化、多模态的特点，对分词、命名实体识别、关系抽取这些基础任务提出了不一样的挑战，能帮模型提升泛化能力。
情感计算与观点挖掘：用标注好的情感数据集训练模型，可以识别出喜悦、愤怒、悲伤这些多元情绪，给舆情监测和消费者洞察提供技术支撑。
社交机器人与虚假信息检测：带标注的虚假信息数据集，可以训练虚假新闻检测器，分析机器人在信息传播里的作用，给网络治理提供数据基础。
用户行为分析与推荐：点赞、评论、转发这些互动数据，给构建用户画像、优化推荐算法提供了丰富的训练样本。

三、获取和使用注意事项

目前主流数据集主要发布在CSDN、GitCode、arXiv这些平台，部分需要积分下载。使用的时候一定要注意：

所有数据都要做好脱敏，隐去用户ID等个人信息；
遵循发布协议，大多仅限学术研究使用，别商用；
注意数据时效性，热点事件类数据集放久了研究价值会下降。

微博数据集给中文NLP研究提供了非常宝贵的真实场景数据，用好这些资源，能实实在在推动社交媒体分析、舆情监测这些领域的技术进步。

本文所引用的部分图文来自网络，版权归属版权方所有。本文基于合理使用原则少量引用，仅用于对数字营销的分析，非商业宣传目的。若版权方认为该引用损害其权益，请通过极致了数据微信: JZL3122 联系我方，我们将立即配合处理。发布者：jzl，转载请注明出处：https://www.jizhil.com/global-data/13208.html

中文NLP研究宝藏：主流微博数据集资源大盘点

一、不同类型数据集，各有用途

1. 情感分析类：做情绪识别最常用

2. 舆情与谣言检测：研究虚假信息传播必备

3. 大规模通用语料库：预训练和基础任务用

二、这些数据集能用来做什么？

三、获取和使用注意事项

联系我们

18658854422

中文NLP研究宝藏：主流微博数据集资源大盘点

一、不同类型数据集，各有用途

1. 情感分析类：做情绪识别最常用

2. 舆情与谣言检测：研究虚假信息传播必备

3. 大规模通用语料库：预训练和基础任务用

二、这些数据集能用来做什么？

三、获取和使用注意事项

相关推荐

联系我们

18658854422