贾斯汀·格里莫,布兰登·m·斯图尔特,玛格丽特·e·罗伯茨

2022年9月5日

文本作为数据

机器学习和社会科学的新框架

普林斯顿大学出版社

从社交媒体帖子和短信到数字政府文件和档案,研究人员受到了反映社会世界的大量文本的轰炸。这些文本数据对社会科学、人文科学和工业领域的基本问题提供了前所未有的见解。与此同时,新的机器学习工具正在迅速改变科学和商业的运作方式。文本即数据:机器学习和社会科学的新框架(普林斯顿大学UP, 2022)展示了如何结合新的数据来源、机器学习工具和社会科学研究设计来开发和评估新的见解。

文本作为数据围绕研究项目中的核心任务进行组织,使用文本-表示,发现,测量,预测和因果推断。作者提供了一个连续的,迭代的,归纳的方法来研究设计。每个研究任务都完整地呈现了现实世界的应用,示例方法,以及以任务为中心的研究的独特风格。

弥合许多鸿沟——计算机科学和社会科学,定性和定量,以及工业和学术界——文本作为数据对于任何想要在一个数据丰富、计算廉价的时代分析大量文本的人来说,这是一个理想的资源,但社会科学的持久挑战仍然存在。

  • 概述如何使用文本作为数据
  • 为数据泛滥的世界做研究设计
  • 来自社会科学和工业的例子

彼得Lorentzen是旧金山大学的经济学教授。他是旧金山大学的校长应用经济学硕士课程,专注于数字经济。主要研究方向为中国政治经济学。

收听更多节目:

您的主机

彼得Lorentzen

彼得Lorentzen是旧金山大学的经济学教授。他是旧金山大学的校长应用经济学硕士课程,专注于数字经济。主要研究方向为中国政治经济学。

了解更多

由Peter Lorentzen主持

Baidu