用word的查找替换功能整理乱糟糟的问卷数据

这篇文章,想跟大家分享我使用word带通配符的查找替换功能的一些心得。

之前做过一份问卷,放在了不同的平台上。放在搜狐上的问卷,收回来数据就傻了眼。

sohu-orign

傻眼的原因是,格式很不规矩。导入spss等统计软件时,至少需要同一道题在同一列,比如下面这个问卷星的原始数据。

wenjuanxing-orign

而搜狐的后台,由于没有加入必要的空单元格,使得许多题交叉混合在了一起,这非常不利于统计。

那么,如何把乱七八糟的搜狐数据整理得规矩一些呢?我想到了word的查找与替换功能。

将excel文件中的内容拷贝,以无格式文本(CTRL+ALT+V,选无格式文本)的形式粘贴到word里。

image

粘贴后,内容就是这个样子:

image

虽然杂乱,但也不是无章可循。我们可以分析一下上面文档的结构:

1.每一份问卷的最后,会有一个回车

2.每道题(无论单选还是多选),题目开始的时候会有“第n题”

3.每个选项都是“第n项”的格式,每题的第一个选项是“第m题:第n项”的格式

这是最最重要的,得到这些规律,我们就能通过逐步替换,来提取出每道题,整理成规矩的表格。

以提取第26题为例,这是一道单选题。它的肯定以“第26题”开始,以“第27题”结束。

image

CTRL+H弹出查找和替换对话框,点击“更多”选中“使用通配符”。

将"    第1题第26题:第()项第27题^13全部替换为\1^p。这里,第一个式子就是我们根据前面的分析,得出的能够匹配所有问卷的一个结构形式,*表示任意字符,^13表示回车,\1表示“查找内容”里括号里的内容,^p也表示回车。(选中通配符情况下,查找内容里用^13表示回车,替换为里用^p表示回车;不选通配符,都可用^p表示回车)

点击“全部替换”,得到干净的结果,只剩下第26题的选项:

image

最后,全选,复制,粘贴到excel里,重复提取每一道题,就能将这个乱七八糟的原始问卷变得规范条理了。小结:最重要的部分,是分析文本的结构。

阅读 17