好奇心数据分析

1. 好奇心日报数据抓取

可行性分析

　1. 网站做的比较简陋，里面的文章全部是从1~XXXX.html的格式存储的。另外，每篇文章标题，作者，文章内容，点赞数这些信息全部都集中在一个页面，用正则可以一次性匹配。
　2. 经过测试，网站并没有对单个IP的访问量进行限制，因此在爬数据时可以像科多兽驯兽师一样（让我们跑起来！）。
　3. 对用户登录与评论提交进行简单的注入测试，没有SQL注入漏洞。没有渠道获得后台文章提交地址，因此无法对这一块进行测试。
　4. 评论系统与文章展示是两个模块，如果爬取评论数据，需要执行js触发评论加载，人肉看了一下评论内容有很多机器贴，这里嫌麻烦就不爬了。
　5. 总结，无法通过后台数据库提取所有数据，可以通过展现的界面最大限度上获取作者，文章标题,内容，点赞数，引用图片这几个维度的数据。

爬虫及数据抽取代码

　包括异步，网页解析，以及模块化功能在内的代码一共70行。如果单纯写成脚本的话大概只要40行左右。考虑到大家没有安装对应mongo或mysql数据库，直接以json的形式保存至本地，为了保证存取性能，可自行进行单位文件大小配置。
　截止代码完成时共有29000篇文章，结果为json格式。具体修改爬取模式方法见注释，代码如下：

import asyncio
import aiohttp
import pyodbc
import re
import time
@asyncio.coroutine
def get_page(url,postdata=None):
    if postdata == None:
        response = yield from aiohttp.request('GET', url)
    else:
        response = yield from aiohttp.request('POST', url,data=postdata)
    return(yield from response.text(encoding='utf-8'))

@asyncio.coroutine
def catchPage(page):
    global reList
    reObject={}
    url='http://www.qdaily.com/articles/'+str(page)+'.html'
    sem = asyncio.Semaphore(50) #50次访问异步执行#
    with (yield from sem):
        content = yield from get_page(url)
        try:
            head = regex('<title>(.*?)<',content)[0].replace(' ','')
            if '(500)' in head or '(404)' in head:
                return
            title = head[0:head.find("_")]
            sType = head[head.find("_")+1:].replace('_好奇心日报（QDaily）','')
            author = regex('span class="name">(.*?)<',content)[0]
            detail = regex('"detail">(.*?)class="article-detail-ft"',content)[0]
            time = ''
            try:
                time = regex('<span class="date">(.*?)</span',content)[0]
            except:
                pass
            try:
                num = regex('"num ">(.*?)</span',content)[0]
            except:
                num = regex('num hidden">(.*?)</span',content)[0]
            reObject['title'] = title
            reObject['sType'] = sType
            reObject['author'] = author
            reObject['time'] = time
            reObject['num'] = num
            reObject['detail'] = detail.replace('"','').replace("'",'').replace('\n','').replace('\t','').replace('\r','').replace('<p>','').replace('</p>','').replace('&nbsp;','').replace(' ','')
            reObject['imgNum'] = str(detail.count('img src='))
            reList.append(reObject)
        except:
            return

def regex(pattern,content):
    regex = re.compile(pattern,re.S)
    resultList = re.findall(regex,content)
    return resultList
def main(sPage,ePage):
    loop = asyncio.get_event_loop()
    f = asyncio.wait([catchPage(page) for page in range(sPage,ePage)])
    loop.run_until_complete(f)
def execute(start,sp):
    global reList
    for i in range(start,29000,sp):     #29000为最终文章名，根据需要更改#
        reList=[]
        filename = str(i)+"_"+str(i+sp-1)+".json"
        try:
            main(i,i+sp)
            f=open(filename,'w',encoding='utf-8')
            f.write(str(reList).replace("'",'"'))
            print(filename+"--success!")
            f.close()
        except:
            print(filename+"--failure!")
start = input('start:')
sp = input('jiange:')
execute(int(start),int(sp))     #sp为单位文件存储文章数量，若要一个文件存储200篇则传入200#

　有了数据之后就能够进行分析了。简单的就将json转为csv格式，通过excel进行各种数据清洗操作。复杂情况下可以利用numpy及pandas进行快速数据处理。这里仅展示用pandas实现不同文章字数区间对应的平均点赞数清洗功能。代码如下：

import pandas as pd
import numpy as np
likeNum=data['likeNum']
count = data['count']
f=open('count_likeNum.csv','w',encoding='utf-8')
for cNum in range(500,150000,500):  #字数在500-15000之间，500个字数增长间隔#
    eNum = cNum+500
    countData = data[count>cNum]
    cCount = countData[countData['count']<eNum]['likeNum']
    if len(cCount) >=2:
        f.write(str(cNum)+","+str(cCount.sum())+","+str(cCount.mean())+","+str(len(cCount))+'\n')
f.close()

2.好奇心数据分析展示

这里可以看出，关注这个新媒体的年轻人普遍比较文（WU）艺（NAO），更偏向于时尚与设计
好奇心文章的点赞数逐渐趋于平缓，预示这个新媒体需要一个更新的突破点去吸引更多的用户关注。
朋友的朋友竟然在TOP3里面，一方面她挺厉害，一方面应届生都能上top3，这个网站:(
这个没什么好说的
这张图很能反映问题，明明读者偏向于13000-20000字数之间的文章，但是作者在这个区间内写的文章却是最少的（LN频率=Ln(该字数区间文章数/总文章数)）建议编辑多写这个字数范围内的文章。

结论

虽然没有一个衡量新媒体质量的标准体系，但在我这里满分十分的话好奇心5分，也可能是因为我对时尚小资这些东西没什么兴趣。
亚文化是一个很大的方向，下次可以做一个公路商店的分析报告。