工商数据更新任务目标
- 各个维度定期更新
- 各个维度的更新数量可直观观测
- 各个维度任务提交方法统一
各个维度定期更新(例行任务)
- t1:企业7天侦测更新一轮次:8维度(照面信息、股东、主要人员、变更记录、行政处罚,年报信息, 分支机构信息,企业自主公示股东信息)
- t2:个体户1月更新一轮次:(3)维度(照面信息、变更记录、年报, 行政处罚?)
- t3:依照工商表中各个维度的例行更新7天一轮次
- t4:各个维度的找新,有公告则依照公告
- t5:各个维度的找新,无公告则全量企业,一月更新一轮
- t6:其他一次性任务
任务类型
- t1/t2
- t3
- t4
- t5
- t6
各个维度的更新数量可直观观测
- 主要结合es,kibana,mysql统计
提交维度任务的统一
工商维度
data_type | 名称 | 找新任务 | 例行更新任务 | 任务来源(找新/例行) | 任务周期/天(找新/例行更新) | 注释 | 数据量 |
---|---|---|---|---|---|---|---|
base | 照面基本信息 | - | t1/t2 | es | 7 | 通过es筛选在营企业,任务为8维度,不区分个体户 | |
change | 变更信息 | - | t1/t2 | es | 7 | -同上- | |
annual_report | 年报信息 | - | t1/t2 | es | 7 | -同上- | |
branch | 分支机构信息 | - | t1 | es | 7 | -同上- | |
employee | 主要人员信息 | - | t1 | es | 7 | -同上- | |
partner | 股东信息 | - | t1 | es | 7 | -同上- | |
qy_partner | 企业自主公示股东信息 | - | t1 | es | 7 | -同上- | |
simple_cancel | 简易注销信息 | - | t1 | es | 7 | -同上- | |
punish | 行政处罚信息 | t4 | t3/t2 | ic_notice/company_punish | 1/7 | 找新提交公告表的新增任务,根据维度表提交例行任务 | |
abnormal | 经营异常信息 | t4 | t3 | ic_notice/company_abnormal | 1/7 | -同上- | |
illegal | 严重违法信息 | t4 | t3 | ic_notice/company_illegal | 1/7 | -同上- | |
justice | 司法信息 | t4 | t3 | ic_notice/company_justice | 1/7 | -同上- | |
random_check | 双随机抽查检查 | t4 | t3 | ic_notice/company_random_check | 1/7 | -同上- | |
cancel_notice | 注销备案、公告 | t4 | t3 | ic_notice/company_cancel_notice | 1/7 | -同上- | |
intellectual | 知识产权出质信息 | t5 | t3 | es/company_intellectual | 30/7 | 找新通过es提交6维度任务,根据维度表提交例行任务 | |
clear | 清算信息 | t5 | t3 | es/company_clear | 30/7 | -同上- | |
check | 抽查检查信息 | t5 | t3 | es/company_check | 30/7 | -同上- | |
pledge | 股权出质信息 | t5 | t3 | es/company_pledge | 30/7 | -同上- | |
allow | 行政许可信息 | t5 | t3 | es/company_allow | 30/7 | -同上- | |
chattel | 动产抵押信息 | t5 | t3 | es/company_chattel | 30/7 | -同上- |
data_type | 维度名称 | 存量更新策略 | 找新策略 |
---|---|---|---|
baseinfo | 照面基本信息 | 在营主体滚动更新,且更新时间超过1天 | 独立成项目 |
change | 变更记录 | 在营主体滚动更新,且更新时间超过1天 | 在营主体滚动更新 |
annual_report | 年报信息 | 不例行更新 | 在营主体滚动更新侦测最新年报 |
branch | 分支机构 | 在营有分支机构的enttype主体滚动更新,且更新时间找过前天 | 在营有分支机构的enttype主体滚动更新 |
employee | 主要人员 | 在营有主要人员的enttype主体滚动更新,且更新时间超过1天 | 在营有主要人员的enttype主体滚动更新 |
partner | 股东信息 | 在营有股东信息的enttype主体滚动更新,且更新时间超过1天 | 在营有股东信息的enttype主体滚动更新 |
qy_partner | 企业自主公示股东信息 | 在营有企业自主公示股东信息的enttype主体滚动更新 | 在营有企业自主公示股东信息的enttype主体滚动更新 |
simple_cancel | 简易注销 | 有简易注销信息或有简易注销标签的主体滚动更新 | 公告列表 + 照面信息滚动更新时获取标签 |
punish | 行政处罚 | 有行政处罚的在营主体滚动更新,且行政处罚维度更新时间超过3天 | 在营主体滚动更新 + 信用中国线索 |
abnormal | 经营异常 | 有经营异常的在营主体或有经营异常标签的在营主体滚动更新,且经营异常维度更新时间超过3天 | 公告列表 + 照面信息滚动更新时获取标签 |
illegal | 严重违法 | 有严重违法的在营主体或有严重违法标签的在营主体滚动更新,且严重违法维度更新时间超过3天 | 公告列表 + 照面信息滚动更新时获取标签 |
justice | 司法协助 | 有司法协助的在营主体滚动更新,且司法协助维度更新时间超过3天 | 公告列表 + 在营有司法协助的enttype主体滚动更新 |
random_check | 双随机抽查检查 | 无需更新 | 公告列表 + 在营主体滚动更新 |
cancel_notice | 注销备案公告 | 有注销备案的(在营)主体或有注销备案标签的主体滚动更新,且注销备案维度更新时间超过3天 | 公告列表 + 照面信息滚动更新时获取标签 |
intellectual | 知识产权出质 | 有知识产权出质的在营主体滚动更新,且维度更新时间超过3天 | 有商标专利的企业滚动更新 |
clear | 清算信息 | 有清算信息的在营主体滚动更新,且清算信息更新维度超过3天 | 在营企业滚动更新 |
check | 抽查检查 | 无需更新 | 在营主体滚动更新 |
pledge | 股权出质信息 | 有股权出质信息的在营主体滚动更新,且股权出质维度更新时间超过3天 | 有股东信息企业滚动更新 |
allow | 行政许可 | 有行政许可信息的在营主体滚动更新,且行政许可维度更新时间超过3天 | 在营主体滚动更新 |
chattel | 动产抵押 | 有动产抵押信息的在营主体月度更新 | 工商公示系统无新增 |
ent_type&data_type
* | base | shareholder | keyperson | branch | neRecItem | clear | alter | mort | stock | intellectual | check | proquacheck | supervisionCheckres | foodChkInfo | drranins | assist | susnate | promisefake | annualreport | instant | other | punish | abnormal | ill | trademark | copyright | simplecancer | elicenseNullfy | ePubGroupMenberInfo | eNliq | eselfinfo | stopBusi | cancleStopInfo |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
data_type | partner | employee | branch | 多证合一公示 | clear | change | chattel | pledge | intellectual | check | 产品质量监督抽查 | 认证监管司抽查检查 | 食品抽查检查信息 | random_check | justice | 涉嫌冒用他人身份登记公示 | 承诺不实情况 | annual_report | 知识产权出质 | punish | abnormal | illegal | 商标注册信息 | 知识产权出质 | simple_cancel | 营业执照作废 | 集团成员信息 | cancel_notice | 执行标准自我声明信息 | 市场主体歇业公告 | 终止歇业公告 | ||
1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
101 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
2 | 1 | 0 | 0 | 0 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
3 | 1 | 1 | 0 | 0 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
4 | 1 | 0 | 0 | 0 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
5 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
6 | 1 | 0 | 0 | 0 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
7 | 1 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
8 | 1 | 0 | 0 | 0 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
9 | 1 | 0 | 0 | 0 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
10 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
1001 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
11 | 1 | 0 | 0 | 0 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
12 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
13 | 1 | 0 | 0 | 0 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
14 | 1 | 0 | 0 | 0 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
15 | 1 | 1 | 0 | 0 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
16 | 1 | 0 | 1 | 0 | 1 | 0 | 1 | 1 | 0 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 0 | 1 | 1 | 1 | 1 |
17 | 1 | 0 | 1 | 0 | 1 | 0 | 1 | 1 | 0 | 0 | 1 | 1 | 1 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 0 | 1 | 1 | 1 | 1 |
18 | 1 | 0 | 0 | 0 | 1 | 0 | 1 | 1 | 0 | 0 | 1 | 1 | 1 | 1 | 1 | 0 | 1 | 1 | 0 | 0 | 1 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 0 | 0 | 1 | 1 | 1 |
工商全维度更新任务计划
任务 | 子任务 | 任务周期 | 天数 | 任务详情描述 |
---|---|---|---|---|
例行任务数量统计及优先级分配 | 05/05-05/06 | 2 | 统计各个维度的找新及更新的任务量并分配队列优先级 | |
例行任务data_pump | 05/07-05/11 | 4 | 各个例行任务data_pump开发 | |
t1t2任务 | 05/07-05/07 | 1 | t1,t2任务例行及根据标签取消维度任务的测试 | |
t3任务 | 05/09-05/09 | 1 | t3任务例行及合并的可行性分析,待解决 | |
t4任务 | 05/10-05/10 | 1 | 已经在例行,公告找新覆盖率测试及解决方案 | |
t5任务 | 05/11-05/11 | 0.5 | data_pump开发 | |
爬虫优化和开发 | 05/12-05/13 | 2 | 调整爬虫以能够完成例行任务,开发时间待定 | |
结果监控及面板展示 | 05/16-05/17 | 2 | 各个维度更新状态和速度监控 | |
其他开发 | 05/18-05/18 | 1 | 从各个数据源提交任务的方式不宜太分散,开发一个data_pump项目用于提交任务,自动分配优先级。 |