Skip to content

GitLab

  • Projects
  • Groups
  • Snippets
  • Help
    • Loading...
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
    • Contribute to GitLab
  • Sign in / Register
K
kb
  • Project overview
    • Project overview
    • Details
    • Activity
    • Releases
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 2
    • Issues 2
    • List
    • Boards
    • Labels
    • Service Desk
    • Milestones
  • Merge requests 0
    • Merge requests 0
  • Operations
    • Operations
    • Incidents
  • Analytics
    • Analytics
    • Repository
    • Value Stream
  • Wiki
    • Wiki
  • Members
    • Members
  • Activity
  • Graph
  • Create a new issue
  • Commits
  • Issue Boards
Collapse sidebar
  • granite
  • kb
  • Wiki
    • Data_stream
    • Ic
  • zongju_data_update

Last edited by songzp Jun 10, 2022
Page history

zongju_data_update

工商数据更新任务目标

  • 各个维度定期更新
  • 各个维度的更新数量可直观观测
  • 各个维度任务提交方法统一

各个维度定期更新(例行任务)

  • t1:企业7天侦测更新一轮次:8维度(照面信息、股东、主要人员、变更记录、行政处罚,年报信息, 分支机构信息,企业自主公示股东信息)
  • t2:个体户1月更新一轮次:(3)维度(照面信息、变更记录、年报, 行政处罚?)
  • t3:依照工商表中各个维度的例行更新7天一轮次
  • t4:各个维度的找新,有公告则依照公告
  • t5:各个维度的找新,无公告则全量企业,一月更新一轮
  • t6:其他一次性任务

任务类型

  • t1/t2
  • t3
  • t4
  • t5
  • t6

各个维度的更新数量可直观观测

  • 主要结合es,kibana,mysql统计

提交维度任务的统一

工商维度

data_type 名称 找新任务 例行更新任务 任务来源(找新/例行) 任务周期/天(找新/例行更新) 注释 数据量
base 照面基本信息 - t1/t2 es 7 通过es筛选在营企业,任务为8维度,不区分个体户
change 变更信息 - t1/t2 es 7 -同上-
annual_report 年报信息 - t1/t2 es 7 -同上-
branch 分支机构信息 - t1 es 7 -同上-
employee 主要人员信息 - t1 es 7 -同上-
partner 股东信息 - t1 es 7 -同上-
qy_partner 企业自主公示股东信息 - t1 es 7 -同上-
simple_cancel 简易注销信息 - t1 es 7 -同上-
punish 行政处罚信息 t4 t3/t2 ic_notice/company_punish 1/7 找新提交公告表的新增任务,根据维度表提交例行任务
abnormal 经营异常信息 t4 t3 ic_notice/company_abnormal 1/7 -同上-
illegal 严重违法信息 t4 t3 ic_notice/company_illegal 1/7 -同上-
justice 司法信息 t4 t3 ic_notice/company_justice 1/7 -同上-
random_check 双随机抽查检查 t4 t3 ic_notice/company_random_check 1/7 -同上-
cancel_notice 注销备案、公告 t4 t3 ic_notice/company_cancel_notice 1/7 -同上-
intellectual 知识产权出质信息 t5 t3 es/company_intellectual 30/7 找新通过es提交6维度任务,根据维度表提交例行任务
clear 清算信息 t5 t3 es/company_clear 30/7 -同上-
check 抽查检查信息 t5 t3 es/company_check 30/7 -同上-
pledge 股权出质信息 t5 t3 es/company_pledge 30/7 -同上-
allow 行政许可信息 t5 t3 es/company_allow 30/7 -同上-
chattel 动产抵押信息 t5 t3 es/company_chattel 30/7 -同上-
data_type 维度名称 存量更新策略 找新策略
baseinfo 照面基本信息 在营主体滚动更新,且更新时间超过1天 独立成项目
change 变更记录 在营主体滚动更新,且更新时间超过1天 在营主体滚动更新
annual_report 年报信息 不例行更新 在营主体滚动更新侦测最新年报
branch 分支机构 在营有分支机构的enttype主体滚动更新,且更新时间找过前天 在营有分支机构的enttype主体滚动更新
employee 主要人员 在营有主要人员的enttype主体滚动更新,且更新时间超过1天 在营有主要人员的enttype主体滚动更新
partner 股东信息 在营有股东信息的enttype主体滚动更新,且更新时间超过1天 在营有股东信息的enttype主体滚动更新
qy_partner 企业自主公示股东信息 在营有企业自主公示股东信息的enttype主体滚动更新 在营有企业自主公示股东信息的enttype主体滚动更新
simple_cancel 简易注销 有简易注销信息或有简易注销标签的主体滚动更新 公告列表 + 照面信息滚动更新时获取标签
punish 行政处罚 有行政处罚的在营主体滚动更新,且行政处罚维度更新时间超过3天 在营主体滚动更新 + 信用中国线索
abnormal 经营异常 有经营异常的在营主体或有经营异常标签的在营主体滚动更新,且经营异常维度更新时间超过3天 公告列表 + 照面信息滚动更新时获取标签
illegal 严重违法 有严重违法的在营主体或有严重违法标签的在营主体滚动更新,且严重违法维度更新时间超过3天 公告列表 + 照面信息滚动更新时获取标签
justice 司法协助 有司法协助的在营主体滚动更新,且司法协助维度更新时间超过3天 公告列表 + 在营有司法协助的enttype主体滚动更新
random_check 双随机抽查检查 无需更新 公告列表 + 在营主体滚动更新
cancel_notice 注销备案公告 有注销备案的(在营)主体或有注销备案标签的主体滚动更新,且注销备案维度更新时间超过3天 公告列表 + 照面信息滚动更新时获取标签
intellectual 知识产权出质 有知识产权出质的在营主体滚动更新,且维度更新时间超过3天 有商标专利的企业滚动更新
clear 清算信息 有清算信息的在营主体滚动更新,且清算信息更新维度超过3天 在营企业滚动更新
check 抽查检查 无需更新 在营主体滚动更新
pledge 股权出质信息 有股权出质信息的在营主体滚动更新,且股权出质维度更新时间超过3天 有股东信息企业滚动更新
allow 行政许可 有行政许可信息的在营主体滚动更新,且行政许可维度更新时间超过3天 在营主体滚动更新
chattel 动产抵押 有动产抵押信息的在营主体月度更新 工商公示系统无新增

ent_type&data_type

* base shareholder keyperson branch neRecItem clear alter mort stock intellectual check proquacheck supervisionCheckres foodChkInfo drranins assist susnate promisefake annualreport instant other punish abnormal ill trademark copyright simplecancer elicenseNullfy ePubGroupMenberInfo eNliq eselfinfo stopBusi cancleStopInfo
data_type partner employee branch 多证合一公示 clear change chattel pledge intellectual check 产品质量监督抽查 认证监管司抽查检查 食品抽查检查信息 random_check justice 涉嫌冒用他人身份登记公示 承诺不实情况 annual_report 知识产权出质 punish abnormal illegal 商标注册信息 知识产权出质 simple_cancel 营业执照作废 集团成员信息 cancel_notice 执行标准自我声明信息 市场主体歇业公告 终止歇业公告
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
101 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
2 1 0 0 0 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
3 1 1 0 0 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
4 1 0 0 0 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
5 1 1 0 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
6 1 0 0 0 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
7 1 1 0 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
8 1 0 0 0 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
9 1 0 0 0 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
10 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1001 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
11 1 0 0 0 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
12 1 1 0 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
13 1 0 0 0 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
14 1 0 0 0 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
15 1 1 0 0 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
16 1 0 1 0 1 0 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 0 1 1 1 1
17 1 0 1 0 1 0 1 1 0 0 1 1 1 1 1 0 1 1 1 1 1 1 1 0 1 1 1 1 0 1 1 1 1
18 1 0 0 0 1 0 1 1 0 0 1 1 1 1 1 0 1 1 0 0 1 1 1 0 1 1 1 1 0 0 1 1 1

工商全维度更新任务计划

任务 子任务 任务周期 天数 任务详情描述
例行任务数量统计及优先级分配 05/05-05/06 2 统计各个维度的找新及更新的任务量并分配队列优先级
例行任务data_pump 05/07-05/11 4 各个例行任务data_pump开发
t1t2任务 05/07-05/07 1 t1,t2任务例行及根据标签取消维度任务的测试
t3任务 05/09-05/09 1 t3任务例行及合并的可行性分析,待解决
t4任务 05/10-05/10 1 已经在例行,公告找新覆盖率测试及解决方案
t5任务 05/11-05/11 0.5 data_pump开发
爬虫优化和开发 05/12-05/13 2 调整爬虫以能够完成例行任务,开发时间待定
结果监控及面板展示 05/16-05/17 2 各个维度更新状态和速度监控
其他开发 05/18-05/18 1 从各个数据源提交任务的方式不宜太分散,开发一个data_pump项目用于提交任务,自动分配优先级。
Clone repository
  • README
  • basic_guidelines
  • basic_guidelines
    • basic_guidelines
    • dev_guide
    • project_build
    • 开发流程
  • best_practice
  • best_practice
    • AlterTable
    • RDS
    • azkaban
    • create_table
    • design
    • elasticsearch
    • elasticsearch
      • ES运维
    • logstash
View All Pages