... | ... | @@ -3,15 +3,43 @@ |
|
|
1.数据获取来源于官网
|
|
|
* 因为此前发现综合查询入口查询数据不全的情况,便选择从子入口获取不同维度数据。
|
|
|
* 目前爬取的数据包括失信被执行人,限制消费人员,被执行人,终结本次案件和财产处置的询价评估
|
|
|
* 失信被执行人:目前业务库数据来源于第三方,我们也爬取了官网的数据,表位于bdp-ext.rwlb.rds.aliyuncs.com bdp_risk.risk_shixin_spider_find_new。
|
|
|
* 被执行人:目前业务库更新与例行都依靠从官网爬取的数据。业务库中存在第三方数据,标识为update_source字段非空。
|
|
|
* 限制消费人员:目前业务库更新与例行都依靠从官网爬取的数据。
|
|
|
* 终结本次案件:目前业务库更新与例行都依靠从官网爬取的数据。
|
|
|
* 失信被执行人:目前业务库数据来源于第三方,我们也爬取了官网的数据,
|
|
|
表位于bdp-ext.rwlb.rds.aliyuncs.com bdp_risk.risk_shixin_spider_find_new。
|
|
|
* 被执行人,限制消费人员与终结本次案件:目前业务库更新与例行都依靠从官网爬取的数据。
|
|
|
业务库中存在第三方数据,标识为update_source字段非空。
|
|
|
表位于bdp-rds-001.mysql.rds.aliyuncs.com utn_ng_risk
|
|
|
* 询价评估:处于开发阶段。
|
|
|
|
|
|
## 数据例行与找新
|
|
|
1.例行
|
|
|
* 被执行人
|
|
|
* 通过zhixing_id进行例行。例行更新发布的zhixing_id都是use_flag为0的数据。
|
|
|
表内的唯一键是对名称+案号拼接后的字符串进行md5加密生成的。
|
|
|
zhixing_id爬取结果为1101时,标记为历史数据,即将表内use_flag置为9。
|
|
|
爬取结果为1000时,进行插入或更新。
|
|
|
* 通过pname进行例行。每天取前一天use_flag被置为9的数据中的pname发布任务。
|
|
|
这是因为同一条数据的zhixing_id会变化,为了避免误置为历史数据才发布此任务。
|
|
|
* 终结本次案件
|
|
|
* 通过zhongben_id进行例行,zhixing_id爬取结果为1101时,标记为历史数据,即将表内is_history置为1。
|
|
|
爬取结果为1000时,进行插入或更新。业务表没有唯一键,通过入库的代码通过案号和名称保证数据不重复。
|
|
|
* 终本暂未开发按名称查询的爬虫。
|
|
|
|
|
|
* 限制消费人员
|
|
|
* 通过name进行例行。限销表内唯一键为xianxiao_id,按照xianxiao_id进行数据更新。
|
|
|
按照name爬取的结果包含此名字在官网上搜索的所有结果。
|
|
|
将业务表中对应任务name的xianxiao_id不匹配爬虫结果xinaxiao_id的数据置为历史数据,
|
|
|
即将表内is_history置为1。
|
|
|
|
|
|
2.找新
|
|
|
* 详见 [zxgk找新说明](risk_zxgk_find_new)
|
|
|
* 被执行人
|
|
|
* 通过zhixing_id进行找新。
|
|
|
|
|
|
* 终结本次案件
|
|
|
* 通过zhongben_id进行找新。
|
|
|
|
|
|
* 限制消费人员
|
|
|
* 通过name进行找新。
|
|
|
## 数据问题
|
|
|
|
|
|
## 清洗程序及部署
|
... | ... | |