华为手机详情页代码 :技术应用 | 语料辅助查询与收集(一):自动化翻译数据采集—以八爪鱼为例

太平洋在线下载 126 0

华为手机详情页代码
:技术应用 | 语料辅助查询与收集(一):自动化翻译数据采集—以八爪鱼为例-第1张图片-太平洋在线下载

1、语料辅助查询和收集的概念

译者进行翻译时离不开语料的处理和应用华为手机详情页代码

语料查询:除了词典,语料库(corpus)对于译员也是一大辅助华为手机详情页代码 。通过高效准确地查询语料,译者可以核实查证单词/短语的译法。

语料收集:语料收集(data collection)是2011年公布的语言学名词华为手机详情页代码 。从语言形式上分为书面语料和口语语料,从搜集方式上分为摘引文献、语言调查以及参考辞书等,从搜集手段上分为人工搜集和借助电子技术搜集。

2、进行语料辅助查询和收集的好处

(1) 客观性

进行语料辅助查询和收集可以更好地掌握语言发展规律华为手机详情页代码 。进入计算机时代,人们可以借助语料对语言进行更大规模的抽样,这样计算出的频率准确性会更高。

(2) 科学性

进行语料辅助查询和收集可以使语言更具科学性华为手机详情页代码

语料辅助查询和收集帮助我们快速高效地搜索需要的信息华为手机详情页代码 。面对形形色色的工具,我们不需要贪多,要选择适合自己的工具并熟练运用,形成自己的一套语料处理体系,无论是对日常学习工作,还是对学术研究,都有重要的意义。

1、自动化数据采集简介

依靠大数据技术和信息技术手段对海量数据进行自动化的采集和整理工作,以供后续的分析和使用,可以提高数据采集的效率、精准度、和完整性华为手机详情页代码

(1)用途

在翻译领域,可用于采集术语,采集译者招聘信息,采集文本/平行文本建成语料库等华为手机详情页代码 。在其他领域可以用于如采集购物评价,了解用户需求,预测股票走势,优化网站平台。

展开全文

(2)数据源

开放数据源:政府、高校、企业

爬虫抓取:网页、app

日志采集:前端采集、后端脚本

传感器:图像、测速、热敏

(3)采集方法

1)使用Python编写爬虫代码(对没有编程基础的同学来说较为困难)

使用 Requests 爬取内容华为手机详情页代码

使用 XPath 解析内容华为手机详情页代码

使用 Pandas 保存数据华为手机详情页代码

2)使用常用采集工具,如八爪鱼采集器、火车采集器、神箭手采集器等华为手机详情页代码

2、常用采集工具对比

(1)八爪鱼采集器

价格:中等

功能:功能齐全华为手机详情页代码 ,且其免费版功能齐全

界面:简洁

上手难易:简单

流程是否可视化:是

特点:

①无需编写代码,软件自动采集主要内容,非常简单华为手机详情页代码

②免费数据采集模板华为手机详情页代码

③无需登录即可使用华为手机详情页代码

注意事项:

①循环都是xpath元素定位,很容易在翻页采集时出现错误华为手机详情页代码

②采集数据速度有时较慢华为手机详情页代码

(2)火车采集器

价格:略高

华为手机详情页代码
:技术应用 | 语料辅助查询与收集(一):自动化翻译数据采集—以八爪鱼为例-第2张图片-太平洋在线下载

功能:功能强大且复杂华为手机详情页代码 ,包含数据处理、分析、挖掘等功能,但是免费版功能局限较大

界面:简洁、朴素

上手难易:较难

流程是否可视化:是

特点:

①分布式采集,采集效率高华为手机详情页代码

②功能十分强大,覆盖数据分析处理等功能华为手机详情页代码

注意事项:

①适合有一定编程基础的人使用华为手机详情页代码

②功能多,比较占用内存和CPU华为手机详情页代码

(3)集搜客采集器

价格:相对较低

功能:功能较为齐全

界面:简洁、朴素

上手难易:简单

流程是否可视化:是

特点:

①可以抓取手机网站数据华为手机详情页代码

②有分词情感词标注功能,以及构建词云功能华为手机详情页代码

注意事项:

①没有云采集功能华为手机详情页代码

②免费版中快捷采集导出需要应积分下载数据华为手机详情页代码

(4)后裔采集器

价格:中等

功能:功能强大华为手机详情页代码 ,且其免费版功能齐全

界面:简洁

上手难易:简单

流程是否可视化:是

特点:

①无需编写代码,比较简单华为手机详情页代码

②直接接入代理IP和自动登录验证码识别华为手机详情页代码

注意事项:

①有时无法完全抓取需要展开的内容华为手机详情页代码

②没有云采集功能华为手机详情页代码

3、八爪鱼

(1)工具简介

整合了网页数据采集、移动互联网数据及API接口服务(包括数据爬虫、数据优化、数据挖掘、数据存储、数据备份)等服务为一体的数据采集工具,已连续5年蝉联互联网数据采集软件榜单第一名,截止2021年全球用户已突破300万华为手机详情页代码 。提供解决方案如下图:

华为手机详情页代码
:技术应用 | 语料辅助查询与收集(一):自动化翻译数据采集—以八爪鱼为例-第3张图片-太平洋在线下载

免费版:内容采集规则,包括了电商类、生活服务类、社交媒体类和论坛类的网站都可以采集华为手机详情页代码

付费版:云采集,配置好采集任务,交给八爪鱼的云端进行采集华为手机详情页代码

(2)工具下载

进入官网即可下载使用免费版,无需注册华为手机详情页代码

华为手机详情页代码
:技术应用 | 语料辅助查询与收集(一):自动化翻译数据采集—以八爪鱼为例-第4张图片-太平洋在线下载

华为手机详情页代码
:技术应用 | 语料辅助查询与收集(一):自动化翻译数据采集—以八爪鱼为例-第5张图片-太平洋在线下载

(3)采集分类

1)使用模板采集(主要为跨境电商与新闻华为手机详情页代码 ,暂无与翻译相关度较高的模板)

2)自定义数据采集

表格采集

列表数据采集

列表+详情页采集

翻页采集

(4)实际操作

1)中华文化思想文化术语库:术语列表+详情页采集

文字操作流程:

步骤一、开始采集

在首页【输入框】中输入目标网址,点击【开始采集】华为手机详情页代码

华为手机详情页代码
:技术应用 | 语料辅助查询与收集(一):自动化翻译数据采集—以八爪鱼为例-第6张图片-太平洋在线下载

步骤二、建立【循环-点击元素-提取数据】

1、先建立一个【循环-提取数据】步骤华为手机详情页代码 。可以通过自动识别功能生成字段,如下图:

华为手机详情页代码
:技术应用 | 语料辅助查询与收集(一):自动化翻译数据采集—以八爪鱼为例-第7张图片-太平洋在线下载

也可以手动选择华为手机详情页代码 。选中页面上的列表,选中后会被绿色框框起来,同时出现黄色操作提示框,点击【选中全部】,之后按需要选择相应字段。或者选择所有相关字段后,选择【选中全部】—【采集数据】。

华为手机详情页代码
:技术应用 | 语料辅助查询与收集(一):自动化翻译数据采集—以八爪鱼为例-第8张图片-太平洋在线下载

华为手机详情页代码
:技术应用 | 语料辅助查询与收集(一):自动化翻译数据采集—以八爪鱼为例-第9张图片-太平洋在线下载

2、然后在循环的当前项中找到链接并选中,在弹出的操作提示框中,选择【点击该链接】华为手机详情页代码 。可以看到流程中生成了1个【点击元素】步骤,八爪鱼自动跳转到了详情页,然后提取详情页数据即可。

华为手机详情页代码
:技术应用 | 语料辅助查询与收集(一):自动化翻译数据采集—以八爪鱼为例-第10张图片-太平洋在线下载

华为手机详情页代码
:技术应用 | 语料辅助查询与收集(一):自动化翻译数据采集—以八爪鱼为例-第11张图片-太平洋在线下载

步骤三、编辑字段

八爪鱼自动为我们提取了列表中的所有字段,我们可以对这些字段进行删除、修改字段名称等操作华为手机详情页代码 。在字段名称处双击即可修改字段名;在右侧更多操作里面可以对字段进行删除、复制、格式化等操作。

华为手机详情页代码
:技术应用 | 语料辅助查询与收集(一):自动化翻译数据采集—以八爪鱼为例-第12张图片-太平洋在线下载

步骤四、启动采集

1、修改完字段名后,整个规则编辑完成,点击【保存】,然后【采集】,再点击【启动本地采集】启动后八爪鱼开始全自动采集数据华为手机详情页代码 。(本地采集是使用自己的电脑进行采集,云采集是使用八爪鱼提供的云服务器采集)

华为手机详情页代码
:技术应用 | 语料辅助查询与收集(一):自动化翻译数据采集—以八爪鱼为例-第13张图片-太平洋在线下载

华为手机详情页代码
:技术应用 | 语料辅助查询与收集(一):自动化翻译数据采集—以八爪鱼为例-第14张图片-太平洋在线下载

2、采集完成后,选择合适的导出方式导出数据华为手机详情页代码 。支持导出为Excel、CSV、HTML。这里导 出为Excel。

华为手机详情页代码
:技术应用 | 语料辅助查询与收集(一):自动化翻译数据采集—以八爪鱼为例-第15张图片-太平洋在线下载

视频版:

2) 术语在线:术语表格+翻页采集

文字操作流程

步骤一、开始采集华为手机详情页代码 。在首页【输入框】中输入目标网址,点击【开始采集】。

华为手机详情页代码
:技术应用 | 语料辅助查询与收集(一):自动化翻译数据采集—以八爪鱼为例-第16张图片-太平洋在线下载

步骤二、建立一个【循环-提取数据】步骤华为手机详情页代码

1、可以采用自动识别功能华为手机详情页代码 ,如下:

华为手机详情页代码
:技术应用 | 语料辅助查询与收集(一):自动化翻译数据采集—以八爪鱼为例-第17张图片-太平洋在线下载

会提供多种字段选择华为手机详情页代码 ,如果识别的字段不是我们倾向的,可以切换:

华为手机详情页代码
:技术应用 | 语料辅助查询与收集(一):自动化翻译数据采集—以八爪鱼为例-第18张图片-太平洋在线下载

若手动选择,先选中页面上第一个列表的第一个单元格,再点击提示框右下角的【扩大选区】 按钮,选中至一整行华为手机详情页代码 。( 扩大的作用是,扩大选中的范围。当前选中的是一个单元格,选中的范围就扩大一个层级,即选中了一行)。

华为手机详情页代码
:技术应用 | 语料辅助查询与收集(一):自动化翻译数据采集—以八爪鱼为例-第19张图片-太平洋在线下载

在提示框中,选择【选中子元素】华为手机详情页代码 。这时八爪鱼又自动识别到页面中其他列表具有相同的【子元素】之后在提示框中,选择【选中全部】。

华为手机详情页代码
:技术应用 | 语料辅助查询与收集(一):自动化翻译数据采集—以八爪鱼为例-第20张图片-太平洋在线下载

华为手机详情页代码
:技术应用 | 语料辅助查询与收集(一):自动化翻译数据采集—以八爪鱼为例-第21张图片-太平洋在线下载

步骤三、建立【翻页循环】

在【黄色操作提示框】中点击【设置翻页采集】华为手机详情页代码 。然后占到并点击【下一页】按钮即可完成设置。

华为手机详情页代码
:技术应用 | 语料辅助查询与收集(一):自动化翻译数据采集—以八爪鱼为例-第22张图片-太平洋在线下载

华为手机详情页代码
:技术应用 | 语料辅助查询与收集(一):自动化翻译数据采集—以八爪鱼为例-第23张图片-太平洋在线下载

或者找到并点击页面中的【下一页】按钮,在自动弹出的【黄色操作提示框】中点击【循环点击下一页】华为手机详情页代码

华为手机详情页代码
:技术应用 | 语料辅助查询与收集(一):自动化翻译数据采集—以八爪鱼为例-第24张图片-太平洋在线下载

特别说明:如果出现的不是【循环点击下一页】,而是【循环点击单个XXX】怎么办?【循环点击下一页】的本质是,循环点击页面上用来翻页的按钮华为手机详情页代码 。不同网页上用来点击翻页的按钮,展示方式可能不同。常见的有:【下一页】【>】【后页>】,对应的八爪鱼操作提示框中出现的可能是【循环点击下一页】【循环点击单个链接】【循环点击单个元素】【循环点击单个图片】,本质上都是一样的。

华为手机详情页代码
:技术应用 | 语料辅助查询与收集(一):自动化翻译数据采集—以八爪鱼为例-第25张图片-太平洋在线下载

若使用自动识别功能华为手机详情页代码 ,可以自动进行翻页采集,如下图:

华为手机详情页代码
:技术应用 | 语料辅助查询与收集(一):自动化翻译数据采集—以八爪鱼为例-第26张图片-太平洋在线下载

步骤四、启动采集,同中华思想文化术语库华为手机详情页代码

视频版:

(5)优点

1) 与Python编写爬虫代码相比,操作简单,门槛低,完全可视化,对于翻译专业的学生来说非常友好华为手机详情页代码

2) 不管是文字图片,还是贴吧论坛,支持所有业务渠道的爬虫,满足各种采集需求华为手机详情页代码

3) 支持多格式导出,包括Excel, CSV, HTML,JSON, 同时支持导出到数据库华为手机详情页代码

4) 即使是免费版,功能相比其他采集器功能也强大很多,提供免费识别,无限度采集等华为手机详情页代码

5) 自动识别功能可以帮助简化流程,快速提取数据华为手机详情页代码

(6)缺点

1)自动识别,数据采集会出现速度较慢情况,在中华思想文化术语库的采集中一分钟大约只能采集10条数据华为手机详情页代码

2)在翻页采集过程中可能会遇到一些问题华为手机详情页代码 。比如在配置完采集流程初次进行翻页采集时,得到的采集结果可能存在大量重复,这是因为Xpath定位不好,只是循环提取前两页数据,而不会转到第三页及以后。

3)在需要登录才能采集的页面中,即使切换至浏览器模式,也可能出现无法点击登录的现象华为手机详情页代码

参考资料:《翻译搜索指南》之系列配套视频(Ethan_LSJ):

特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编华为手机详情页代码

特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编华为手机详情页代码

- END -

原创作者:张淑琦 陈歆言 杜菁菁 冯文轶

内容完善及编辑:刘婉怡

华为手机详情页代码
:技术应用 | 语料辅助查询与收集(一):自动化翻译数据采集—以八爪鱼为例-第27张图片-太平洋在线下载

审核:曹达钦 肖志清 李林 祝蕙兰

华为手机详情页代码
:技术应用 | 语料辅助查询与收集(一):自动化翻译数据采集—以八爪鱼为例-第28张图片-太平洋在线下载

华为手机详情页代码
:技术应用 | 语料辅助查询与收集(一):自动化翻译数据采集—以八爪鱼为例-第29张图片-太平洋在线下载

标签: 语料 数据采集 技术应用 辅助 自动化

抱歉,评论功能暂时关闭!