在生命科学行业加速数智化转型的当下,医药研究报告、临床实验文档等专业资料的处理效率,正成为制约企业创新与合规的关键瓶颈。北京脉络洞察科技有限公司作为行业领先的数智化合作伙伴,服务涵盖HCP360(脉客全书)、企业级内容知识库管理及AIGC(脉络慧牍)、智能标签平台(脉客慧标)、智能策略中心(脉客慧策)、客户互动工具(脉络洞察ACE)等一系列全渠道数智化精准营销解决方案。
起初,脉络洞察曾在服务医药客户的内容文档处理问题时面临这样的痛点:一份100页的医药研究报告,人工提取关键数据需数小时,且专业术语识别错误率高。
合合信息TextIn文档解析技术的落地,为脉络洞察的数智化进程极大地提速——100页复杂文档的信息提取最快仅需1.5秒,准确率突破98%,为医药行业数智化撕开了一道效率突破口。
01
客户背景
医药行业数智化痛点:百页文档人工处理耗时,专业信息提取易出错
北京脉络洞察科技有限公司作为生命科学行业数智化的重要参与者,已服务了95%的全球Top20制药企业以及全球Top3医疗器械企业。
在脉络洞察的核心产品脉络慧牍——企业级内容知识库管理及AIGC的工作流程中,需要处理大量的医药研究报告、临床实验文档、药品审批资料等内容文件。这些文档格式复杂、语言专业,传统人工处理方式不仅效率低下,而且容易出现信息提取错误,难以满足生命科学行业快速发展的业务需求。例如,在分析医药研究报告时,需要从大量文字中精准提取关键数据和结论,人工操作耗时费力,且可能因人为疏忽而遗漏重要信息。
02
TextIn文档解析助力医药文档数字化
核心技术突破:版面分析+混合检索+垂直语义模型,攻克医药文档处理三大难点
合合信息的TextIn文档解析产品,为脉络洞察带来了在医药类文档处理识别方面的突破性改变。依托 AI 驱动的OCR技术,支持高精度识别PDF、图片等多格式文档,自动提取结构化数据并转化为可编辑的Markdown、JSON 等格式,在处理文档过程中极大提升了文档处理灵活度。
另外文档解析采用版面分析技术,文档检索使用混合多路检索,而文本生成依托于生命科学行业垂直领域的语义模型。尤其是针对研究类文献中的双栏段落、多栏段落、多栏表格的还原能力强,在处理有线表、无线表、密集表时,都能精准识别;单元格合并、跨页表格合并也不在话下,能够做到按照语义顺序、小标题、图片等多要素的还原。

双栏段落解析

多栏表格解析
由此,该项突破性能力显著提升了脉络慧牍在知识库管理、文档内容翻译、提取关键信息等业务场景下的效能,为高效构建企业级知识库及企业内容数智化管理提供了强大支撑。
03
关键价值呈现
效率提升300倍:100页报告1.5秒完成信息提取,十级目录还原专业文档结构
内容知识一键摘要解读,是脉络慧牍AIGC能力的高频使用场景,通过调用TextIn文档解析产品,脉络慧牍的数智化流程能够快速、准确地从各类医药文档中提取关键信息,包括复杂的实验数据、化学公式中的药品成分等。
目前,针对复杂的研究报告文献类文档,脉络慧牍已经可以做到十级目录格式级别的精准文本版面还原。
该API支持超过50种语言的识别,且对复杂版式、专业术语有出色的处理能力,极大提高了信息提取的效率和准确性。例如,处理一份长达数十页的医药研究报告,以往人工处理可能需要数小时;现在使用TextIn API,最快仅需1.5s,脉络慧牍就能完成长达100页的复杂文档的关键信息提取。
这不仅节省了大量人力成本,还使得脉络洞察能够更快地为生命科学企业提供精准的数据洞察,增强其在市场中的竞争力。
04
技术集成与服务落地
亚马逊云科技深度合作:基于亚马逊云科技Bedrock能力,嵌入API,MarketPlace实现一键接入
合合信息TextIn SaaS平台中亚马逊云科技Bedrock等产品已经集成在合合信息各类API产品内,合合信息与亚马逊云科技一起共同服务企业及个人用户。TextIn文档解析已经上架亚马逊云科技平台MarketPlace。用户可通过亚马逊云科技平台MarketPlace,可以快速便捷地获取合合信息的优质服务。

